2024年11月28日,DataCon2024大数据安全分析竞赛落下帷幕。来自武汉大学的“N0tfound”战队荣获网络黑产分析赛道冠军,来自复旦大学的“红龙”战队荣获网络黑产分析赛道亚军,两支战队在本赛道均有优秀的表现,本期一起看看他们的解题报告。
作者:“N0tfound”战队
题目背景:在本挑战中,参赛者将在真实的百度搜索引擎中一展身手,运用SEO技巧和创意,将网页推向搜索结果的顶峰。我们鼓励参赛者探索和应用合法、有效的SEO策略,以提高网页在搜索结果中的排名。
解题过程:为提升网站在搜索引擎中的收录效率与排名,同时提高其安全性和稳定性,我们在网站建设、SEO优化及安全防护方面采取了一系列措施。以下是具体步骤与实施效果的详细分析:
一、使用高质量英文SEO模板并进行关键词适配
为了满足搜索引擎对于高质量页面的收录需求,我们选用了具有良好交互性、页面适配性和页面布局的英文SEO模板。该模板不仅页面设计精美,内容丰富,而且能够有效提升用户体验。基于此,我们进一步根据目标关键词对模板进行了适配改进,并完成了翻译工作,确保内容与关键词精准匹配。这一措施有助于提高页面与搜索引擎算法的相关性,从而更容易被收录。
二、通过百度站长平台提交链接以加速收录
百度作为主要平台。为加速网站的收录,我们第一时间将网站链接提交至百度站长平台。所有页面链接被分别归类并放入普通收录部分进行提交。此举显著缩短了搜索引擎爬虫发现和抓取网站内容的时间,从而提升了网站曝光率。
三、关键词关联性优化与企业定位明确
在已有的文章中,搜索引擎可能将“哋它亢”这一关键词认定为一种新兴技术,并将其与最初的官方网站及“datacon”相关联。由于“datacon”与数据安全领域密切相关,我们决定将“哋它亢”与安全领域的专业名词进行结合,形成技术研究和产业化的方向定位,打造一家专注于哋它亢技术研究的安全企业。这一举措不仅提高了关键词的行业相关性,也为后续的品牌推广奠定了坚实基础。
四、通过页脚优化增强网站权威性
在网站页脚部分,我们添加了一些高质量、高流量的技术博客和网站链接。由于这些链接与技术领域高度相关,并且大部分已被百度收录,它们有助于让百度的爬虫认为我们的网站也属于高质量技术类网站。此优化策略旨在提升网站的权威性与信任度,进一步促进搜索引擎对网站的认可和排名提升。
五、友链交换效果不理想的问题
我们尝试开设多个相关网站并进行双向友情链接交换,以期通过这种方式刷取流量。然而,实践中发现该方法对流量提升效果有限。原因可能包括以下几点:
1.友链网站质量不够高,无法带来有效流量。
2.友链交换频次过于集中,可能触发了搜索引擎的反作弊机制。
3.缺乏对友链优化策略的系统性设计。
未来,我们需要进一步研究友链策略,同时加强对友链网站的筛选,以确保其质量和相关性。
六、提前完成域名备案与网安备案
我们提前完成了域名备案和公安机关的网安备案。这一举措不仅符合国内法律法规要求,同时也增加了网站被百度收录的可能性。域名备案和网安备案表明网站运营合法合规,为搜索引擎的信任加分。
七、安全问题与应急措施
在首次被百度收录后,由于未配置防火墙和CDN(内容分发网络),服务器主站遭受了DDoS攻击。该攻击导致服务器短时间内无法正常访问,从而影响了网站排名。事发后,我们迅速采取了以下措施:
1.配置CDN和防火墙,有效抵御类似攻击。
2.将网站内容备份至另一台服务器,确保在主服务器IP暴露并被攻击时仍能正常访问。
3.对服务器和网站进行安全加固,定期更新防护策略,以避免再次受到攻击。
这一系列措施显著提升了网站的安全性和稳定性,保障了后续运营的顺畅进行。
八、优化加载速度以提升爬取效率
通过百度的反馈信息发现,搜索引擎蜘蛛平均需要 2秒 时间爬取页面内容,而网站的加载速度对排名有直接影响。为此,我们在结算前临时提升了服务器带宽,从而显著提高了网站的加载速度。快速加载不仅能让搜索引擎蜘蛛更高效地抓取内容,还能改善用户体验,从而为网站带来更高的访问量和更好的排名表现。
实施效果:
加载速度优化后,页面的响应时间明显缩短,用户留存率有所提高,百度的抓取频率与深度也随之增加。这表明带宽优化对提升网站性能具有直接效果。
九、提高网站内容质量
一个高质量网站的核心在于其内容的丰富性与专业性。为了增强网站的内容质量,我们从各大技术博客中摘录了相关专业术语的定义及相关文字,用于完善网站内容。
在内容整理过程中,我们注重以下几点:
1.对内容进行归纳总结,避免直接复制,提高原创性。
2.优化语言表达,使其更符合目标受众的阅读习惯。
3.根据关键词优化内容结构,提升搜索引擎的友好度。
实施效果:
内容丰富度的提升有效增强了网站的权威性与用户粘性。同时,这些专业术语与行业热点的引入为用户提供了更多价值,使网站在目标行业内更具竞争力。
十、利用CSDN平台引流
考虑到CSDN平台的高权重和易被百度收录的特点,我们制定了以CSDN为引流工具的策略。在CSDN上撰写高质量的技术文章,同时在文章中合理引入指向我们网站的链接,以实现流量导入。具体操作包括:
1.针对热门技术话题撰写原创文章,吸引专业用户。
2.在文章中插入我们网站的链接,适当引导读者点击。
3.确保文章内容与我们网站内容高度相关,以提高流量转化率。
实施效果:
通过在CSDN发布文章,我们不仅成功吸引了一部分技术用户访问网站,还进一步提升了品牌曝光度。我们拓展在CSDN上的影响力,通过多篇文章形成内容矩阵,逐步建立技术权威形象。
十一、经验与总结
本阶段的SEO优化和内容质量提升工作在多个方面取得了显著成效。通过加载速度优化、内容丰富化及第三方平台引流等策略,我们的网站逐步展现出更高的专业度与用户吸引力。
通过这次比赛,我们学习到要:
1.深化对网站内容的原创性优化,避免过多依赖摘录内容。
2.探索更多高权重平台的合作机会,扩大引流渠道。
3.针对百度搜索算法的动态变化,及时调整优化策略,确保排名持续提升。
4.定期监测网站性能与内容质量,保持长期竞争力。
作者:“红龙”战队
一、题目描述
背景:医疗资源的稀缺性吸引了大量的黄牛,其利用各种手段抢占医院的挂号资源,然后高价倒卖牟取暴利,为社会带来了极为恶劣的影响。
任务:本赛题中提供了某大型医院一个月内的“成功挂号日志”(约34万条,每个条目包括患者ID,挂号状态,科室,APPID等丰富信息),要求综合考虑该医院的挂号规则和挂号数据,帮助该医院实现基于挂号日志的异常黄牛行为检测,希望在保证正确率的同时检查出尽可能多的黄牛操作。
二、黑产调研
为了更加有针对性地进行分析,首先对医疗黄牛的黑产模式进行了调研,发现目前已知的黄牛操作模式主要有这样4种。
1.大量抢号后退号倒卖
医疗黄牛通常会在医院挂号系统开放时,快速抢占大量号源。一旦成功挂号,他们就会通过相应渠道找到需要对应号源的用户,并将这些号源以高于正常价格的方式转售。
2.技术手段抢占线上号源
黄牛们常通过编写程序或使用网络爬虫技术,监控医院的预约系统,迅速获取号源信息。他们会利用高频率的请求和快速的网络连接,迅速抢占有限的线上号源,普通用户则很难在短时间内抢到号。
3.同一时间多账号操作
为了提高抢号成功率,黄牛通常会注册多个账户来进行挂号操作。通过不同的身份信息和联系方式,在同一时间内快速抢占多个号源,甚至在不同的医院同时进行抢号。这种方式使得黄牛能够控制更多的号源,并进一步加大倒卖的利润空间。
4.直接通过内部关系获得号源
一些黄牛可能通过与医院内部人员建立关系,直接获取号源。这些内部人员可能在知情的情况下,私下放出号源或提供优先挂号的机会,以此交换利益。
三、解题思路
根据调研结果,认为黄牛的操作行为特征存在着相当的共同点,故设计了以下基于规则、基于聚类和基于学习的三种方法并一一作了尝试。
3.1 基于规则的筛选
依照调研结果和日常经验,认为黄牛有一些显著异于正常的行为模式,这些模式可以设计一定的规则筛选出。但针对具体的情况结合医院系统本身的过滤功能,这些规则是否有效还需要进一步的统计分析,所以在基于规则的筛选中主要按照以下步骤进行:
① 根据经验列出多条规则(如下)
图1:经验规则
② 数据统计以验证规则的有效性
对于”同一X存在Y个不同Z”这条规则,做出满足规则的条目数随Y增长的趋势图如下
这里主要考察趋势图的尾部厚度,因为总的日志条目有34万条,但用户只有28万,说明大部分用户都只进行了一次挂号。也正如图所示,正常用户基本集中在limit较小的位置,而越靠尾部就说明偏离“正常”越多,这一类就需要重点考察。
但是,趋势图的尾部也有厚薄之分(如上两图),薄尾对应着人数随着阈值的快速下降,更加说明了尾部群体的异常性,有着很大的黄牛可能;但厚尾则表示趋势图下降行对较为缓慢,尾部人群较多,则更有可能是规则中错判的正常模式。
③ 利用选出的有效规则以及对应阈值得到答案
-
最终筛选出如下几条规则:
-
用户相同,在超过5个科室挂号
-
用户相同,使用超过3个APPID挂号
-
操作数小于40次的地区
-
在每天5:00:00-5:00:05(放号前5秒)内完成的操作
最终在测评服务器上取得78.47的得分
结合之前的调研结果,我们得出了:这里黄牛主要采用“大量抢号然后卖退号给其它用户”以及“同时使用多个APPID抢号”两种行为模式的结论。
3.2 基于聚类的筛选
这里我们假设黄牛的特征存在相当的规律性,即黄牛在操作过程中的行为模式、使用的技术手段以及与其他相关因素之间可能存在某种内在的联系,所以在特征空间中会呈现簇聚式分布。这意味着,如果能够提取出每个条目的聚类特征,就可以通过将向量空间中的数据划分成多个聚类,识别出一类作为黄牛类。
为此,我们首先对数据进行了特征提取,试图从黄牛的操作日志中识别出能够反映其行为模式的特征。这些特征包括挂号状态、APPID使用数量、IP地址分布等。通过对这些特征进行分析,我们构建了一个高维特征空间,以便后续的聚类分析。
这里我们使用了Kmeans方法,并尝试了不同的聚类数目以寻找最佳的聚类效果。根据经验法则,聚类数目并不应过多,以避免过拟合,同时又要保证一定数量,以便能够捕获数据中的潜在模式。最终得到以下结果(2-5聚类)。
然而,从上图结果中我们可以看到,各个聚类包含的日志条目都相对均衡,利用规则筛选出的黄牛条目验证后也证明了,黄牛数据并没有集中分布在某个类中。并不像期待的能够看到一个或多个特定的聚类,其中黄牛相关的日志条目占据主导地位。
经过深入分析,认为导致这一现象的主要原因可能是黄牛的操作行为多样性,涉及到不同的技术手段和策略,这种多样性使得其特征在特征空间中难以形成明显的聚类。除此之外,不同特征间的相互作用使得单一特征的聚类效果不再明显。例如,虽然某些黄牛可能在进行了大量挂号退号,但其却针对少量热门科室,只是用一个APPID,这些特征与其他用户相似,导致聚类效果的稀疏。
基于上述原因,我们最终决定放弃聚类这一方法。虽然聚类分析在某些场景下能够有效识别出行为模式,但在直接应用于此类复杂情形时时,其效果并不理想。我们意识到,单纯依赖聚类来识别黄牛类还远远不够,需要考虑使用其他方法进行更深入的分析。
3.3基于学习的筛选
在面对医疗黄牛现象的研究时,我们意识到仅靠传统的规则或聚类方法可能难以全面捕捉复杂的行为模式。因此,我们决定探索基于学习的方法,并具体尝试了使用一篇论文中提出的LogBERT和手动编写设计的RDBERT两种日志异常检测模型。
LogBERT
在收集资料的过程中我们发现了一篇与赛题任务相似的论文,名为LogBERT:Log Anomaly Detection via BERT。
这篇论文介绍了如何利用BERT模型进行系统日志中的异常检测,我们首先尝试对LogBERT进行改造,使其能够适用于我们的具体需求。
表1:LogBERT与黄牛检测对应关系
然而,在实际应用中,我们很遗憾地发现,LogBERT在日志条目的特征提取方面并不充分,导致其在我们的数据集上表现不佳。但我们并没有因此而放弃基于学习的方法,相反,我们在反思了LogBERT在赛题任务中的不足之处手动设计了另一个异常序列检测模型,命名为RDBERT。
RDBERT与LogBERT类似,都是基于BERT的架构,但我们在一些方面进行了改进,主要包括:
①提取更加丰富的特征:我们在构建特征集时,综合考虑了多个维度的信息,包括时间戳、操作类型、用户身份等。这种多维度的特征提取使得模型能够更准确地捕捉到日志中的重要信息,从而提高了识别效果。
②使用Embedding层让模型学习特征规律:Embedding层的引入使得模型能够从数据中自动学习特征之间的关系,认为这会使RDBERT在面对新数据时表现得更加灵活和适应。
③减小了模型复杂度,缩短了训练-验证时间:在设计RDBERT时,我们特别关注模型的复杂度,确保它在保持高性能的同时,能够有效缩短训练和验证的时间,使得我们能够更高效地进行实验和迭代
这些改进最终使得我们的模型在测试集上(即通过规则筛选出的数据)获得了超过90%的正确率,远超LogBERT的表现。
尽管RDBERT在测试集上表现优异,但在后续的服务器测试中,我们仍然未能达到预期的效果。经过深入分析,我们认为造成这一结果的原因主要有以下几点:
① 数据集精度不够:在构建数据集时,存在标注不准确或样本不均衡(黄牛数据相比正常用户少得多)的问题,这直接影响了模型的训练效果。
② 特征提取仍然存在信息损失:在构建输入特征时,我们仅考虑了日志条目的部分字段,导致信息的丢失。这使得模型在处理复杂场景时,可能无法获取到足够的信息。
③ 输入的处理方式带有很强的规则预设性:我们当前的输入处理方式在某种程度上依赖于预设规则,这限制了模型的灵活性和适应性。需要探索更为灵活的输入处理方式,才能提高模型在未知数据上的表现。
尽管RDBERT在服务器测试中的效果未能达到预期,但我们相信它仍然具有广泛的应用潜力。我们的模型不仅可以用于当前的任务,还可能在其他应用场景中发挥重要作用。例如,RDBERT可以用于有监督的序列检测,帮助识别序列中潜在的异常。通过对序列数据的深入分析,我们能够发现更加细致的异常模式,从而为系统的安全性和稳定性提供保障;此外,RDBERT还可以用于更细粒度的序列内部异常分析。通过对日志数据的深入挖掘,我们可以识别出特定操作或行为模式下的异常情况。这一分析不仅有助于理解系统的运行状态,还能够为后续的优化提供数据支持。
3.4 分析总结
最后,我们小组对尝试的三种方法——规则法、聚类法和基于学习的方法,进行了相对优劣的评估。
① 规则法,最大优势在于其高可解释性和稳定性。通过制定具体的规则,我们能够清晰地理解每一条规则背后的逻辑,这使得结果更容易被验证和解释;然而,当样本构成复杂时,规则法的局限性也显现出来。这种情况下,需要设计大量的规则条目,导致规则的维护和更新变得繁琐,且容易遗漏某些潜在的异常情况。
② 聚类法,它的好处在于能够进行无监督分类。通过聚类分析,我们可以在没有预先设定标签的情况下,从数据中发现潜在的模式和结构,这为我们提供了更广泛的视角;然而,聚类法对特征质量较为敏感性。其效果的好坏往往取决于输入特征的选择和质量。如果特征没有足够的代表性,聚类结果将难以解释,甚至可能导致误判。
③ 学习法,能够发现新的数据规律,尤其是在处理复杂数据时表现出色。然而,这一方法的有效性高度依赖于训练数据的质量和数量。如果训练数据存在偏差或者样本不均衡,模型的性能将受到严重影响。此外,学习法的黑箱特性使得结果的可解释性相对较差,这在某些应用场景中可能会造成困扰。
综上所述,我们在解答赛题的尝试中,尽管遇到了一些挑战,但这也为我们后续的研究提供了宝贵的经验。通过不断探索和优化方法,我们希望在医疗黄牛现象的识别与防范上取得更为有效的成果。未来,我们也将结合新的数据和技术手段,继续改进我们的模型,力争在复杂的现实问题中取得突破。
-点击查看更多赛道解题报告-
感谢合作伙伴的助力 让我们走得更高更远
原文始发于微信公众号(DataCon大数据安全分析竞赛):DataCon2024解题报告WriteUp—网络黑产分析赛道
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论