您的浏览器版本过低,为保证更佳的浏览体验,请点击更新高版本浏览器

以后再说X

浅谈网页反作弊技术思路、方法以及处理方式(新潮科技推荐)

发布时间 - 2020-02-21 17:26:58

一,网页反作弊的背景

出于商业利益的考虑,许多网站管理员对搜索引擎排名进行了分析,并采取了一些措施来提高排名。 

此行为是可以理解的,许多优化行为都符合搜索引擎排名规则,但同时也存在许多恶意的优化行为。 

因此,网页上的反作弊也是所有商业搜索引擎都需要解决的重要困难。 

 Kuxue Technology vx:seokuaipai Kong Yu今天谈论了一些常见的互联网网页作弊方法, -作弊的总体思路,以及淘宝搜索的反作弊机制与传统的网页反作弊机制之间的异同。 

 Web反作弊

作弊类型内容作弊: 

从大分类来看,主要作弊方法包括:近年来出现的内容作弊,链接作弊,隐藏作弊和web2.0作弊方法。 

作者认为,内容作弊与当前业务密切相关,因此本文将重点介绍这种类型和相关的反作弊思想。 

内容作弊的目的是谨慎地更改或调整网页的内容,以便该网页在搜索引擎排名中可以获得与其网页不成比例的高排名。常见的作弊方法包括:关键字重复,不相关的查询作弊,图像替代标签文本作弊,网页标题作弊,网页重要标签作弊和Web元信息作弊。 

通过这些常见的作弊方法,作弊者的作弊意图仅是以下内容: 

 1。增加目标作弊词的频率以影响排名;  

 2。增加与主题无关的内容或热门查询以吸引访问量;  

 3。在关键位置插入目标作弊词以影响排名。 

 2011年2月,Google宣布对低质量Web内容的排名算法进行了高调的调整。据报道,该算法影响大约11.8页面排名。这项调整措施是2006年5月由Demand Media专门制定的,拥有500名员工。 

,它的业务很复杂,包括域名注册,内容广告交易等。 

它的主要业务之一是拥有65个社交媒体网站。 

该网站以内容农场秘籍为代表。 

内容农场运营商廉价地雇用了大量自由职业者来支持付费写作,但内容通常质量较低,很多文章都被复制和粘贴。 

但是重要的是,他们将研究搜索引擎中流行的搜索词,并将这些词有机地添加到写作内容中。 

这样,普通的搜索引擎用户将在搜索时被吸引到内容农场网站,并吸引大量低质量的内容来吸引流量,并且内容农场可以赚取广告费用。

。## #与传统的作弊方法相比,内容农场不使用机械方法(如内容的机器拼接),而是雇用员工来编写内容。这种作弊方法通常使搜索引擎难以明确定义是否作弊,但会严重影响搜索结果的质量。 

所以这很困难

错误的技巧。 

反作弊技术\\ r#n第三,网络反作弊技术的总体思路: 

目前,搜索引擎作弊的方法是多样而无止境。作为响应方的搜索引擎,技术思想会相应地进行调整,因此,如果您整理出反作弊的思想,就会发现有很多技术方法,并且很难对这些思想进行整理。 

但是,如果您分析了大多数反作弊的想法,您会发现仍然有一些规则可以遵循。 

从基本思想的角度来看,反作弊方法可大致分为以下三种类型:信任传播模型,不信任传播模型和异常发现模型。 

 1。信任传播模型:在大量网页数据中,通过某些技术手段或人为的半人工手段,过滤掉一些完全值得信任的页面可以理解为我们通常所说的白名单。该算法使用这些白名单

 Page作为起点,为白名单中的页面节点赋予更高的信任度,并且是否应该根据其他页面与白名单中节点的链接关系来确定其他页面是否作弊。 

白名单中的节点通过链接关系将信任分数向外扩展。如果节点获得的信任分数高于某个值,则认为没有问题。如果低于该值,则将其判断为作弊。 

。 

 2。不信任传播模型:就大型技术框架而言,它与信任传播模型非常相似。 

更大的区别是初始页面本身不是受信任的页面节点,而是确认作弊的页面集合,这就是我们所说的黑名单。 

黑名单中的页面节点获得了不信任得分,并且这种不信任关系通过链接传播。如果最后一页节点的不信任分数大于设置值,则判定为作弊。 

 3。异常发现模型:简单,例如分析网页内容以查找单词频率和链接异常,更复杂的模型例如分析网站用户的异常行为。 

异常发现模型通常与信任传播模型和不信任传播模型结合使用。 

实际上,目前仅靠技术手段无法完全解决欺诈问题,因此现在用户通常在浏览搜索时报告欺诈网页结果,甚至在线浏览。搜索引擎公司将有一个专门的团队来审查并主动发现

可疑页面,已验证的网页可以放在黑名单或白名单中。 

总而言之,必须将人工手段与技术手段相结合才能获得更好的反作弊效果。 

第四,通用链接反作弊方法: ## #Link反作弊方法 

1。TrustRank算法属于信任传播模型 

 2。 BadRank算法属于不信任传播模型,据传是Google使用的反链接作弊算法。 

注意:不要链接到作弊页面 

 3.SpamRank属于异常发现模型 

 SpamRank的基本假设是: 

 3.1对于正常页面

,其支持者页面的PangRank值应符合Power-Law分布,即PR值较大或较小。 

 3.2。作弊网页有所不同,通常具有以下3个特征: 

Ⅰ。支持者页面数巨大 

Ⅱ。支持者页面的PangRank得分较低 

Ⅲ。支持者页面的PangRank值都在一个小的浮动范围内 

专用链接防作弊技术

#五,专用链接防作弊技术:

# ## 1。标识链接的服务器场: 

 2。网页上出站链接的统计分布规则。作弊网页的出站链接不符合Power-Law分布。 

Ⅱ。网页入站链接,作弊网页入站链接的统计分布规则不符合Power-Law分布 

Ⅲ。 URL名称,备忘页面长URL的统计特征,包括更多的虚线和数字等。 

Ⅳ。尽管许多备忘页面的URL地址都不同,但它们对应于相同的IP地址 

Ⅴ。网页的特征会随着时间的变化而变化,例如入站和出站链的增长率等。 

Ⅵ。链接服务器场的结构特点是,服务器场上的网页之间的链接非常紧密 

 2。识别Google轰炸: 

确定锚文本是否与指向的页面具有语义关系 

识别内容作弊 

六,识别内容作弊: 

 1。出现重复的关键字来确定同一关键字是否在文本中一定大小的窗口中连续出现 

 2。标题关键字作弊 

 3。正常页面中句子长度的统计信息,停用词的分布,词性的分布等 

反隐藏作弊 ## #防隐藏作弊: 

常见的隐藏和作弊方法包括页面隐藏和页面重定向。 

 1。识别页面隐藏 

网页被抓取了两次,次是由普通的搜索引擎爬虫进行爬网,第二次是通过人为访问网页进行模拟。 

此方法非常昂贵。 

 2。识别网页重定向 

 Strider系统提供了一种基于页面重定向来识别哪些作弊页面的解决方案。 

八:石榴算法简介: 

 2013年5月17日下午,百度网络搜索反作弊团队在百度网站管理员平台上宣布,新算法石榴算法,将在一周后正式推出。 

新算法将着重于纠正包含大量不良广告的网页,这些不良广告会阻止用户正常浏览。 

百度表示此举是为了尊重搜索用户并净化互联网生态系统 

石榴算法简介 

发布时间:2013年5月17日 

目标:针对大量不良广告页面和低质量的内容页面,这些页面会阻止用户正常浏览。 

石榴算法特别针对弹出许多低质量的弹出窗口

表示混淆了页面主要内容的广告,垃圾广告页面。 

与先前的百度Luluo算法相对应,这是百度搜索引擎改善用户体验和提高搜索质量的有力手段。 

 2013年5月17日下午,百度网络搜索反作弊团队在百度网站管理员平台上宣布,新算法石榴算法将在一周后正式发布。 

新算法将着重于纠正包含大量不良广告的网页,这些不良广告会阻止用户正常浏览。 

百度表示,此举是为了尊重搜索用户并净化互联网生态系统

。#建议修改建议:是否有弹出式广告? 

并显示在主要内容位置? 

快速取款,获得短期利益,长期不讨人喜欢,就像忘记偿还贷款一样,感觉自己已经做到了,但否则,您的信誉在心中逐渐减弱其他...这种

页面评级也已降级


在线客服
联系方式

热线电话

0312-2110833

上班时间

周一到周五

公司电话

0312-2110833

二维码
线