资金 安全

汇众娱乐-首页

作者:admin 发布于:2019-04-03 08:46 文字:【 】【 】【
摘要:汇众娱乐-首页招商主管(QQ:85280) 英爵娱乐注册 机器学习与基于算法的智能系统虽然拥有令人印象深刻的表现,但同时也缺少人类天然存在的一种能力:常识。 众所周知,在多个页

  汇众娱乐-首页招商主管(QQ:85280)英爵娱乐注册

汇众娱乐-首页

汇众娱乐-首页

  机器学习与基于算法的智能系统虽然拥有令人印象深刻的表现,但同时也缺少人类天然存在的一种能力:常识。

  众所周知,在多个页面上放置相同的内容会产生重复内容。但是,如果我们打算在多个页面内生成关于相似事物的内容,又会发生怎样的情况?算法会将其标记为“重复”,但人类则能够轻松区分这些页面:

  -由于谷歌只会选择其中一个网页作为规范化,因此无法对群组中的网页进行排名。

  谷歌公司利用多种算法确定两个页面或者页面中的多个部分是否存在内容重复,谷歌将根据相关结果将内容判定为“明显相似”。

  谷歌公司的相似性检测基于其专利Simhash算法。这种算法能够分析网页当中的内容块,而后将每个内容块计算为唯一标识符,最终为各个页面生成一个散列,或者称为“指纹”。

  由于网页数量巨大,因此可扩展性至关重要。目前,Simhash是唯一可行的大规模重复内容查找方法。

  -能够找到具有高重复可能性的内容。与其它多种算法不同,Simhash能够将页面上的微小变化体现为散列中的微小变化。

  最后一点意味着任何两个指纹之间的差异都可以通过算法进行衡量,并表示为百分比形式。为了降低每个页面的评估成本,谷歌公司采用了以下技术:

  -聚类:将多组具有一定相似度的页面分于同一群组。由于其它所有不同分类的指纹都已经被排除,因此只需要比较该群组内的指纹,即可得出相对正确的结论。

  -评估:对于规模极为庞大的聚类,在计算一定数量的指纹之后利用平均相似性进行判断。

  最后,谷歌方面利用加权相似率排除具有相同内容的特定内容块(样板:标题、导航、侧边栏、页脚;免责声明等)。其会考虑到页面主题,并利用n-gram分析来确定页面上出现频率最高的词语,同时结合站点上下文判断这些词语的重要性。

  我们将利用Simhash查看被标记为相似的内容聚类图。此图表来自OnCrawl,其中涵盖了对重复内容聚类中重复内容策略的分析过程。

  OnCrawl的内容分析还包括相似率、内容聚类以及n-gram分析。OnCrawl也在开发一款实验性热图,希望直接覆盖在网页之上表示各个内容块的相似性。

  按内容相似性进行网站绘图。其中每个块代表具有类似内容的聚类,不同颜色则表示每个聚类间规范化化策略的一致性。资源来源:OnCrawl。

  利用规范化URL指示一组相似页面当中的主页面,使得我们能够主动对大量页面进行聚类。在理想情况下,以规范化为基础建立的聚类应该与由Simhash建立的聚类完全相同。

  规范化聚类与相似性聚类(绿色部分)间的匹配结果。结论:有6页内容为100%相似,这意味着您的规范化策略与谷歌的Simhash分析以同样的方式对其进行处理。

  无规范化声明:各个包含成百上千个页面的聚类之间,拥有着99%到100%的平均相似度。谷歌公司可能会采用规范URL。您无法控制哪些页面参与排名,哪些不参与。

  规范化问题:相似性超过80%且各聚类拥有多个标准URL的大型聚类。谷歌公司会强制使用自己的标准URL,或者将您希望保留的重复页面索引排除在搜索索引之外。

  您网站的聚类与以上聚类不同。您已经遵循了重复内容的最佳处理实践,包含相同内容的URL(例如可打印/移动版本或CMS生成的备用网址)会声明正确的规范URL。

  过滤掉由规范化策略正确处理的重复内容。其余的非规范化URL即为您希望进行排名的页面。

  以原有映射图为基础,移除已验证(绿色)聚类以及相似性低于80%的聚类。其余46个聚类中,大部分只包含2个页面。

  仍然出现在基于Simhash与语义分析聚类中的URL,即为您与谷歌认为存在重复问题的页面。

相关推荐
地址:重庆市英爵娱乐资讯有线公司
电话:023-67851717
联系:招商主管
主管:559500
邮箱:53535595@qq.com
网址:http://www.ypchb.com
Copyright © 2012-2019 首页-[英爵娱乐]-首页 版权所有 txt地图 HTML地图 XML地图
背景
客服QQ