百度智能算法在场地质量评价体系中的应用
- 分类:SEO教学 发布时间: 2018-07-24 10:56:40
需很长时间,对于搜索引擎优化器,我们每天都在讨论网站质量评估对搜索引擎自然排名的积极影响。但是很长一段时间我们没有得到有效的答案,以下内容是整理百度的早期研究文章,与所有人共享以交流和学习:
互联网的飞速发展,大量的Web数据即将到来,给搜索引擎技术带来严峻的挑战,但这也带来了新的机会。从网络抓取的角度来看,同一网站通常包含质量相似的资源,搜寻高质量的网站,通常可以找到更多优质的资源。因此,我们要对网站的质量进行评分,为了反映资源的质量水平,从而影响蜘蛛的调度和包容性。在过去的实践中,总体思路是根据人工调查的经验来构造规则和阈值。发现问题后, 修补并逐步调整阈值,适应变化。这种方法的最大问题是它不具有可伸缩性且维护成本昂贵。而且它不利于国际多语言支持。因此,我们想采用一种更明智的方法,自动发现网站数据中的规则,完成质量评级。
图1:站点质量智能评级系统
在任务级别,首先,我们首先将站点分为高质量站点和低质量站点。区分高质量站点和低质量站点就是挖出一批高质量站点。将其作为我们系统的基本设置,降低反垃圾邮件和反欺诈的成本,提高系统搜索结果的稳定性和权威性,减少使用者的不良反应; 同时使整个互联网生态正常,鼓励为Internet创建有价值的资源。我们的目标是使优质资源成为整个系统的绝对优势,劣质资源被排除,仅当系统策略不完善时作为必要的补充。其次,在高质量站点和低质量站点中,我们分为几个级别。使用这些级别来区分网站质量方面的差距,这将影响百度蜘蛛的计划和包含控制,这也将影响低质量网页的筛选。
在战略层面,我们使用了一系列机器学习方法,从手动标记的样本中学习,造型,并将学到的知识应用于未知的网站数据,完成质量评定任务。
以下以高质量/劣质站点的二分问题为例。介绍智能算法在站点质量评估系统中的应用。在高质量/劣质网站的二分法问题中,我们采用了支持向量机(SVM)模型。SVM是基于判别的机器学习模型。它的原理非常简单:对于二进制分类问题,例如高质量网站和劣质网站,SVM的目标是在多维空间中找到超平面,为了使不同类别的实例尽可能地被此超平面正确分隔,从超平面到其两侧最近的实例(称为边缘)的距离尽可能大(图2)。
支持向量机的目标函数可以转化为凸二次优化问题,用数值优化方法求解。
SVM的优点包括:
(1)与其他机器学习方法相比,优良的分类性能;
(2)模型的复杂度对尺寸的大小不敏感。这使得它在高质量/劣质站点的二分法中可以取得良好的结果。
图2:支持向量机SVM
在使用SVM进行站点质量智能评级的过程中,有两个地方需要特别注意:一个是特征的预处理。在连续的数值特征中,某些功能的值差异太大,高质量站点和低质量站点的价值可能相差数百万或数千万。对于这些功能,我们使用对数法使数值变化更加平滑,方便机器学习。
对于离散功能,根据其值的数量,将其拆分为多个变量,例如, x = 1.2.3.我们分为(0,0,1),(0,1.0)和(1.0,0)。另一个是功能选择。在网站特征中并非所有都有用有些无关紧要,有些甚至有负面影响,应该删除。在实践中, 我们使用了多种统计方法(信息获取, 检查)和分类准确率的提高(降低)。从中提取了一些有用的功能,将高质量网站识别的准确性和召回率提高到95%以上,效果显着。
以上是高质量/劣质站点双重任务的示例-智能算法在站点质量评级系统中的应用简介。理论上的机器学习模型SVM与站点质量评级的实际应用完美结合,显着提高系统性能。这给了我们一些启发:当我们面对复杂的问题时,与其沉迷于混乱数据中的模式,最好先检查是否存在解决类似问题的理论模型。将理论知识与实际问题结合起来,经常会产生意想不到的结果。