杭州SEO专用徐少辉要说的是:网页查重算法,也就(jiù)是(shì)搜索引(yǐn)擎是怎(zěn)么检查两个网页的相似(sì)性的?这应该是大家应该比(bǐ)较(jiào)关心的问(wèn)题吧,因为(wéi)这有(yǒu)助于让你的“伪原(yuán)创(chuàng)”更像一个“原创(chuàng)”
首先(xiān)我(wǒ)跟大(dà)家讲(jiǎng)有名的I—MATCH算法。
我们在比较两件事(shì)物的相似性时,往(wǎng)往都会拿(ná)能均衡(héng)的(de)反(fǎn)应这事物本质(zhì)的东西来比较,就像(xiàng)比赛时,要去除一个最高分(fèn)和(hé)最低分,然后再变算总分一样~~
I—MATCH算法基于的(de)依据(jù)是,在(zài)文挡(dǎng)中,特(tè)别高频的词和特(tè)别低频(pín)的词无(wú)法反(fǎn)应这一个文挡的真实内容,所以在比(bǐ)较之前(qián),先(xiān)将文挡中高频词(cí)和低频词去掉(注意:这里的高频和低频指的是(shì)文(wén)档频率,并非(fēi)关键词在(zài)你网页中的密度!)
我们来看一(yī)个(gè)例子:
这里(lǐ)有两(liǎng)段网页文字:
1.中国足(zú)球队(duì)在米卢的率(lǜ)领(lǐng)下(xià)首次获得世界(jiè)杯决(jué)赛阶段的比赛资格,新浪体育播(bō)报 。
2.米卢(lú)率领中国足球队员首次杀入世(shì)界杯(bēi)决赛阶段,搜狐体育播(bō)报。(嘿嘿(hēi),看到这两(liǎng)句很熟吧?)
文档(一)中(zhōng)去(qù)掉高(gāo)频:中国,在,的,获得(dé),比(bǐ)赛,资格,新浪(làng),体育,播报
去掉低频(pín):米卢
则剩下(xià)中(zhōng)频(pín)词有:足球队,率领,首次,世界杯(bēi),决赛,阶(jiē)段
文档(dàng)(二(èr))中去掉高频(pín):中国(guó),搜狐,体育,播报(bào)
去掉低(dī)频:米卢,杀入
则剩下中频词有:率领,足(zú)球队,首次(cì),世界杯,决赛 ,阶(jiē)段
看到了吧?剩下的,两者是(shì)一模一样 这就是相似性的存在
呵呵,其实这个(gè)例(lì)子很早就有(yǒu)过的。。
综(zōng)上所述:搜索引(yǐn)擎要检测相似性(xìng),主要就(jiù)是要(yào)分词(cí)和(hé)词频的比较!!
|