資訊中心
如何避免蜘蛛重復(fù)抓取一個(gè)頁(yè)面
問(wèn)題:如何避免蜘蛛重復(fù)抓取一個(gè)頁(yè)面?
回答:蜘蛛重復(fù)抓取頁(yè)面是正常的,蜘蛛抓取頁(yè)面的依據(jù)是看頁(yè)面內(nèi)容是否發(fā)生了變化,如果每次抓取頁(yè)面都有變化,那么抓取就會(huì)更加頻繁。如果多次抓取后發(fā)現(xiàn)頁(yè)面都沒(méi)有變化,就會(huì)減少抓取。所以不要刻意讓蜘蛛不重復(fù)抓取某個(gè)正常的頁(yè)面。
蜘蛛多次重復(fù)的抓取頁(yè)面,就說(shuō)明這個(gè)頁(yè)面的更新頻繁。這是個(gè)好的現(xiàn)象,我們可以去對(duì)這個(gè)頁(yè)面進(jìn)行分析,看看到底是哪個(gè)內(nèi)容模塊經(jīng)常有更新。而其他的頁(yè)面則可以參考,也加大這些頁(yè)面的更新頻率,這樣整個(gè)網(wǎng)站的抓取頻次就會(huì)增多。
當(dāng)然,想要整體增加蜘蛛抓取頻次的話,內(nèi)容的數(shù)量和內(nèi)容的持續(xù)更新也需要注意。通常,內(nèi)容越多的網(wǎng)站,蜘蛛的抓取頻次就越高。
另外有些動(dòng)態(tài)頁(yè)面,或者是某些數(shù)據(jù)庫(kù)文件,大家要注意。這些頁(yè)面更新會(huì)很頻繁,如果給蜘蛛提供了鏈接入口,那么蜘蛛就會(huì)經(jīng)常來(lái)抓取這些頁(yè)面,這個(gè)細(xì)節(jié)問(wèn)題大家也要注意下,對(duì)于這些沒(méi)有必要被收錄的頁(yè)面,要隱藏好鏈接入口。
還有就是sitemap這個(gè)網(wǎng)站地圖文件,搜索引擎之所以會(huì)頻繁抓取,其實(shí)也是跟文件的更新有關(guān)系。如果我們的網(wǎng)站地圖是動(dòng)態(tài)的,那么網(wǎng)站一旦更新內(nèi)容,網(wǎng)站地圖就會(huì)產(chǎn)生變化,搜索引擎蜘蛛每次過(guò)來(lái)都能發(fā)現(xiàn)新的鏈接,因此它就會(huì)頻繁來(lái)抓取。
關(guān)于如何避免蜘蛛重復(fù)抓取一個(gè)頁(yè)面的問(wèn)題,筆者就簡(jiǎn)單的說(shuō)這么多??傊畞?lái)說(shuō),如果蜘蛛重復(fù)抓取的是正常的需要優(yōu)化的頁(yè)面,那就不要去管它。如果是那些不需要優(yōu)化的動(dòng)態(tài)頁(yè)面,就要想辦法隱藏鏈接入口,再在robots文件上限制抓取。最后再提醒下,蜘蛛抓取頁(yè)面跟頁(yè)面的內(nèi)容更新有關(guān)系,大家可以根據(jù)這個(gè)原理去對(duì)網(wǎng)站收錄進(jìn)行優(yōu)化。