南寧網站建設公司教您全面解讀BaiduSpider與站點死鏈
發布時間:2015-10-21 來源:陸藝網絡 qianmingtea.com www.nn6n.cn 瀏覽次數:

死鏈直接關系到網站的抓取收錄和流量轉化,因而對站長們而言至關重要。近日,百度站長學院針對BaiduSpider及站點死鏈的相關問題做出了一系列的解答……

具體內容如下:

問:robots屏蔽對阻止百度抓取死鏈是否有效

答:當然有效,百度嚴格遵守robots協議,若發現百度依然抓取,先確認是否為Baiduspider,若確認,可以通過反饋中心進行投訴。

如何正確識別Baiduspider移動ua?

新版移動ua:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;)AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 MobileSafari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
 

PC ua:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
 

之前通過“+http://www.baidu.com/search/spider.html”進行識別的網站請注意!您需要修改識別方式,新的正確的識別Baiduspider移動ua的方法如下:  
 

1. 通過關鍵詞“Android”或者“Mobile”來進行識別,判斷為移動訪問或者抓取。  

2. 通過“Baiduspider/2.0”,判斷為百度爬蟲。

另外需要強調的是,對于robots封禁,如果封禁的agent是Baiduspider,會對PC和移動同時生效。即,無論是PC還是移動Baiduspider,都不會對封禁對象進行抓取。之所以要強調這一點,是發現有些代碼適配站點(同一個url,PC ua打開的時候是PC頁,移動ua打開的時候是移動頁),想通過設置robots的agent封禁達到只讓移動Baiduspider抓取的目的,但由于PC和移動Baiduspider的agent都是Baiduspider,這種方法是非常不可取的。

如何識別為百度spider?

百度蜘蛛對于站長來說可謂上賓,可是我們曾經遇到站長這樣提問:我們如何判斷瘋狂抓我們網站內容的蜘蛛是不是百度的?其實站長可以通過DNS反查IP的方式判斷某只spider是否來自百度搜索引擎。根據平臺不同驗證方法不同,如linux/windows/os三種平臺下的驗證方法分別如下:

1、在linux平臺下,您可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。

2、在windows平臺或者IBM OS/2平臺下,您可以使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。

3、 在mac os平臺下,您可以使用dig 命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。

問:已被百度抓取的死鏈,可以通過robots屏蔽的方式讓百度刪除嗎?

答:不建議你這樣做,最快最有效的方法是通過百度站長平臺死鏈提交工具(地址:http://zhanzhang.baidu.com/badlink/)進行處理

問:我已經通過死鏈工具進行提交了,可是通過日志發現百度還是在抓我們的死鏈

答:您提交規則后,spider為了驗證鏈接是否真的死掉,需要抓一部分回來驗證。

問:百度對死鏈的抓取,對正常文章抓取的影響會有多大。

答:這個沒有統一的標準,如果你沒有設置robots也沒有向百度提交,死鏈量還特別巨大的時候,有可能會占用你網站大量抓取配額,導致正常內容無法抓取。如果僅僅是spider為了驗證死鏈規則抓一部分,那么對正常內容不會造成影響。

問:百度對死鏈的要求是什么?怎么設置死鏈效果最好?

答:目前百度支持協議死鏈、內容死鏈和跳轉死鏈,其中最效果最好的是協議死鏈。

百度標準死鏈官方文檔:

幾乎所有網站都會出現不再需要展現的網頁,如何處理這樣的網頁也成為站長經常談論的話題。為此,百度站長學院專訪了負責死鏈識別處理的工程師,了解到百度眼中的死鏈其實包括三種:協議死鏈、內容死鏈、跳轉死鏈,每種都有門道哦,同時了解到目前比較流行的“個性化死鏈”對百度并不友好(后面會有詳細介紹)。在此我們向各位站長呼吁,盡可能全面地通過百度站長平臺死鏈提交工具提交協議死鏈、內容死鏈和跳轉死鏈,網站在百度搜索引擎的可訪性和價值得到提升,以獲得更高的用戶評價。

第一,協議死鏈:  

協議死鏈是指通過HTTP協議狀態碼明確表示網頁已無閱讀價值。HTTP協議狀態碼很多,但百度協議死鏈首推404,即未找到文件。請盡量不要用其它狀態碼來代表死鏈。

第二,內容死鏈:  

內容死鏈主要是由網站自身變化引起的,可以正常打開未發生跳轉,但頁面內容對爬蟲來說沒有收錄價值,對用戶來說也沒有參考價值,如帖子被刪除、內容已轉移、空間被關閉、信息已過期、交易已關閉等。在這樣無有價值信息的網頁上,網站應該在明顯位置直接給予提示文字,如:  

·頁面不存在(網頁不存在)  

·內容已轉移  

·帖子已刪除  

·域名過期或出售  

·空間被關閉  

·網站要備案  

·信息已過期  

·交易已關閉

在給各位站長看標準內容死鏈的典型范例之前,先說一個對百度不友好的做法:現在很多網站追求個性化和用戶體驗,在頁面內容失效后并未做協議死鏈處理,也就是說返回狀態碼依然是200,僅僅是在頁面上做了一個有趣的個性化圖片,通過圖片告訴用戶這個頁面沒有有價值內容——百度不會認為這是一個內容死鏈,不提倡大家這樣做。

典型范例1:

以下便是內容死鏈的典型范例,大家感受一下,需要著重強調的是:站長在申請取消閉站保護的時候,百度除了檢測站內協議死鏈外,還會同時檢查內容死鏈的比例和數量。即使您不使用閉站保護功能,百度也提倡大家踴躍提交內容死鏈,以保證站點評級的穩定。典型范例2:

典型范例3:

典型范例4:

典型范例5:

典型范例6:

典型范例7:

典型范例:8:

第三,跳轉死鏈  

跳轉死鏈是指網站將無閱讀價值的頁面統一跳轉到某一個頁面,如前一級目錄面、首頁等等,跳轉前后的兩個網頁主體內容不同,不存在可替代的關系。除了404協議死鏈和內容死鏈外,站長還需要向百度提交跳轉死鏈。典型范例9:

典型范例10:

問:百度站長平臺是否有工具幫助我們發現網站內的未知死鏈?

答:可以通過鏈接分析工具中的死鏈分析功能(地址:http://zhanzhang.baidu.com/inbound/deadlink),還有抓取異常工具(地址:http://zhanzhang.baidu.com/crawl/index)進行發現分析

上一篇:南寧網站建設如何做到字形合一,南寧網頁設計中的圖文相配 下一篇:南寧網站建設:響應式網站最近很火,到底它好在哪呢?
相關資訊: