閱讀本貼之前,先聲明下:以下內容均為7月19日在北京站現場聽課過程中手記寫下的筆記。
內容除沒有case展示外,與PPT幾乎沒多少區別。如需轉載,請注明原文作者:吳秀龍。謝謝!
.................................................................................................................................................
王海威 百度spider高級工程師
一、站點結構
1、邏輯清晰的鏈接層次結構
A、以首頁為根節點的樹狀連通圖
B、避免過於扁平化的結構
C、避免孤島鏈接
首頁-頻道-索引-內容頁
注意: 不利於spider抓取的情況
1、通過query(搜索)檢索得到的內頁。
2、需要相應設置才能訪問內頁的情況
………………………………………………
2、PC/移動適配
1)建立適配:PC與移動端URL,有規則級的對應關系,且相互關聯
2)不建議做法
A、單一域名下多種配置方式
B、把移動站作為PC下一級目錄,如: 3w。a.com/m/
3、數據主動提交
新產出鏈接與發生變化的資源鏈接應及時提交(避免死鏈)
4、避免目錄被黑或售賣
二、頁面結構
1、不建議使用js加載頁面內容
1)內容放置js中,影響索引
2)鏈接和錨文本的鏈接
注: 1)索引頁js渲染點擊事件才發生鏈接
2)顯示一部分,點擊加載全文/下拉
2、移動友好性標准
3、索引頁友好性
1)排版布局:
A、按發布時間順序、忌時間錯亂(置頂內容可模塊化處理)
B、不要漏鏈(孤島)
2)內容質量
A、只包括同主題內容頁
B、保持與內容同步更新
C、避免交叉泛濫索引頁
4、索引頁翻頁友好性(PC端)
1)1 2 3 順序排序
如果可能,盡量列舉全部翻頁,至少保留最近一段時間的所有內容
2)不友好做法
A、僅有上一頁、下一頁
B、URL以頁數控制,不要用URL起始數量
C、翻頁後鏈URL與翻頁頁碼關聯
5、索引頁翻頁友好性(移動端)
A、采用PC端翻頁建議
B、采用下拉動作觸發加載,下拉次數上限為3次
C、針對百度UA特殊處理,返回更完整的翻頁內容
注意: 不友好做法
無限下拉、點擊加載更多
三、抓取限制
1、避免預期以外的封禁
1)UA/IP封禁
A、建站模板中包含的封禁信息,被遷移
B、服務器自動封禁策略
C、網站所在空間服務商封禁IP
2、建議
服務器設置排查,確保robots、UA、IP設置是否符合預期
3、死鏈接反饋
對於百度蜘蛛的抓取,返回404等明確狀態碼
………………………………………………
深度解讀百度抓取提升神器-鏈接提交
高級工程師 劉立
1、主動提交(實時提交)原理
傳統: 網站發布新頁面-等待百度爬蟲逐層遍歷發現-百度爬蟲發現網頁
實時: 網站發布新頁面-百度爬蟲發現網頁
2、大量提交垃圾和重復頁面的站點,限制提交或關閉(原文作者:吳秀龍/百度站長社區)