此前,由於缺少有效的溝通渠道,使得網站站長或從事搜索引擎營銷的人士很難獲取到直接來自百度的信息。自 4 月 7 日百度創建站長俱樂部以來,這種局面有所改善,業內幾位高人已經受邀加入俱樂部,並代表站長們提出了一些針對百度在收錄、鏈接、權重、算法等方面的問題,這些問題大都由 Zac 與柳煥斌提出或代問,百度官方用 Lee 和 kkksuper 的 ID 陸續做了回答。由於目前百度站長俱樂部采取的是邀請機制,所以無法產生大規模互動交流,SEM Watch 將其中部分摘錄匯集,希望能夠引起各位朋友的關注與討論。想了解更多的內容及信息請移步至這裡,同時,如果有需要向百度打探情報的朋友也請留言,因為 Zac 大俠也是常駐 SEM Watch 的。
關於網站
問:使用虛擬主機的網站會不會因為同一個 IP 或同一台服務器上有其他網站作弊被處罰而受連累,也被懲罰?
答:連坐,血統論等,是在極權社會裡才出現的反人類政策。一個成熟的搜索引擎,這麼蠻干的可能性很小。
問:將一個舊的 URL 進行 301 重定向處理,百度反應很慢?而且舊的 URL 會在相當一段時間內還存在於百度搜索結果中,但是網頁標題是新的,缺少描述。
答:對於內容遷移,我們推薦的做法就是將舊 URL 301 永久重定向到內容對應的新 URL,這樣我們會把舊 URL 積累的權值轉移到新 URL 上。
為了避免種種不穩定的因素,目前我們的處理策略比較保守,新、舊 URL 會同時並存相當長的時間。最近我們意識到這樣處理其實並不妥當,正在調研更迅速的處理方式,相信很快就可以完美的處理好這個問題。
問:百度對使用海外空間的中文網站有歧視嗎?百度是否會抓取域名注冊人的相關 whois 信息?
答:1、百度對海外站點沒有歧視。但百度從國內爬出去的蜘蛛,會嚴格遵守國家的政策和法令,所以國內普通用戶訪問受限的內容,百度蜘蛛一樣會搞不定。
2、任何對站點價值分析有貢獻的要素,都有可能被搜索引擎使用。並且這些要素的使用方式,也不是一成不變的。至於具體有哪些要素已經被使用以及如何使用,這個無法詳述。
問:百度如何看待偽原創?
答:“偽原創”就是“非原創”。對非原創的策略,同樣適用於偽原創。歸根結底,這是一個技術實現程度問題,而不是策略思路問題。
ZAC:好多人認為他們做的所謂“偽原創”挺好,應該能騙過搜索引擎,這大概低估了搜索引擎算法。還是得回到根本,內容為王。說起來容易,做起來難,很少人會認真去做。
問:百度如何對待過期域名?谷歌對過期的域名很長一段時間還有收錄, 而百度卻很快就會將其清空。
答:過期域名也是域名,所以,適用於新域名的策略,也一樣適用於過期域名。只是過期域名在歷史上累積的與現有網站無關的權重,會被剝離掉,這也是很容易理解的。
關於收錄
問:大概在 4 月 1 日前後,很多站長用 site 查看自己在百度的收錄數量,發現狂降,現在好像又恢復了,那是怎麼回事?
答:我們也注意到了這種說法,其實收錄方面沒什麼變動,只是我們在上線新策略的過程中短暫影響了結果數估算算法,大家只要關注一下流量即可知道,那段時間從百度獲得的流量並沒有變化,如果收錄數真的發生了大的變動,肯定會影響流量。
另外,相信大家在用 site 語法查詢結果數時,也看到了搜索結果最上方的“找到的相關網頁數是估算值,不代表真實結果數,僅供參考的提示”的提示,我們的搜索結果數估算算法是針對正常用戶的關鍵詞檢索而設計,沒有針對site語法檢索做過優化,它得出的搜索結果數只能做為一個參考,建議關注網站從百度獲得的流量有沒有變動更直接。
問:網站用 site: 查詢,只有首頁收錄,請問是什麼機制造成的?
答:兩種情況:
1、新站點,具體內容還沒來得及抓取和索引。
2、老站點,因為種種原因被嚴厲懲罰了,站長圈俗稱“拔毛”。
後者的嚴厲懲罰機制,我們期望逐漸演化為更合理的甄別和處理。實際上現在的狀況,比之四、五年前,已經人性化多了。呵呵。
問:一般來說,網站所有者不是太希望 https 的網頁被收錄。如果收錄了,如果處理?把 https 的網頁 URL 更換成 http 形式的?還有一種情況,就是 ip 地址形式的URL被收錄。
答:如果不希望被收錄,常規的做法是設置 robots 文件。
https 主要的出發點是安全,並沒有太多考慮搜索引擎。從用戶角度,很多采用了 https 的站點(尤其是首頁),也是需要被搜索到的,比如支付寶,貝寶等。通常情況下,搜索引擎對這類網頁並不做內容解析,而只是將 URL 進行索引。
IP 地址的 URL 被收錄,除了 spider 在機制上的不完善之外,通常站點設計上也有一些缺陷。一般情況下,這類問題是可以被規避的。
問:百度數據更新的周期大概是多長?
答:如果是一個變化頻繁的入口索引頁面,相信這個變化周期會很短;而是相對穩固的內容型頁面,周期則會相對較長。站長們觀察一下蜘蛛的爬取日志,發現的規律會比這邊的說明更有價值。
此外,搜索結果頁上的那個時間,一直很讓人confusing,我們正在考慮修改。
關於權重
問:百度是否跟蹤 JS 鏈接並傳遞權重?因為有的時候某些頁面得到太多權重沒什麼意義,比如用戶登錄、注冊頁面之類的。是否可以用簡單的 JS 阻擋鏈接傳遞權重?
答:javascript 的解析,是很多搜索引擎正在做的事情;同理,對 flash 的解析。畢竟有那麼多應用 javascript 或者 flash 的網站,其實並沒有意識到,他們的做法給搜索引擎的收錄和索引帶來的麻煩。所以,如果期望不被搜索引擎收錄的話,最直接的手段,還是寫 robots 文件。
問:百度目前支持鏈接的 nofollow 屬性嗎?
答:百度現在支持 nofollow 標簽。帶 nofollow 標簽的鏈接,我們會忽略掉它絕大部分的作用。
nofollow主要用在用戶留言等不受站長控制的地方,這些地方的投票不是站長的意志,告訴搜索引擎不要給他投票是合適的。
問:百度對子域名如 news.domain.com 和主域名 www.domain.com 權重怎麼處理?是當作兩個不同的網站還是子域名會繼承主域名的權重?
答:怎樣處理是合乎邏輯的,策略上就會采用那個合乎常理的