首先插一下話題,此前放了大量有關黃色小說、動漫等相關信息,並非我的blog變成“黃窩”了,完全是對Google搜索引擎的一種SEO實驗,結果還可以,“黃色動漫、黃色小說”等關鍵字,一度在Google排在第一頁,訪問量自然也是大大增加……
不過還是要言歸正傳,我的blog基本還是討論技術和運營等,畢竟不是黃色網站……
回歸話題:最近在考慮一個問題,一般站長其實很好碰到,那就是當一個海量的網站,有百萬以上網頁時,如何建立Sitemap?
其實大部分網站,能有上萬的網頁,都說明信息量很不小了,所以也就很少有人關注10萬、百萬以上網址的,不過海量網站,絕對會遇到這樣的問題,今天整理了一下,發現了Google的Sitemap的一些限制因素:
Google對XML格式的Sitemap在數量上、編碼等方面是有一些限制,具體如下:
Sitemap中的網址必須是絕對網址,包括參數等,如:http://www.paopaoniu.com/1.html;
s=sitemap,千萬不能使用類似於“/index.php?s=sitemap”這樣的相對網址。
每個Sitemap文件最多可以包含 50,000 個網址,且大小不得超過10MB。 如果網址超過 50,000 個,則應創建多個Sitemap文件,然後可以采用Sitemap的索引文件把這些文件包含起來。
Sitemap索引文件最多可以列出 1,000 個 Sitemap;
Sitemap中的網址應該使用相同的域名,且是本站的域名,不得出現兩個或以上的域名,也不能出現外站的域名:如www.paopaoniu.com的Sitemap中的網址只能是:http://www.paopaoniu.com/index.php,或:http://paopaoniu.com/index.php(兩者選擇其一,不能混用),不能是http://www.huashifu.net/;
Sitmap文件需使用 UTF-8 編碼。
不要在 Sitemap 中包含直接圖片網址。 Google 不會將圖片直接編入索引中,Sitemap 中包含的直接圖片網址不會編入索引。
這裡是:官方詳細的Google Sitemap使用幫助
其實這樣看來,Google從理論上只支持一個網站有5千萬個網頁,這聽上去其實很大了,一般網站有5000個網址都算很龐大了,別說五千萬,不過對於我們下來的實驗項目,目標是上億的,比如QQ的問問系統,現在都有上億的個問答,顯然要是通過Sitemap,估計完成不了這個任務了。
感謝 towin 的投稿