出處:嘟嘟老窩(BLOG)
熬了半個通宵,寫出了自己的Google SiteMap文件,在這裡給出詳細編寫教程,願對大家有所幫助。
Google SiteMap的作用及協議格式詳解
Google SiteMap Protocol是Google自己推出的一種站點地圖協議,此協議文件基於早期的robots.txt文件協議,並有所升級。在Google官方指南中指出加入了Google SiteMap文件的網站將更有利於Google網頁爬行機器人的爬行索引,這樣將提高索引網站內容的效率和准確度。文件協議應用了簡單的XML格式,一共用到6個標簽,其中關鍵標簽包括鏈接地址、更新時間、更新頻率和索引優先權。
Google SiteMap文件生成後格式如下:
http://www.knowsky.com
2005-06-03T04:20-08:00
always
1.0
http://www.knowsky.com/300687.Html
2005-06-02T20:20:36Z
daily
0.8
XML標簽
- changefreq:頁面內容更新頻率。
- lastmod:頁面最後修改時間
- loc:頁面永久鏈接地址
- priority:相對於其他頁面的優先權
- url:相對於前4個標簽的父標簽
- urlset:相對於前5個標簽的父標簽
我將一句一句分解講解這個XML文件的每一個標簽:
- 這一行定義了此XML文件的命名空間,相當於網頁文件中的<Html>標簽一樣的作用。
- 這是具體某一個鏈接的定義入口,你所希望展示在SiteMap文件中的每一個鏈接都要用<url>和</url>包含在裡面,這是必須的。
- http://www.knowsky.com用<loc>描述出具體的鏈接地址,這裡需要注意的是鏈接地址中的一些特殊字符必須轉換為XML(HTML)定義的轉義字符,如下表: 字符 轉義後的字符 Html字符 字符編碼 and(和) & & & 單引號 ' ' ' 雙引號 " " " 大於號 > > > 小於號 < < <
- 2005-06-03T04:20:32-08:00<lastmod>是用來指定該鏈接的最後更新時間,這個很重要。Google的機器人會在索引此鏈接前先和上次索引記錄的最後更新時間進行比較,如果時間一樣就會跳過不再索引。所以如果你的鏈接內容基於上次Google索引時的內容有所改變,應該更新該時間,讓Google下次索引時會重新對該鏈接內容進行分析和提取關鍵字。這裡必須用ISO 8601中指定的時間格式進行描述,格式化的時間格式如下:
- 年:YYYY(2005)
- 年和月:YYYY-MM(2005-06)
- 年月日:YYYY-MM-DD(2005-06-04)
- 年月日小時分鐘:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37+08:00)
- 年月日小時分鐘秒:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37:30+08:00)
這裡需注意的是TZD,TZD指定就是本地時間區域標記,像中國就是+08:00了
- always用這個標簽告訴Google此鏈接可能會出現的更新頻率,比如首頁肯定就要用always(經常),而對於很久前的鏈接或者不再更新內容的鏈接就可以用yearly(每年)。這裡可以用來描述的單詞共這幾個:"always", "hourly", "daily", "weekly", "monthly", "yearly",具體含義我就不用解釋了吧,光看單詞的意思就明白了。
- 1.0<priority>是用來指定此鏈接相對於其他鏈接的優先權比值,此值定於0.0 - 1.0之間
- 還有</url>和</urlset>,這兩個就是來關閉XML標簽的,這和HTML中的</body>和</Html>是一個道理
- 另外需要注意的是,這個xml文件必須是utf-8的編碼格式,不管你是手動生成還是通過代碼生成,建議最好檢查一下xml文件是否是utf-8編碼,最簡單的方法就是用記事本打開XML然後另存為時選擇編碼(或轉換器)為UTF-8。
登陸Google提交你的SiteMap文件,讓Google開始爬行吧打開
https://www.google.com/webmasters/sitemaps/鏈接,如果還沒有注冊或者登陸Google,就先用自己的帳號登陸Google,登陸後轉到Your Sitemaps狀態頁面,可以點擊那個Add a Sitemap + 跳轉到提交頁面進行Sitemap文件的提交。
建議文件放在你的站點根目錄下。給Google提交你的Sitemap URL後可以看見在列表裡已存在,不過這時候還沒有生效,必須過幾個小時後Status欄變成OK表示正式生效,如果不是OK,可以查看Google給出的狀態標示解釋看看是什麼原因。