DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁腳本 >> XML學習教程 >> XML與XSLT >> 百度新聞開放協議XML文檔制作方法簡述
百度新聞開放協議XML文檔制作方法簡述
編輯:XML與XSLT     
開放協議概述
使用此開放協議,將會為您的網站帶去更多流量!
《互聯網新聞開放協議》是百度新聞搜索制定的搜索引擎新聞源收錄標准,網站可將發布的新聞內容制作成遵循此開放協議的XML格式的網頁(獨立於原有的新聞發布形式)供搜索引擎索引,將網站發布的新聞信息主動、及時地告知百度搜索引擎。
采用了《互聯網新聞開放協議》,就相當於網站的新聞被搜索引擎訂閱,通過百度——全球最大的中文搜索引擎這個平台,網民將有可能在更大范圍內更高頻率地訪問到您網站的新聞,進而為您的網站帶來潛在的流量。
開放協議非常簡單! 您可以在我們的幫助下輕松使用。 開放協議內容
下圖為遵照《互聯網新聞開放協議》制作的XML格式的網頁,網頁上按照標准格式列出了網站發布的新聞的相關信息。
XML網頁示例:
百度新聞開放協議XML文檔制作方法簡述
XML標簽說明: 其中帶星號標記的為必選項,未帶星號標記為可選項。
*<document>——標記整個XML文件內容的開始和結束。
*<webSite>——站點地址。
*<webMaster>——負責人員的Email。當有必要時,我們通過這個地址與您聯系。
*<updatePeri>——更新周期,以分鐘為單位。搜索引擎將遵照此周期訪問該頁面,使頁面上的新聞更及時地出現在百度新聞中。
*<item>——標記每篇新聞信息的開始和結束。標記內為單篇新聞信息,不包括新聞專題。
*<title>——新聞標題。
*<link>——新聞url地址,與單篇新聞一一對應;若分頁的新聞存在多個URL,相當於多篇新聞。
<description>——新聞內容簡介。
*<text>——完整的新聞正文(僅包含正文文字,不包含HTML語言等其它字符)。此項的目的是使該篇新聞更多、更准地出現在搜索結果中。
*<image>——新聞正文內相關圖片,采用絕對地址。若該篇新聞無相關圖片,可以為空;若含有多張圖片,請重復使用該標簽。此項的目的是使該篇新聞的相關圖片展現在搜索結果中。
<headlineImg>——為有可能成為頭條的新聞制作的頭條圖,采用絕對地址。
<keywords>——反映新聞主題內容的一個或多個關鍵詞,關鍵詞之間以空格隔開。此項僅作為參考,檢索結果不完全依賴於此標簽中的內容。
<category>——新聞分類, 可以遵循網站自身的分類體系,最好采用一級分類。
<author>——新聞作者,可以為機構或個人 。
<source>——新聞來源,即原創媒體或其它機構 。
*<pubDate>——新聞發布時間,與該篇新聞HTML頁面上的發布時間保持一致。請精確到分鐘;若您網站的發布時間未記錄小時分鐘,提供年月日即可。
推薦時間格式:年月日小時分鐘秒
如:2005-11-09 10:37|2005/11/09 10:37:00|2005.11.09 10:37:00|
2005年11月09日10時37分00秒|Fri, 09 Nov 2005 10:37:00 GMT
開放協議使用
使用之前您需要了解以下幾點: 無論您的網站已經成為百度新聞源,還是尚未被百度新聞搜索收錄,都可以使用此開放協議。 您使用開放協議提供的內容應全部符合下面《新聞源收錄標准》。 《互聯網新聞開放協議》只是原始新聞源收錄方式的一種協助和有益補充,而不是完全取代。
新聞源收錄標准:
百度希望新聞源多樣化,鼓勵原創新聞內容。如果是具有大量有價值的新聞內容並能及時更新的正規、合法媒體網站,且網站服務器穩定、高速,就符合了百度收錄新聞源的基本原則。
百度新聞搜索收錄的內容包括時政、娛樂、體育、財經、科教文化、社會生活等各類新聞報道及媒體評論,數碼產品、房產、汽車等行情資訊及評測,各行業的動態及行情,組織機構的工作動態等,是由專業人士撰寫或編輯的中文信息,不包括發布的個人信息、論壇、博客、廣告、幽默笑話、情感故事、情色、寫真、劇照、明星檔案、食譜、下載、多媒體等其它類型、其它語言互聯網信息。
您應對提供的全部內容承擔一切法律責任,保證您提供內容的真實性、合法性,並不得侵犯任何第三方的權益。
下面就開始吧!
第一步:創建XML文件
請您在創建XML文件前務必閱讀百度新聞搜索的新聞源收錄標准,並特別注意
1、百度新聞搜索收錄的新聞源網站必須符合及嚴格遵守國家《互聯網新聞信息服務管理規定》,並在新聞發布和轉載過程中尊重創作人和源網站的著作權。
2、百度新聞搜索不適合收錄的網站類型包括:論壇、博客、公司網站等。
3、百度新聞搜索不收錄個人信息、廣告、招標、教程、幽默笑話、情感故事、情色、寫真、劇照、明星檔案、食譜、下載、多媒體等其它類型、其它語言互聯網信息。
4、百度新聞搜索希望收錄高質量的中文新聞,不收錄英文等其它非中文新聞。
5、請按照上面公布的開放協議內容制作XML文件。
其它說明:
支持的編碼格式有GB2312、GB18030、UTF-8、BIG5,推薦使用GB18030或UTF-8格式。 您可以將網站某一時間段發布的全部新聞放在一個XML文件中,也可以分頻道或欄目放在多個XML文件中。 請保持每個XML文件處於按更新周期持續自動更新狀態。更新周期可根據您的需要隨時進行調整。 每個XML文件至多存放最新發布的100條新聞,無需保存之前的新聞。 請將發布的新聞按照時間排序,即最新發布的新聞在最上端,否則可能有新聞被遺漏。 XML標簽內容中,除文字文本以外不能包含其它任何代碼,下表中的特殊字符必須轉換為XML定義的轉義字符。否則將發生錯誤導致搜索引擎不能獲取頁面上的新聞。 字符 轉義後的字符 HTML字符 字符編碼 和(and) & &amp; &#38; 單引號 ' &apos; &#39; 雙引號 " &quot; &#34; 大於號 > &gt; &#62; 小於號 < &lt; &#60; 轉義字符中的"&"無需再轉。
建議您使用CDATA 部件。一個 CDATA 部件以"<![CDATA[" 標記開始,以"]]>"標記結束。將包含代碼或特殊字符的文本置於CDATA 部件內 ,就無需再對特殊字符進行轉義。
第二步:驗證XML文件
下面的地址提供了幫助您驗證XML文件結構的多種工具:
http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html
通過驗證的XML文件能夠使您提供的信息更加標准,確保您發布的新聞信息不被搜索引擎遺漏。
第三步:提交XML網址
提交前請將XML文件上傳到您的網站服務器,將XML文件的URL地址及其它信息輸入下面對應的方框內。搜索引擎將定向訪問該URL地址,當URL地址發生變化時需要重新提交。
若您的網站符合新聞源收錄標准,百度新聞搜索將對您提交的數據進行測試和觀察一周。如果XML文件基本按照 《互聯網新聞開放協議》的要求制作但存在問題,我們會根據XML頁面上提供的郵件地址與您聯系。
注意:
1、 我們將對您提交的XML文件進行審核,百度新聞搜索不保證一定能收錄您提交的全部內容。
2、站點名、地址為必填項,同一站點一天之內最多提交5個不同的XML文件地址。
3、提交地址後請您注意查看彈出窗口中的信息,以確認是否提交成功。
第四步:查詢XML文件狀態
您可以在下面的方框中輸入您提交的XML文件地址,查詢該文件的處理進度和反饋信息。
注意:輸入的地址必須完整,即與您提交時的地址完全一致。
XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved