• EN
香港:(852)3749 9734
廣州: (020) 3808 3267
[email protected]

新聞資料

如何創建Google網站地圖

  Sitemap.xml是google搞出來的,也就是網站地圖,不過這個網站地圖是用xml寫的,而且要按google的標準來寫,并且要將寫出來的這個文件sitemap.xml上傳到自己的服務器空間中去。目前,Google, Yahoo, MSN都已經聲明支持這種格式,Baidu還沒有聲明支持,但估計走這一步也是大勢所趨。這將是向眾多搜索引擎提供你網站信息的一種很好的方法。

  
  提交sitemap一是有利于搜索抓取一些正常抓取過程中無法抓取的網址,比如動態網頁,包含大量AJAX的網頁或者flash的頁面。二是為搜索蜘蛛指明“工作方向”。Sitemap就是你網站上頁面的列表,googlebot就按照這個去一個個的抓取收錄頁面,顯然比它自己去找會效率高,而且要全。Google網站上有完整的關于網頁設計sitemap.xml的詳細說明:
  
  http://www.google.com/support/webmasters/bin/answer.py?answer=40318&hl=zh_CN
  
  但很多站長看后仍然不會操作,下面這個教程就是手把手教會你創建Sitemap.xml。
  
  1. Sitemap.XML 的格式
  
  完整格式如下:
  
  <?xml version="1.0" encoding="UTF-8"?>
  
  <urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >
  
  <url>
  
  <loc>http://www.yrtrip.com/default.asp</loc>
  
  <lastmod>2008-07-17</lastmod>
  
  <changefreq>daily</changefreq>
  
  <priority>1.0</priority>
  
  </url>
  
  <url>
  
  <loc> http://www.yrtrip.com/search2.asp?id=32003044&amp;sq=1</loc>
  
  <lastmod>2008-07-17</lastmod>
  
  <changefreq>weekly</changefreq>
  
  <priority>0.9</priority>
  
  </url>
  
  …
  
  …
  
  </urlset>
  
  下面,對以上標簽分別加以解釋
  
  a) <?xml version="1.0" encoding="UTF-8"?>
  
  <urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >
  
  這兩行就相當于網頁文件中的<html>標簽一樣的作用。不必管這兩行什么意思,照抄即可。
  
  切記:一個字符也不能錯,即使多一個空格,google網站采集時也會報錯。另外,千萬別忘了在文件的末尾加上</urlset>標簽。
  
  b) url:每個標簽包含一個網頁地址,是以下標簽的父標簽。
  
  c) http://www.yrtrip.com/default.asp
  
  這里是頁面鏈接地址,也就是你希望蜘蛛訪問的地址。
  
  切記:在地址中出現的某些特殊字符需要使用轉義字符,否則,google也會報錯。最典型的就是 & 號,經常在動態網址中出現,在提交地址中必須寫成 & 如:提交http://www.yrtrip.com/search2.asp?id=32003044&sq=1,google管理員工具就會報錯,而改為 http://www.yrtrip.com/search2.asp?id=32003044&sq=1提交后就沒有問題了。我看到網上有人說 sitemap.xml只能提交一個參數的網頁設計的說法,其實多半是因為沒有使用轉義字符而導致出錯的。其他的轉義字符就不一一列出了,大家可以在網上查。
  
  d) lastmod:頁面最后修改時間
  
  這個很重要。Google的機器人會在索引此鏈接前先和上次索引記錄的最后更新時間進行 比較,如果時間一樣就會跳過不再索引。所以如果你的鏈接內容基于上次Google索引時的內容有所改變,應該更新該時間,讓Google下次索引時會重新 對該鏈接內容進行分析和提取關鍵字。這里必須用ISO 8601中指定的時間格式進行描述,格式化的時間格式如下:
  
  年:YYYY(2008)
  
  年和月:YYYY-MM(2008-06)
  
  年月日:YYYY-MM-DD(2008-06-04)
  
  年月日小時分鐘:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37+08:00)
  
  年月日小時分鐘秒:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37:30+08:00)
  
  這里需注意的是TZD,TZD指定就是本地時間區域標記,像中國就是+08:00了
  
  切記:其他格式可能引起出錯,比如將2008-08-08 寫成2008-8-8就會出問題。
  
  e) changefreq:頁面內容更新頻率。
  
  這里可以用來描述的單詞共這幾個:"always", "hourly", "daily", "weekly", "monthly", "yearly",具體含義我就不用解釋了吧,光看單詞的意思就明白了。
  
  f) priority:相對于其他頁面的優先權
  
  定于0.0 – 1.0之間 。
  
  切記:建議將各類網頁根據重要性給出不同的數值,以方便蜘蛛的采集,不要耍小聰明全部寫1.0,google管理工具會報錯的。
  
  2. Sitemap.xml制作方式
  
  制作方式無非兩種,自動方式和手動方式。
  
  自動方式一般使用生成工具自動生成,只需輸入自己的網址,就可以得到完整的xml文件。這種方式一般適用于靜態網站,在此不再贅述。但需要提醒的是,網上的工具良莠不齊,生成的文件經常有錯誤,不一定能通過google的校驗,使用者需認真辨別。
  
  手工方式則是由站長手工填寫或寫程序完成均可,代碼很簡單,大家可以到網上查找。
  
  3. 提交
  
  Sitemap.xml制作完成后,就需要將xml文件提交到相關搜索引擎。
  
  Google提交網址:http://www.google.com/webmasters/sitemaps/?hl=zh-CN
  
  Yahoo提交網址:http://sitemap.cn.yahoo.com/
  
  提交后,一般在幾個小時之內,系統就開始下載處理了。
  
  4. Sitemap.xml的校驗
  
  至于你的網站地圖是否符合標準,最方便的手段就是使用google的管理員工具了。
  
  在他下載你的sitemap.xml后幾天內,這個工具就會將詳細的分析結果反饋回來,包括:sitemap.xml中包含了多少地址,google已將多少地址加入索引,sitemap.xml中出現了哪些錯誤,甚至蜘蛛采集過程中遇到的各種問題,比如哪些網頁有404,500錯誤都會詳細的羅列出來,非常方便。
  
  如果你提交的xml文件一切無誤,那么接下來,你就是等著讓它的搜索蜘蛛來爬了,sitemap的文件告知了文件更新的頻率,這樣搜索蜘蛛來得更勤快,頁面被收錄當然也就更快。
  
  5分半鐘:Google網站地圖 Sitemap.xml