SEO優化小寶典!快速學會怎麼設定網頁robots!

SEO優化:五分鐘搞懂設定網頁robots! 是不是so easy!

甚麼狀況下該使用 robots meta 與 robots.txt

robots meta 對 SEO 的操作上是很重要的。robots meta 與 robots.txt 皆可向搜尋引擎宣告如何處理網頁。前者是阻止搜尋引擎索引你的頁面 (但搜尋引擎還是有抓取你的網站資料) ； robots.txt 則是全面的阻止搜尋引擎抓取你的資料 (搜尋引擎會自動略過你指定的網站)。

當然，大部份SEO的狀況，你不會讓 robots.txt 來阻止搜尋引擎抓取辛苦建立的網站。但是以若這個網站對你的 SEO 有負面影響、或是私密性高的話，就可以用robots.txt 來阻擋搜尋引擎抓取，常見的情況如下所示:

1. 多年前有經過黑帽 SEO 手法，卻還沒處理的網頁、

2. 施工中未完成的網頁等

3. 網站或是公司內部系統的登入頁面

若你只是希望這個網頁不要出現在搜尋引擎結果中的話，那用 robots meta 即可。

如何設定網站 robots.txt

【檔案存取位置】robots.txt 位於網站的根目錄下
【作用】告訴搜尋引擎哪些網站內容不要進行存取，並且可以指定 sitemap 的位置。
【路徑】如果你有建立並使用 robots.txt，則他的位置會是 http://網址/robots.txt，如果這個檔案不存在，則代表沒有使用 robots.txt。

【宣告類型】有五種，如下所示：
1. User-agent
  指定哪一種搜尋引擎的爬蟲，如 Google 的爬蟲「googlebot」或是百度的爬蟲等等（* 號代表全部）
2. Crawl-delay
  限制爬蟲抓取每一頁的秒數限制，但是該設定會被 Google 跳過不處理。因為 Google 在網站管理員中，就有爬取頻率的設定。
3. Disallow
  輸入你不允許被爬取的 URL 路徑
4. Allow
  輸入你允許被爬取的 URL 路徑
5. Sitemap
  告知搜尋引擎的 Sitemap 網址

以上五種宣告類型如何編輯? 常見的如以下所示：
1. 拒絕所有的搜尋引擎爬蟲爬取你的網站：
  User-agent:*
  Disallow: /
2. 允許全部的搜尋引擎爬蟲爬取你的網站：
  User-agent:*
  Disallow: /
3. 拒絕 Google 的搜尋引擎爬蟲爬取 /wp-admin 目錄
  User-agent:*
  Disallow: /wp-admin/
4. 只拒絕百度的搜尋引擎爬蟲，卻允許其他搜尋引擎 (如 Google、Yahoo、Yandax等等) 爬取
  User-agent:Baiduspider
  Disallow: /
  User-agent:*
  Allow: /
5. 拒絕搜尋引擎爬取特定類型的檔案
  User-agent:*
  Disallow: /*.ini$
  Disallow: /*.jpg$
6. 實際網站完整 robots.txt
  User-agent:*
  Crawl-delay: 7
  Disallow: /wp-admin/
  Disallow: /cgi-bin/
  Disallow: /readme.html/
  Disallow: /*.ini$ sitemap: http://codingbomb.com.tw/sitemap.xml