禁止爬蟲收錄網頁

用noindex、nofollow禁止爬蟲收錄特定網頁｜天矽科技客製化網頁設計

網站的某些頁面，我們不希望它大量曝光，這些頁面沒有必要、也不需要出現在搜尋結果中讓使用者看到，這時就可以利用noindex或nofollow語法來禁止搜尋引擎檢索。

　使用語法禁止爬蟲檢索與索引，用意不僅是讓使用者無法輕易看見這些畫面，還要告訴爬蟲這些不要檢索、不要影響SEO評分，因為這些頁面對使用者與網站來說沒有正相關，且對搜尋目的沒有幫助，若爬蟲將這些內容都檢索，就會降低網站的權重。

　Noindex 是 html meta 元素上的一個值，當爬蟲看到 noindex 就不會對網頁進行索引、收錄到結果頁面。

　想像一下，我們透過搜尋引擎搜尋「台北伴手禮」，出現某個結果點進去後，出現的畫面不是商品，而是政策說明或會員登入，不覺得很莫名其妙嗎？當然，大多使用者也是這麼想的。

　此指令需個別、單頁設定，比如網站有5個地方不需要被索引，就要設定5次、5個頁面。詳細可參考Google搜尋中心：中繼標籤

　有些人可能會發現，不是可以用 robots.txt 來告訴爬蟲哪些頁面不用檢索嗎？這兩個功能還是有些不同的。

　不過，因為robots.txt不是強制的指令，不是所有搜尋引擎都會遵守，因此使用robots.txt禁止爬蟲爬取網站內容，仍有可能未經檢索而不小心將該網址編入索引。

　Nofollow 也是 html meta 元素上的一個值，用來告訴搜尋引擎不要追蹤特定的網站連結，也就是爬蟲看到nofollow時，就不會追蹤網站上的任何內部連結。

　這通常用在網站中的評論與留言區，或是用戶可自由發表言論類型的網站，如論壇、社群媒體或留言板…等。

　有這類功能的網站，容易吸引許多垃圾留言、廣告以及根本戰無關的連結，當一個網站大量充斥這種不必要的連結，就容易拉低網站的排名與品質，因此我們可以利用nofollow來告訴爬蟲說這些連結跟我們沒關係。

　不過Google現已將 nofollow 改成爬蟲的參考標準，而非重要指標，請將使用者自製內容(留言或論壇)的連結標示為ugc，語法表現為：「rel="ugc"」。詳細請查看：說明連結限制

　想將網站的某些頁面提高隱私性，不僅要搭配語法限制使用，適當的加入驗證機制也是非常重要的，如會員帳戶設定、添加驗證機制、選擇可上鎖的工具或是添加功能來阻擋，都是提高隱私的辦法。

　比如線上課程這種要付費才能上課的網站，影片要怎麼上鎖？除了語法上的設定以外，正確的選擇使用工具也非常重要，詳細可參考下方連結。

看天矽作品集回上一頁