禁止爬蟲收錄網頁

用noindex、nofollow禁止爬蟲收錄特定網頁|天矽科技客製化網頁設計

用noindex、nofollow禁止爬蟲收錄特定網頁|天矽科技客製化網頁設計

 

網站的某些頁面,我們不希望它大量曝光,這些頁面沒有必要、也不需要出現在搜尋結果中讓使用者看到,這時就可以利用noindex或nofollow語法來禁止搜尋引擎檢索。

 

為什麼網頁要禁止檢索?


 網頁中的某些功能不需要被檢索,也不需要被爬蟲抓到搜尋結果頁中,比如未完成的網站、後台管理頁面、購物車、會員資料、版權聲明、登入或是使用者來網站的留下的留言…等不重要的頁面,沒有必要讓使用者透過搜尋找到,因此我們就會利用noindex、nofollow這類語法來禁止爬蟲檢索。

 使用語法禁止爬蟲檢索與索引,用意不僅是讓使用者無法輕易看見這些畫面,還要告訴爬蟲這些不要檢索、不要影響SEO評分,因為這些頁面對使用者與網站來說沒有正相關,且對搜尋目的沒有幫助,若爬蟲將這些內容都檢索,就會降低網站的權重。

禁止爬蟲收錄特定網頁

 

用noindex禁止網頁索引


 Noindex 是 html meta 元素上的一個值,當爬蟲看到 noindex 就不會對網頁進行索引、收錄到結果頁面

 簡單來說就是告訴爬蟲說,我的網站有這個東西,但沒有必要把它當作搜尋結果提供給使用者點擊查看,因為它對搜尋意圖與目的是沒有任何幫助的。比如購物車與結帳畫面、會員登入與資料、隱私權政策、版權聲明…等。

 想像一下,我們透過搜尋引擎搜尋「台北 伴手禮」,出現某個結果點進去後,出現的畫面不是商品,而是政策說明或會員登入,不覺得很莫名其妙嗎?當然,大多使用者也是這麼想的。
 

  • 防止大部分的搜尋引擎編入索引:
    <meta name="robots" content="noindex>

  • 防止特定搜尋引擎編入索引 (如Google):
    <meta name="googlebot" content="noindex">

 此指令需個別、單頁設定,比如網站有5個地方不需要被索引,就要設定5次、5個頁面。詳細可參考Google搜尋中心:中繼標籤

 有些人可能會發現,不是可以用 robots.txt 來告訴爬蟲哪些頁面不用檢索嗎?這兩個功能還是有些不同的。

 

Noindex與robots.txt

  • noindex
    存在網站的個別頁面中,可以告訴爬蟲「這個頁面」不要檢索與索引。
     
  • robots.txt
    存在網站的根目錄中,告訴爬蟲不要檢索這「整個」網站,比如網站管理後台、特定資料夾內檔案與測試網站。


 不過,因為robots.txt不是強制的指令,不是所有搜尋引擎都會遵守,因此使用robots.txt禁止爬蟲爬取網站內容,仍有可能未經檢索而不小心將該網址編入索引。

 

延伸閱讀:
robots.txt用途是什麼?讓爬蟲乖乖聽話的秘密

 

用nofollow聲明網站的無關連結


 Nofollow 也是 html meta 元素上的一個值,用來告訴搜尋引擎不要追蹤特定的網站連結,也就是爬蟲看到nofollow時,就不會追蹤網站上的任何內部連結。

 這通常用在網站中的評論與留言區,或是用戶可自由發表言論類型的網站,如論壇、社群媒體或留言板…等。

 有這類功能的網站,容易吸引許多垃圾留言、廣告以及根本戰無關的連結,當一個網站大量充斥這種不必要的連結,就容易拉低網站的排名與品質,因此我們可以利用nofollow來告訴爬蟲說這些連結跟我們沒關係。

  • 防止搜尋引擎檢索:
    <meta name="robots" content="nofollow">

 不過Google現已將 nofollow 改成爬蟲的參考標準,而非重要指標,請將使用者自製內容(留言或論壇)的連結標示為ugc,語法表現為:「rel="ugc"」。詳細請查看:說明連結限制

 

網頁中的隱私內容


 想將網站的某些頁面提高隱私性,不僅要搭配語法限制使用,適當的加入驗證機制也是非常重要的,如會員帳戶設定、添加驗證機制、選擇可上鎖的工具或是添加功能來阻擋,都是提高隱私的辦法。

 比如線上課程這種要付費才能上課的網站,影片要怎麼上鎖?除了語法上的設定以外,正確的選擇使用工具也非常重要,詳細可參考下方連結。

 

延伸閱讀:
如何在網站放隱私性高的影片?|YouTube與Vimeo哪個比較好?

 

share FB LINE
看天矽作品集 回上一頁
ID:@323foylw