禁止爬蟲收錄網頁
用noindex、nofollow禁止爬蟲收錄特定網頁|天矽科技客製化網頁設計
為什麼網頁要禁止檢索?
網頁中的某些功能不需要被檢索,也不需要被爬蟲抓到搜尋結果頁中,比如未完成的網站、後台管理頁面、購物車、會員資料、版權聲明、登入或是使用者來網站的留下的留言…等不重要的頁面,沒有必要讓使用者透過搜尋找到,因此我們就會利用noindex、nofollow這類語法來禁止爬蟲檢索。
使用語法禁止爬蟲檢索與索引,用意不僅是讓使用者無法輕易看見這些畫面,還要告訴爬蟲這些不要檢索、不要影響SEO評分,因為這些頁面對使用者與網站來說沒有正相關,且對搜尋目的沒有幫助,若爬蟲將這些內容都檢索,就會降低網站的權重。
用noindex禁止網頁索引
Noindex 是 html meta 元素上的一個值,當爬蟲看到 noindex 就不會對網頁進行索引、收錄到結果頁面。
簡單來說就是告訴爬蟲說,我的網站有這個東西,但沒有必要把它當作搜尋結果提供給使用者點擊查看,因為它對搜尋意圖與目的是沒有任何幫助的。比如購物車與結帳畫面、會員登入與資料、隱私權政策、版權聲明…等。
想像一下,我們透過搜尋引擎搜尋「台北 伴手禮」,出現某個結果點進去後,出現的畫面不是商品,而是政策說明或會員登入,不覺得很莫名其妙嗎?當然,大多使用者也是這麼想的。
- 防止大部分的搜尋引擎編入索引:
<meta name="robots" content="noindex> - 防止特定搜尋引擎編入索引 (如Google):
<meta name="googlebot" content="noindex">
此指令需個別、單頁設定,比如網站有5個地方不需要被索引,就要設定5次、5個頁面。詳細可參考Google搜尋中心:中繼標籤
有些人可能會發現,不是可以用 robots.txt 來告訴爬蟲哪些頁面不用檢索嗎?這兩個功能還是有些不同的。
Noindex與robots.txt
- noindex
存在網站的個別頁面中,可以告訴爬蟲「這個頁面」不要檢索與索引。
- robots.txt
存在網站的根目錄中,告訴爬蟲不要檢索這「整個」網站,比如網站管理後台、特定資料夾內檔案與測試網站。
不過,因為robots.txt不是強制的指令,不是所有搜尋引擎都會遵守,因此使用robots.txt禁止爬蟲爬取網站內容,仍有可能未經檢索而不小心將該網址編入索引。
延伸閱讀:
robots.txt用途是什麼?讓爬蟲乖乖聽話的秘密
用nofollow聲明網站的無關連結
Nofollow 也是 html meta 元素上的一個值,用來告訴搜尋引擎不要追蹤特定的網站連結,也就是爬蟲看到nofollow時,就不會追蹤網站上的任何內部連結。
這通常用在網站中的評論與留言區,或是用戶可自由發表言論類型的網站,如論壇、社群媒體或留言板…等。
有這類功能的網站,容易吸引許多垃圾留言、廣告以及根本戰無關的連結,當一個網站大量充斥這種不必要的連結,就容易拉低網站的排名與品質,因此我們可以利用nofollow來告訴爬蟲說這些連結跟我們沒關係。
- 防止搜尋引擎檢索:
<meta name="robots" content="nofollow">
不過Google現已將 nofollow 改成爬蟲的參考標準,而非重要指標,請將使用者自製內容(留言或論壇)的連結標示為ugc,語法表現為:「rel="ugc"」。詳細請查看:說明連結限制
網頁中的隱私內容
想將網站的某些頁面提高隱私性,不僅要搭配語法限制使用,適當的加入驗證機制也是非常重要的,如會員帳戶設定、添加驗證機制、選擇可上鎖的工具或是添加功能來阻擋,都是提高隱私的辦法。
比如線上課程這種要付費才能上課的網站,影片要怎麼上鎖?除了語法上的設定以外,正確的選擇使用工具也非常重要,詳細可參考下方連結。
延伸閱讀:
如何在網站放隱私性高的影片?|YouTube與Vimeo哪個比較好?