關於 Google Search Console 收錄我所知道的7件事 | 文章 – 滙豐機滙

Google Search Console 是做 SEO 不可或缺的工具,可以協助我排列做 SEO 的優先次序。這一篇主要教大家如何睇GSC收錄。
營銷  ·    ·  13 mins read

coverage-in-GSC

Google Search Console 是做 SEO 不可或缺的工具,特別是網站有一定規模的話。一個有 60萬頁面的網站,你是不可能逐頁檢頁的。若你的網站頁面比較多或有相當規模的話,這個部份相對重要。

曾經有一個客戶頁面數量多達 10 萬頁,但有超過一半頁面並沒有被 Google 收錄,白白浪費了頁面優化的努力,而我們也是透過這裡找到蛛絲馬跡來解決問題。

最近有個查詢是生意買賣平台,我們發現了很多新盤均沒有被 Google 收錄,問題是客戶花了相當時間礬理盤路內容。

以下部份集中在  GSC 的 Coverage 涵蓋範圍部份。

這個部份想寫已久,GSC 的提示相當多,這編會講解我曾經遇到過的問題及處理方法,但因為不少提示狀態真的要解決過才敢寫,所以花了相當長時間撰寫,其他未遇過的問題希望之後有機會補充。

******

若要改善這部份的表現,建議跟你的程式員合作去處理,最好也包括網站一開始建立時參與的同事協助,很多時我們在建立網站時的某些指令是刻意安排的。

Google Indexing 收錄狀態

做過 SEO 的話,應該會感到千頭萬緒,因為可以優化的事項相當之多,但應該從可入手呢?

GSC 的這個部份是協助我排列優先次序的工具之一。

先給一個心理準備,網站頁面數量越大,出現提示狀態的情況會越多,而這個除錯的過程是永不止息的。

不少客人找 SEO 公司時希望一次過清除所有錯誤,但礙於 GSC 的限制,每次也只能處理 1000 個有問題頁面。當這 1000 個頁面問題解決後,才會出現他可能有問題的頁面,所以處理時間可以很長。(之前有一個客人,我們花了足足8個月處理)

以上網站有600萬有效頁面,也因此可能出現的問題都會比較多,Coverage 基本的提示狀態有 4 個分別是 (按重要程度)﹕

  1. Error
  2. Valid with Warning
  3. Valid
  4. Excluded


Error (錯誤)

Error 就是 Google 覺得網站出現錯誤的地方,每一個 Error 理論上都是要解決的。根據經驗,這些 Error 絕大部份時間都是正確的,越快解決越好﹕

Submitted URL not found (404)

最常見的 Error 404,即 Google 發現頁面已經不存在。Error 404 很多時都是跟頁面已經移除有關。

若你已經知道頁面是真的移除,記緊從網站地圖移除。

若只是頁面一時出現問題,處理完後,記緊要再次提交 Google 檢查。

Server error (5xx)

這個錯誤指令是 Google 在抓取你網站內容時,伺服器出現錯誤。

解決方法﹕

到你的伺服器調查是否有問題,若檢查時發現運作正常,可以再問一下伺服器公司有否 traffic log 能提供。

曾經有一個情況是,客戶的網站主打歐美,流量高峰是在本港凌晨,當太多人進入網站,伺服器便會不勝負苛,未至於去不到網站,但伺服器反應時間過長,令 Google 誤以為伺服器出現問題。問題在我們查詢伺服器的時間卻在本地中午,伺服器並沒有任何異常情況出現。

在 SEO 的角度,這個問題會令 Google 覺得網站的穩定性不足,有可能會出現間歇性主要關鍵字消失致搜尋結果當中。

Submitted URL marked “noindex”

現在很多人都懂得替網站提交網站地圖,有部份 CMS 或插件更會每天更新網站地圖,令 Google 更清楚知道網站有些什麼頁面。

惟有時在提交的頁面下了 "noindex”的指令,即叫 Google不要把頁面收錄 – 為什麼會出現這個情況呢?

有2個情況可能出現﹕

  • 當有頁面新建立時,程式員不想未完成的頁面被搜尋者找到,於是加入上述設定,但在正式發佈後又忘記把指令移除,便有可能出現上述情況。
  • 有些頁面根本不想或不需要被 Google收錄,例如付費頁面、會員資料頁面、重覆頁面,所以故意設定上述指令,但又忘記從網站地圖移除,便有可能出現上面情況。

解決方法﹕

你要先確定頁面應否被收錄。很多人認為當然是越多頁面被 Google看到越好,但我自己看近來的更新 2021 年6-7 月的 Spam 更新,似乎對於內容質素更看重。

個人在決定頁面應否被收錄時會採取質素先行,只收錄有價值的內容,曾經分享過我大幅把內容由 300 多編內容刪減到不足 100 編,原因也在此。

Submitted URL Seems to be a soft 404

Soft 404  指你在網頁中告訴瀏覽者網頁已經不存在,但你又同時告訴 Google 網頁已經不存在。這個情況經常會出現在電商頁面或平台類型網站。

電商的情況出現主因在產品頁下架,為了不想令瀏覽者離開,不少電商保留此頁,同一時間告訴瀏覽者可以繼續瀏覽其他產品。

理論上,用戶體驗是好的。但千萬記得 Soft 404 Page 的數量不能太多。

製作 Soft 404 頁面要注意的一件事﹕不要加入大量連結在其中

試過有客人,基本上把網頁所有分類均放入這個 Soft 404 頁面,結果 Google 每次到來會從新抓取所有連結,用盡了 Google 給這個網站的抓取預算 (Crawl Budget),結果是新的產品頁經常遲於對手被收錄。

想像一下每次 Google 到你的網站都出現這個頁面,每次都要重新抓取,下次便可能不再分配資源到你的網站。

另一個情況是 Google 會誤判,頁面內容太少 (thin content)令 Google 誤以為頁面沒有內容。

有些系統的設置中會出現同一件產品,不同顏色會有一個新頁面,而 Google 有可能會判斷為對瀏覽者沒有意義的內容而定義為 Soft 404。

另一個更常出現的情況是 WordPress 會自行產生不少頁面,例如 tag page ,Category page,但內容非常少,也會導致上述情況。

解決方法﹕

當出現 Soft 404 這個提示時,我會先留意數量,再留意是否特定類型頁面。

若頁面已經不存在 (如電商不再番貨的頁面),我會直接用 301-redirect 把這個頁面連去相關頁面。除了不再出現 Soft 404 提示外,原有頁面的 SEO 權重亦可以傳到新的頁面上。

在 WordPress 上出現 tag page 等頁面則可以利用 SEO 插件如 Yoast SEO 控制是否被收錄。

Submitted URL blocked by robot.txt

這個錯誤提示即發現網站地圖內有提交連結,但你的 robot.txt 文件則要求 Google 機械人略過這些連結,構成錯誤。

這個性況很多時都是在一開始設計網站結構時沒有好好構想整個結構,以致當有新內容加入時,誤放入錯誤的位置。

舉個例子,有間賣極限運動用品的網店,把不同的產品分類,並有一個特別系列是 VIP 才有資格購買,因此不想外部搜尋者找到這些頁面。於是,Programmer 在設定時會叫 Google 的機械人不要抓取 VIP 這個部份。

然後一天,Marketing Manager 開始要做內容行銷,於是寫了一篇極限運動裝備的精選文章,然後在網站發佈。

可因為一開始沒有預計會有類以網誌的功能,於是把文章放在 VIP 這個檔案內,同時把這個最新連結加到網站地圖,錯誤會由此而來。

像上面 Walmart的例子,它有很多部份都不允許 Google 的機械人抓取,有時你會無意識地把新內容加入到這些檔案後,出現這個錯誤。

解決方法﹕

想一想你的內容是否放在不應被 Google 抓取的部份,最簡單的就是把它搬離這個部份。

清除錯誤

每一個錯誤 Google 均會列出錯誤出現的連結,只要在提示按下便可以檢查有問題的連結作出處理。

GSC 會根據時間顯示最新發現的錯誤,例如我在錯誤為 「Submitted URL marked “noindex”」那裏按下,便可以找出相關的連結,逐個檢查。

像我這種頁面數量多的網站,最重要的是找出模式,即出現這個錯誤是否特定類型頁面。

修正時間

可能你已經加入了 301 轉向、也移除了 所有404 頁面,但 Google 並不會立即更新這個狀態的,有時可能要1至2個星期先會顯示,所以,有一點耐性吧!

你也可以主動提交給 Google 檢查。

你可能會遇到一個情況是清極都清唔完,這可能因為 Google 每一次抓取都不是整個網站來的。例如網站有10000頁,可能今日只抓6000頁,另有4000頁可能有潛在問題未抓,所以當時當刻你的 GSC 並沒有顯示出來。


Valid with Warnings (有效頁面但有警告)

這個表示有效被修錄的頁面,但可能會出現問題,要留意一下。

Indexed, though blocked by robots.txt

明明已經在 robot.txt 告訴 Google 的機械人不要抓取某些頁面 (不抓取原意就是不想被收錄),為何 Google 仍然會收錄呢?

Google 的抓取機械人會從網站內部的相互連結 (internal links)走來走去,有時,就算頁面沒有被提交到網站地圖,Google 也會找到這些頁面而作出收錄。

上述指令情況出現有可能是某些頁面雖然被 robots.txt 擋住,但網站內部的相互連結均連到這個被擋住的頁面,令 Google 懷疑這個指令是否出錯,是否也應該被收錄,也因此把這個頁面收錄。

解決方法﹕

你要先檢查這些頁面,若真的是刻要不想讓 Google 抓取的話,最好把 noindex tag 加到頁面。


Valid (有效頁面)

Submitted and Indexed

Valid 的意思為有效,即有效被收錄的頁面,要留意的是 — 否大部份最重要的頁面已被收錄就好。(100% 收錄是不可能的,容後解釋)

Indexed, not submitted in sitemap

這個意思是 Google 在你的網站中找到一些頁面,但這些頁並沒有提交到網站地圖。

你可能會覺得 Google 幫了你一把,的確是,但……也可能揭示了一個問題 –

「你可能有很多很多頁面沒有加入到 Sitemap,而 Google 同時亦找不到,所以並沒有收錄」

客戶是一個旅遊網站,分類為5大洲,可能一開始的設定錯誤,所有歐洲的頁面並沒有加入網站地圖,以致很多歐洲的地方都沒有被收錄,白白流失了很多流量。

不妨按入這個 「indexed, not submitted in sitemap」來檢查一下會否有特定類型頁面出現在這個提示上。

有兩個更常出現在電商的情況是 – 系統產生了很多內部搜尋頁面

內部 Filter

不少電商網站為了方便客人都會有一個內部搜尋器,讓客人更易找到所需產品,為每一種產品提供篩選條件,例如上面可能出現的「屏蒿大小」「Touch screen」「像素」等。

原來的 URL 可能會由 https://www.camera.hk/shop/cameras/,根據篩選條件的不同生產出一個新頁面﹕

  • https://www.camera.hk/shop/cameras#category_id=128&page=1&path=1257&sort=p.sort_order&order=ASC&limit=50
  • https://www.camera.hk/shop/cameras##category_id=1257&route=product%2Fcategory&min_price=1880&max_price=13980
  • https://www.camera.hk/shop/cameras##category_id=1257&&manufacturer%5B%5D=785&manufacturer%5B%5D=284

4個頁面內容一樣 (事實上有無限多組合),Google 也同時間收錄了。

若你是 Google,那一個頁面展現給讀者最好?

根據經驗,很隨機,但衍生了一個問題 – 原頁面的 SEO 強度會被削弱了

內部搜尋器

另一個情況是內部搜尋器所產生的頁面,打個比喻,有朋友想揾 「Tempo 紙巾」。

但每個搜尋者的用字都可能略有不同 「Tempo 紙巾」、「Tempo 」、「Tempo 紙巾 36包」、「tempo 紙巾味道」

很可能系統都明白搜尋者其實是在找同一樣產品,但結果會產生了 4 個頁面

abcshop.com/route=product/search&search=tempo

abcshop.com/route=product/search&search=tempo 紙巾味道

abcshop.com/route=product/search&search=Tempo 紙巾 36包

.........

解決方法

一定告知 Google 那一個頁面才是真正想收錄的頁面,利用 Canonical Tag 便可以做到了。

詳情可參閱 <<如何用標準網址Canonical Tag處理重複性內容、與301轉址的差異>>

為何不是全部頁面都被收錄,明明已經加入到了網站地圖?

Google John Muller 講過,Google 理論上不會收錄網站的全部頁面,事實上很多網站也只是 80% 的頁面會被收錄。

但假若你發現很多頁面也沒有被收錄,可能的原因有 2個﹕

  1. 網站的 Crawl Budget 不足
  2. 網站的質素不夠高

參考文章: Google not indexing my site

一定告知 Google 那一個頁面才是真正想收錄的頁面,利用 Canonical Tag 便可以做到了。

詳情可參閱 <<如何用標準網址Canonical Tag處理重複性內容、與301轉址的差異>>

為何不是全部頁面都被收錄,明明已經加入到了網站地圖?

Google John Muller 講過,Google 理論上不會收錄網站的全部頁面,事實上很多網站也只是 80% 的頁面會被收錄。

但假若你發現很多頁面也沒有被收錄,可能的原因有 2個﹕

  1. 網站的 Crawl Budget 不足
  2. 網站的質素不夠高

參考文章: Google not indexing my site

網站的 Crawl Budget 不足

主要出現在大型網站 (我也多次提及在做大型網站 SEO 要留意的部份) — 可能是新聞網站、大型 E-commerce網站,每天也有新內容、新產品。

因為頁面真的太多,Google 給你網站的抓取預算不足,以致未能抓到全部新頁面。

若你的網站的頁面數量少,但相當數量頁面不被收錄,那應該不是Crawl Budget 問題,而是整體上網站質素不夠高。

網站的質素不夠高

假設你的網站有50頁,其中只有20頁被收錄,在 Google的眼中,很多頁面不值得被收錄。

有兩個做法可以考慮﹕

  • 提高網站內容質素
  • 主動告訴 Google 那些頁面不應被收錄

不要貪心

有些舊的 SEO 操作手法或系統是為每個長尾關鍵字產生一個新頁面,除了關鍵字有些許分別外,99.9% 的內容是一模一樣的。原意是想令 Google更清楚每頁的關鍵字,但 Google 已經進化了,這招不管用之餘,Google 還會認為你整個質素都相當的低。

因為 Google 對語意的掌握已經去到頂尖了,不要打算這用這個方向了。


Excluded

Exclude 的意思是排除,即要求 Google 把頁面排除在 Google 的資料庫內。

有很多指令都會列入 excluded 這個部份,包括 「Page with redirect」、「Alternative page with proper canonical tag」、「Excluded by “noindex” tag」、「Blocked by robots.txt」,而上述指令很多也是 SEO 人或程序員刻意加入的,目的多是去除不必要收錄的網頁,令權威性提高。

很多人對這個部份會忽略,因為沒有「紅」色標示。但這個位我覺得重要性卻很高。

有一個客人是做生意買賣,於是寫了很多教學,但奇怪一點流量也沒有。

原來是客人一開始叫 Programmer 在設置網誌的部份時下指令 – 等多一點文章發佈後才被索引。Programmer 於是在網誌的部份全部設置為 “noIndex” ,即不要被收錄

這期間 Programmer 離了職,也沒有請一個新的人,結果整整一年也沒有留意出現這個低級錯誤,而我們也是在這個部份找出原因的,並要求 Google 重新檢索。

在我而言,每個提示指令我都會檢查一次,確保有些指令不是手誤

Crawled – Currently not indexed

有兩個提示狀態值得注意 「Crawled – Currently not indexed」及 「Discovered – Currently not indexed」

兩個狀態都表示 Google 並沒有把頁面收錄,其中的分別在於「Crawled – Currently not indexed」表示 Google 的 robot 已經抓取了其中的內容,但決定暫時不收錄。

發生這個情況的原因很多,可能是內容不夠不足、或重覆,就是 Google 覺得內容沒有被收錄的需要。

若你發現網站中很多頁面都有上述情況,你要做的應該是加強內容、或索性主動叫 Google 不用收錄這些頁面。

Alternative page with proper canonical tag

為了減少浪費資源,我們經常會設定 Canonical,目的在提示 Google這個頁面的原創位置連結,Google 只要收錄原創內容連結就好。

Duplicate, submitted URL not selected as canonical

這裡想強調的是 Google 現在判斷重覆內容越來越快,當發現內容相似,便不會收錄。若你發現數字相當高,則 Google 已經把你整體網站質素判斷為不太好了。


總結

雖然 GSC 這個部份很有用,但有部份老闆會覺得「零」錯誤,以致做死同事或 SEO 公司。根據經驗,不要忘記 Coverage 只是解決了收錄的部份,並沒有顧及用戶體驗、內容、反向鏈結,所以只可以說 Part of the SEO。

我試過做過一個媒體網站,在開發時已經存在先天缺憾,修改不了,但同時亦見過不少網站這個部份還有很多問題,網站排名依然相當不俗,所以,盡能力處理便可以,真的不需要零瑕疵。

Ringo Li
Ringo Li
Owlish Online Limited
Owlish Online Limited