“我看到很多排名不錯的網(wǎng)站,每個頁面中都使用了rel=canonical這個標簽,為什么這么做?我的網(wǎng)站里是否也應該使用這個標簽?”
自從開通了公眾號,很多朋友在公眾號中說出了自己關(guān)于SEO方面的疑問。大多數(shù)都是關(guān)于如何幫助搜索引擎更加有效地抓取我們的網(wǎng)站以及網(wǎng)站中的內(nèi)容信息這類的問題,這其實也就是一些規(guī)范型的問題。在具體解答問題之前,我先帶大家了解一些SEO方面很重要的基礎知識,主要是關(guān)于搜索引擎如何抓取我們的網(wǎng)站。
搜索引擎包括谷歌,都是使用爬蟲或者蜘蛛來抓取網(wǎng)站信息,這里的爬蟲或者蜘蛛,當然不是指的現(xiàn)實意義上的生物,它是對搜索引擎抓取工具的生動的形容詞。搜索引擎的爬蟲,會進入你的網(wǎng)站,然后通過網(wǎng)站中的各個鏈接,逐層深入進行抓取。
這種抓取工作不是無限制的,抓取網(wǎng)站的爬蟲也是一種資源,互聯(lián)網(wǎng)中的網(wǎng)站數(shù)量難以計數(shù),所以搜索引擎不會在每個網(wǎng)站上都花費很多的時間,難以識明的內(nèi)容、過深的鏈接結(jié)構(gòu)、過慢的網(wǎng)站加載速度等等,都會造成抓取的不完全。所以,保證網(wǎng)站的規(guī)范性和統(tǒng)一性會在很大程度上方便搜索引擎的抓取工作,也就最大程度上降低了網(wǎng)站不被抓取的幾率。
最基本的統(tǒng)一就是整個網(wǎng)站URL的統(tǒng)一性,無論是在網(wǎng)站內(nèi)鏈中,canonical標簽中,或者是網(wǎng)站地圖中。這些提到的因素會幫助搜索引擎更好地抓取你的網(wǎng)站,同時讓搜索引擎了解哪個頁面在你的網(wǎng)站中是比較重要的;雜亂的URL只會影響到搜索引擎的抓取,以及造成網(wǎng)站權(quán)重的分散浪費。
這種統(tǒng)一性的具體表現(xiàn),主要有以下幾個方面:是否采用www的形式,是否采用https,結(jié)尾是否使用尾部斜杠。某個URL確定好了形式,那么就全站統(tǒng)一。
搜索引擎的爬蟲抓取網(wǎng)站是自動的,但我們也可以通過robots.txt規(guī)則,noindex和Sitemap站點地圖里指定優(yōu)先級來影響它的抓取進程,讓它優(yōu)先抓取我們網(wǎng)站中的重要頁面,屏蔽掉不需要抓取的無用頁面。
統(tǒng)一好URL后,再對網(wǎng)站結(jié)構(gòu)進行規(guī)范。無論當下用戶在網(wǎng)站中的什么位置,盡量讓其在3次點擊的過程中進入網(wǎng)站中的任何其他頁面。確保整個網(wǎng)站結(jié)構(gòu)的清晰和實用性,這對于搜索引擎和用戶都有好處。
現(xiàn)在回歸正題,解答讀者這個問題。rel = canonical標簽是一個讓搜索引擎參考的信號,并不是指令。它主要的作用就是規(guī)范URL以及頁面版本,尤其是針對比較雷同的頁面,告訴搜索引擎哪個頁面或者說URL是最根本的那個。
給每個頁面添加規(guī)范標簽肯定是好的,但這個標簽如果沒有添加正確,反而容易讓搜索引擎懷疑你的規(guī)范性。比如,你的這個頁面URL是https的,并且使用了www和尾部斜杠:https://www.example.com/th/,而你在規(guī)范標簽里使用的確是:http://example.com/th,這種規(guī)范本身就是錯誤的。這種粗心的問題,經(jīng)常能在一些大的網(wǎng)站上發(fā)現(xiàn)。順帶說一句,在谷歌站長工具里添加網(wǎng)址的時候,也應該添加最規(guī)范的那個,如果使用了https和www,那就不能忽視掉,否則你得不到正確的統(tǒng)計數(shù)據(jù)。
在做SEO業(yè)務過程中,經(jīng)常也會碰到客戶網(wǎng)站不規(guī)范的問題,尤其是首頁的URL。通常是https://www.example.com,https://www.example.com/,https://www.example.com/index.html這幾個混用。其中,https://www.example.com/這種形式是最佳的,也是我方一直使用的統(tǒng)一形式,盡量避免使用包含index的首頁URL形式。
對于首頁不同URL版本之間的統(tǒng)一,rel=canonical這個標簽不是最好的選擇,最好是采用301重定向。另外,在網(wǎng)站地圖sitemap.xml里也要避免出現(xiàn)多個首頁URL版本,同時注意不要包含不存在的鏈接。不存在的鏈接出現(xiàn)在網(wǎng)站地圖中,會造成抓取錯誤。
為了讓搜索引擎能夠更快地識別網(wǎng)站地圖,你可以在robots.txt文件中添加:sitemap: https://www.example.com/sitemap.xml,其中sitemap:后面的地址是網(wǎng)站地圖在你網(wǎng)站中的確切位置。這個不是必須的操作,你也可以在谷歌站長工具中直接提交sitemap,也能夠讓谷歌盡快識別。
有什么想說的?歡迎評論留言
發(fā)表評論
Want to join the discussion?Feel free to contribute!
部分頁面加了canonical之后顯示Non-Indexable,這樣是正常的嗎?
不正常,添加Canonical不會導致Noindex