何謂緩存頁面?
說到緩存頁面,相信對于SEO從業人員一定都不陌生,通常SEO從業人員不論是在操作Google或是Yahoo或是Bing搜索引擎時,都會透過個搜索引擎的緩存頁面來確認蜘蛛來訪的時間,以及整個頁面的關鍵詞分布情形。
在詳細說明之前,我們先來看看維基百科的定義:緩存頁面(英語:Web cache)又可稱為頁緩存檔、網頁快照是搜索引擎的一項特色功能。搜索引擎在收錄網頁時,對網頁進行備份,存在自己的服務器快取里,由于頁緩存檔是儲存在搜索引擎服務器中,所以檢視頁緩存文件的速度往往比直接存取網頁要快。頁緩存檔中,搜尋的關鍵詞用亮色顯示,用戶可以點選呈現亮色的關鍵詞直接找到關鍵詞出現位置,便于快速找到所需訊息,提高搜尋效率。
從哪里可以觀看緩存頁面?
當用戶輸入一段關鍵詞時,我們可以在Google搜尋列表頁(SERP)上看到許多筆數據,這時我們就可以點擊網站網址列旁邊的向下箭頭,來觀察頁緩存檔啰~~
圖一.Google搜尋風衣外套時的搜尋結果圖一.Google搜尋風衣外套時的搜尋結果圖二.Bing搜尋雪紡上衣時的搜尋結果圖二.Bing搜尋雪紡上衣時的搜尋結果
緩存頁面有哪些部份需要注意?
? 時間戳:可以提供SEO從業人員來判斷搜索引擎蜘蛛是否來訪過網站,以及何時來訪
? 關鍵詞分布狀況:從下面兩張圖可以觀察到Google與Bing的差異在哪,不過原本Google的緩存頁面與Bing是相似的,在上個月之前就被Google突然拿掉了,畢竟Google本身就不太推崇站長操作SEO了(笑)
圖三.Google緩存頁面圖三.Google緩存頁面圖四.Bing緩存頁面圖四.Bing緩存頁面
不過,相信上面的介紹已經是許多站長會使用的觀察方式,所以,以上純屬廢話(被毆),開玩笑的啦,我們還是要照顧一下業主或是剛踏入SEO領域的營銷人員啰(理直氣壯),但接下來我要談論的是在我操作的SEO過程中透過緩存頁面發現一些問題的經驗。
緩存頁面經驗談
案例一:我曾遇到一個狀況是,從緩存頁面里面發現網站為甚么原本有的天區(header)以及左側導覽都沒有被搜索引擎cache到(也就是說整個網站只存在產品介紹那個區塊),由于這個狀況會影響到頁面收錄的程度,所以必須要去找出原因為何!
圖五.網站架構示意圖圖五.網站架構示意圖
透過緩存頁面的原始碼,我們發現到由于網站宣告為DOCTYPE XHTML 1.0 Transitional規范,故本身語法的要求就比較嚴謹,所以XHTML所有標簽都必須閉合,也就是說開始標簽要有相對應的結束標簽。只有少數卷標是在開始卷標末尾加入斜線,比如<img … /> 、<br />。而原始碼當中就出現了上述的問題,<script>的呼叫語法缺少了閉合卷標,所以后方原始碼幾乎被認為是Javascript的程序代碼(搜索引擎蜘蛛會忽略),直到碰到下一組閉合</script>為止。
圖六.紅字為缺少的閉合標簽圖六.紅字為缺少的閉合標簽
案例二:最近在觀察Bing的搜尋結果頁面時發現到許多網站的緩存頁面顯示不完全,主要問題在于原始碼都不夠簡潔,現階段Bing的緩存頁面有限制大小的問題,所以當原始碼過長,后面的程序代碼就不會被緩存起來,也就是說在操做SEO的時候無法觀測到關鍵詞分布的情形。
圖七.momo購物網緩存頁面圖七.momo購物網緩存頁面
另外,此狀況對于使用ASP.NET技術制作的網站更為困擾,原因在于ASP.NET會產生一段又臭又長的__VIEWSTATE,當蜘蛛碰到__VIEWSTATE之后就不會在做緩存的動作。
圖八.OB嚴選緩存頁面圖八.OB嚴選緩存頁面
解決方法一:將__VIEWSTATE移至</form>之前,避免__VIEWSTATE過大導致速度變慢,以及變面搜索引擎找不到正確的數據。
解決方法二:禁用__VIEWSTATE的功能,但會犧牲掉ASPNET的方便性。
案例三:使用meta標簽來控制緩存頁面,最近有看到一個案例是使用meta中的Pragma以及cache-control來控制緩存頁面(如下圖),導致無法觀測到時間戳以及關鍵分布狀況,所以請務必小心使用此語法,不希望被搜索引擎Cache的頁面在使用即可。
圖九. meta卷標來控制緩存頁面語法圖九. meta卷標來控制緩存頁面語法
結論:其實緩存頁面對于SEO從業人員只是一個參考的指標,并非絕對,但就以案例二而言,雖然無法觀測到關鍵詞分布情況,但不代表搜索引擎真的沒有爬到內容,所以不必太過緊張,但須注意其中的一些微小細節,例如案例一的狀況,相信緩存頁面一定能夠幫助站長所多~ 轉自awoo SEO研究團隊
信息網址:http://www.respectj.cn/ziyuan/view15940.htm