網(wǎng)站優(yōu)化:搜索引擎在抓取、索引和排名時會遇到哪些問題
網(wǎng)站優(yōu)化如果我們從搜索引擎蜘蛛的角度去看待一個網(wǎng)站,在抓取、索引和排名時會遇到哪些問題呢?解決了這些問題的網(wǎng)站設計就是搜索引擎友好的。
1.搜索引擎蜘蛛能不能找到網(wǎng)頁
要讓搜索引擎發(fā)現(xiàn)網(wǎng)站首頁,就必須要有外部鏈接連到首頁,找到首頁后,蜘蛛沿著內部鏈接找到更深的內容頁,所以要求網(wǎng)站要有良好的結構,符合邏輯,并且所有頁面可以通過可爬行的普通HTML鏈接達到。JavaScript鏈接、Flash中的鏈接等搜索引蔡蜘蛛一般不能跟蹤爬行,就會造成收錄問題。
網(wǎng)站所有頁面離首頁點擊距離不能太遠,最好在四五次點擊之內。要被搜索引擎收錄,頁面需要有最基本的權重,良好的網(wǎng)站鏈接結構可以適當傳遞權重,使盡量多的頁面達到收錄門檻。
2.找到網(wǎng)頁后能不能抓取頁面內容
網(wǎng)站優(yōu)化:搜索引擎在抓取、索引和排名時會遇到哪些問題 被發(fā)現(xiàn)的URL必須是可以被抓取的。數(shù)據(jù)庫動態(tài)生成、帶有過多參數(shù)的URL、Session ID、整個頁面是Flash、框架結構(frame)、可疑的轉向、大量復制內容等都可能使搜索引擎敬而遠之。
某些文件站長可能不希望被收錄,除了不鏈接到這些文件,更保險的方法是使用robots文件或meta robots標簽禁止收錄。
3.抓取頁面后怎樣提煉有用信息
關鍵詞在頁面重要位置的合理分布、重要標簽的撰寫、HTML代碼精簡、起碼的兼容性等可以幫助搜索引擎理解頁面內容,提取有用信息。這部分在第5章“頁面優(yōu)化”部分再深入討論。
只有搜索引擎能順利找到所有頁面,抓取這些頁面并提取出其中真正有相關性的內容,網(wǎng)站才可以被視為是搜索引擎友好的。
網(wǎng)上搜索引擎不友好的網(wǎng)站比比皆是,尤其是一些中小企業(yè)網(wǎng)站。不過這樣的網(wǎng)站不太好舉例,沒得到網(wǎng)站主人的許可就當做負面案例討論非常不恰當。在寫本節(jié)時剛好在zaccode.com網(wǎng)站看到一個會員詢問搜索引擎不收錄他們的內頁是怎么回事。筆者點擊過去看了一下,不由得驚呼,這個網(wǎng)站簡直是集搜索引擎不友好之大成,是個相當不錯的反面教材。在得到網(wǎng)站所有人正式許可后,在這里作為例子簡單介紹。
網(wǎng)站域名是lyez.com,南昌良良母嬰用品有限公司,一個母嬰保健及家居用品企業(yè)網(wǎng)站。應該說網(wǎng)站視覺設計還是不錯的,然而從SEO角度看,簡直就是個“杯具”。首頁抓圖如圖4-1所示。
搜索引擎蜘蛛訪問首頁后,完全沒有任何一個鏈接能通向內頁,倒是有指向網(wǎng)站設計服務商及備案網(wǎng)站的鏈接。搜索引擎既不能抓取和索引Flash中的文字內容,也不能跟蹤鏈接爬到內頁。如果不給內部頁面直接造些外鏈的話,整個網(wǎng)站能被收錄的基本上只有首頁一個頁面,其內容還不能被索引。
網(wǎng)站優(yōu)化:搜索引擎在抓取、索引和排名時會遇到哪些問題 看起來設計不錯??上У氖?,除了左下角的新聞中心部分,頁面上的其他文字、圖片還是一個大Flash,包括頂部的導航條。所以就算站長給這個嬰兒用品頁面造一些外鏈,收錄又到此為止了。企業(yè)概況、商品中心、在線商城等重要部分的頁面還是沒有任何爬行通路。
左下角的新聞中心設計也有些奇怪,鼠標放上去時才顯示鏈接,而且只顯示了一半。