網(wǎng)站在seo優(yōu)化中所要面臨的挑戰(zhàn)有哪些?
搜索引擎系統(tǒng)是比較復雜的計算系統(tǒng)之一。今天的主流搜索引擎服務(wù)提供商都是擁有財力和人力資源的大公司。即使有了技術(shù)、人力和財力的保障,搜索引擎仍然面臨許多技術(shù)挑戰(zhàn)。在搜索引擎誕生后的十多年里,技術(shù)取得了巨大的進步。我們今天看到的搜索結(jié)果的質(zhì)量比10年前要好得多。然而,這只是開始。搜索引擎必然會有更多的創(chuàng)新,提供越來越準確的內(nèi)容。
一般來說,搜索引擎將主要面臨以下挑戰(zhàn)。
互聯(lián)網(wǎng)是一個動態(tài)的內(nèi)容網(wǎng)絡(luò)。每天都有無數(shù)的頁面被更新和創(chuàng)建,無數(shù)的用戶在網(wǎng)站上發(fā)布內(nèi)容和交流。為了返回最有用的內(nèi)容,搜索引擎需要抓取的頁面。然而,由于頁面數(shù)量巨大,搜索引擎爬行器需要很長時間才能更新數(shù)據(jù)庫中的頁面。搜索引擎誕生時,抓取周期通常是在幾個月內(nèi)計算出來的。這就是為什么谷歌在2003年之前每個月都會進行重大更新。
現(xiàn)在主流搜索引擎能夠在幾天內(nèi)更新重要頁面,高權(quán)重網(wǎng)站上的新文件將在數(shù)小時甚至數(shù)分鐘內(nèi)被收錄。然而,這種快速收錄和更新只能限于高權(quán)重網(wǎng)站。許多頁面在幾個月內(nèi)沒有被重新抓取和更新也是很常見的。
為了返回結(jié)果,搜索引擎還必須抓取盡可能全面的頁面,這需要解決許多技術(shù)問題。有些網(wǎng)站不利于搜索引擎蜘蛛爬行和爬行。例如,網(wǎng)站鏈接結(jié)構(gòu)的缺陷,flash和Javascript腳本的廣泛使用,或者將內(nèi)容放在用戶登錄后才能訪問的部分,都增加了搜索引擎抓取內(nèi)容的難度。
一些大型網(wǎng)站在一個網(wǎng)站上有數(shù)百萬個頁面。你可以想象互聯(lián)網(wǎng)上所有網(wǎng)站的頁面加起來的數(shù)據(jù)量。搜索引擎蜘蛛抓取頁面后,還必須有效存儲這些數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)必須合理,具有很高的可擴展性,對寫入和訪問速度的要求也很高。
除了頁面數(shù)據(jù),搜索引擎還需要存儲頁面與大量歷史數(shù)據(jù)之間的鏈接關(guān)系,這是用戶無法想象的。據(jù)說谷歌擁有數(shù)十個數(shù)據(jù)中心和數(shù)百萬臺服務(wù)器。如此大規(guī)模的數(shù)據(jù)存儲和訪問必須面臨許多技術(shù)挑戰(zhàn)。
我們經(jīng)常在搜索結(jié)果中看到排名會無緣無故地上下波動。我們甚至可以刷新頁面以查看不同的排名。有時網(wǎng)站數(shù)據(jù)也可能丟失。這些可能與大規(guī)模數(shù)據(jù)存儲的技術(shù)問題有關(guān)。
搜索引擎抓取并存儲頁面數(shù)據(jù)后,還需要進行索引處理,收錄鏈接關(guān)系計算、正向索引、反向索引等。由于數(shù)據(jù)庫中有大量頁面,重復計算(如PR)也很費時費力。如果你想及時提供相關(guān)的、及時的搜索結(jié)果,僅僅抓取是沒有用的,你必須做大量的索引計算。隨著新數(shù)據(jù)和新頁面隨時添加,索引處理也應(yīng)該具有良好的可擴展性。
查詢是搜索引擎中普通用戶能看到的工作步驟。用戶在搜索框中輸入關(guān)鍵字,然后單擊“搜索”按鈕。通常,他們會在不到一秒鐘內(nèi)看到搜索結(jié)果。表面上最簡單的過程實際上涉及非常復雜的背景處理。在最后的查詢階段,最重要的問題是如何在不到一秒鐘的時間內(nèi)從數(shù)十萬、數(shù)百萬甚至數(shù)千萬個包含搜索詞的頁面中快速找到最合理、最相關(guān)的1000個頁面,并根據(jù)相關(guān)性和權(quán)限進行排列。
應(yīng)該說,前四個挑戰(zhàn)可以通過現(xiàn)有的搜索引擎很好地解決,但判斷用戶意圖仍處于初級階段。當不同的用戶搜索同一個關(guān)鍵字時,他們可能在尋找不同的東西。
目前,搜索引擎致力于根據(jù)用戶的搜索習慣和歷史數(shù)據(jù)判斷搜索意圖,并返回更多相關(guān)結(jié)果。未來,搜索引擎能否達到人工智能水平,真正理解用戶搜索詞的意義和目的還有待觀察。
想了解更多SEO新聞的內(nèi)容,請訪問:SEO新聞