|
谷歌算法背后:一次搜索請求平均往返2400公里
您當前的位置 :中華龍都網(wǎng) >> 新聞中心 來源:新浪科技 | 2012-03-12 09:06:54 |
3月12日早間消息,谷歌(微博)完成一次搜索請求,時間不足一秒、平均往返距離卻要約2400公里。每天谷歌都有200多項改進算法的在線實驗,一個想法要通過多道考驗才能付諸執(zhí)行。而在個性化搜索日益重要的今天,谷歌算法改進也面臨著新的挑戰(zhàn)。
來自官方的數(shù)據(jù)顯示,從2003年到現(xiàn)在谷歌搜索已經(jīng)接受超過4500億個搜索請求。而用戶每天發(fā)出的搜索請求中,有16-20%是全新的關鍵詞。
一個基本的搜索過程分這樣幾步:提交搜索請求->發(fā)送->篩選分類->查找索引->選擇網(wǎng)頁->結果排名->結現(xiàn)結果。谷歌給出的解釋說,一個請求會被分發(fā)到數(shù)千個數(shù)據(jù)中心,然后根據(jù)關鍵詞進行匹配,再根據(jù)數(shù)百個指標對得到的數(shù)據(jù)進行排名。
這個復雜的過程通常在一秒內完成,但平均每個谷歌搜索的關鍵詞往返于用戶電腦和數(shù)據(jù)中心的距離約為2400公里(1500英里)。
“很多人認為谷歌已經(jīng)解決了搜索的問題,但是在谷歌看來搜索的發(fā)展才剛剛起步。如果說搜索是一本書,那谷歌才剛寫完了開篇”,谷歌工程總監(jiān)斯考特-霍夫曼(Scott Huffman)在談到搜索時說,十多年來谷歌搜索的算法一直在不斷改進。
每年谷歌搜索結果都會改變20-30%左右?;舴蚵闹饕ぷ髦?,就是對谷歌搜索質量進行評估,在他看來這個過程遠比外界看到的復雜。
以去年為例,在眾多的搜索算法改進構思中,有41831項進行了必要性評估,這其中又有9250項進行了小規(guī)模實驗,進而又有7363項進行了在線實驗,最終有520多項改進被付諸實施。霍夫曼總結谷歌改進算法的方式為:數(shù)據(jù)驅動、實驗評估。
谷歌搜索平均每時每刻都有200多項實驗在進行;而在評估的過程中,既會借助基于統(tǒng)計學搭建的模型,還依靠多種語言的獨立評估員。
霍夫曼表示谷歌搜索算法近期的主要改進,可以歸納為三個方面。
·新鮮度算法調整:在某些情況下,谷歌需要為用戶提供最新搜索結果,比如即時新聞、定期發(fā)生的重大事件以及內容頻繁更新的話題等。如果搜索“奧運會”,用戶會得到與即將舉辦的倫敦奧運會相關的最新搜索結果,而非關于1984年奧運會的陳舊信息。
·優(yōu)質網(wǎng)站算法調整:這對包含原始信息、研究調查、深度報道、精準分析等內容的高質量網(wǎng)站十分有利,提高了它們在搜索結果中的排名。
·頁面布局算法調整:這一改進關注用戶在點擊搜索結果后所看到的網(wǎng)頁布局,提升網(wǎng)頁信息的豐富程度 ,提高信息容易被搜索到的網(wǎng)頁的排名。
除此以外,谷歌還計劃將更多社交、移動、位置等信息元素,更好的與搜索進行整合。這一方面會讓搜索結果更加的個性化,但同時也給谷歌帶來新的難題:如何衡量并提升越來越個性化的搜索結果。此前的實驗方式必須有所調整。
霍夫曼對此解釋說,對于受個性化影響較大的因素,谷歌會采用更多的在線實驗方式進行考察。例如考察一個用戶的跳轉和停留時間,通過統(tǒng)計模型對相關數(shù)據(jù)進行分析、判斷。此外,還會在得到允許的情況下獲取評估員的個人信息,并據(jù)此改進搜索結果。
“新的算法改進想法往往是在解決問題時產(chǎn)生的”,霍夫曼說,目前谷歌在搜索算法開發(fā)上投入的時間,已經(jīng)超過1000人工年。
掃碼二維碼關注周口日報官方微信