80后的互聯(lián)成長(zhǎng)錄(九):偉大的搜索引擎

2015/02/21 14:23     

SEO

鈦媒體注:80后這一代人可以說(shuō)是伴隨著中國(guó)互聯(lián)網(wǎng)的成長(zhǎng)而長(zhǎng)大的。他們經(jīng)歷過(guò)互聯(lián)網(wǎng)行業(yè)怎樣的發(fā)展?他們?cè)趺纯?、怎么想?鈦媒體作者白鼠窩推出“80后的互聯(lián)成長(zhǎng)”系列文章,在鈦媒體獨(dú)家連載(鏈接地址:http://www.tmtpost.com/author/baishuwo),本文是第九篇:

上一篇講到了醫(yī)院熱衷SEO這個(gè)事,而這都和搜索引擎的存在有關(guān),這篇來(lái)講講和搜索引擎相關(guān)的一些東西。

當(dāng)我開(kāi)始可以上網(wǎng)時(shí),怎么找到你需要的信息就成了一個(gè)很大的問(wèn)題。你知道網(wǎng)上有很多的東西,但你卻不知道它在哪里。這時(shí)候偉大的搜索引擎就可以救你于水深火熱之中。

如同之前所說(shuō)的,剛開(kāi)始上網(wǎng)時(shí),主要是通過(guò)門(mén)戶網(wǎng)站上的超鏈接(就是點(diǎn)擊了會(huì)跳到另外一個(gè)網(wǎng)頁(yè)的文字或圖片)來(lái)瀏覽網(wǎng)絡(luò)。超鏈接的確是互聯(lián)網(wǎng)中簡(jiǎn)單卻又異常有用的發(fā)明。通過(guò)超鏈接,成千上萬(wàn)的網(wǎng)頁(yè)得以互聯(lián)連接。通過(guò)不同的組織方式,人們可以更好的瀏覽內(nèi)容,發(fā)現(xiàn)相關(guān)內(nèi)容,鏈接廣告還可以用來(lái)變現(xiàn)等等。

但超鏈接也有很大的局限性,如果你只是在一個(gè)內(nèi)容相對(duì)集中的站點(diǎn)中瀏覽,那么超鏈接可以給你很好的指引。但如果你想在茫茫的互聯(lián)網(wǎng)上找到相關(guān)的內(nèi)容,單純的超鏈接似乎就力不從心了。當(dāng)你從一個(gè)頁(yè)面進(jìn)行了10幾次跳轉(zhuǎn)還沒(méi)找到相關(guān)內(nèi)容的時(shí)候,估計(jì)你就完全沒(méi)有耐心繼續(xù)尋找了。

搜索引擎的出現(xiàn),就幫人們解決了互聯(lián)網(wǎng)上的定位問(wèn)題。通過(guò)搜索引擎,只需要相應(yīng)的關(guān)鍵字,你就可以很容易的早點(diǎn)相關(guān)的內(nèi)容,而不需要通過(guò)似乎無(wú)止境的超鏈接導(dǎo)航一層一層的走。

當(dāng)然,搜索引擎并不是孤立存在的,能使搜索引擎存在的基礎(chǔ)便是超鏈接的存在。搜索引擎能完成搜索最重要的兩個(gè)核心要素——信息抓取和信息排序,都離不開(kāi)超鏈接。

搜索引擎依靠一種叫做“爬蟲(chóng)”(spider)的程序在互聯(lián)網(wǎng)獲取信息。之所以稱之為“爬蟲(chóng)”就是因?yàn)檫@個(gè)程序會(huì)順著它獲得到的超鏈接一直“爬”,正是由于互聯(lián)網(wǎng)超鏈接的互通性,從一些大的站點(diǎn)或者一些重要的導(dǎo)航站(目錄站)出發(fā),爬蟲(chóng)就有可能通過(guò)這些千千萬(wàn)萬(wàn)的鏈接走遍整個(gè)互聯(lián)網(wǎng)。

搜索引擎的爬蟲(chóng)在”爬“到相應(yīng)的網(wǎng)站時(shí),就會(huì)將該網(wǎng)站存到自己的數(shù)據(jù)庫(kù)中,以便搜索排序之用。就是說(shuō),想要實(shí)現(xiàn)真正的搜索,搜索引擎廠商需要將幾乎整個(gè)互聯(lián)網(wǎng)都裝進(jìn)自己的服務(wù)器中。

為了存儲(chǔ)這些數(shù)據(jù),搜索引擎公司需要有大量的服務(wù)器。谷歌中國(guó)前技術(shù)總監(jiān)周杰在2008年的一次會(huì)議上曾經(jīng)透露過(guò)Googl擁有的服務(wù)器數(shù)量級(jí),他說(shuō)“Google的服務(wù)數(shù)量大約相當(dāng)于美國(guó)第三大PC生產(chǎn)商。”雖然不知道具體數(shù)據(jù),我們還可以從另外一個(gè)側(cè)面來(lái)看谷歌的數(shù)據(jù)中心規(guī)模,據(jù)谷歌公布的數(shù)據(jù)顯示,谷歌全球能源消費(fèi)達(dá)到2.6億瓦特,這相當(dāng)于弗吉尼亞州首府里士滿或者加州歐文市家庭用戶的所有用電量,或者說(shuō),這相當(dāng)于一座標(biāo)準(zhǔn)核電站1/4的輸出功率。大多數(shù)數(shù)據(jù)報(bào)告都認(rèn)為谷歌是世界上擁有最多服務(wù)器的企業(yè)。

當(dāng)然,僅僅是儲(chǔ)存這些數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,搜索的目的就是要找出最符合用戶需求的網(wǎng)頁(yè)。這時(shí)候搜索引擎就需要對(duì)不同的網(wǎng)頁(yè)進(jìn)行排序,而這個(gè)排序的基礎(chǔ)也是通過(guò)超鏈接計(jì)算出來(lái)的。

簡(jiǎn)單來(lái)說(shuō),搜索引擎的排序基礎(chǔ)算法是這樣的:大多數(shù)網(wǎng)頁(yè)都有超鏈接鏈向它,或者它會(huì)鏈向別人,而這種鏈接可以被認(rèn)為是每個(gè)網(wǎng)頁(yè)對(duì)其他網(wǎng)頁(yè)質(zhì)量好壞的投票。搜索引擎認(rèn)為,如果有大量的鏈接鏈向某個(gè)頁(yè)面,那這個(gè)頁(yè)面就是受歡迎的,就應(yīng)該在搜時(shí)被排在前面。反之沒(méi)有人鏈接的網(wǎng)站就是不受歡迎的。當(dāng)然,搜索引擎還會(huì)考慮關(guān)鍵字匹配程度、鏈接網(wǎng)頁(yè)本身的質(zhì)量等多種因素,但大體上其工作原理就是上面所說(shuō)的那樣。

正是由于搜索引擎的工作原理是通過(guò)超鏈接實(shí)現(xiàn)的,就可以理解大多數(shù)網(wǎng)站為什么那么喜歡交換友情鏈接了。因?yàn)樵龌ハ嚅g的鏈接是可以提高網(wǎng)站在搜索引擎的排名的。當(dāng)然如果你沒(méi)有那么多“友人”的話,你還可在網(wǎng)上找到很多賣“友鏈”的人的,他們會(huì)很“友好”的告訴你每條鏈接的價(jià)錢(qián)。

直接賣鏈接,是比較初級(jí)的做法。因?yàn)榧词褂墟溄樱Ч趺礃訉?shí)在難以衡量。在搜索引擎稱霸互聯(lián)網(wǎng)以后,就出現(xiàn)了一種特殊的工種——SEO(搜索引擎優(yōu)化)。SEO的職責(zé)就是讓網(wǎng)站的排名在搜索引擎里盡量靠前,這樣你的網(wǎng)站就有可能被跟多的人訪問(wèn)到。正如上一篇所說(shuō)的,很多網(wǎng)站會(huì)有專門(mén)的SEO人員來(lái)優(yōu)化自己網(wǎng)站的排名。

圍繞搜索引擎,有很多相關(guān)的上下游產(chǎn)業(yè)。這邊就不一一展開(kāi)去了。當(dāng)你知道搜索引擎的大概工作原理,你就能大概理解這些行當(dāng)都是做什么的。

回到搜索引擎本身,如上面提到的,要從成千上億條數(shù)據(jù)中快速找出需要的頁(yè)面并完成排序,這在技術(shù)上也并不是一件容易的事情,調(diào)度上萬(wàn)臺(tái)機(jī)器的資源可不容易,包括微軟、雅虎在內(nèi)的企業(yè)都曾經(jīng)在搜索引擎上摔過(guò)跟頭。

搜索引擎在基礎(chǔ)設(shè)施投資和技術(shù)門(mén)檻上都可以說(shuō)是一件門(mén)檻非常高的事,但于此同時(shí)搜索引擎又有著一種令人著迷的盈利模式,這讓很多企業(yè)都對(duì)引擎業(yè)務(wù)趨之若鶩。(本文獨(dú)家首發(fā)鈦媒體)

【鈦媒體作者介紹:葉元,微信公眾號(hào)“白鼠窩”(baishuwo)】

相關(guān)閱讀