數(shù)據(jù)庫不能承受之重 大數(shù)據(jù)落地人才最緊缺

2012/09/11 07:47      鄒大斌

  成立于2008年的Vpon威朋是一個(gè)移動(dòng)廣告公司,其主營業(yè)務(wù)是接受廣告主委托在其合作方推出的移動(dòng)App上發(fā)布廣告。上個(gè)月Vpon威朋推出了一款名為3S(Sales Supporting System)的系統(tǒng)廣告分析系統(tǒng),這是一套建立在Hadoop平臺(tái)上的大數(shù)據(jù)挖掘、分析及處理系統(tǒng)。這套系統(tǒng)最大作用就是能精確地統(tǒng)計(jì)和分析用戶點(diǎn)擊移動(dòng)應(yīng)用的時(shí)間、地點(diǎn)和各種偏好,從而幫助廣告主做出更有效的廣告投放決策。成立于2009年的北京百分點(diǎn)信息科技有限公司(以下稱百分點(diǎn))也在做與Vpon威朋類似的事情。百分點(diǎn)推出了一種名為個(gè)性化搜索引擎的工具,電子商務(wù)網(wǎng)站可以利用它來分析訪客的點(diǎn)擊行為,找出訪客的偏好、進(jìn)行產(chǎn)品推薦。同樣,這個(gè)搜索引擎也是基于Hadoop開發(fā)。

  在互聯(lián)網(wǎng)領(lǐng)域,像Vpon威朋、百分點(diǎn)這樣利用Hadoop等利用大數(shù)據(jù)相關(guān)技術(shù)進(jìn)行訪客點(diǎn)擊行為分析來開展業(yè)務(wù)的公司越來越多,其中有一大批對(duì)新興技術(shù)敏感的初創(chuàng)公司,同時(shí)也不乏像Google、Facebook這樣著名的互聯(lián)網(wǎng)公司。

  事實(shí)上,“大數(shù)據(jù)”這股發(fā)端于互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)分析熱潮如今已經(jīng)超出了互聯(lián)網(wǎng)領(lǐng)域,部分敢于“嘗鮮”的傳統(tǒng)企業(yè)已經(jīng)開始部署大數(shù)據(jù)相關(guān)技術(shù)。根據(jù)IDC最新發(fā)布的全球大數(shù)據(jù)市場(chǎng)預(yù)測(cè),大數(shù)據(jù)將從2010年的32億美元增長至2015年的169億美元,年復(fù)合增長率達(dá)到40%。對(duì)市場(chǎng)前景的良好預(yù)期吸引投資者們也紛紛投身其中,目前對(duì)于大數(shù)據(jù)的風(fēng)投資金已超過5億美元:去年年底Hadoop版本的主要發(fā)布者Cloudera獲得4000萬美元投資;Cloudera的競(jìng)爭(zhēng)對(duì)手,另一個(gè)Hadoop版本發(fā)布者——MapR獲得了2500萬美元的投資;NoSQL數(shù)據(jù)庫廠商10Gen(MongoDB的供應(yīng)商)和DataStax(Cassandra的供應(yīng)商)分別獲得了3200萬美元和1100萬美元的融資;今年4月剛剛在納斯達(dá)克進(jìn)行IPO,融資2.3億美元……這個(gè)名單可以列得很長。

  很顯然,在市場(chǎng)研究機(jī)構(gòu)和投資者看來,大數(shù)據(jù)市場(chǎng)現(xiàn)在是如日中天,其熱度甚至大有蓋過云計(jì)算之勢(shì)。與此同時(shí),“大數(shù)據(jù)是大忽悠、大謊言”的說法也不絕于耳。紛紛擾擾的市場(chǎng)宣傳中,我們究竟該如何認(rèn)識(shí)大數(shù)據(jù),大數(shù)據(jù)到底是大機(jī)遇還是大騙局?

  迎來大數(shù)據(jù)時(shí)代

  大數(shù)據(jù)與數(shù)據(jù)的爆炸性增長有著密切關(guān)系。根據(jù)IDC的研究,2010年底全球新生成的數(shù)據(jù)量已經(jīng)達(dá)到120萬PB(或1.2 ZB),這些數(shù)據(jù)如果使用光盤存儲(chǔ),摞起來可以從地球到月球一個(gè)來回(從地球到月球大約24萬英里)。IDC預(yù)計(jì),到2020年需要存儲(chǔ)的數(shù)據(jù)量將達(dá)到35萬億GB,是2010年數(shù)據(jù)存儲(chǔ)量的42倍。

  今天的中國是數(shù)據(jù)生產(chǎn)的大國。還是IDC提供的數(shù)據(jù),截止到2012年6月,中國有近3.9億的移動(dòng)客戶、5.3億的互聯(lián)網(wǎng)客戶。在一個(gè)比較典型的智能城市中,每個(gè)季度就可能產(chǎn)生出200PB的視頻數(shù)據(jù)。

  應(yīng)該說,我們面對(duì)的挑戰(zhàn)不只是海量數(shù)據(jù),還包括越來越繁多的數(shù)據(jù)格式,特別是非結(jié)構(gòu)化和半結(jié)構(gòu)數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)。研究表明,如今新增數(shù)據(jù)中80%以上是諸如日志、圖片、視頻、電子郵件等非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。這些數(shù)據(jù)都不能(或者不適合)用傳統(tǒng)方法處理,需要有新的思考、新的作為,這就是大數(shù)據(jù)技術(shù)。

  對(duì)于什么是大數(shù)據(jù)至今并沒有明確而且一致的定義。目前關(guān)于大數(shù)據(jù)有兩個(gè)不同的理解,一個(gè)是認(rèn)為它是一系列的技術(shù),通過這些技術(shù)對(duì)大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,從而獲得各種分析和預(yù)測(cè)結(jié)果;另一個(gè),也是更多的人理解是,簡(jiǎn)單地稱海量的數(shù)據(jù)集稱為大數(shù)據(jù),本文采用后一種認(rèn)識(shí)。

  雖然缺乏對(duì)大數(shù)據(jù)明確的定義,但對(duì)大數(shù)據(jù)三個(gè)“V”基本特征卻是頗有共識(shí),即海量的數(shù)據(jù)規(guī)模(volume)、快速的數(shù)據(jù)流轉(zhuǎn)(velocity)、多樣的數(shù)據(jù)類型(variety)。這其中,“海量”是大數(shù)據(jù)的引發(fā)人們廣泛關(guān)注的前提,而快速和復(fù)雜的數(shù)據(jù)類型則是引發(fā)人們廣泛關(guān)注的關(guān)鍵。

  大數(shù)據(jù)從何而來

  談到大數(shù)據(jù),不得不談到移動(dòng)設(shè)備。因?yàn)槲覀兠鎸?duì)的大數(shù)據(jù)除了來自企業(yè)應(yīng)用、運(yùn)營的數(shù)據(jù)以及供應(yīng)鏈、供應(yīng)商產(chǎn)生各種各樣的數(shù)據(jù),還有很大一部分來自社交媒體以及移動(dòng)應(yīng)用,而移動(dòng)智能設(shè)備就是背后最大的推手之一。

  眾所周知,智能移動(dòng)設(shè)備的普及給社會(huì)帶來諸多變化。其中之一就是人們可以在任何時(shí)間、任何地點(diǎn)獲取信息,能夠?qū)崟r(shí)通信、實(shí)時(shí)協(xié)作、發(fā)布社交內(nèi)容。這就使得數(shù)據(jù)的生產(chǎn)方式發(fā)生了變化:過去,我們只是在工作時(shí)產(chǎn)生數(shù)據(jù),而今我們幾乎是每時(shí)每刻都在生產(chǎn)數(shù)據(jù);過去,數(shù)據(jù)都是交易型,典型的表現(xiàn)形式為一條條交易記錄,這是傳統(tǒng)數(shù)據(jù)庫所擅長的,而如今,數(shù)據(jù)源眾多,而且很多數(shù)據(jù)不再是由人而是由機(jī)器產(chǎn)生的,各種各樣的RFID、傳感器都在生成數(shù)據(jù)。另外,即使是人為產(chǎn)生的,如社交網(wǎng)絡(luò)、微博,數(shù)據(jù)的形式和過去的形式也不一樣,主要表現(xiàn)為非結(jié)構(gòu)化。

  “數(shù)據(jù)量的增加已經(jīng)遠(yuǎn)遠(yuǎn)超出預(yù)期,而且企業(yè)目前面臨的還是一個(gè)更加復(fù)雜的數(shù)據(jù)環(huán)境。在這樣一個(gè)環(huán)境中,企業(yè)要獲得傳統(tǒng)財(cái)務(wù)或者財(cái)務(wù)以外信息分析能力,需要新的方法。這就是大數(shù)據(jù)熱的大背景。”Forrester Research資深分析師曹宇欽在不久前舉辦的大數(shù)據(jù)論壇演講時(shí)表示。

  面對(duì)如此海量、復(fù)雜的數(shù)據(jù)需要存儲(chǔ)、需要管理更需要分析,這就引發(fā)了人們對(duì)大數(shù)據(jù)的極大關(guān)注,而VMware全球高級(jí)副總裁范承工看來,事情變復(fù)雜的還有另外兩個(gè)因素。“之所以有今天的大數(shù)據(jù)話題,除了數(shù)據(jù)產(chǎn)生更還包括云應(yīng)用的普及以及數(shù)據(jù)的使用者發(fā)生了變化。”

  范承工在VMware內(nèi)部領(lǐng)導(dǎo)一個(gè)數(shù)據(jù)部門從事相關(guān)產(chǎn)品的開發(fā),包括支持Hadoop在虛擬化環(huán)境中的快速部署插件等。范承工解釋說,云應(yīng)用的普及改變了過去單一的數(shù)據(jù)位于數(shù)據(jù)中心的形式,越來越多的數(shù)據(jù)被保存在企業(yè)防火墻外的公有云中,使得數(shù)據(jù)整合成為難題;同時(shí),數(shù)據(jù)使用者也從最初主要面向管理者、高級(jí)經(jīng)理到逐漸普及到一般業(yè)務(wù)人員,這就要求獲得分析結(jié)果的方式更簡(jiǎn)單、更靈活。

相關(guān)閱讀