社會化數(shù)據(jù)時代八爪魚式生存 “抓”到才能贏

2010-12-15 11:30:11      張承東

  企業(yè)能否從移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等網(wǎng)絡(luò)中不斷出現(xiàn)的數(shù)據(jù)源那里順利發(fā)現(xiàn)并拿到它需要的數(shù)據(jù)?

  在Web頁面中增加一個簡單的意見按鈕,會不會讓讀者放棄填寫文字評論?同樣是給注冊用戶發(fā)送郵件通知,是純文字版本、還是圖形化版本獲得的回復(fù)率更高呢?

  這是Facebook曾經(jīng)面臨的無數(shù)個用戶體驗問題中的兩個。要回答這類問題,最好的辦法只有一個,就是實際測試一下。

  Facebook的確這么做了。他們分別選取了兩組用戶設(shè)計了一次測試。結(jié)果證明,增加了意見按鈕后的評論增加了近5%;簡單的基于文本的電子郵件獲得了比圖形化更豐富的那些電子郵件高出三倍的響應(yīng)率。

  那么,這種測試方法的難點在哪里呢?超大量的社會化數(shù)據(jù)(social data)的收集和分析就是這其中最大的困難。

  數(shù)據(jù)顯示,F(xiàn)acebook上現(xiàn)有5億用戶,超過一半的用戶每天都登錄。而Neilsen調(diào)查指出,F(xiàn)acebook用戶在該網(wǎng)站上消耗的時間,比接近它的其他6個網(wǎng)站上用戶所花的時間的總和還多。如此集中的用戶和用戶行為無疑產(chǎn)生巨量的數(shù)據(jù)回饋。Facebook的工程副總裁Mike Schroepfer指出,如今Facebook已經(jīng)存儲了數(shù)十PB的未壓縮數(shù)據(jù),每天的數(shù)據(jù)處理量也可以達(dá)到上百TB。

  與過去那些從數(shù)據(jù)庫等商業(yè)軟件中抽取出的較為規(guī)整的數(shù)據(jù)不同,如今,在諸多社區(qū)網(wǎng)站中、各類網(wǎng)絡(luò)行為中產(chǎn)生的數(shù)據(jù)多種多樣。雅虎首席產(chǎn)品官Blake Irving指出,世界上只有5%的數(shù)據(jù)是結(jié)構(gòu)化的,而非結(jié)構(gòu)化數(shù)據(jù)一直保持極大的增長。事實上,為了更經(jīng)濟(jì)高效地從客戶端的網(wǎng)絡(luò)行為中抓取數(shù)據(jù)、分析數(shù)據(jù),F(xiàn)acebook、雅虎、淘寶以及像中國移動等主流企業(yè)都已經(jīng)紛紛在云計算、數(shù)據(jù)挖掘等前沿技術(shù)中尋求解決方案。

  大數(shù)據(jù)時代

  時至今日,“Big data”(大數(shù)據(jù))時代的來臨已經(jīng)毋庸置疑,尤其是在電信、金融等行業(yè),幾乎已經(jīng)到了“數(shù)據(jù)就是業(yè)務(wù)本身”的地步。在這其中,還挾裹著一個更為重要的趨勢,即數(shù)據(jù)的社會化(Socialization of Data)。從博客論壇到游戲社區(qū)再到微博,從互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng)再到物聯(lián)網(wǎng),人類以及各類物理實體的實時聯(lián)網(wǎng)已經(jīng)而且還將繼續(xù)產(chǎn)生難以估量的數(shù)據(jù)。對于時刻關(guān)注市場走向的企業(yè)來講,他們需要關(guān)注的數(shù)據(jù)顯然已經(jīng)不僅限于企業(yè)內(nèi)部數(shù)據(jù)庫中的業(yè)務(wù)數(shù)據(jù),還要包括互聯(lián)網(wǎng)(以及未來的物聯(lián)網(wǎng))上各類網(wǎng)絡(luò)活動所產(chǎn)生的相關(guān)數(shù)據(jù)記錄。

  換句話說,如今,一個完整的企業(yè)數(shù)據(jù)生態(tài)系統(tǒng)有多個信息入口,應(yīng)該包括互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、Email、呼叫中心等,其中還包括很多諸如圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。以往人們認(rèn)為,把企業(yè)自有的運(yùn)營數(shù)據(jù)進(jìn)行深度分析后,自然會有所得。但在今天看來,這種做法的一大缺陷就是,數(shù)據(jù)不夠全面、及時。從理論上講,掌握的數(shù)據(jù)越全面,得出的結(jié)論就越趨向于合理。在上世紀(jì)即流傳開來的“啤酒與尿布”故事之后,企業(yè)只有構(gòu)建一個容納了足夠多關(guān)鍵信息的“深水池”,才更有可能做出正確的決策。

  這種趨勢已經(jīng)讓很多相信數(shù)據(jù)之力量的企業(yè)做出改變。

  2010年上半年,淘寶網(wǎng)開始推出數(shù)據(jù)魔方服務(wù)。從其服務(wù)頁面上可以看到,基于淘寶網(wǎng)上億用戶產(chǎn)生的交易原始數(shù)據(jù),數(shù)據(jù)魔方服務(wù)不但可以提供傳統(tǒng)的熱銷品牌等各類排行,還可以對某項產(chǎn)品的交易趨勢、賣家和買家的信用情況、交易時段等多種細(xì)節(jié)進(jìn)行統(tǒng)計分析。如果與沃爾瑪?shù)葌鹘y(tǒng)零售巨頭所能分析的數(shù)據(jù)相比,淘寶在賣家和買家的一些軟性資料和溝通細(xì)節(jié)上顯然掌握了更為豐富的信息。據(jù)透露,在近半年的時間內(nèi),淘寶上即有近2萬賣家開始通過數(shù)據(jù)魔方進(jìn)行參考決策,100多天中總計數(shù)據(jù)調(diào)用260萬次。如今,淘寶網(wǎng)在國內(nèi)外的數(shù)據(jù)分析領(lǐng)域中已經(jīng)頗具影響力,其數(shù)據(jù)服務(wù)業(yè)務(wù)在其大淘寶戰(zhàn)略中的地位也將愈發(fā)重要。展望未來,互聯(lián)網(wǎng)、電信、金融等行業(yè)企業(yè)無疑在數(shù)據(jù)服務(wù)業(yè)務(wù)方面還有很大的開拓空間。

  社會化數(shù)據(jù)的迅猛增長除了讓掌握了這些數(shù)據(jù)的企業(yè)順勢推出了相關(guān)的數(shù)據(jù)服務(wù)之外,也直接影響到了數(shù)據(jù)分析技術(shù)提供商們的發(fā)展戰(zhàn)略。

  2010年10月,一直專注于商業(yè)智能技術(shù)的美國公司Teradata就宣布推出新的社交媒體平臺,專門進(jìn)行與挖掘社會化數(shù)據(jù)相關(guān)的信息分享。在面向企業(yè)推出的產(chǎn)品上,則在其主打的數(shù)據(jù)倉庫產(chǎn)品之外,加入了關(guān)鍵的社會化數(shù)據(jù)的抓取和分析功能技術(shù)Hadoop。

  “Teradata 的傳統(tǒng)優(yōu)勢在于可以應(yīng)對數(shù)據(jù)庫內(nèi)的海量數(shù)據(jù),Hadoop技術(shù)則可以處理來自互聯(lián)網(wǎng)的大規(guī)模數(shù)據(jù),現(xiàn)在我們將原有產(chǎn)品和Hadoop技術(shù)整合到一起,可以更好地解決企業(yè)的數(shù)據(jù)處理問題。”Teradata公司首席技術(shù)官Stephen Brobst說。

  對很多人來講,Hadoop這樣一個名詞可能還比較陌生,但實際上,從Yahoo的 Web搜索研究,到Facebook的數(shù)據(jù)分析,再到百度的搜索日志分析、淘寶的數(shù)據(jù)魔方服務(wù),以及中移動推出了“大云”(BigCloud)系統(tǒng),Hadoop的身影都已經(jīng)到處閃現(xiàn)。簡單來講,社會化數(shù)據(jù)時代的企業(yè)需要像八爪魚一樣,能夠發(fā)現(xiàn)并拿到他需要的數(shù)據(jù),而Hadoop技術(shù)的好處就是,不但可以方便地嵌入到各種實際應(yīng)用中以實現(xiàn)全文搜索/索引,而且可以進(jìn)行數(shù)據(jù)抓取。比如雅虎,通過應(yīng)用這一技術(shù),幾乎可以實時分析每一個頁面點擊并優(yōu)化內(nèi)容的排名,每7分鐘就能更新一次結(jié)果。
[page]

  數(shù)據(jù)無盡頭

  如果說社會化數(shù)據(jù)相對于企業(yè)內(nèi)部的那些結(jié)構(gòu)化數(shù)據(jù)來講算新數(shù)據(jù)的話,那么,類似的新數(shù)據(jù)在未來還將不斷增加。

  因為移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新網(wǎng)絡(luò)的發(fā)展還在繼續(xù),未來新的數(shù)據(jù)源將會不斷地出現(xiàn),由此,像GPS數(shù)據(jù)、移動數(shù)據(jù)、傳感器收集的數(shù)據(jù)也將會不停地、大量的產(chǎn)生。

  對于企業(yè)的整體數(shù)據(jù)生態(tài)系統(tǒng)來講,其實可以依據(jù)私有云和公有云的界定將其所有數(shù)據(jù)分成兩大部分。對于私有云,更多地體現(xiàn)為企業(yè)內(nèi)部的傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù),在未來的三到五年內(nèi),很多企業(yè)都將會大力發(fā)展其內(nèi)部的云計算環(huán)境,像IBM、EMC等公司可以憑借虛擬化技術(shù)、硬件存儲功能為客戶提供相關(guān)的數(shù)據(jù)處理方案。

  而對于更為廣闊的公有云數(shù)據(jù),帶來的市場空間同樣很大。“隨著社會化數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)、大數(shù)據(jù)的產(chǎn)生,企業(yè)需要將這些數(shù)據(jù)集中起來,加以分析利用,這也將會給Teradata這樣的公司帶來巨大的機(jī)會。”Teradata大中華區(qū)總裁辛兒倫(Aaron Hsin)在采訪中如此表示。

  比如在能源領(lǐng)域,Teradata就與智能電表供應(yīng)商Itron公司打造了一個軟件分析平臺,對使用的數(shù)據(jù)進(jìn)行分析,解決了能源一旦生產(chǎn)出來無法儲存和節(jié)約的問題。憑借該分析平臺,公用事業(yè)企業(yè)能夠根據(jù)預(yù)測使用量和實際使用量對能源進(jìn)行分配。比如,在住宅區(qū)域和制造業(yè)密布的區(qū)域,電力將采用不同的分配規(guī)劃。這一服務(wù)平臺不僅可讓能源企業(yè)獲得能源使用量、虛假信息和能源分配方面的數(shù)據(jù),還能根據(jù)每個企業(yè)在每天特定時間的使用量進(jìn)行定價和收費,并且更合理地配置能源。

  此外,未來對地理空間數(shù)據(jù)的應(yīng)用也是熱點之一。比如零售企業(yè)將地理空間數(shù)據(jù)與其網(wǎng)點、客戶數(shù)據(jù)相結(jié)合之后,即可針對其競爭對手推出更具競爭力的布局和促銷活動。而汽車保險行業(yè)則可以用感應(yīng)器來收集數(shù)據(jù)。通過收集車輛行駛過程中的信息,與公路網(wǎng)的地理空間數(shù)據(jù)重疊起來,就可以對路況不好,經(jīng)常發(fā)生事故的道路進(jìn)行分析和防范。據(jù)辛兒倫介紹,目前,國內(nèi)已經(jīng)有部分客戶采用了Teradata的地理空間數(shù)據(jù)解決方案,主要分布在零售業(yè)、保險業(yè)和政府機(jī)關(guān)三個領(lǐng)域。

  事實上,因為在數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)規(guī)模上的雙重門檻,使得這一行業(yè)并不能像過去賣出一臺機(jī)器或一份軟件許可那樣簡單。

  以Teradata公司為例,雖然2010年經(jīng)濟(jì)大勢不好,但是其業(yè)績增長卻非常顯著。2010年上半年,Teradata的營業(yè)收入增長了14%,是其在過去10年間幅度最大的一次增長。之所以如此,一部分原因是,當(dāng)危機(jī)來臨時,公司試圖通過數(shù)據(jù)分析找出問題、得出對策的需求更為強(qiáng)烈,另一部分則需要注意到Teradata公司自身所發(fā)生的變化。

  與其他IT供應(yīng)商動輒擁有成千上萬甚至上百萬的客戶量不同,因為數(shù)據(jù)規(guī)模的前提限制,Teradata手中的客戶只有一千家左右。這一千家客戶大都集中在能夠產(chǎn)生巨量數(shù)據(jù)的電信、金融和互聯(lián)網(wǎng)行業(yè)。要在這一千多家客戶中開拓市場,提供持續(xù)的數(shù)據(jù)挖掘服務(wù)顯然比簡單的出售產(chǎn)品更適合作為一項長久的戰(zhàn)略。而在過去一年中,Teradata為了保證其顧問服務(wù),其服務(wù)隊伍規(guī)模已經(jīng)擴(kuò)充了超過30%。

  另外非常值得一提的是,中國市場在數(shù)據(jù)挖掘領(lǐng)域發(fā)展上的特殊性。與中國的基本國情相關(guān),因為國內(nèi)人口基數(shù)較大,引發(fā)的客戶數(shù)據(jù)量也更為龐大。如果我們能樂觀地看待這一問題的話,那么,不管是出于應(yīng)對海量數(shù)據(jù)的需要,還是試圖從這些數(shù)據(jù)中挖到金子的沖動,由此迎來一個“數(shù)據(jù)創(chuàng)新”的機(jī)會也并非不可能。


相關(guān)閱讀