預(yù)測與感知——通過在線群體下載智慧

2008-09-07 14:09:36      挖貝網(wǎng)

  如今預(yù)測市場開始成為發(fā)展大趨勢。預(yù)測市場上,人們總是通過預(yù)測來做出不確定的決斷,比如設(shè)想一部電影可能會(huì)熱賣,猜測某位政治人士將成為下任總統(tǒng),或是推斷股市到底是上漲還是下跌。很多文章已經(jīng)對預(yù)測市場的準(zhǔn)確性進(jìn)行了探討,媒體也常撰文描述各種預(yù)測比所謂的內(nèi)行還專業(yè)。

  但預(yù)測市場還不夠理想。市場需要人為經(jīng)營和管理。被建立起來后,如果涉及到貨幣交易,例如在購買股票時(shí),就必須有人來保證交易者的資金能夠有序地在市場上流通。沃頓商學(xué)院教授阿爾伯特?塞茲(Albert Saiz)和尤里?西蒙遜(Uri Simonsohn)發(fā)現(xiàn)了一個(gè)更便宜的信息渠道,即網(wǎng)絡(luò)搜索(Internet search),它在某種程度上具有和預(yù)測市場一樣的功效。

  房地產(chǎn)學(xué)教授塞茲和運(yùn)營及信息管理學(xué)教授西蒙遜在最近的一篇論文中明確指出,在某個(gè)區(qū)域,網(wǎng)上所討論話題發(fā)生的可能性與現(xiàn)實(shí)世界中的相關(guān)現(xiàn)象是有聯(lián)系的。“我們對‘群體智慧’很感興趣。這種群體智慧是大眾對于某個(gè)值得探討的問題的觀點(diǎn)集合。”兩位教授在文中寫道,他們文章的題目叫做《通過在線群體下載智慧》(Downloading Wisdom from Online Crowds)。例如,若想了解人們認(rèn)為哪些國家以及美國哪些州和大城市最腐敗,他們就會(huì)在一個(gè)叫做Exalead的搜索引擎中輸入相關(guān)信息,通過比較同一頁面上各地含有“腐敗”字樣的條款數(shù)目,就可得出相應(yīng)的腐敗狀況排行。

  所得結(jié)果毫不驚人。人們普遍認(rèn)為最腐敗的國家是尼日利亞、塞爾維亞和海地,而美國最腐敗的州是新澤西、紐約和伊利諾斯,最腐敗的大城市為芝加哥和新奧爾良等。

  西蒙遜指出,根本沒辦法確定這些地方到底是否腐敗。他們的搜索結(jié)果顯示,網(wǎng)上的很多信息表明這些地方和腐敗現(xiàn)象聯(lián)系密切。

  但人們確實(shí)經(jīng)常談?wù)撃车爻3霈F(xiàn)的問題,并為之憂心。比如人們會(huì)擔(dān)心佛羅里達(dá)州的美洲鱷傷人事件,但不會(huì)擔(dān)心緬因州出現(xiàn)類似問題。因?yàn)槭聦?shí)上,鱷魚襲擊在佛羅里達(dá)州更普遍,雖然自1984年以來只報(bào)道過一例鱷魚致人死亡事件。

  正如兩位學(xué)者在文中所述,“試想,當(dāng)一個(gè)現(xiàn)象發(fā)生得越頻繁越持久時(shí),那么它被關(guān)注并被記錄下來的可能性就越大。通過統(tǒng)計(jì)有多少人對某個(gè)現(xiàn)象做出了記錄,就可得知該現(xiàn)象發(fā)生的頻率如何了。”

  為盡可能多地搜集例子,塞茲和西蒙遜并不僅限于研究媒體報(bào)道。他們還研究了大量文獻(xiàn),并再次驗(yàn)證了自己的研究結(jié)果。“我們收集了許多新聞資訊,但同時(shí)也找了很多政府文獻(xiàn)。”西蒙遜說到,“此外,當(dāng)我們開始研究社會(huì)指標(biāo)時(shí),例如統(tǒng)計(jì)一個(gè)城市中非洲裔美國人或西班牙裔美國人的數(shù)量,我們發(fā)現(xiàn)很多文獻(xiàn)都是由文化機(jī)構(gòu)及博物館撰寫的。”

  這也是為何西蒙遜認(rèn)為他們的研究都是有據(jù)可查的,而不是無稽之談,不是網(wǎng)絡(luò)博客及聊天室里討論的那些傳聞。“傳聞都很短暫,但我們看到的資料卻都有長期記錄。”他說到,“我本以為會(huì)收集到很多博客文章,但實(shí)際上卻遠(yuǎn)沒我們想象的那么多。”[page]

  度量社會(huì)趨勢

  事實(shí)上,很多城市和州的主要社會(huì)人口學(xué)特征兩位學(xué)者的文章清晰地展現(xiàn)了一些固定模式,反應(yīng)出。具體說來,塞茲和西蒙遜查看了網(wǎng)上各主要州和城市名下含有“非洲裔美國人”、“西班牙裔美國人”、“移民”、“貧困”以及“兇殺”等關(guān)鍵詞的信息數(shù)量。他們發(fā)現(xiàn),很明顯,某地某種現(xiàn)象實(shí)際發(fā)生的頻率與網(wǎng)上該信息討論的頻率有正相關(guān)的關(guān)系。例如,各城市中西班牙裔美國人的比例與該城市網(wǎng)上討論相關(guān)信息的文章數(shù)量成正比。這種關(guān)聯(lián)在美國各城市和各州都普遍存在。

  因此,塞茲和西蒙遜指出,相關(guān)網(wǎng)絡(luò)信息出現(xiàn)的頻率可用來衡量當(dāng)前主要社會(huì)現(xiàn)象在各城市或州發(fā)生的狀況排行情況。兩位學(xué)者還想知道,是否能用這種手段來衡量一個(gè)較難度量的變量,例如腐敗現(xiàn)象。

  西蒙遜表示,他與塞茲認(rèn)為自己的研究成果證明了一種有用的技術(shù),可以幫助社會(huì)學(xué)家及有興趣度量城市社會(huì)趨勢的人們進(jìn)行研究,而不是為了確定地說明哪個(gè)地方有多少警察或政客在搞腐敗。所以,在洛杉磯不適合出售房產(chǎn),因?yàn)槁迳即壴谌澓臀髅蛇d的腐敗排行榜上高居榜首(但是圣誕節(jié)時(shí)向警察慈善協(xié)會(huì)(Police Benevolent Association)捐款卻是明智之舉)。

  兩位學(xué)者將他們制定的國家網(wǎng)上腐敗排行與透明國際(Transparency International)發(fā)布的年度腐敗情況排行結(jié)果做了對比。透明國際是柏林一家非營利性機(jī)構(gòu),通過對商界人士、專家等的民意調(diào)查得出腐敗印象指數(shù)排行榜。透明國際得出的也是對各國腐敗狀況的感官認(rèn)知,而不是針對某一確切的腐敗事件。

  塞茲和西蒙遜發(fā)現(xiàn),他們的研究結(jié)果大多與透明國際的排行結(jié)果相同,只是在冰島的排行問題上出現(xiàn)了例外。塞茲和西蒙遜將冰島排在了最腐敗的國家行列里,而透明國際卻將其排為第二大最清廉國家,僅次于芬蘭。“在冰島問題上我們犯了個(gè)大錯(cuò)誤。”西蒙遜承認(rèn),“我們認(rèn)為,這是因?yàn)槎嗄陙肀鶏u一直被認(rèn)為是最清廉的國家之一。雖然人們說了很多冰島的腐敗問題,但仍將它作為最佳清廉典范,而不是最腐敗的國家之一。”

  由于沒有類似透明國際的機(jī)構(gòu)對美國各州及各城市的腐敗狀況做出調(diào)查,因此塞茲和西蒙遜不得不尋找其他辦法來支持自己在美國腐敗問題上的研究。他們將研究結(jié)果與各州公務(wù)員的平均犯罪狀況做了比較,并再次得到了積極的驗(yàn)證。他們將內(nèi)布拉斯加州列為最清廉的州,同時(shí)還發(fā)現(xiàn)該州的公務(wù)員犯罪率相當(dāng)?shù)?。與之相反,新澤西州的腐敗狀況就嚴(yán)重得多,并且公務(wù)員犯罪率也相對較高。換句話說,電視劇《黑道家族》(The Sopranos)將背景設(shè)在新澤西州不是沒有道理的。

  至于城市的腐敗排行,塞茲和西蒙遜就要費(fèi)更大的勁來驗(yàn)證自己的研究結(jié)果,因?yàn)闆]有其他來源的信息可作對比。但這也促使他們深入發(fā)掘人口統(tǒng)計(jì)學(xué)和社會(huì)經(jīng)濟(jì)學(xué)數(shù)據(jù),并最終發(fā)現(xiàn)西蒙遜提到的信息關(guān)聯(lián)性比腐敗城市排行榜要更有說服力。

  “鑒于之前的研究顯示,讀者在看腐敗排行榜時(shí),傾向于關(guān)注排行的名次,而忽略了造成各地腐敗差異的內(nèi)在連續(xù)變量。因此我們在評判城市腐敗程度時(shí),按10個(gè)城市一組進(jìn)行排行,并不透露各組內(nèi)城市的排行情況。”兩位研究者寫到。“前十位城市與我們之前的研究結(jié)果相符,其中包括圣地亞哥、新奧爾良、洛杉磯、費(fèi)城以及芝加哥。”

  隨著不斷深入研究數(shù)據(jù),兩位學(xué)者還以自己的衡量方式發(fā)現(xiàn),貧困的城市更易出現(xiàn)腐敗,比如東北部的城市即是如此。另外,大城市也更易腐敗,但是,政府部門較大(按公共部門人數(shù)所占比例來算)的城市并不如此。[page]

  推出新的游戲平臺(tái)

  “種族繁多的城市(按非洲裔美國人和外籍居民劃分)似乎腐敗程度更嚴(yán)重。”他們補(bǔ)充到。“黑人和移民更易成為腐敗政治的犧牲品。這種腐敗官員借機(jī)剝削壓迫少數(shù)民族及外籍移民的情況跟我們之前調(diào)查國家腐敗狀況時(shí)的研究結(jié)果一致,同時(shí)也與美國歷史上對腐敗事件的描述相符。美國政客一向肆意壓迫種族隔離區(qū)的人們以獲取收益。”

  社會(huì)經(jīng)濟(jì)指標(biāo)與腐敗間的聯(lián)系,使人們在衡量社會(huì)趨勢時(shí)會(huì)對塞茲和西蒙遜的方法感興趣。例如,可以通過統(tǒng)計(jì)網(wǎng)站上中國地區(qū)信息中出現(xiàn)了多少次“污染”這個(gè)詞,來判斷中國的污染狀況。在中國污染問題上,尚不清楚目前的官方數(shù)據(jù)是否可靠,而使用塞茲和西蒙遜的方法,可以對中國各地污染引起人們關(guān)注的情況有個(gè)大致了解。

  二人的研究表明了一種當(dāng)不同的人以各種方式生成的大量文本信息的情況中,一種重復(fù)出現(xiàn)的數(shù)據(jù)模式。社會(huì)學(xué)家也許可以用網(wǎng)絡(luò)信息出現(xiàn)的頻度為代表,來研究當(dāng)?shù)氐纳鐣?huì)發(fā)展趨勢,否則的話,采取其他方式則很難對這種趨勢進(jìn)行衡量。

  而網(wǎng)絡(luò)信息還有其他商業(yè)用途。西蒙遜談到,一些精心設(shè)計(jì)的網(wǎng)絡(luò)搜索可以使得經(jīng)營者事先了解業(yè)務(wù)發(fā)展?fàn)顩r,從而幫助他們節(jié)省資金。像索尼(Sony)這樣的公司在推出新版電子游戲主機(jī)之前,可以先對網(wǎng)絡(luò)上的相關(guān)信息進(jìn)行評估。“索尼推出新的游戲平臺(tái)時(shí),將涉及到龐大的物流問題。”西蒙遜說到,“比如他們要考慮應(yīng)向哪個(gè)城市發(fā)送較多的機(jī)器。如果在新機(jī)上市前,索尼在網(wǎng)上對不同城市的需求信息做過評估比較,這樣就能夠調(diào)整送貨數(shù)量,保證需求量最大的城市能得到最多的游戲主機(jī)。”事實(shí)上,像Nielsen Buzzmetrics之類的企業(yè)已經(jīng)開始使用網(wǎng)上消費(fèi)者信息,來協(xié)助公司的銷售業(yè)務(wù)發(fā)展了。

  而像政治顧問這樣,最終是以推銷人而非物為目的的職業(yè),同樣可以使用此項(xiàng)新技術(shù)。他們可以通過統(tǒng)計(jì)哪些人群在網(wǎng)上對候選人及其競爭對手使用的褒貶用語,來獲知人們的觀點(diǎn)看法。接著他們就可以進(jìn)一步有重點(diǎn)地進(jìn)行調(diào)查或使用焦點(diǎn)小組進(jìn)行調(diào)研了。

  此項(xiàng)研究的一大附帶成果是,讓我們有機(jī)會(huì)對塞茲和西蒙遜使用過的各種網(wǎng)絡(luò)搜索引擎做一比較。首當(dāng)其沖的就是Google。“Google無法進(jìn)行單個(gè)項(xiàng)目的自動(dòng)搜索。”西蒙遜說。最終他們選擇了Exalead,這是個(gè)法國的搜索引擎,但可使用英語版本。他們認(rèn)為Exalead和Ask.com最可靠。“我們發(fā)現(xiàn)Yahoo是最不可靠的。”西蒙遜又說到,“你今天查過某個(gè)信息后,下周再查相同的信息時(shí),就會(huì)發(fā)現(xiàn)不同信息的數(shù)量能相差數(shù)百萬頁。我覺得這數(shù)百萬條新文件是不可能在一周內(nèi)產(chǎn)生的。”

相關(guān)閱讀