谷歌學(xué)術(shù)搜索的風(fēng)雨十年

2015/01/04 14:22     

在今年《自然》雜志開展的一項(xiàng)調(diào)查中,60% 的科學(xué)家表示自己經(jīng)常使用該項(xiàng)服務(wù)。日前,《自然》雜志對(duì)話谷歌學(xué)術(shù)共同創(chuàng)始人 Anurag Acharya,聊了聊谷歌學(xué)術(shù)的過去和未來。

問:你如何知道哪些文獻(xiàn)需要檢索?

答:“學(xué)術(shù)”是學(xué)術(shù)領(lǐng)域的其他人都認(rèn)為是學(xué)術(shù)的東西,這聽起來像是一個(gè)遞歸的定義,但確實(shí)是這樣的。我們通過爬蟲抓取所有網(wǎng)頁。以一篇新發(fā)表的博客為例,我們會(huì)判斷它和其他學(xué)術(shù)文章存在何種聯(lián)系。如果很多人引用它,或者它引用了很多人的文章,那么它可能具有學(xué)術(shù)價(jià)值。這里面并沒有神奇的公式可以套用,只能從很多特性中尋找證據(jù)。

問:創(chuàng)建谷歌學(xué)術(shù)的想法從何而來?

答:我在 2000 年來到谷歌,之前則在加州大學(xué)圣芭芭拉分校從事學(xué)術(shù)工作。很明顯,假如繼續(xù)從事學(xué)術(shù)研究,我不可能產(chǎn)生比待在谷歌更大的影響 -- 使世界各地的人們都可以找到信息。因此,我放棄了學(xué)術(shù)道路,花了 4 年時(shí)間管理谷歌網(wǎng)頁檢索團(tuán)隊(duì)。那是一段異常忙碌的日子,整個(gè)人可以說是心力交瘁。

Alex Verstak(注:Acharya 在網(wǎng)頁檢索團(tuán)隊(duì)的同事) 和我決定休假半年,并試圖利用這段時(shí)間讓學(xué)術(shù)文章的搜索變得更加方便快捷。當(dāng)時(shí)的想法并不是創(chuàng)建谷歌學(xué)術(shù),而是想提高谷歌在用戶利用網(wǎng)頁搜索學(xué)術(shù)文章時(shí)的排名。不過,隨之而來的問題是如何判定搜索用戶的意圖:他們需要學(xué)術(shù)性的結(jié)果或者只是個(gè)門外漢? 我們據(jù)此建立了一個(gè)內(nèi)部原型,谷歌學(xué)術(shù)變成了一種非常有用和重要的服務(wù)。

問:這個(gè)想法很快就取得了成功嗎?

答:很快就廣受歡迎。谷歌學(xué)術(shù)啟用后,使用量呈指數(shù)級(jí)增長。一個(gè)重要的差別在于我們按照與用戶請(qǐng)求的相關(guān)性排列搜索結(jié)果,這是此前的學(xué)術(shù)性搜索服務(wù)無法做到的。它們采用的是倒序方式,即首先提供最新的結(jié)果。我們還通過爬蟲抓取到研究論文的全部文本,盡管在一開始并未將所有出版商的全部文本包括進(jìn)來。

問:花了很多年才說服文獻(xiàn)出版社允許你們抓去全文,當(dāng)時(shí)是不是感覺很困難?

答:這得考慮到十年前的情況,那時(shí)候網(wǎng)絡(luò)搜索還很輕量 -- 人們更愿意搜索 Britney Spears 的圖片而不是學(xué)術(shù)文獻(xiàn)。但我們知道有純粹的學(xué)術(shù)搜索請(qǐng)求,我們不得不說服出版商,我們的服務(wù)會(huì)為他們帶來更多的流量。當(dāng)然在谷歌學(xué)術(shù)搜索推出前我們就與他們有合作。

問:2012年,谷歌學(xué)術(shù)從谷歌主頁搜索選項(xiàng)的下拉式菜單中消失。你是否擔(dān)心谷歌學(xué)術(shù)的地位可能下降或者被砍掉?

答:不擔(dān)心。我們的團(tuán)隊(duì)在不斷成長中,從成立之初的兩個(gè)人發(fā)展到現(xiàn)在的 9 人。很多人或許會(huì)將谷歌學(xué)術(shù)從首頁菜單中的撤銷看成是一種降級(jí),但事實(shí)并非如此。這些菜單鏈接是為了幫助用戶從主頁轉(zhuǎn)到其他服務(wù),因此會(huì)突出那些使用最多的轉(zhuǎn)換鏈接。如果用戶已經(jīng)知道如何啟動(dòng)谷歌學(xué)術(shù),他們就不需要那種轉(zhuǎn)換鏈接。就是這樣而已。

問:谷歌學(xué)術(shù)如何盈利?

答:谷歌學(xué)術(shù)到目前還未盈利。其實(shí),谷歌提供的很多服務(wù)都不賺錢。谷歌學(xué)術(shù)的首要定位是回饋學(xué)術(shù)界。我們之所以成功堅(jiān)持到現(xiàn)在,就是因?yàn)樵诠雀杩磥恚@項(xiàng)服務(wù)的花費(fèi)并不高。就訪問量來說,谷歌學(xué)術(shù)同很多谷歌服務(wù)相比很小,因此利用廣告盈利的機(jī)會(huì)相對(duì)較少。不過,到目前為止我們還沒有盈利上的壓力。

問:谷歌學(xué)術(shù)每天的訪問量是多少?這項(xiàng)服務(wù)能追蹤多少文獻(xiàn)?

答:我無法回答你,這是一個(gè)非常非常大的數(shù)字。對(duì)于追蹤文獻(xiàn)的數(shù)量也是這樣,除了 -- 自從我們推出谷歌學(xué)術(shù)后,這個(gè)數(shù)字增長了一個(gè)數(shù)量級(jí)。很多人關(guān)心這些數(shù)字,但這真沒多大必要。我們關(guān)注的是用戶能否找到他們想要的文獻(xiàn)。若果文獻(xiàn)本身很少的話,這些數(shù)字的確很重要,但我們顯然擁有足夠多的文獻(xiàn)。

問:谷歌學(xué)術(shù)已經(jīng)推出了額外的服務(wù):例如作者的資料頁和一個(gè)推薦引擎。這意味著谷歌學(xué)術(shù)準(zhǔn)備從一個(gè)搜索引擎轉(zhuǎn)向成為類似文獻(xiàn)計(jì)量學(xué)的工具嗎?

答:既是,也不是。推出資料頁的目的還是在于幫助用戶找到他們需要的文獻(xiàn)。有時(shí)候你可能忘了文獻(xiàn)的標(biāo)題,但你可能記得它的作者,這樣你就能找到相關(guān)文獻(xiàn)。你還能追蹤某個(gè)作者的文獻(xiàn)和工作,著同樣是查找文獻(xiàn)的線索。當(dāng)然資料頁還有別的用途,通過閱讀一個(gè)人的資料頁,我們可以了解他的學(xué)術(shù)的演化歷程、他的學(xué)術(shù)伙伴們都有誰,甚至可以向他推薦一些他的領(lǐng)域中別的研究人員關(guān)注的主題。

問:你擔(dān)心這種把戲嗎 -- 造假的文獻(xiàn)通過被谷歌學(xué)術(shù)檢索增加引用量?

答:不擔(dān)心。是的,你可以添加你想要的任何文件。但是,一切都是可見的 -- 你的資料頁上列出的文獻(xiàn),引用你文獻(xiàn)的文獻(xiàn)等等。如果發(fā)現(xiàn)你造假,世界上的任何人都能打電話給你,基本上是你的學(xué)術(shù)生涯就結(jié)束了。我們沒有看到垃圾郵件正是由于這個(gè)原因。我有很多的經(jīng)驗(yàn)處理垃圾郵件,因?yàn)槲以?jīng)為搜索部門工作。當(dāng)人們都是匿名的,垃圾郵件會(huì)變得更容易。但如果我要建立的是我的公開出版物的歷史,我會(huì)比較謹(jǐn)慎。

問:未來谷歌學(xué)術(shù)會(huì)有什么樣的改變?

答:我們非常擅長幫助用戶找到他們要搜索的文章。不過,下一步我們打算做的一件大事是幫助用戶找到他們需要但又不知如何搜索的文章。我們能否讓意外發(fā)現(xiàn)變得更加容易? 如何幫助每個(gè)人在無須翻閱上百篇論文導(dǎo)致一整天任何其他事都干不了的情況下,輕松掌握學(xué)術(shù)前沿?

我不知道我們將如何實(shí)現(xiàn)這個(gè)目標(biāo)。盡管在這方面我們已經(jīng)做了一些初步努力如推出建議搜索引擎,但離想要的東西還相去甚遠(yuǎn)。在向用戶推送不是其主動(dòng)搜索的信息時(shí),存在一個(gè)本質(zhì)性問題:內(nèi)容必須具有相關(guān)性,確保我們沒有浪費(fèi)用戶時(shí)間,但又不能太相關(guān),因?yàn)橛脩粢呀?jīng)知道這些文章。

問:怎么幫助用戶直接找到數(shù)據(jù)而不是文獻(xiàn)呢?

答:這是一個(gè)有趣的想法。在收費(fèi)文獻(xiàn)里搜索數(shù)據(jù)是完全可行的。但當(dāng)我們給用戶的搜索結(jié)果指向一個(gè)收費(fèi)文獻(xiàn)時(shí),用戶只能看到摘要。對(duì)全文檢索而言,我們也是依靠提供摘要信息讓用戶評(píng)估某篇文獻(xiàn)對(duì)他們是否有用。我們還沒有針對(duì)數(shù)據(jù)搜索建立類似文本搜索的模型。

問:許多人希望能通過谷歌學(xué)術(shù)開放API,這樣他們可以自己寫搜索的腳本或自動(dòng)獲取別人的資料頁,在此之上提供更多的服務(wù)。這可行嗎?

答:我不能這么做。我們自己和出版商合作伙伴都不會(huì)喜歡這個(gè)想法。我們被允許掃描所有的文獻(xiàn),而不是講這個(gè)信息分發(fā)出去。和出版商的合作非常重要,我們因此得以可以繼續(xù)構(gòu)建一個(gè)對(duì)所有人免費(fèi)的全面搜索服務(wù)。這是我們的初心,其他任何東西都是次要的。

問:下一個(gè)十年你還會(huì)為谷歌學(xué)術(shù)工作嗎?

答:首先我從來沒想到我竟然為谷歌學(xué)術(shù)忙活了十年!我妻子在我(為谷歌學(xué)術(shù))工作了 5 年、7 年的時(shí)候提醒過我(工作了這么久),而我現(xiàn)在還沒離開。谷歌學(xué)術(shù)是我能想到我能做的最重要的事情,我們的工作使這個(gè)星球上最聰明的人更有效率。離開谷歌學(xué)術(shù)是一個(gè)非常有吸引力的命題,而我無法預(yù)見它會(huì)很快很輕松地實(shí)現(xiàn)。

問:當(dāng)你還是印度理工學(xué)院的學(xué)生時(shí),你是否想過要是有這么一個(gè)免費(fèi)、有效的搜索引擎該多好?

答:(谷歌學(xué)術(shù)) 影響了我曾經(jīng)關(guān)注的問題。舉例來說,當(dāng)時(shí)沒有任何工具可以對(duì)只提供摘要的收費(fèi)文獻(xiàn)進(jìn)行全文檢索。我認(rèn)為這是需要被解決的問題,因?yàn)閷?duì)讀者來說,需要知道信息在哪兒。如果你知道一個(gè)關(guān)鍵的信息在一篇收費(fèi)文獻(xiàn)里,你可以寫信給作者。但在這一點(diǎn)上,谷歌學(xué)術(shù)有它自己的生命。

問:使用谷歌學(xué)術(shù)的用戶是否有必要擔(dān)心數(shù)據(jù)隱私問題?

答:我們采用標(biāo)準(zhǔn)的谷歌數(shù)據(jù)收集政策,谷歌學(xué)術(shù)也不例外。我在谷歌的角色主要是負(fù)責(zé)谷歌學(xué)術(shù),所以不會(huì)談太多更寬泛的問題。

相關(guān)閱讀