2015年硅谷最火創(chuàng)業(yè)公司漫談：大數(shù)據(jù)、機(jī)器學(xué)習(xí)和人工智能

2015/02/06 12:55

在一個(gè)開放共贏、協(xié)同創(chuàng)新的時(shí)代，互聯(lián)網(wǎng)呼喚的不僅是靈性商業(yè)，更需要有能級的企業(yè)家。所謂能級不僅是格局，更是使命、責(zé)任，和實(shí)時(shí)歸零的心態(tài)。

硅谷最火的高科技創(chuàng)業(yè)公司都有哪些?

在硅谷大家非常熱情的談創(chuàng)業(yè)談機(jī)會(huì)，我也通過自己的一些觀察和積累，看到了不少最近幾年涌現(xiàn)的熱門創(chuàng)業(yè)公司。我給大家一個(gè)列表，這個(gè)是華爾街網(wǎng)站的全世界創(chuàng)業(yè)公司融資規(guī)模評選(http://graphics.wsj.com/billion-dollar-club/)。它本來的標(biāo)題是billion startup club，我在去年國內(nèi)講座也分享過，不到一年的時(shí)間，截至到2015年1月17日，現(xiàn)在的排名和規(guī)模已經(jīng)發(fā)生了很大的變化。首先估值在10Billlon的達(dá)到了7家，而一年前一家都沒有。第二第一名是中國人家喻戶曉的小米，第三，前20名中，絕大多數(shù)(8成在美國，在加州，在硅谷，在舊金山!)比如Uber, Airbnb, Dropbox, Pinterest. 第四里面也有不少相似模式成功的，比如Flipkart就是印度市場的淘寶，Uber與Airbnb都是共享經(jīng)濟(jì)的范疇。所以大家還是可以在移動(dòng)(Uber)，大數(shù)據(jù)(Palantir)，消費(fèi)級互聯(lián)網(wǎng)，通訊(Snapchat)，支付(Square)，O2O App里面尋找下大機(jī)會(huì)。這里面很多公司我都親自面試和感受過他們的環(huán)境。

有如此之多的高估值公司，是否意味著存在很大的泡沫?

看了那么多高估值公司，很多人都覺得非常瘋狂，這是不是很大泡沫了，泡沫是不是要破了，是很多人的疑問。我認(rèn)為在硅谷這個(gè)充滿夢想的地方，投資人鼓勵(lì)創(chuàng)業(yè)者大膽去做同樣也助長了泡沫，很多項(xiàng)目在幾個(gè)月的時(shí)間就會(huì)估值翻2，3倍，如Uber，Snapchat上我也驚訝于他們的巨額融資規(guī)模。那么這張圖就是講“新興技術(shù)炒作”周期，把各類技術(shù)按照技術(shù)成熟度和期望值分類，在硅谷創(chuàng)業(yè)孵化器YCombinator 課程How to Start a Startup提到。創(chuàng)新萌芽Innovation Trigger”、“期望最頂點(diǎn)Peak of Inflated Expectation”、“下調(diào)預(yù)期至低點(diǎn)Trough of Disillusion”、“回歸理想Slope ofEnlightenment”、“生產(chǎn)率平臺Plateau of Productivity”，越往左，技術(shù)約新潮，越處于概念階段;越往右，技術(shù)約成熟，約進(jìn)入商業(yè)化應(yīng)用，發(fā)揮出提高生產(chǎn)率的效果?？v軸代表預(yù)期值，人們對于新技術(shù)通常會(huì)隨著認(rèn)識的深入，預(yù)期不斷升溫，伴之以媒體炒作而到達(dá)頂峰;隨之因技術(shù)瓶頸或其他原因，預(yù)期逐漸冷卻至低點(diǎn)，但技術(shù)技術(shù)成熟后，期望又重新上升，重新積累用戶，然后就到了可持續(xù)增長的健康軌道上來。Gartner公司每年發(fā)布技術(shù)趨勢炒作圖，Gartner's 2014 Hype Cycle for Emerging Technologies Maps the Journey to Digital Business 今年和去年的圖對比顯示，物聯(lián)網(wǎng)、自動(dòng)駕駛汽車、消費(fèi)級3D打印、自然語言問答等概念正在處于炒作的頂峰。而大數(shù)據(jù)已從頂峰滑落，NFC和云計(jì)算接近谷底。

未來，高科技創(chuàng)業(yè)的趨勢是什么?

我先提一個(gè)最近看的一部電影《Imitation Game》,講計(jì)算機(jī)邏輯的奠基者艾倫圖靈(計(jì)算機(jī)屆最高獎(jiǎng)以他命名)艱難的一生，他當(dāng)年為破譯德軍密碼制作了圖靈機(jī)為二戰(zhàn)勝利作出卓越貢獻(xiàn)，挽回幾千萬人的生命，可在那個(gè)時(shí)代因?yàn)橥詰俦慌谢瘜W(xué)閹割，自殺結(jié)束了短暫的42歲生命。他的一個(gè)偉大貢獻(xiàn)就是在人工智能的開拓工作，他提出圖靈測試(Turing Test),測試某機(jī)器是否能表現(xiàn)出與人等價(jià)或無法區(qū)分的智能。我們現(xiàn)在回到今天，人工智能已經(jīng)有了很大進(jìn)步，從專家系統(tǒng)到基于統(tǒng)計(jì)的學(xué)習(xí)，從支持向量機(jī)到神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)，每一步都帶領(lǐng)機(jī)器智能走向下一個(gè)階梯。在Google資深科學(xué)家吳軍博士(數(shù)學(xué)之美，浪潮之巔作者)，他提出當(dāng)前技術(shù)發(fā)展三個(gè)趨勢：

第一，云計(jì)算和和移動(dòng)互聯(lián)網(wǎng)，這是正在進(jìn)行時(shí);

第二，機(jī)器智能，現(xiàn)在開始發(fā)生，但對社會(huì)的影響很多人還沒有意識到;

第三，大數(shù)據(jù)和機(jī)器智能結(jié)合，這是未來時(shí)，一定會(huì)發(fā)生，有公司在做，但還沒有太形成規(guī)模。他認(rèn)為未來機(jī)器會(huì)控制98%的人，而現(xiàn)在我們就要做個(gè)選擇，怎么成為剩下的2%?李開復(fù)在2015年新年展望也提出未來五年物聯(lián)網(wǎng)帶來龐大創(chuàng)業(yè)機(jī)會(huì)。

　　為什么大數(shù)據(jù)和機(jī)器智能結(jié)合的未來一定會(huì)到來?

其實(shí)在工業(yè)革命之前(1820年)，世界人均GDP在1800年前的兩三千年里基本沒有變化，而從1820年到2001年的180年里，世界人均GDP從原來的667美元增長到6049美元。由此足見，工業(yè)革命帶來的收入增長的確是翻天覆地的。這里面發(fā)生了什么，大家可以去思考一下。但人類的進(jìn)步并沒有停止或者說穩(wěn)步增長，在發(fā)明了電力，電腦，互聯(lián)網(wǎng)，移動(dòng)互聯(lián)網(wǎng)，全球年GDP增長從萬分之5到2%，信息也是在急劇增長，根據(jù)計(jì)算，最近兩年的信息量是之前30年的總和，最近10年是遠(yuǎn)超人類所有之前累計(jì)信息量之和。在計(jì)算機(jī)時(shí)代，有個(gè)著名的摩爾定律，就是說同樣成本每隔18個(gè)月晶體管數(shù)量會(huì)翻倍，反過來同樣數(shù)量晶體管成本會(huì)減半，這個(gè)規(guī)律已經(jīng)很好的match了最近30年的發(fā)展，并且可以衍生到很多類似的領(lǐng)域：存儲，功耗，帶寬，像素。

而下面這個(gè)是馮諾伊曼，20世紀(jì)最重要的數(shù)學(xué)家之一，在現(xiàn)代計(jì)算機(jī)、博弈論和核武器等諸多領(lǐng)域內(nèi)有杰出建樹的最偉大的科學(xué)全才之一。他提出(技術(shù))將會(huì)逼近人類歷史上的某種本質(zhì)的奇點(diǎn),在那之后，全部人類行為都不可能以我們熟悉的面貌繼續(xù)存在。這就是著名的奇點(diǎn)理論。目前會(huì)越來越快指數(shù)性增長，美國未來學(xué)家Ray Kurzweil稱人類能夠在2045年實(shí)現(xiàn)數(shù)字化永生，他自己也創(chuàng)辦奇點(diǎn)大學(xué)，相信隨著信息技術(shù)、無線網(wǎng)、生物、物理等領(lǐng)域的指數(shù)級增長，將在2029年實(shí)現(xiàn)人工智能，人的壽命也將會(huì)在未來15年得到大幅延長。

國外值得關(guān)注的大數(shù)據(jù)公司都有哪些?國內(nèi)又有哪些?

這是2014年總結(jié)的Big Data公司列表，我們大致可以分成基礎(chǔ)架構(gòu)和應(yīng)用，而底層都是會(huì)用到一些通用技術(shù)，如Hadoop，Mahout，HBase，Cassandra，我在下面也會(huì)涵蓋。我可以舉幾個(gè)例子，在分析這一塊，Cloudera，Hortonworks，MapR作為Hadoop的三劍客，一些運(yùn)維領(lǐng)域，MangoDB，Couchbase都是NoSQL的代表，作為服務(wù)領(lǐng)域AWS和Google BigQuery劍拔弩張，在傳統(tǒng)數(shù)據(jù)庫，Oracle收購了MySQL，DB2老牌銀行專用，Teradata做了多年數(shù)據(jù)倉庫。上面的Apps更多，比如社交消費(fèi)領(lǐng)域Google, Amazon, Netflix, Twitter, 商業(yè)智能：SAP，GoodData，一些在廣告媒體領(lǐng)域：TURN，Rocketfuel，做智能運(yùn)維Sumologic等等。去年的新星 Databricks 伴隨著Spark的浪潮震撼Hadoop的生態(tài)系統(tǒng)。

對于迅速成長的中國市場，大公司也意味著大數(shù)據(jù)，BAT三家都是對大數(shù)據(jù)的投入也是不惜余力，我5年前在Baidu的的時(shí)候，就提出框計(jì)算的東東，最近兩年成立了硅谷研究院，挖來Andrew Ng作為首席科學(xué)家，研究項(xiàng)目就是百度大腦，在語音，圖片識別大幅提高精確度和召回率，最近還做了個(gè)無人自行車非常有趣。騰訊作為最大的社交應(yīng)用對大數(shù)據(jù)也是情有獨(dú)鐘，自己研發(fā)了C++平臺的海量存儲系統(tǒng)。淘寶去年雙十一主戰(zhàn)場，2分鐘突破10億，交易額突破571億，背后是有很多故事，當(dāng)年在百度做Pyramid(按Google三輛馬車打造的金字塔三層分布式系統(tǒng))有志之士，繼續(xù)在OceanBase創(chuàng)造神話。而阿里云當(dāng)年備受爭議，馬云也懷疑是不是被王堅(jiān)忽悠，最后經(jīng)歷了雙十一的洗禮證明了OceanBase和阿里云的靠譜。小米的雷軍對大數(shù)據(jù)也是寄托厚望，一方面這么多數(shù)據(jù)幾何級數(shù)增長，另一方面存儲帶寬都是巨大成本，沒價(jià)值就真破產(chǎn)。

與大數(shù)據(jù)技術(shù)關(guān)系最緊密的就是云計(jì)算，能否簡單介紹一下亞馬遜的Redshift框架?

本人在Amazon 云計(jì)算部門工作過，所以還是比較了解AWS，總體上成熟度很高，有大量startup都是基于上面開發(fā)，比如有名的Netflix，Pinterest，Coursera。Amazon還是不斷創(chuàng)新，每年召開reInvent大會(huì)推廣新的云產(chǎn)品和分享成功案例，在這里面我隨便說幾個(gè)，像S3是簡單面向?qū)ο蟮拇鎯Γ珼ynamoDB是對關(guān)系型數(shù)據(jù)庫的補(bǔ)充，Glacier對冷數(shù)據(jù)做歸檔處理，Elastic MapReduce直接對MapReduce做打包提供計(jì)算服務(wù)，EC2就是基礎(chǔ)的虛擬主機(jī)，Data Pipeline 會(huì)提供圖形化界面直接串聯(lián)工作任務(wù)。

Redshift，它是一種(massively parallel computer)架構(gòu)，是非常方便的數(shù)據(jù)倉庫解決方案，就是SQL接口，跟各個(gè)云服務(wù)無縫連接，最大特點(diǎn)就是快，在TB到PB級別非常好的性能，我在工作中也是直接使用，它還支持不同的硬件平臺，如果想速度更快，可以使用SSD的，當(dāng)然支持容量就小些。

是什么造成了Hadoop的流行?當(dāng)時(shí)Hadoop具有哪些設(shè)計(jì)上的優(yōu)勢?

看Hadoop從哪里開始的，不得不提Google的先進(jìn)性，在10多年前，Google出了3篇paper論述分布式系統(tǒng)的做法，分別是GFS, MapReduce, BigTable,非常NB的系統(tǒng)，但沒人見過，在工業(yè)界很多人癢癢的就想按其思想去仿作，當(dāng)時(shí)Apache Nutch Lucene的作者Doug Cutting也是其中之一，后來他們被Yahoo收購，專門成立Team去投入做，就是Hadoop的開始和大規(guī)模發(fā)展的地方，之后隨著Yahoo的衰落，牛人去了Facebook, Google, 也有成立了Cloudera, Hortonworks等大數(shù)據(jù)公司，把Hadoop的實(shí)踐帶到各個(gè)硅谷公司。而Google還沒有停止，又出了新的三輛馬車，Pregel, Caffeine, Dremel, 后來又有很多步入后塵，開始新一輪開源大戰(zhàn)。

為啥Hadoop就比較適合做大數(shù)據(jù)呢?首先擴(kuò)展很好，直接通過加節(jié)點(diǎn)就可以把系統(tǒng)能力提高，它有個(gè)重要思想是移動(dòng)計(jì)算而不是移動(dòng)數(shù)據(jù)，因?yàn)閿?shù)據(jù)的移動(dòng)是很大的成本需要網(wǎng)絡(luò)帶寬。其次它提出的目標(biāo)就是利用廉價(jià)的普通計(jì)算機(jī)(硬盤)，這樣雖然可能不穩(wěn)定(磁盤壞的幾率)，但通過系統(tǒng)級別上的容錯(cuò)和冗余達(dá)到高可靠性。并且非常靈活，可以使用各種data，二進(jìn)制，文檔型，記錄型。使用各種形式(結(jié)構(gòu)化，半結(jié)構(gòu)化，非結(jié)構(gòu)化所謂的schemaless)，在按需計(jì)算上也是個(gè)技巧。

　圍繞在Hadoop周圍的有哪些公司和產(chǎn)品?

提到Hadoop一般不會(huì)說某一個(gè)東西，而是指生態(tài)系統(tǒng)，在這里面太多交互的組件了，涉及到IO，處理，應(yīng)用，配置，工作流。在真正的工作中，當(dāng)幾個(gè)組件互相影響，你頭疼的維護(hù)才剛剛開始。我也簡單說幾個(gè)：Hadoop Core就三個(gè)HDFS，MapReduce，Common，在外圍有NoSQL: Cassandra, HBase, 有Facebook開發(fā)的數(shù)據(jù)倉庫Hive，有Yahoo主力研發(fā)的Pig工作流語言，有機(jī)器學(xué)習(xí)算法庫Mahout，工作流管理軟件Oozie，在很多分布式系統(tǒng)選擇Master中扮演重要角色的Zookeeper。

　　能否用最易理解的方式解釋一下Hadoop的工作原理?

我們先說HDFS，所謂Hadoop的分布式文件系統(tǒng)，它是能真正做到高強(qiáng)度容錯(cuò)。并且根據(jù)locality原理，對連續(xù)存儲做了優(yōu)化。簡單說就是分配大的數(shù)據(jù)塊，每次連續(xù)讀整數(shù)個(gè)。如果讓你自己來設(shè)計(jì)分布式文件系統(tǒng)，在某機(jī)器掛掉還能正常訪問該怎么做?首先需要有個(gè)master作為目錄查找(就是Namenode)，那么數(shù)據(jù)節(jié)點(diǎn)是作為分割好一塊塊的，同一塊數(shù)據(jù)為了做備份不能放到同一個(gè)機(jī)器上，否則這臺機(jī)器掛了，你備份也同樣沒辦法找到。HDFS用一種機(jī)架位感知的辦法，先把一份拷貝放入同機(jī)架上的機(jī)器，然后在拷貝一份到其他服務(wù)器，也許是不同數(shù)據(jù)中心的，這樣如果某個(gè)數(shù)據(jù)點(diǎn)壞了，就從另一個(gè)機(jī)架上調(diào)用，而同一個(gè)機(jī)架它們內(nèi)網(wǎng)連接是非?？斓模绻莻€(gè)機(jī)器也壞了，只能從遠(yuǎn)程去獲取。這是一種辦法，現(xiàn)在還有基于erasure code本來是用在通信容錯(cuò)領(lǐng)域的辦法，可以節(jié)約空間又達(dá)到容錯(cuò)的目的，大家感興趣可以去查詢。

接著說MapReduce，首先是個(gè)編程范式，它的思想是對批量處理的任務(wù)，分成兩個(gè)階段，所謂的Map階段就是把數(shù)據(jù)生成key, value pair, 再排序，中間有一步叫shuffle，把同樣的key運(yùn)輸?shù)酵粋€(gè)reducer上面去，而在reducer上，因?yàn)橥瑯觡ey已經(jīng)確保在同一個(gè)上，就直接可以做聚合，算出一些sum，最后把結(jié)果輸出到HDFS上。對應(yīng)開發(fā)者來說，你需要做的就是編寫Map和reduce函數(shù)，像中間的排序和shuffle網(wǎng)絡(luò)傳輸，容錯(cuò)處理，框架已經(jīng)幫你做好了。

　　MapReduce模型有什么問題?

第一：需要寫很多底層的代碼不夠高效，

第二：所有的事情必須要轉(zhuǎn)化成兩個(gè)操作Map/Reduce，這本身就很奇怪，也不能解決所有的情況。

Spark從何而來?Spark相比于Hadoop MapReduce設(shè)計(jì)上有什么樣的優(yōu)勢?

其實(shí)Spark出現(xiàn)就是為了解決上面的問題。先說一些Spark的起源。

Spark發(fā)自 2010年Berkeley AMPLab，發(fā)表在hotcloud 是一個(gè)從學(xué)術(shù)界到工業(yè)界的成功典范，也吸引了頂級VC：Andreessen Horowitz的注資. 在2013年，這些大牛(Berkeley系主任，MIT最年輕的助理教授)從Berkeley AMPLab出去成立了Databricks，引無數(shù)Hadoop大佬盡折腰，它是用函數(shù)式語言Scala編寫，Spark簡單說就是內(nèi)存計(jì)算(包含迭代式計(jì)算，DAG計(jì)算,流式計(jì)算 )框架，之前MapReduce因效率低下大家經(jīng)常嘲笑，而Spark的出現(xiàn)讓大家很清新。 Reynod 作為Spark核心開發(fā)者, 介紹Spark性能超Hadoop百倍，算法實(shí)現(xiàn)僅有其1/10或1/100。在去年的Sort benchmark上，Spark用了23min跑完了100TB的排序，刷新了之前Hadoop保持的世界紀(jì)錄。

　Linkedin都采用了哪些大數(shù)據(jù)開源技術(shù)?

在Linkedin，有很多數(shù)據(jù)產(chǎn)品，比如People you may like, job you may be interested, 你的用戶訪問來源，甚至你的career path都可以挖掘出來。那么在Linkedin也是大量用到開源技術(shù)，我這里就說一個(gè)最成功的Kafka，它是一個(gè)分布式的消息隊(duì)列，可以用在tracking，機(jī)器內(nèi)部metrics，數(shù)據(jù)傳輸。數(shù)據(jù)在前端后端會(huì)經(jīng)過不同的存儲或者平臺，每個(gè)平臺都有自己的格式，如果沒有一個(gè)unified log，會(huì)出現(xiàn)災(zāi)難型的O(m*n)的數(shù)據(jù)對接復(fù)雜度，如果你設(shè)定的格式一旦發(fā)生變化，也是要修改所有相關(guān)的。所以這里提出的中間橋梁就是Kafka，大家約定用一個(gè)格式作為傳輸標(biāo)準(zhǔn)，然后在接受端可以任意定制你想要的數(shù)據(jù)源(topics),最后實(shí)現(xiàn)的線性的O(m+n)的復(fù)雜度。對應(yīng)的設(shè)計(jì)細(xì)節(jié)，還是要參考設(shè)計(jì)文檔 Apache Kafka 這里面主要作者Jay Kreps，Rao Jun 出來成立了Kafka作為獨(dú)立發(fā)展的公司。

在Linkedin，Hadoop作為批處理的主力，大量應(yīng)用在各個(gè)產(chǎn)品線上，比如廣告組。我們一方面需要去做一些靈活的查詢分析廣告主的匹配，廣告預(yù)測和實(shí)際效果，另外在報(bào)表生成方面也是Hadoop作為支持。如果你想去面試Linkedin 后端組，我建議大家去把Hive, Pig, Azkaban(數(shù)據(jù)流的管理軟件)，Avro 數(shù)據(jù)定義格式，Kafka，Voldemort 都去看一些設(shè)計(jì)理念，linkedin有專門的開源社區(qū)，也是build自己的技術(shù)品牌。

如果想從事大數(shù)據(jù)方面的工作，有哪些書籍和學(xué)習(xí)方法可以推薦?

我也有一些建議，首先還是打好基礎(chǔ)，Hadoop雖然是火熱，但它的基礎(chǔ)原理都是書本上很多年的積累，像算法導(dǎo)論，Unix設(shè)計(jì)哲學(xué)，數(shù)據(jù)庫原理，深入理解計(jì)算機(jī)原理，Java設(shè)計(jì)模式，一些重量級的書可以參考。Hadoop 最經(jīng)典的the definitive guide。

其次是選擇目標(biāo)，如果你像做數(shù)據(jù)科學(xué)家，我可以推薦coursera的data science課程，通俗易懂Coursera - Specializations

學(xué)習(xí)Hive，Pig這些基本工具，如果做應(yīng)用層，主要是把Hadoop的一些工作流要熟悉，包括一些基本調(diào)優(yōu)，如果是想做架構(gòu)，除了能搭建集群，對各個(gè)基礎(chǔ)軟件服務(wù)很了解，還要理解計(jì)算機(jī)的瓶頸和負(fù)載管理，Linux的一些性能工具。最后還是要多加練習(xí)，大數(shù)據(jù)本身就是靠實(shí)踐的，你可以先按API寫書上的例子，能夠先調(diào)試成功，在下面就是多積累，當(dāng)遇到相似的問題能找到對應(yīng)的經(jīng)典模式，再進(jìn)一步就是實(shí)際問題，也許周邊誰也沒遇到，你需要些靈感和網(wǎng)上問問題的技巧，然后根據(jù)實(shí)際情況作出最佳選擇。

　談一談Coursera在大數(shù)據(jù)架構(gòu)方面和其他硅谷創(chuàng)業(yè)公司相比有什么特點(diǎn)?是什么原因和技術(shù)取向造成了這些特點(diǎn)?

首先介紹一下Coursera, 作為MOOC(大型開放式網(wǎng)絡(luò)課程)中領(lǐng)頭羊，2012年由Stanford大學(xué)的Andrew和Daphne兩名教授創(chuàng)立，目前160+員工，原Yale校長擔(dān)任CEO。它的使命universal access to world's best education。很多人問我為什么加入，我還是非常認(rèn)可公司的使命。我相信教育可以改變?nèi)松?，同樣我們也可以改變教育。能不能把技術(shù)跟教育結(jié)合起來，這是一個(gè)很有趣的話題。里面有很多可以結(jié)合，比如提供高可靠平臺支持大規(guī)模用戶在線并發(fā)訪問，利用數(shù)據(jù)挖掘分析學(xué)生行為做個(gè)性化課程學(xué)習(xí)，并提高課程滿意度，通過機(jī)器學(xué)習(xí)識別作業(yè)，互相評判，用技術(shù)讓人們平等便捷的獲取教育服務(wù)。

Coursera作為創(chuàng)業(yè)公司，非常想保持敏捷和高效。從技術(shù)上來說，所有的都是在基于AWS開發(fā)，可以想像隨意啟動(dòng)云端服務(wù)，做一些實(shí)驗(yàn)。我們大致分成產(chǎn)品組，架構(gòu)組，和數(shù)據(jù)分析組。我把所有用到的開發(fā)技術(shù)都列在上面。因?yàn)楣颈容^新，所以沒有什么歷史遺留遷移的問題。大家大膽的使用Scala作為主要編程語言，采用Python作為腳本控制，比如產(chǎn)品組就是提供的課程產(chǎn)品，里面大量使用Play Framework，Javascript的backbone作為控制中樞。而架構(gòu)組主要是維護(hù)底層存儲，通用服務(wù)，性能和穩(wěn)定性。我在的數(shù)據(jù)組由10多人構(gòu)成，一部分是對商業(yè)產(chǎn)品，核心增長指標(biāo)做監(jiān)控，挖掘和改進(jìn)。一部分是搭建數(shù)據(jù)倉庫完善跟各個(gè)部門的無縫數(shù)據(jù)流動(dòng)，也用到很多技術(shù)例如使用Scalding編寫Hadoop MapReduce程序，也有人做AB testing框架, 推薦系統(tǒng)，盡可能用最少人力做影響力的事情。其實(shí)除了開源世界，我們也積極使用第三方的產(chǎn)品，比如sumologic做日志錯(cuò)誤分析，Redshift作為大數(shù)據(jù)分析平臺，Slack做內(nèi)部通訊。而所有的這些就是想解放生產(chǎn)力，把重心放到用戶體驗(yàn)，產(chǎn)品開發(fā)和迭代上去。

Coursera是一個(gè)使命驅(qū)動(dòng)的公司，大家不是為了追求技術(shù)的極致，而是為了服務(wù)好老師，同學(xué)，解決他們的痛點(diǎn)，分享他們的成功。這點(diǎn)是跟其他技術(shù)公司最大的區(qū)別。從一方面來說，現(xiàn)在還是早期積累階段，大規(guī)模計(jì)算還沒有來臨，我們只有積極學(xué)習(xí)，適應(yīng)變化才能保持創(chuàng)業(yè)公司的高速成長。

2015年硅谷最火創(chuàng)業(yè)公司漫談：大數(shù)據(jù)、機(jī)器學(xué)習(xí)和人工智能

相關(guān)閱讀

實(shí)時(shí)更新

新聞排行榜

熱門話題

關(guān)注挖貝

2015年硅谷最火創(chuàng)業(yè)公司漫談：大數(shù)據(jù)、機(jī)器學(xué)習(xí)和人工智能

相關(guān)閱讀

實(shí)時(shí)更新

新聞排行榜

熱門話題

關(guān)注挖貝

2015年硅谷最火創(chuàng)業(yè)公司漫談：大數(shù)據(jù)、機(jī)器學(xué)習(xí)和人工智能