黃語晴
趕著2012年的大數(shù)據(jù)、深度學(xué)習(xí)浪潮,尹程果加入騰訊,做了一名數(shù)據(jù)研究員,工作是處理與個性化推薦相關(guān)的數(shù)據(jù)挖掘與算法設(shè)計—按照更職業(yè)一點的說法,他其實是位“數(shù)據(jù)科學(xué)家”。
“數(shù)據(jù)科學(xué)家的關(guān)鍵工作在于預(yù)測,拿歷史的數(shù)據(jù)來預(yù)測美好的將來?!币坦f。在近6年的工作里,他持續(xù)在做同一件事:根據(jù)數(shù)據(jù)去預(yù)測人們喜歡什么。
從前線業(yè)務(wù)人員那里拿到物品信息和用戶行為信息后,他和團(tuán)隊就開始工作了:結(jié)合騰訊平臺的數(shù)據(jù)資源,對每個用戶做精細(xì)的畫像刻畫,然后運(yùn)用機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘,設(shè)計個性化推薦的算法模型。
這個過程描述得專業(yè)一點,就是要完成從數(shù)據(jù)清洗、數(shù)據(jù)落地、機(jī)器學(xué)習(xí)到模型上線的多個步驟。
整個過程中,尹程果需要把握的兩個關(guān)鍵問題是用戶畫像是否精準(zhǔn),以及算法平臺是否通用。
從學(xué)校跨越到工作,學(xué)校所學(xué)的“漂亮公式”與實際應(yīng)用之間其實存在鴻溝。所以在勝任這份工作之前,尹程果經(jīng)歷了大多計算機(jī)專業(yè)的學(xué)生都經(jīng)歷過的瓶頸。最初,當(dāng)他把學(xué)校所學(xué)的實驗指標(biāo)套入工作實踐,用來評估模型時,受到了產(chǎn)品人員、業(yè)務(wù)人員、用戶對推薦是否準(zhǔn)確的質(zhì)疑。
“這時候就很迷茫,覺得自己用的是學(xué)校里所學(xué)的常規(guī)的,或者是業(yè)界公認(rèn)的算法,為什么得不出我想要的效果?”尹程果說。他只好不斷自我反問:為什么使用這個算法?這個算法的效果為什么更好?它的原理是什么?
在思考算法的過程中,尹程果發(fā)現(xiàn)學(xué)校學(xué)到的算法方案都需要滿足一些特定的前提條件,一旦前提條件不滿足,算法就會失效。
類似的問題也存在于尹程果想要把人的自然語言處理成數(shù)據(jù)語言的情況。比如,學(xué)術(shù)界有一些通用的關(guān)鍵詞提取方法,但這些提取方法在用戶原創(chuàng)內(nèi)容(User Generated Content,UGC)視頻中不起作用,而尹程果發(fā)現(xiàn),用戶在UGC視頻中的描述文本都非常隨意,傳統(tǒng)方法無法做到有效提取。這種情況下,尹程果只能帶領(lǐng)團(tuán)隊根據(jù)具體的業(yè)務(wù)特性分別設(shè)計解決方案。
“一些在學(xué)術(shù)界很漂亮的模型公式,在工程應(yīng)用中很可能被‘打臉。機(jī)器學(xué)習(xí)最后要反饋于業(yè)務(wù),所以一定要考慮實用性?!币坦f。如今,數(shù)據(jù)量級已達(dá)到千萬甚至億級,一些常規(guī)算法更需要進(jìn)一步優(yōu)化。
尹程果團(tuán)隊開發(fā)的智能推薦已經(jīng)被騰訊作為一個服務(wù)產(chǎn)品推向市場。這時候,他又面臨著一個新問題:外部不同客戶的業(yè)務(wù)需求各有特殊性,他們該如何讓個性化推薦形成一種通用的能力輸出,以提高與不同業(yè)務(wù)方的合作效率和效果?這也是做個性化推薦的數(shù)據(jù)科學(xué)家們共同面臨的新難題。
在尹程果眼中,數(shù)據(jù)科學(xué)家必須保持對數(shù)據(jù)的敏感性,“數(shù)據(jù)在你面前,不是一個個數(shù)字。作為一個數(shù)據(jù)科學(xué)家,你看到這個數(shù)據(jù)第一眼,就應(yīng)該敏感地發(fā)現(xiàn)這個里面可能有某種規(guī)律存在?!?/p>
C=CBNweekly Y=Yin Chengguo
C: 數(shù)據(jù)科學(xué)家需要具備哪幾種能力?
Y: 一是要對數(shù)據(jù)有敏感性,二是對數(shù)據(jù)要有很強(qiáng)的提取能力,三是要具備統(tǒng)計分析的能力,四是要具備將數(shù)據(jù)可視化的能力。在騰訊這樣的公司,數(shù)據(jù)科學(xué)家還需要具備一定的軟件開發(fā)、算法調(diào)優(yōu)能力,以便負(fù)責(zé)算法和模型的落 地。
C: 數(shù)據(jù)科學(xué)家的晉升路線是什么?
Y: 先是初級研究員,需要最基本的技能。然后是高級研究員。評選高級研究員的時候,會看你能否用有效率的方法解決問題、對這些問題的分析是否到位,以及解決的方法合不合適。高級研究員之后是專家研究員,再往上就是科學(xué)家了。
C: 數(shù)據(jù)科學(xué)家未來的工作趨勢?
Y: 對于個性化推薦這一領(lǐng)域,后面的趨勢一定是數(shù)據(jù)更多,以及實現(xiàn)遷移學(xué)習(xí)。遷移學(xué)習(xí)是指把數(shù)據(jù)串聯(lián)起來,形成統(tǒng)一的數(shù)據(jù)能力,在不同業(yè)務(wù)之間找出它們的共性,形成一種更完美的推 薦。