王碧清
2015年年底,上海張江一處20平米的房間內(nèi),十幾個熱火朝天的年輕人寫下了第一行代碼。2020年,上海達觀數(shù)據(jù)(Data Grand)和這里的工程師們已走進了更多企業(yè)的視野。步入大數(shù)據(jù)時代,他們以文本智能處理技術助力企業(yè)破浪前行。
什么是文本智能處理?即通過自然語言理解、自然語言生成、知識圖譜等人工智能領域方面的技術,實現(xiàn)文本的自動抽取、審核、糾錯、搜索、寫作等功能。
如今,達觀數(shù)據(jù)已成為文本智能處理行業(yè)當中的引領者。保持創(chuàng)新、不斷積淀,年輕的航船載譽而歸——公司成為中國唯一入選2020 IDC創(chuàng)新者的文本智能處理企業(yè)、獲中國智能科學技術最高獎“吳文俊人工智能獎”;而公司創(chuàng)始人陳運文憑借在人工智能領域取得的研究成果,入選為全球科學企業(yè)家200人名單。
不久前,陳運文獲評共青團中央2020年“全國向上向善好青年”(創(chuàng)新創(chuàng)業(yè))。他表示:“非常光榮,將繼續(xù)努力,把產(chǎn)品技術推向更廣的應用天地?!?h3>將一塊塊積木拼出藍圖
陳運文低調(diào)而謙遜。在創(chuàng)業(yè)前,他已是科技部“萬人計劃”專家,后帶領團隊在數(shù)據(jù)挖掘方面的國際大賽之中斬獲冠軍,還在由國際計算機學會(ACM)主辦的全球最高級別的國際數(shù)據(jù)競賽中,以“社交網(wǎng)絡推薦算法”在全球1000支隊伍中獲得亞軍,創(chuàng)造了大陸企業(yè)15年來歷史最佳戰(zhàn)績。
選擇創(chuàng)業(yè)后,陳運文是篤定的:服務傳統(tǒng)行業(yè),為企業(yè)轉(zhuǎn)型升級賦能。而探尋“AI+傳統(tǒng)行業(yè)”的道路并非一日之功,但他走得不疾不徐、少見焦慮,更多地是一份堅定和惜時如金的水到渠成。
從復旦大學計算機系博士畢業(yè)之后,陳運文先后擔任盛大文學首席數(shù)據(jù)官、騰訊文學高級總監(jiān)、百度核心技術研發(fā)工程師。在軟件開發(fā)的各類實戰(zhàn)當中,他深感國內(nèi)互聯(lián)網(wǎng)企業(yè)技術水準的領先,但同時也注意到,“許多傳統(tǒng)行業(yè)里面的計算機技術運用得相對落后,填寫、核對文檔等仍需手工完成。以技術提高傳統(tǒng)行業(yè)的運行效率,我覺得這是非常有價值的事”。
在上海張江集團創(chuàng)業(yè)孵化器的一處20平方米的辦公室,陳運文仍記得,那時和創(chuàng)始團隊的不舍晝夜。盡管公司成立之初,云集了各大互聯(lián)網(wǎng)巨頭當中的風云人物,但由于新成立公司的知名度并不高,新鮮力量的補充步履維艱。雖然各方面的條件都很艱苦,但陳運文形容:“痛并快樂著,就像搭積木一樣,看著想做的事情一點一滴地實現(xiàn),心中的藍圖逐漸成形,充滿著期盼,這種感覺還是很好的?!?/p>
那時,陳運文要考慮的是如何生存?!靶」緵]有知名度和客戶,產(chǎn)品技術還在打磨,人員規(guī)模也很少。而創(chuàng)新創(chuàng)業(yè)都是從小公司一步步走過來的,如何發(fā)展壯大其實是非常困難的。”
創(chuàng)業(yè)之殘酷,如穿越逆境寒冬。為了活下來,陳運文團隊努力將每一項技術服務做到極致,把專項技術做出特色?!熬拖駠H上許多巨頭公司,例如日本專門做拉鏈的公司YKK,已有近百年的歷史,他們把拉鏈做到世界第一。對于我們來說,就是把一項技術打磨成行業(yè)里面最好的。哪怕我們做的事情很小,也依然可以爆發(fā)出很強的生命力?!?/p>
陳運文團隊最先實現(xiàn)了文檔材料的自動化解析,可以從Word、PDF、Excel等文檔中,實現(xiàn)精準識別和自動審核,受到了市場的歡迎,逐步建立起了口碑,也成為一些投資人眼中穩(wěn)健、靠譜的優(yōu)質(zhì)項目代表。三個月時間,公司實現(xiàn)了盈虧平衡;三年的時間,公司實現(xiàn)了盈利。
積木一塊一塊地累搭,陳運文說,雖然道路暫時窄一點、黑一點,但心間自有光明?!拔覀兂S玫臐h字雖然約有5000個,但漢字組合起來千變?nèi)f化、語義豐富,如何讓計算機像人一樣去思考、理解、識別非常艱難,技術到今天為止,都不能說是成熟,還有許多問題和挑戰(zhàn)?!边_觀數(shù)據(jù)團隊在一年一臺階穩(wěn)步壯大,在不斷解決問題、保持創(chuàng)新之中,行至更加寬闊的智能時代。
作為人工智能領域中的獨角獸,達觀數(shù)據(jù)始終保持著穩(wěn)步增長,不斷升級迭代。在深耕NLP(自然語言處理)技術方面,陳運文已經(jīng)帶領團隊建立了完備的語料庫,獲得了60余項發(fā)明專利。
2018年,達觀數(shù)據(jù)獲得了寬帶資本1.6億元的B輪融資,累積融資額超過兩億元,刷新了中國NLP融資紀錄,發(fā)展駛?cè)肟燔嚨馈2贿^,陳運文始終保持著冷靜而理性的態(tài)度,不疾不徐地布局、前進,“創(chuàng)業(yè)者要在恰當?shù)臅r機正確引入、使用資本”,“做企業(yè)服務,要慢工出細活,著急不來”。這年,RPA(機器流程自動化)成為業(yè)界炙手可熱的概念,由美國最先風行,并已獲得許多場景當中的實際應用。而達觀數(shù)據(jù)也開始從NLP(自然語言處理)發(fā)展到RPA階段。
如何針對中文使用習慣,開發(fā)出適合中國企業(yè)的RPA產(chǎn)品,陳運文和團隊開始了新一輪的征戰(zhàn)。
在團隊成員的努力下,達觀數(shù)據(jù)成功發(fā)布國內(nèi)首款自主研發(fā)集OCR(光學字符識別)與NLP(自然語言處理)于一體的RPA系列產(chǎn)品。RPA可以理解為軟件機器人或虛擬勞動者,可以記錄人在計算機上的操作,并可重復運行,全程嚴格監(jiān)控以保障信息安全性。因為RPA的技術突破,RPA+NLP可以適應更多更加復雜的應用場景,讓AI技術真正賦能金融、物流、零售、政務、醫(yī)療等行業(yè)的流程自動化,從而創(chuàng)造價值。
比如,針對國際結(jié)算系統(tǒng)自動開戶這一實際應用,RPA軟件首先可以通過自動識別已上傳的公司營業(yè)執(zhí)照信息,自動完成登陸國家外匯管理系統(tǒng)、獲取客戶信息、登陸國際結(jié)算系統(tǒng)、代填客戶信息并開戶,極大地加速、準確且優(yōu)化地完成金融系統(tǒng)相關工作流程。
陳運文坦言,國內(nèi)的智能文本行業(yè)目前仍處于早期的技術產(chǎn)生、中期的推廣應用發(fā)展階段,雖然諸如中國銀聯(lián)、招商銀行、工商銀行等企業(yè)都已經(jīng)開始使用達觀數(shù)據(jù)的產(chǎn)品,但整體來看還不是通用的級別,市場仍然廣闊?!拔覀兛赡芎苋菀桌斫馔赓u、共享單車等的運行邏輯,但對于智能文本處理,讓大家理解這項技術的價值,并且可以使用它,還需要下功夫。”
談及人工智能技術的“數(shù)學氣質(zhì)”,這位本科就讀于數(shù)學系、后獲得復旦大學計算機博士的“80后”創(chuàng)業(yè)者表示:“表面上看是文字處理問題,實際上確實都是數(shù)學問題。漢字的排列組合背后都是數(shù)學的概率、組合。用數(shù)學化的方式去解讀文字的規(guī)律,還是非常有意思的。”
在陳運文上海的辦公場所,每間辦公室的名字都來自于數(shù)學的一種算法或模型:最大熵、傅立葉、貝葉斯網(wǎng)絡……“數(shù)學還是非常神奇的,定理、規(guī)律非常優(yōu)雅”,他希望給團隊伙伴們創(chuàng)造一種良好的技術氛圍,“走到哪里都像走在數(shù)學公式里一樣”。采訪當中,陳運文總會提到團隊之間的“犧牲和支持”、“配合與成就”,而求真、務實的企業(yè)文化,將大家凝聚在一起,共同耕耘、共同期待未來枝葉繁盛。
正如陳運文喜歡的一本書《文明之光》中提到的計算機的“無所不能”那樣,“如果說工具是人類手腳的延伸,那么計算機就是人腦的延伸”,陳運文希望,未來有一半的日常文檔資料是由達觀數(shù)據(jù)所支持的機器人助手去完成,人們從繁重的工作中解脫出來,去做更多更有創(chuàng)造性的工作。