隨著全球數(shù)字化經(jīng)濟(jì)的發(fā)展,數(shù)據(jù)已經(jīng)成為現(xiàn)代社會重要的生產(chǎn)要素,影響到社會生產(chǎn)生活的方方面面。如何在浩瀚的知識體系和科研文獻(xiàn)數(shù)據(jù)中找到價值信息,梳理研究方向,甄別、分析、處理海量科研數(shù)據(jù),是科研機(jī)構(gòu)面臨的一道難題。如今,這些問題已成為過去式。作為中國科研文獻(xiàn)資源服務(wù)保障單位,中圖科信數(shù)智技術(shù)(北京)有限公司(以下簡稱中圖科信)提供了全流程科研工具解決方案。
2021年,為了培育研發(fā)團(tuán)隊,掌握新技術(shù),中國圖書進(jìn)出口(集團(tuán))總公司通過混合所有制的形式,成立了中圖科信,聚焦人工智能技術(shù)研發(fā)應(yīng)用,為創(chuàng)新主體提供覆蓋科研全流程的智能化知識服務(wù)。談到中圖科信的業(yè)務(wù)方向時,公司總經(jīng)理許若華表示:“中圖科信與新時期科技資源服務(wù)體系的發(fā)展變化緊密結(jié)合,通過大模型對文獻(xiàn)進(jìn)行碎片化處理,為科研工作者提供一些基于知識點(diǎn)或者語義重點(diǎn)的知識服務(wù),幫助用戶在大量的、低質(zhì)量的、有誤導(dǎo)性的數(shù)據(jù)中,篩選出最能夠幫助他們進(jìn)行科研工作的數(shù)據(jù)?!蹦壳埃袌D科信已形成了以內(nèi)容資源和實(shí)驗數(shù)據(jù)的積累為基礎(chǔ)、AI應(yīng)用為目標(biāo),基于數(shù)據(jù)基礎(chǔ)和專業(yè)化場景相結(jié)合的一體化、智能化解決方案,幫助科研機(jī)構(gòu)實(shí)現(xiàn)從實(shí)驗室走向數(shù)智化的最后一公里。
打通科研的最后一公里
2022年,中圖科信一站式科研服務(wù)平臺Data Dimension(DataD)發(fā)布上線,為科研人員提供了全流程科研工具解決方案。據(jù)許若華介紹,DataD平臺可以通過AI算法對科研文獻(xiàn)數(shù)據(jù)精細(xì)識別、拆解,將碎片化的信息關(guān)聯(lián)、重構(gòu),實(shí)現(xiàn)個人、團(tuán)隊或機(jī)構(gòu)的知識網(wǎng)絡(luò)構(gòu)建,并針對信息高效檢索、知識發(fā)現(xiàn)、知識管理、量化分析、學(xué)術(shù)發(fā)表、研究團(tuán)隊實(shí)時協(xié)作和管理等多個科研場景提供一站式解決方案,實(shí)現(xiàn)為科研工作者提供定制化服務(wù)。“比如做一個名為‘非流體粉末傳輸’的實(shí)驗,檢索發(fā)現(xiàn)有10篇論文都研究過這個實(shí)驗的物理模型。而我們的平臺就會把這10篇文獻(xiàn)中的物理模型進(jìn)行抽取、分析和重組,并快速確立一個研究目標(biāo)。有了研究目標(biāo)后,我們可以去設(shè)計一系列的實(shí)驗,實(shí)驗的過程中還會繼續(xù)搜索文獻(xiàn)獲取知識,并基于語義和重點(diǎn)內(nèi)容對文獻(xiàn)進(jìn)行碎片化。完成實(shí)驗后,我們將實(shí)驗數(shù)據(jù)、實(shí)驗設(shè)計期間使用的數(shù)據(jù)、做測試使用的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,驗證實(shí)驗是否滿足實(shí)驗設(shè)計時的需求,當(dāng)實(shí)驗數(shù)據(jù)滿足了實(shí)驗的需求,并印證了科研目標(biāo)時,就可以將這些內(nèi)容快速生成一篇論文?!痹S若華以一個例子闡明了DataD平臺的工作原理。
目前,DataD平臺已應(yīng)用于水利、農(nóng)業(yè)、醫(yī)療等相關(guān)科研領(lǐng)域。今年2月,中圖科信順利完成水利行業(yè)相關(guān)單位信息中心的水庫防洪調(diào)度知識庫智能構(gòu)建系統(tǒng)符合性驗證,并在該系統(tǒng)中進(jìn)行應(yīng)用?;谠擁椖康男∷畮煺{(diào)度方案、水情年報和洪水預(yù)報方案等3種文檔類型,中圖科信通過開發(fā)智能識別算法,抽取關(guān)鍵性的文字、表格和圖像等信息,智能構(gòu)建小水庫專用知識庫;利用大語言模型等新技術(shù),開發(fā)小水庫專用知識庫智能檢索服務(wù)功能,并集成到現(xiàn)有業(yè)務(wù)系統(tǒng)中?!爸袌D科信小水庫知識庫大模型總結(jié)了水資源管理信息化能力現(xiàn)狀和存在的主要問題,提出了水資源管理與調(diào)配系統(tǒng)建設(shè)思路,為水資源管理信息化建設(shè)工作提供了重要參考依據(jù)?!痹S若華介紹。
做更懂科研的大模型
基于DataD平臺等模型矩陣,2023年,中圖科信通過自研與開源模型的智慧融合,形成了大模型開發(fā)能力代表之作“思瓜LUFFA AI”(以下簡稱思瓜)。許若華表示,思瓜與其說是一個大模型的名字,不如說它是一個產(chǎn)品生態(tài)或一個產(chǎn)品矩陣,它幫助用戶去整合數(shù)據(jù)、整合模型?!八脊鲜且豢顬閳D書館及科研人員定制化服務(wù)的智能助手,致力于做更懂科研的大模型?!?/p>
“思瓜也是一個模型訓(xùn)練平臺,它能夠?qū)⒏鞣N內(nèi)容轉(zhuǎn)化為編程語言,在最終輸出時又可以還原為大家能夠理解的自然語言,讓用戶可以清晰看到訓(xùn)練的成果。我們將其命名為思瓜,寓意著它是一個會思索的瓜,它幫助用戶把自己的思想種植在人工智能的土壤中,會陪伴著用戶共同把思想成長為完整的結(jié)構(gòu)體系,然后瓜熟蒂落,用戶就可以采摘果實(shí)?!痹S若華談到。思瓜有別于最為大眾所知的ChatGPT、文心一言?!半m然我們也做知識庫的服務(wù),但是我們的賣點(diǎn)不在于回答多么精妙,我們服務(wù)的特點(diǎn)在于可以幫助用戶快速地構(gòu)建自己所需要的一個本地知識庫。我們基于用戶上傳的文獻(xiàn)、文檔和搜集材料進(jìn)行分析,最終把最專業(yè)的內(nèi)容交給用戶?!?/p>
許若華表示,中圖科信現(xiàn)有員工近100個,其中有86個崗位都是在做與研發(fā)相關(guān)的工作?!拔覀兊纳虡I(yè)模式就是為各個機(jī)構(gòu)提供一站式的解決方案,我們與用戶共享知識,幫助其構(gòu)建自己的專業(yè)方案,這是我們與市場上各種大模型所做的工作的差異之處?!?/p>
據(jù)悉,2023年,中圖科信已與華為、騰訊、香港中文大學(xué)等陸續(xù)簽署大模型研發(fā)戰(zhàn)略合作協(xié)議。在知識服務(wù)領(lǐng)域,中圖科信面向大學(xué)、圖書館、情報所等機(jī)構(gòu),提供“思瓜LUFFA AI”知識庫等系列產(chǎn)品。
大模型需要以人為本
談及大模型行業(yè),許若華認(rèn)為,現(xiàn)在產(chǎn)業(yè)中對于大模型的期待有“兩個回歸”,其一是能力邊界的回歸,其二是應(yīng)用場景的回歸?!拔覀儗τ诖竽P陀泻軓?qiáng)的期待,我們問它一個問題,它可能回答得像模像樣的,但是對于我們的實(shí)際工作缺乏指導(dǎo)作用。各個領(lǐng)域都有很強(qiáng)的專業(yè)性與邊界性,我們需要培訓(xùn)大模型建立一套完整的或者優(yōu)秀的思維鏈讓它去處理相對簡單的任務(wù),同時再不斷給它‘喂’專業(yè)數(shù)據(jù),讓它形成一個有邏輯的工作流程。這就是大模型的邊界?思考能力的邊界和數(shù)據(jù)的邊界。應(yīng)用場景的回歸也是同理,大模型終究需要以人為本,解決人的實(shí)際問題?!痹S若華談到。
值得一提的是,中圖科信攜手施普林格 · 自然集團(tuán)共同啟動了“智筆計劃Artificial Pen Project”,該計劃首部出版《巖石動力學(xué)研究進(jìn)展》,這也是中國第一本應(yīng)用人工智能大模型寫作的圖書,標(biāo)志著其在科研領(lǐng)域智能化邁出了堅實(shí)的一步。
那么,AI如何生成一本書?“首先要給我們一個主題,比如巖石動力學(xué),然后基于這個研究領(lǐng)域的主題,檢索我們知識庫中的內(nèi)容,模型會學(xué)習(xí)寫一本圖書應(yīng)該具備哪些關(guān)鍵要素,并根據(jù)這些要素再去知識庫中搜索內(nèi)容,進(jìn)而生成對應(yīng)的小標(biāo)題和內(nèi)容,這樣可以快速幫助作者與編輯去完成內(nèi)容?!痹S若華如是說。
隨著數(shù)字技術(shù)的不斷完善,多模態(tài)生成式人工智能技術(shù)將為更多領(lǐng)域帶來深遠(yuǎn)影響。而基于科研行業(yè)智能應(yīng)用創(chuàng)新,中圖科信一直秉承著“打破知識的邊界”的核心理念,通過對數(shù)據(jù)和技術(shù)的賦能,提供科研全鏈條的功能服務(wù)模塊,推動學(xué)科交叉融合的不斷發(fā)展,促進(jìn)科學(xué)研究范式發(fā)生深刻變革,為創(chuàng)新領(lǐng)跑提供新機(jī)遇。