摘" 要:大模型的發(fā)展已賦能百行千業(yè),為各行業(yè)帶來機遇的同時,也對政府的治理效能、工作路徑提出新的挑戰(zhàn)和要求,科研管理場景下的大模型應(yīng)用亟待探索。根據(jù)實際的科研管理工作,拆解出情報信息感知、情報信息搜集、情報文本挖掘、情報信息組織和發(fā)展趨勢預(yù)測典型任務(wù),對國內(nèi)主流模型進行任務(wù)測試,分析模型在科研管理場景下情報的任務(wù)完成情況,為在工作中運用模型提出參考。
關(guān)鍵詞:大語言模型;生成式AI;科研管理;應(yīng)用測試;情報信息
中圖分類號:TP18" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2025)09-0021-05
Abstract: The development of LLMs empowers numerous industries, presenting opportunities to all sectors. Simultaneously, it poses new challenges and demands on the governance efficiency and working approaches of the government. The application of LLMs in the management context awaits urgent exploration. Based on the actual work, typical tasks such as intelligence information perception, intelligence information collection, intelligence text mining, intelligence information organization, and trend prediction are decomposed. Task tests are conducted on domestic mainstream LLMs, and the completion of intelligence tasks by the models in the research management scenario is analyzed to offer references for the application of models in work.
Keywords: LLM; Generative AI; scientific research management; application testing; intelligence information
自谷歌2017年發(fā)布Transformer生成式預(yù)訓(xùn)練模型架構(gòu)以來,全球范圍內(nèi)已發(fā)展出涵蓋各類技術(shù)架構(gòu)、模態(tài)、場景的大模型技術(shù)群,其中大語言模型(Large Language Model,簡稱LLM)在大量的文本數(shù)據(jù)上進行訓(xùn)練,能夠執(zhí)行文本總結(jié)、翻譯、情感分析等任務(wù),作為數(shù)據(jù)分析、智能客服、智慧營銷等服務(wù)工具在能源、金融、教育、醫(yī)療和交通等領(lǐng)域得到廣泛應(yīng)用,同時大模型在數(shù)字政府的不同節(jié)點和運轉(zhuǎn)環(huán)節(jié)中,也將會產(chǎn)生一定的積極影響[1]。
科研管理工作作為政府工作的一部分需積極改變傳統(tǒng)工作方式,運用新技術(shù)新工具為工作流程賦能,情報任務(wù)以其獨特的信息優(yōu)勢與決策支持功能,能夠監(jiān)測前沿科技動態(tài),深度挖掘科研信息,對產(chǎn)業(yè)進行評估,在科研管理的戰(zhàn)略規(guī)劃、資源配置、跨學(xué)科合作、風(fēng)險防控及評價體系構(gòu)建等方面發(fā)揮著重要作用,是推動科研事業(yè)持續(xù)健康發(fā)展的關(guān)鍵力量,大模型作為情報信息服務(wù)的新工具[2],美國情報高級研究計劃局[3]、美國國家情報總監(jiān)辦公室和中央情報局[4]均重視大模型等人工智能技術(shù)在情報領(lǐng)域和決策支撐中的重要作用,而針對國內(nèi)已有的大模型產(chǎn)品,形成科學(xué)合理的客觀認識并能夠掌握有效使用大模型的方法,為科研管理工作賦能是亟待解決的問題。
本文立足于實際工作中需研究的產(chǎn)業(yè)動態(tài)及政策文件,拆解出情報信息感知、情報信息搜集、情報文本挖掘、情報信息組織和發(fā)展趨勢預(yù)測典型任務(wù),對國內(nèi)主流模型進行任務(wù)測試,探究國內(nèi)具有代表性的模型的優(yōu)勢點與短板,為工作實際工作使用提出參考。
1" 大模型測評研究基礎(chǔ)
生成式大模型對社會形態(tài)、決策方式、管理模式及科研產(chǎn)生深遠的影響,隨著LLM在研究和日常使用中繼續(xù)發(fā)揮重要作用,對其評估和測試變得越來越重要。目前已有多角度研究LLM測評的成果[5],按研究方法,現(xiàn)有的研究可分為偏向于定量方面的大模型具體參數(shù)自動評估和偏向于定性方面的人工賦分評估研究,按領(lǐng)域,多是在已有學(xué)科劃分的基礎(chǔ)上進行單領(lǐng)域模型的測評。
1.1" 自動評估與人工評估
自動評估用標準指標和評估工具評估,減少了主觀因素影響,如Lin和Chen[6]提出了統(tǒng)一的多維自動評估方法LLM-EVAL,指標主要是準確性、一致性、公平性和穩(wěn)定性;部分自然語言任務(wù)需要人工評估,人工評估更接近實際場景,可以給出更全面的反饋,Wang等[7]運用人工評估等方法評估了InstructGPT,chatGPT3.5、chatGPT4和Bing chat的內(nèi)部知識能力,主要評級指標有信息準確性、主題相關(guān)性、語言流暢度、內(nèi)容安全性、與人類相似性和推理透明性。人工測試適合需要高度靈活性和創(chuàng)造性,涉及復(fù)雜情感與語境理解的測試場景,自動化測試更為適合任務(wù)量較大、廣泛覆蓋的測試場景,為能夠?qū)嶋H使用有參考性,本次測試選擇人工評估方法。
1.2" 測評領(lǐng)域
按研究領(lǐng)域,自然科學(xué)和社會科學(xué)方面均有LLM的評估研究,自然科學(xué)領(lǐng)域有數(shù)學(xué)[8]、化學(xué)[9]、物理[10]、醫(yī)學(xué)[10]和軟件工程[11-12]等方面的評估,總體結(jié)果表明LLM的泛化能力有限,常識性規(guī)劃任務(wù)表現(xiàn)不佳,可以勝任處理簡單工程任務(wù),但在復(fù)雜任務(wù)上難以勝任;社會科學(xué)領(lǐng)域包括經(jīng)濟、心理、政治、法律和教育等方面的評估,結(jié)果表明LLM可以幫助在社會科學(xué)領(lǐng)域處理相關(guān)任務(wù),提高了使用效率,但難以處理專業(yè)性較強的方面,如法律案例判決等,并有實證證明提示工程可以提高LLM處理專業(yè)領(lǐng)域的能力。
1.3" 情報領(lǐng)域大模型測評探索
大模型在情報領(lǐng)域的應(yīng)用得到了學(xué)者的廣泛探討,在情報領(lǐng)域的大模型測試上,有學(xué)者做了大模型在情報任務(wù)場景下的測試,趙浜等[13]分析了ChatGPT和ChatGLM大模型執(zhí)行情報領(lǐng)域典型任務(wù)的測試分析,有學(xué)者立足于開發(fā)流程化的大模型測試框架,李曉松等[14]從科技情報角度建立了大模型測評結(jié)構(gòu),但當前未有立足于政府科研管理角度的大模型使用測試。
本研究立足于政府科研管理場景下的情報工作,使用人工評估方法,對國內(nèi)生成式AI大模型中的代表針對情報任務(wù)進行測試,研究大語言模型的生成、檢索等功能在相關(guān)產(chǎn)業(yè)的情報實踐,以期考察其相關(guān)能力在具體業(yè)務(wù)中的應(yīng)用,以分析生成式AI大模型應(yīng)用于政府科研管理情報工作的有效性與可靠性。
2" 研究設(shè)計
2.1" 被試模型選擇
根據(jù)國家互聯(lián)網(wǎng)信息辦公室關(guān)于生成式人工智能服務(wù)備案信息,結(jié)合工作實際使用情況,選取大模型產(chǎn)品,即智譜清言、文心一言、訊飛星火、天工AI 、通義千問、秘塔AI搜索和KimiAI九款模型進行測試,詳情見表1。
2.2 科技情報典型任務(wù)
根據(jù)科研管理流程,拆解出典型的情報工作任務(wù),將其分為情報信息感知、情報信息搜集、情報文本挖掘、情報信息組織和發(fā)展趨勢預(yù)測,針對每個任務(wù)設(shè)計問題,選取5名測試人員進行獨立測試,評估各大模型執(zhí)行情報任務(wù)情況(表2)。
3 研究結(jié)果分析
3.1 情報信息感知分析
科研管理場景下,管理者需對科技相關(guān)新動態(tài)保持高度敏感性,如新出臺的國家、省市科技政策,各省市的先進經(jīng)驗做法,以及國際、國內(nèi)取得的新的科技突破,情報感知場景指對情報信息的敏感度和洞察力,即能夠迅速在海量信息中識別和捕捉到關(guān)鍵信息,對潛在有價值的信息保持高度警覺。在人工智能的輔助下,了解情報需求,并從海量信息中進行智慧情報感知給出相關(guān)信息對輔助決策有重要作用。
對被試產(chǎn)品進行提問,指令:給出當日關(guān)鍵的科技新聞。就時間來說,其中秘塔AI搜索和天工AI給出的新聞是于當日發(fā)布的新聞,KimiAI給出的新聞部分是當日新聞,還有部分是之前日期的新聞,智譜清言和訊飛星火無法給出當日最新科技進展,最接近當前時間的是4日前的新聞,文心一言給出自行整理的新聞,但日期距離檢索日期較為久遠。就給出內(nèi)容相關(guān)度來說,秘塔AI 搜索的新聞涵蓋了太空天文和生物醫(yī)學(xué)領(lǐng)域,天工AI給出的更接近于科技產(chǎn)業(yè)界的行業(yè)新聞,KimiAI總結(jié)了2024年各個網(wǎng)站報道的相關(guān)科技進展,ChatGLM給出了航天相關(guān)信息,文心一言生成了有關(guān)量子、電池、機器人和氣象領(lǐng)域新聞,訊飛星火生成內(nèi)容涉及航天和生物研究方面。
僅有內(nèi)部數(shù)據(jù)的模型無法進行情報感知,與互聯(lián)網(wǎng)數(shù)據(jù)相鏈接的大模型具有篩選信息的能力,清晰具體的檢索指令能夠有效提升信息獲取效率。
3.2" 情報信息搜集分析
科研管理決策需要完備的信息進行支撐,為解決信息的不完備性,科研管理場景下最典型的情報任務(wù)就是情報信息搜集,在大模型的輔助下,搜集信息的效率得到提升,但其準確度、全面度和可信度有待檢驗,情報信息搜集直接關(guān)系到科研管理決策的質(zhì)量。
對產(chǎn)品分別進行提問,“國家科學(xué)數(shù)據(jù)中心是什么,有幾個?”除天工AI和KimiAI沒有給出準確結(jié)論外,其余模型都答出了是20個國家科學(xué)數(shù)據(jù)中心,其中秘塔AI搜索、智譜清言和文心一言對國家科學(xué)數(shù)據(jù)中心的含義解答最為準確,訊飛星火對國家科學(xué)數(shù)據(jù)中心的認知不夠準確。智譜清言主動給出了20家數(shù)據(jù)中心名單,進一步詢問其他大模型,輸入給出名單命令,秘塔AI搜索給出了7個數(shù)據(jù)中心的名稱,在進一步要求下未給出更多名單,但每次回答皆給出名單相關(guān)網(wǎng)絡(luò)鏈接,訊飛星火均給出了10個名單,KimiAI首次給出18個,進一步要求下給出了20個,文心一言首次給出5個,在進一步要求下給出18個。經(jīng)對比分析,給出的數(shù)據(jù)中心名單與官方網(wǎng)站檢索一致。
通過測試發(fā)現(xiàn),使用大模型的信息搜集與搜索引擎不同,即大模型具有不穩(wěn)定性和“幻覺”,多次檢索生成回答不同,并會產(chǎn)生不準確、不完整或誤導(dǎo)性的輸出,其反饋信息有待進一步核實查證,但模型給出的回答結(jié)構(gòu)較為完整。在開放式問題和固定答案類問題上,在固定答案類問題上表現(xiàn)較好。
3.3" 情報文本挖掘分析
科研管理場景下,各類政策文件、產(chǎn)業(yè)報告等需進行摘要總結(jié),據(jù)此拆解出情報文本挖掘任務(wù),指對政策文件、產(chǎn)業(yè)報告等長文本數(shù)據(jù)進行挖掘分析,解析文本內(nèi)容和提取關(guān)鍵信息,分析其主題、摘要和關(guān)鍵詞,以獲取有價值的知識,提升工作效率。
分產(chǎn)業(yè)報告和政策文本兩類長文本數(shù)據(jù)讓模型進行總結(jié)、關(guān)鍵詞抽取和詞頻分析。秘塔AI搜索不具有上傳文本入口,在產(chǎn)業(yè)報告總結(jié)上,智譜清言和文心一言能完成摘要、關(guān)鍵詞抽取、詞頻分析和共詞分析4方面任務(wù),天工AI、訊飛星火和通義千問在詞頻分析和共詞分析上功能不完善,智譜清言、KimiAI和訊飛星火的摘要能力較強,對文本的總結(jié)條理清晰,文心一言和智譜清言在詞頻分析和共詞分析方面優(yōu)勢較大。在政策文本總結(jié)上,訊飛星火、天工AI和智譜清言可以對政策文本按照一級標題和二級標題進行分類總結(jié)和內(nèi)容凝練,KimiAI無法總結(jié)政策文本。
采用通用模型對文本進行分析具有可行性,相較于傳統(tǒng)文本分析軟件,使用模型操作方便,但并非所有的模型都具有文本挖掘的功能。
3.4" 情報信息組織分析
在信息日益繁雜的科研管理工作中,將信息用合理的方式組織起來,有利于信息的查找和利用,以及本地信息庫的構(gòu)建,是指將已有信息按照一定的邏輯和結(jié)構(gòu)進行整理、分類的過程,使信息組織對信息的檢索、管理和使用有重要作用,合理的信息組織有助于提高信息的可訪問性、可靠性和實用性。
在信息組織能力方面,秘塔AI不具備自動分類能力,其他被試大模型均具備自動分類能力。在產(chǎn)業(yè)技術(shù)領(lǐng)域分類上,智譜清言、KimiAI和天工AI的自動分類能力較強,能夠在沒有提示的情況下對給出的多個技術(shù)領(lǐng)域進行分類,在科技政策領(lǐng)域,智譜清言、天工AI和訊飛星火對科技政策文本的分類較為準確。對個體差距較大的領(lǐng)域來說,在沒有提示的情況下模型能夠很好地將其自動分類,對于模糊領(lǐng)域,各個模型的分類原則不一樣,但都具有一定的參考作用。
3.5" 發(fā)展趨勢預(yù)測分析
在掌握科技發(fā)展現(xiàn)狀的基礎(chǔ)上,對相關(guān)產(chǎn)業(yè)進行分析,研判未來的發(fā)展趨勢,是科研管理工作的任務(wù)之一,測試模型能否運用科學(xué)的情報分析方法對某產(chǎn)業(yè)領(lǐng)域的未來發(fā)展趨勢進行分析,并形成合理化的總結(jié)。
對大模型進行在給出發(fā)展建議方面,針對“山東省固態(tài)電池產(chǎn)業(yè)未來發(fā)展趨勢”每個模型的回答都具有完整的結(jié)構(gòu),有綜述、分論點和結(jié)尾總結(jié),并且單個模型生成的分論點沒有交叉過多的部分,在分論點上,全部大模型都涉及政策引導(dǎo)和支持、人才引進與培養(yǎng)、產(chǎn)業(yè)鏈協(xié)同建設(shè)、加強關(guān)鍵技術(shù)研發(fā)突破4方面的意見建議,政策引導(dǎo)方面提出如制定專項政策、財政補貼、產(chǎn)業(yè)基金和稅收優(yōu)惠等,人才引進培養(yǎng)方面集中于在高校設(shè)立相關(guān)專業(yè),培養(yǎng)具備相關(guān)產(chǎn)業(yè)知識的人才和引進國內(nèi)外優(yōu)秀人才和團隊,產(chǎn)業(yè)鏈協(xié)同建設(shè)方面給出意見傾向于打造上中下游一體化的產(chǎn)業(yè)發(fā)展,并設(shè)立產(chǎn)業(yè)園區(qū)、研發(fā)中心形成產(chǎn)業(yè)集聚效應(yīng),總體的意見內(nèi)容較為基礎(chǔ),體現(xiàn)了大模型在一定程度上具有基本的寫作框架搭建能力,但大模型不具備科學(xué)的趨勢預(yù)測能力。
3.6" 小結(jié)
大模型能夠有效提升科研管理場景下的情報工作效率,在情報搜集和文本挖掘任務(wù)上完成度較好,基本滿足解決信息不完備性的需求,能夠基于給定的文本進行簡短的摘要、關(guān)鍵詞抽取和詞頻分析,在信息感知、信息組織和趨勢預(yù)測上大模型的表現(xiàn)不如情報搜集和文本挖掘,與搜索引擎即互聯(lián)網(wǎng)相連接的大模型不具備情報感知力,無法提供最新的科技信息,且其預(yù)測能力不是基于科學(xué)的分析而是文本的概率生成,已有資料與結(jié)論之間聯(lián)結(jié)不強,大模型表現(xiàn)出弱思辨力,因此在信息感知、信息組織和趨勢預(yù)測上大模型的功能還有待進一步探索。
4" 大模型應(yīng)用啟示
4.1" 需根據(jù)任務(wù)場景選擇合適的模型
每個模型都有其特定的設(shè)計目標、訓(xùn)練數(shù)據(jù)和限制條件,這些因素共同決定了模型的表現(xiàn)和適用范圍,在使用大模型時需要根據(jù)具體任務(wù)情況來選擇合適的大模型產(chǎn)品進行使用。如,秘塔AI搜索不具有分類、總結(jié)功能,但在檢索上具有較強的能力,查全和查準度較高,在檢索開放式問題上具有優(yōu)勢,文心一言在檢索確定性問題上具有優(yōu)勢,智譜清言可以對長文本進行詞頻分析和共詞分析,并給出共詞矩陣,360智腦的自分類測試結(jié)果較好。
4.2" 需要根據(jù)模型調(diào)整檢索策略
大模型產(chǎn)品往往能夠產(chǎn)生大量的輸出結(jié)果,在檢索時需要考慮大模型產(chǎn)品的處理速度、泛化能力等性能特點,選擇適合的檢索策略和參數(shù)設(shè)置。如,對處理速度較慢的模型,異步檢索方式可提高檢索效率,對準確度較高的模型,增加檢索的復(fù)雜性可獲取更精確的結(jié)果。深入了解各大模型的輸入要求、輸出格式、訓(xùn)練數(shù)據(jù)、交互方式和應(yīng)用場景有助于制定出更合適的檢索策略。
4.3" 實際應(yīng)用中需綜合多個模型
大模型內(nèi)部的工作原理并不完全透明,模型結(jié)果難以進行解釋和驗證。根據(jù)具體任務(wù)需求,綜合考慮多個模型,將其融合到一個系統(tǒng)中,以實現(xiàn)更優(yōu)質(zhì)的輸出和更高效的處理。除直接結(jié)合模型的結(jié)果外,也可以在模型之間共享信息或特征。如,可以使用一個模型的輸出作為另一個模型的輸入進行驗證,使用多個模型的優(yōu)勢特征進行組合和融合,得到更全面、更準確的結(jié)果。
4.4" 對大模型的能力需要客觀判斷
深度學(xué)習(xí)模型雖然已經(jīng)在多個領(lǐng)域取得了顯著的成就,如自然語言處理、圖像識別和語音識別等,但由于數(shù)據(jù)的不完整性和一些噪聲干擾,以及模型本身的簡化假設(shè)和計算能力的限制,大模型在處理某些復(fù)雜問題時會出現(xiàn)偏差或錯誤,還具有一定的局限性,對任務(wù)指令不能夠完成,使用大模型的結(jié)果要結(jié)合領(lǐng)域知識和實際經(jīng)驗進行綜合判斷。
5" 不足與展望
一是由于大模型數(shù)量,在測試中選取了國內(nèi)具有代表性的部分大模型進行測試,具有一定局限性,二是為提高結(jié)論的可靠性和一致性,采用多個工作人員進行獨立測試,并對測試結(jié)果進行交叉驗證,但因測試人員自身的背景和經(jīng)驗差異,人工測試不可避免地具有主觀性。在之后的測試中,將繼續(xù)對更多的模型進行測試,并依據(jù)測試結(jié)果構(gòu)建模型支撐的新型科研管理工作路徑。
參考文獻:
[1] 劉海軍.數(shù)字政府大模型場景應(yīng)用:作用機理、現(xiàn)實挑戰(zhàn)及治理路徑[J].科學(xué)與管理,2025,45(1):40-47.
[2] 李廣建,潘佳立.人工智能技術(shù)賦能情報工作的歷程與當前思考[J].信息資源管理學(xué)報,2024,14(2):4-20.
[3] Office of the Directoe of National Intelligence.2023 National Intelligence Strategy[EB/OL].https://www.dni.gov/files/ODNI/documents/National Intelligence Strategy_2023.pdf.
[4] Office of the Directoe of National Intelligence.The IC OSINT Strategy 2024-2026[EB/OL].https://www.dni.gov/index.php/newsroom/reports-publications/reports-publications-2024/3785-the-ic-osint-strategy-2024-2026.
[5] CHANG Y P, WANG X, WANG J D, et al. A Survey on Evaluation of Large Language Models[EB/OL].https://arxiv.org/abs/2307.03109v9.
[6] LIN Y T, CHEN Y N. LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for OpenDomain Conversations with Large Language Models[EB/OL].https://arxiv.org/abs/2305.13711.
[7] WANG C X, CHENG S, XU Z K, et al. Evaluating open question answering evaluation[EB/OL].https://arxiv.org/abs/2305.12421.
[8] DAN H, COLLIN B, SAURAV K, et al. Measuring mathematical problem solving with the math dataset[EB/OL].https://arxiv.org/abs/2103.03874.
[9] GUO T C, GUO K H, LIANG Z W, et al. What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks[EB/OL].https://arxiv.org/abs/2305.18365.
[10] DAMAN A, HIMANSHU G S, MAUSAM. Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models[EB/OL].https://arxiv.org/abs/2305.15074.
[11] JASON H, LIU Z L, ZHANG L, et al. Evaluating large language models on a highly-specialized topic, radiation oncology physics[EB/OL].https://arxiv.org/abs/2304.01938.
[12] GIRIPRASAD S, RANJANI H G, SOURAV M. ChatGPT: A Study on its Utility for Ubiquitous Software Engineering Tasks[EB/OL].https://arxiv.org/abs/2305.16837.
[13] 趙浜,曹樹金.國內(nèi)外生成式AI大模型執(zhí)行情報領(lǐng)域典型任務(wù)的測試分析[J].情報資料工作,2023,44(5):6-17.
[14] 李曉松,李增華,趙柯然,等.科技情報研究領(lǐng)域的大語言模型測評工作思考[J].情報理論與實踐,2024,47(11):170-176,200.