張穎嵐, 盧 絮, 董 潔, 李夢茹, 劉 宇
(北京市科學(xué)技術(shù)研究院科技情報(bào)研究所, 北京 100044)
2022年,生成式人工智能(artificial intelligence generated content,AIGC)模型ChatGPT的推出引發(fā)廣泛關(guān)注,基于自然語言處理技術(shù)(natural language processing, NLP)突破的ChatGPT在數(shù)據(jù)采集、數(shù)據(jù)分析、語義理解、文本自動撰寫等場景展現(xiàn)了出色的能力。知名的AIGC創(chuàng)作應(yīng)用程序有人工智能(artificial intelligence,AI)寫作程序Jasper AI,AI繪圖工具M(jìn)idjourney、Stability AI,AI編程工具GitHub Copilot,AI聊天工具ChatGPT等。
生成式人工智能模型可追溯至20世紀(jì)50年代,隨著隱馬爾可夫模型(hidden markov model,HMM)和高斯混合模型(gaussian mixture model,GMM)等概率模型的發(fā)展,以及深度學(xué)習(xí)算法的出現(xiàn),生成式人工智能模型在性能上得到顯著提升[1]。為解決傳統(tǒng)文本生成算法和圖像生成算法在處理長句子和復(fù)雜圖像方面的能力問題,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural Networks, CNN)被引入到語言、圖像建模任務(wù)中[2],允許對相對較長的依賴關(guān)系進(jìn)行建模并有效處理序列特性數(shù)據(jù)。隨后,2014年Goodfellow等[3]開創(chuàng)性的提出了生成對抗網(wǎng)絡(luò)(generative adversarial networks, GANs),在無監(jiān)督機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和自然語言處理領(lǐng)域中取得了突破性的進(jìn)展,成為生成式人工智能模型發(fā)展的重要里程碑。2017年,Transformer模型架構(gòu)[4]被引入自然語言處理和計(jì)算機(jī)視覺任務(wù)中,不僅能在單模態(tài)任務(wù)中取得突出效果,將transformer架構(gòu)與不同領(lǐng)域模型結(jié)合還能夠完成多模態(tài)任務(wù),成為例如谷歌的BERT模型和Open AI的ChatGPT等許多生成式人工智能模型的核心架構(gòu)。
AIGC相關(guān)技術(shù)尚處于起步階段,Gartner預(yù)測AIGC技術(shù)在技術(shù)成熟度曲線(hype cycle)中位于大眾期望的峰值期(peak of inflated expectations),進(jìn)入主流應(yīng)用的時間為2~5年[5]。但以ChatGPT為代表的大模型AIGC技術(shù)迭代速度呈現(xiàn)指數(shù)級爆發(fā),引發(fā)人工智能技術(shù)浪潮,進(jìn)一步影響科技情報(bào)工作方式變革。一方面,利用AIGC技術(shù)在文本生成方面的優(yōu)勢,可以作為高效智能創(chuàng)作工具成為知識生產(chǎn)新模式,優(yōu)化科技情報(bào)工作與服務(wù)水平;另一方面,AIGC技術(shù)在決策影響、安全倫理、知識產(chǎn)權(quán)等方面的問題初露端倪,為科技情報(bào)研究工作帶來機(jī)遇與挑戰(zhàn)。因此,有必要從科技情報(bào)研究全流程視角探究AIGC在科技情報(bào)研究工作中的應(yīng)用,并提出有針對性、可操作性的對策建議。
AIGC是一種使用深度學(xué)習(xí)算法、廣泛大數(shù)據(jù)訓(xùn)練學(xué)習(xí)、大算力支撐的人工智能技術(shù)生成內(nèi)容方法。AIGC具有生成性、多樣性、可組合性等特征,可在例如媒體、電影、音樂、游戲、電商、科研等數(shù)字化程度高、內(nèi)容需求豐富的行業(yè)率先實(shí)現(xiàn)應(yīng)用創(chuàng)新發(fā)展。目前,AIGC技術(shù)已廣泛應(yīng)用于金融、傳媒、電子商務(wù)等多個領(lǐng)域,未來應(yīng)用場景將進(jìn)一步多元化,如圖1所示。
圖1 AIGC技術(shù)應(yīng)用場景
AIGC基于自然語言理解(natural language understanding,NLU)、自然語言生成技術(shù)(natural language generation,NLG)、自然語言處理技術(shù)等多種人工智能技術(shù),在數(shù)據(jù)挖掘、數(shù)據(jù)分析、文本自動生成、多模態(tài)/跨模態(tài)結(jié)果呈現(xiàn)方面具有突出優(yōu)勢。
1.2.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(data mining)是從大量真實(shí)世界數(shù)據(jù)(real world data)挖掘潛在信息、價值的過程,通常由統(tǒng)計(jì)、情報(bào)檢索、機(jī)器學(xué)習(xí)等方法實(shí)現(xiàn)數(shù)據(jù)挖掘流程自動化。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)具有數(shù)量大、種類多、實(shí)時性、非結(jié)構(gòu)化的特點(diǎn)[6]。AIGC通過“預(yù)訓(xùn)練大模型+下游任務(wù)微調(diào)”的方式獲取大量標(biāo)記和未標(biāo)記的數(shù)據(jù),利用無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)等機(jī)器學(xué)習(xí)技術(shù),推斷海量數(shù)據(jù)內(nèi)在結(jié)構(gòu)和深層次的復(fù)雜規(guī)則和關(guān)系,擺脫了傳統(tǒng)數(shù)據(jù)挖掘方式中對勞動力和人工經(jīng)驗(yàn)的局限性,在數(shù)據(jù)挖掘工作中的效率、穩(wěn)定性、靈活性存在優(yōu)勢[7]。
1.2.2 數(shù)據(jù)分析
在技術(shù)層面上,面對多元化的數(shù)據(jù)結(jié)構(gòu),AIGC可運(yùn)用自然語言處理技術(shù)從語義層面進(jìn)行技術(shù)支持,實(shí)現(xiàn)對非結(jié)構(gòu)化、復(fù)雜數(shù)據(jù)及信息的智能分析處理[8]。在分析能力上,AIGC可以自動分析數(shù)據(jù),推斷數(shù)據(jù)隱藏潛力并提煉觀點(diǎn),從而提高數(shù)據(jù)素養(yǎng),進(jìn)一步利用數(shù)據(jù)資源發(fā)現(xiàn)問題、分析問題與解決問題[9]。
1.2.3 文本自動生成
文本自動生成是AIGC實(shí)現(xiàn)商業(yè)化應(yīng)用最早的技術(shù)之一,以現(xiàn)有的商業(yè)場景劃分,AIGC的文本自動生成技術(shù)可以分為交互式文本和非交互式文本生成。交互式文本生成以結(jié)構(gòu)化寫作為主,以電商客服、媒體新聞撰寫為核心應(yīng)用場景,非交互式文本生成以劇本續(xù)寫、營銷文本等非結(jié)構(gòu)化文本寫作。以ChatGPT為代表的大模型AIGC技術(shù)在多源多模態(tài)數(shù)據(jù)關(guān)聯(lián)與文本內(nèi)容生成方面提供了強(qiáng)有力的技術(shù)支持,推動了信息資源和內(nèi)容生成相關(guān)領(lǐng)域產(chǎn)生變革效應(yīng),形成人工智能輔助人類完成內(nèi)容生成任務(wù)的新型信息環(huán)境[10]。
1.2.4 多模態(tài)/跨模態(tài)融合
跨模態(tài)融合是AIGC區(qū)別于傳統(tǒng)UGC(user generated content)和PGC(professional generated content)的顯著特征。2021年,OpenAI發(fā)布了開源跨模態(tài)模型CLIP(contrastive language-image pre-training),它利用自然語言理解和計(jì)算機(jī)視覺分析技術(shù),分別提取圖像和文本特征中隱含的語義,在超大規(guī)模的數(shù)據(jù)集中最大化樣本語義相似度,實(shí)現(xiàn)跨模態(tài)的相互理解和結(jié)果輸出[11-12]。
AIGC作為一種新形態(tài)的知識生產(chǎn)模式,將引發(fā)新一輪內(nèi)容生產(chǎn)力革命,進(jìn)一步影響科技情報(bào)工作方式變革。從三個方面分析AIGC技術(shù)在科技情報(bào)工作中的應(yīng)用如圖2所示。
圖2 AIGC技術(shù)在科技情報(bào)研究流程中的應(yīng)用
數(shù)據(jù)轉(zhuǎn)化與挖掘是科技情報(bào)研究的核心工作之一??萍记閳?bào)數(shù)據(jù)轉(zhuǎn)化方法是運(yùn)用數(shù)據(jù)清洗、翻譯、數(shù)據(jù)過濾、信息檢索等加工方式,將具有關(guān)聯(lián)的相關(guān)性數(shù)據(jù)轉(zhuǎn)化為格式化、結(jié)構(gòu)化的有效數(shù)據(jù)[13]。傳統(tǒng)的科技情報(bào)轉(zhuǎn)化方式通常是需要情報(bào)研究人員結(jié)合自身知識與經(jīng)驗(yàn)進(jìn)行數(shù)據(jù)加工,研究結(jié)果很大程度受情報(bào)人員主觀因素干擾并且耗費(fèi)人力資源和時間成本。
AIGC技術(shù)通過自身在數(shù)據(jù)挖掘、多模態(tài)信息抽取、智能檢索上的算法優(yōu)勢,利用人工智能技術(shù)驅(qū)動的自主傳感器和網(wǎng)絡(luò)爬蟲技術(shù)[14],從海量數(shù)據(jù)庫中判別與篩選有效數(shù)據(jù),將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一語法、語義的通用數(shù)據(jù)模型,并實(shí)現(xiàn)信息處理自動化。AIGC技術(shù)在獲取數(shù)據(jù)的效率和覆蓋率方面得到了顯著提升,從而提升科技情報(bào)科研人員的工作效率。
在科技情報(bào)研究分析中,AIGC技術(shù)中機(jī)器學(xué)習(xí)、遺傳算法、信息關(guān)聯(lián)等多學(xué)科智能化輔助分析技術(shù),采用定量的科技情報(bào)研究方法,通過構(gòu)建學(xué)習(xí)模型、預(yù)測分析模型、知識圖譜,結(jié)合數(shù)學(xué)方法與專家系統(tǒng)在科技情報(bào)研究中的應(yīng)用,實(shí)現(xiàn)對科技情報(bào)信息的智能化研究與分析,提高研究結(jié)果的準(zhǔn)確性和可信度。
隨著經(jīng)濟(jì)全球化及人工智能技術(shù)的飛速發(fā)展,機(jī)器翻譯已成為科技情報(bào)人員處理海量數(shù)據(jù)與國外情報(bào)信息的重要研究工具之一。AIGC在人工智能技術(shù)、特別是NLP語義分析技術(shù)和增強(qiáng)學(xué)習(xí)技術(shù)的突破,為科研人員提供高質(zhì)量科技情報(bào)翻譯提供了可能。同時,AIGC技術(shù)能夠從科技文獻(xiàn)中挖掘提煉細(xì)顆粒度的知識單位,并對知識單位進(jìn)行整理加工,形成規(guī)范有序的知識網(wǎng)絡(luò)[15]。
未來,可能能夠?qū)崿F(xiàn)一種新型的科技情報(bào)研究專屬模型,利用AIGC技術(shù)進(jìn)行文獻(xiàn)檢索和摘要抽取,形成集科學(xué)知識網(wǎng)絡(luò)、國內(nèi)外學(xué)術(shù)文獻(xiàn)、知識庫系統(tǒng)、知識問答、信息檢索、科技查新、翻譯功能為一體的交互式科技情報(bào)研究服務(wù)系統(tǒng)。
科技情報(bào)研究工作在數(shù)據(jù)采集、數(shù)據(jù)挖掘、數(shù)據(jù)分析的基礎(chǔ)上,最終形成特定研究主題的科技情報(bào)研究報(bào)告。傳統(tǒng)的科技情報(bào)研究工作,通過常規(guī)圖表、建立信息資源平臺等方式對研究結(jié)果進(jìn)行展示,但隨著大數(shù)據(jù)時代的發(fā)展,常規(guī)科技情報(bào)結(jié)果展示方式難以支撐海量數(shù)據(jù)集對于直觀結(jié)果展示的需求。
AIGC技術(shù)可以將科技情報(bào)研究報(bào)告以多模態(tài)形式進(jìn)行結(jié)果展示,例如文本、圖像、視頻、音頻等方式。AIGC技術(shù)可對復(fù)雜多元結(jié)果數(shù)據(jù)抽象映射至跨模態(tài)可視化結(jié)構(gòu)[16],并通過數(shù)據(jù)聚合、智能檢索技術(shù),利用可視化平臺實(shí)現(xiàn)自定義范圍的結(jié)果展示。在決策支持方面,AIGC技術(shù)可以實(shí)現(xiàn)情報(bào)數(shù)據(jù)的實(shí)時更新,滿足用戶對于數(shù)據(jù)時效性的要求,進(jìn)一步提升科技情報(bào)服務(wù)效率與水平。
以ChatGPT為代表的AIGC技術(shù)的巨大潛力表明了AIGC技術(shù)將一定程度影響科學(xué)研究范式,接下來分析AIGC技術(shù)對科技情報(bào)研究工作帶來的潛在風(fēng)險(xiǎn)與挑戰(zhàn)。
隨著大數(shù)據(jù)、人工智能等新興技術(shù)的發(fā)展和普及,當(dāng)數(shù)據(jù)信息以更加智能化模式獲取時,一方面提升了科技創(chuàng)新協(xié)同效率,另一方面也增加了科技信息被過度采集、傳播和使用的風(fēng)險(xiǎn)[17]。AIGC技術(shù)服務(wù)所有者能夠在科技情報(bào)工作者使用AIGC類應(yīng)用程序時輕易獲取主要受眾和目標(biāo)群體的用戶畫像數(shù)據(jù),開展精準(zhǔn)挖掘、關(guān)聯(lián)性分析等聚合分析,掌握研究問題、關(guān)鍵核心技術(shù)、研究進(jìn)展、重要實(shí)驗(yàn)設(shè)備等一系列關(guān)鍵敏感信息,導(dǎo)致科技創(chuàng)新成果數(shù)據(jù)及相關(guān)信息被不當(dāng)訪問或獲取,從而對國家科技戰(zhàn)略安全產(chǎn)生隱患。例如,三星半導(dǎo)體業(yè)務(wù)部門因員工誤用、濫用ChatGPT應(yīng)用程序,20天內(nèi)發(fā)生3起芯片機(jī)密數(shù)據(jù)泄露事故。
AIGC技術(shù)本質(zhì)就是使用大量數(shù)據(jù)集執(zhí)行訓(xùn)練進(jìn)行機(jī)器學(xué)習(xí)的人工智能技術(shù)。以ChatGPT為例,ChatGPT基于2021年以前的互聯(lián)網(wǎng)開源數(shù)據(jù)集進(jìn)行訓(xùn)練,對于2021年后事件的輸出結(jié)果將產(chǎn)生偏差,甚至生成大量虛假信息,偽造事實(shí)誤導(dǎo)情報(bào)分析影響決策。另外,目前的AIGC技術(shù)生成結(jié)果并不具備驗(yàn)真與證偽的功能和元認(rèn)知能力,泛知識化大模型無法保證應(yīng)答質(zhì)量,甚至稀釋真實(shí)信息??萍记閳?bào)研究領(lǐng)域?qū)?shù)據(jù)可信度有更高的要求,因此基于虛假數(shù)據(jù)和偽事實(shí)生成的情報(bào)報(bào)告很可能產(chǎn)生偏見影響決策與研究結(jié)果[18]。
AIGC可能會帶來意識形態(tài)問題。AIGC的輸出結(jié)果由模型決定,而模型又來自算法選擇和用于模型預(yù)訓(xùn)練的龐大數(shù)據(jù)集,這使得模型開發(fā)人員可以輕易將偏好的價值觀植入訓(xùn)練數(shù)據(jù)集,或通過算法選擇、底層架構(gòu)使輸出結(jié)果產(chǎn)生潛移默化的影響。如果模型開發(fā)人員的價值觀存在扭曲歷史、文化偏見和種族歧視等,科技情報(bào)研究人員在使用AIGC模型時,底層數(shù)據(jù)的扭曲、偏見和歧視會對科研結(jié)果產(chǎn)生微妙的影響,甚至產(chǎn)生誤導(dǎo)。因此,在國際國內(nèi)各種思潮交織碰撞、東西方意識形態(tài)博弈的背景下,AIGC類互聯(lián)網(wǎng)服務(wù)可能被國家行為體和非國家行為體操縱,成為意識形態(tài)傳播的工具。
AIGC對傳統(tǒng)科技情報(bào)工作帶來顛覆式影響,從情報(bào)感知、數(shù)據(jù)采集、數(shù)據(jù)挖掘、情報(bào)分析、結(jié)果生成、結(jié)果展示、科研成果寫作等科技情報(bào)研究環(huán)節(jié)均會受到不同程度的影響。一方面,部分傳統(tǒng)科技情報(bào)研究工作將會被AIGC技術(shù)優(yōu)化或取代,加劇了就業(yè)競爭,甚至引發(fā)技術(shù)性失業(yè)問題[19]。以ChatGPT為例,目前版本程序的功能以語言交互形式為主,同時兼具編寫和調(diào)試計(jì)算機(jī)代碼等編程能力,將對多源異構(gòu)情報(bào)信息采集、信息分類人工處理、科技情報(bào)定量定性分析等傳統(tǒng)科技情報(bào)研究工作的效率和時效性帶來沖擊。另一方面,AIGC技術(shù)中的智能檢索、智能化輔助分析等人工智能技術(shù)將大幅提升科技情報(bào)研究工作效率,同時擴(kuò)展科技情報(bào)服務(wù)工作的業(yè)務(wù)范圍,催生出新的智能服務(wù)方向和體系,帶來新的工作機(jī)會。
在科技情報(bào)研究中,一方面注重技術(shù)預(yù)防,利用深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)手段防范敏感數(shù)據(jù)竊取問題。建議建設(shè)具有我國自主知識產(chǎn)權(quán)的AIGC科技情報(bào)智能服務(wù)平臺,構(gòu)建智能化科技情報(bào)安全服務(wù)基礎(chǔ)設(shè)施體系。從物理安全和技術(shù)安全兩方面共同保障科技情報(bào)研究工作的開展,形成數(shù)據(jù)資源中心、風(fēng)險(xiǎn)管控、資源共享一體化的安全信息環(huán)境。另一方面,應(yīng)建立風(fēng)險(xiǎn)管控機(jī)制,利用法律約束規(guī)范AIGC技術(shù)規(guī)范發(fā)展。遵循基本倫理原則,建立AIGC安全性審查與追溯制度;尊重個人隱私,建立訪問管理和控制數(shù)據(jù)來源和應(yīng)用制度,預(yù)防潛在隱私與安全問題發(fā)生,使人工智能技術(shù)能夠在科技情報(bào)研究領(lǐng)域得到良性的發(fā)展。
科技情報(bào)研究工作應(yīng)加強(qiáng)底層數(shù)據(jù)標(biāo)注,注重?cái)?shù)據(jù)清洗過濾處理流程,加強(qiáng)對數(shù)據(jù)質(zhì)量的管控。在大數(shù)據(jù)時代中,海量處理數(shù)據(jù)不斷增加是科技情報(bào)研究工作面臨的未來趨勢,ChatGPT類AIGC技術(shù)優(yōu)化了數(shù)據(jù)挖掘工作流程,在大模型底座的加持下,推動了情報(bào)信息資源建設(shè)和多源多模態(tài)信息生成技術(shù)升級??萍记閳?bào)工作應(yīng)加強(qiáng)識別AIGC可能生成的虛假信息,從大數(shù)據(jù)全生命周期評價科技情報(bào)安全性和可靠性,保障情報(bào)信息安全,提高科技情報(bào)研究水平與政府決策服務(wù)水平。
人工智能作為引領(lǐng)新一輪科技革命的戰(zhàn)略性技術(shù)取代部分勞動力完成工作已成為必然趨勢,應(yīng)辯證看待AIGC技術(shù)在科技情報(bào)工作就業(yè)中體現(xiàn)的“替代效應(yīng)”和“創(chuàng)造效應(yīng)”[20],建議從政府、高校、用人單位及個人四個方面提升科技情報(bào)工作人員就業(yè)競爭力,以應(yīng)對AIGC技術(shù)對現(xiàn)行科技情報(bào)工作人員就業(yè)帶來的深遠(yuǎn)影響。政府層面,建議應(yīng)對人工智能產(chǎn)業(yè)變革,開展科技情報(bào)教育制度改革;高校層面,建議優(yōu)化情報(bào)學(xué)及相關(guān)學(xué)科領(lǐng)域科技創(chuàng)新體系,推進(jìn)人工智能與情報(bào)學(xué)相關(guān)學(xué)科的交叉融合與動態(tài)調(diào)整,注重畢業(yè)生多維能力培養(yǎng);用人單位層面,建議建立基于AIGC等人工智能技術(shù)的科技情報(bào)技能培訓(xùn)體系,提升科技情報(bào)工作人員的人工智能技術(shù)應(yīng)用能力,拓展科技情報(bào)研究人員創(chuàng)造性工作能力,努力消除因人工智能技術(shù)興起引發(fā)的技術(shù)性失業(yè)恐慌;個人層面,倡導(dǎo)終生學(xué)習(xí)理念,利用AIGC等智能化輔助技術(shù)在科技情報(bào)工作中的優(yōu)勢,持續(xù)提升自身科技情報(bào)研究能力、實(shí)踐能力和綜合競爭力。
隨著AIGC底層技術(shù)和產(chǎn)業(yè)生態(tài)形成的新格局,科技情報(bào)研究領(lǐng)域?qū)⑹茿IGC技術(shù)發(fā)揮智能作用的主戰(zhàn)場之一。數(shù)智時代變革引發(fā)的新情報(bào)范式,已開始向多模態(tài)、跨模態(tài)、個性化、多元化的智能情報(bào)服務(wù)方向發(fā)展。應(yīng)認(rèn)真思考和探索信息技術(shù)發(fā)展變革對情報(bào)學(xué)研究與實(shí)踐的推動作用,充分發(fā)揮AIGC作為智能研究輔助工具在科技情報(bào)研究工作中的優(yōu)勢,重視研判新技術(shù)可能導(dǎo)致的潛在風(fēng)險(xiǎn)與隱患,為新時代科技情報(bào)研究工作提供安全、有效的技術(shù)支持。