• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大語言模型和知識圖譜的數(shù)字孿生流域知識平臺設(shè)計

      2024-01-08 08:17:14李樹元
      海河水利 2023年12期
      關(guān)鍵詞:永定河知識庫引擎

      李 巍,李樹元

      (1.水利部海河水利委員會,天津 300170;2.天津市龍網(wǎng)科技發(fā)展有限公司,天津 300170)

      1 背景與意義

      近年來,隨著ChatGPT 在人工智能領(lǐng)域率先取得突破性的進展,基于大規(guī)模文本訓(xùn)練的生成式預(yù)訓(xùn)練(Generative Pre-Trained,GPT)模型在文本生成任務(wù)上表現(xiàn)出了強大的泛化能力,大語言模型(Large Language Model,LLM)已經(jīng)成為人工智能領(lǐng)域的研究熱點。目前,大語言模型已在文本生成、文本理解等多個領(lǐng)域取得了顯著成就,在語音識別、圖像描述生成等跨模態(tài)任務(wù)中也展現(xiàn)出強大的潛力,已在情感分析、問答系統(tǒng)、文本分類、智能客服、機器翻譯等方面得到了廣泛應(yīng)用。GPT模型在專業(yè)領(lǐng)域也取得了進展,醫(yī)療、金融、電力等行業(yè)相繼研發(fā)了領(lǐng)域大語言模型[1-3],但在水利行業(yè)尚未見比較成熟的應(yīng)用案例。

      數(shù)字孿生流域作為智慧水利發(fā)展的重要方向,近年來備受關(guān)注。建設(shè)數(shù)字孿生流域是提升國家水安全保障能力的重要支撐,水利部明確了提升流域設(shè)施數(shù)字化、網(wǎng)絡(luò)化、智能化水平的目標(biāo),提出加快建設(shè)數(shù)字孿生流域,構(gòu)建智慧水利體系,推動新階段水利高質(zhì)量發(fā)展[4-6]。水利部發(fā)布了數(shù)字孿生流域技術(shù)導(dǎo)則,部署了一系列先行先試項目。數(shù)字孿生永定河系統(tǒng)是水利部部署的先行先試任務(wù)之一,是數(shù)字孿生海河的重要組成部分,系統(tǒng)建設(shè)內(nèi)容包括感知體系、數(shù)據(jù)底板、模型平臺、知識平臺、水利業(yè)務(wù)應(yīng)用等。知識平臺作為數(shù)字孿生流域的重要組成部分,在推進數(shù)字孿生流域建設(shè)中發(fā)揮著關(guān)鍵作用。

      知識平臺的通用構(gòu)建技術(shù)路線是基于知識圖譜,通過梳理水利業(yè)務(wù)對象及其相互關(guān)系,搭建知識圖譜庫,并用于具體的水利業(yè)務(wù)應(yīng)用。如何將新一代人工智能技術(shù)應(yīng)用于水利行業(yè),基于大語言模型搭建水利知識平臺,在數(shù)字孿生流域建設(shè)中發(fā)揮支撐作用,是一個比較前沿的研究方向。本文以數(shù)字孿生永定河系統(tǒng)為基礎(chǔ),基于海量的業(yè)務(wù)數(shù)據(jù)、圖書文獻、期刊論文和行業(yè)資料,構(gòu)建數(shù)字孿生永定河知識庫。以知識庫為基礎(chǔ),訓(xùn)練大語言模型,創(chuàng)建水利對象、預(yù)報方案、調(diào)度預(yù)案、歷史場景等知識圖譜?;诖笳Z言模型、知識圖譜和向量數(shù)據(jù)庫,實現(xiàn)知識檢索和智能問答,以及水利對象信息智能檢索、歷史場景復(fù)演、防洪預(yù)案和生態(tài)調(diào)度方案智能匹配等水利業(yè)務(wù)智能應(yīng)用。

      2 系統(tǒng)設(shè)計

      2.1 總體架構(gòu)

      數(shù)字孿生永定河系統(tǒng)知識平臺基于數(shù)字孿生流域總體技術(shù)架構(gòu),匯聚關(guān)系型數(shù)據(jù)庫、方案預(yù)案、標(biāo)準(zhǔn)規(guī)范、科研文獻、圖書檔案、項目資料等結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),通過知識抽取、知識融合、文本分割、知識向量化、知識存儲等環(huán)節(jié),構(gòu)建知識庫;基于語料庫訓(xùn)練大語言模型,構(gòu)建規(guī)則引擎和知識圖譜計算引擎,共同組成知識引擎;在知識庫和知識引擎基礎(chǔ)上,開發(fā)知識應(yīng)用程序,包括文檔搜索、智能問答、圖譜檢索、知識統(tǒng)計等基礎(chǔ)知識應(yīng)用,以及水利對象關(guān)聯(lián)、業(yè)務(wù)規(guī)則匹配、歷史場景復(fù)演、實時調(diào)度方案編制等專題知識應(yīng)用。知識平臺總體架構(gòu),如圖1所示。

      圖1 知識平臺架構(gòu)

      2.2 知識庫建設(shè)

      知識庫是數(shù)字孿生永定河流域知識平臺的核心組成部分。知識庫存儲了關(guān)于流域的各類信息和知識,包括但不限于流域的自然地理、水文氣象、水資源開發(fā)利用、預(yù)報調(diào)度預(yù)案方案等信息。知識庫不僅可以提供知識檢索,同時可為大語言模型和知識圖譜提供豐富的語料庫和實體關(guān)系提取素材,為知識應(yīng)用提供全面和準(zhǔn)確的知識支撐。

      知識庫的構(gòu)建步驟包括數(shù)據(jù)收集、篩選、整合與分割、結(jié)構(gòu)化數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)清洗和標(biāo)準(zhǔn)化等預(yù)處理、文本預(yù)處理、數(shù)據(jù)標(biāo)注、知識抽取、知識建模、知識融合、知識向量化與存儲、知識質(zhì)量評估、知識驗證與完善、知識更新與維護等。通過知識抽取和格式轉(zhuǎn)換,構(gòu)建基礎(chǔ)知識庫和主題知識庫,基礎(chǔ)知識庫由文檔庫、語料庫、向量數(shù)據(jù)庫和知識圖譜庫組成;在此基礎(chǔ)上,根據(jù)業(yè)務(wù)場景可構(gòu)建主題知識庫,包括水利對象關(guān)系知識庫、預(yù)案知識庫、歷史場景知識庫、專家經(jīng)驗知識庫、專題圖譜知識庫等。

      2.3 知識引擎構(gòu)建

      數(shù)字孿生永定河流域知識引擎由大語言模型、規(guī)則引擎和知識圖譜計算引擎構(gòu)成。

      大語言模型提供了自然語言解析引擎和知識推理引擎,其訓(xùn)練包括模型預(yù)訓(xùn)練、Tokenizer 訓(xùn)練、指令微調(diào)、獎勵模型和強化學(xué)習(xí)等環(huán)節(jié)。本項目基于中文分詞器,采用開源的互聯(lián)網(wǎng)新聞數(shù)據(jù)集、百科類數(shù)據(jù)集、社區(qū)問答數(shù)據(jù)集、翻譯語料庫,以及通過圖書文獻等資料自主構(gòu)建的水利行業(yè)基礎(chǔ)數(shù)據(jù)集和永定河專題數(shù)據(jù)集等,作為文本預(yù)訓(xùn)練數(shù)據(jù)集和指令數(shù)據(jù)集,對模型進行預(yù)訓(xùn)練和精調(diào)。

      規(guī)則引擎實現(xiàn)將業(yè)務(wù)規(guī)則和應(yīng)用程序代碼的分離,將業(yè)務(wù)規(guī)則集中管理,實現(xiàn)動態(tài)修改業(yè)務(wù)規(guī)則快速響應(yīng)需求變化,提高了系統(tǒng)的靈活性和可維護性。本系統(tǒng)采用Drools 作為規(guī)則引擎,提供規(guī)則編輯器、規(guī)則執(zhí)行引擎等一系列工具,構(gòu)建水利業(yè)務(wù)規(guī)則庫。

      知識圖譜計算引擎用于處理大規(guī)模的知識圖譜數(shù)據(jù),并提供分析和應(yīng)用服務(wù),其主要功能包括知識圖譜的構(gòu)建、存儲、查詢、推理和更新。本系統(tǒng)采用基于Neo4j 圖數(shù)據(jù)庫和圖查詢語言Cypher、圖算法庫構(gòu)建知識圖譜計算引擎。

      2.4 智能業(yè)務(wù)應(yīng)用

      在通用的文檔搜索、智能問答、圖譜檢索、知識統(tǒng)計的基礎(chǔ)上,設(shè)計開發(fā)豐富的水利業(yè)務(wù)專題應(yīng)用,將豐富的知識運用到防汛預(yù)報調(diào)度、水資源管理、水環(huán)境保護等業(yè)務(wù)場景中。

      (1)智能問答?;诖笳Z言模型和知識圖譜的深度融合,采用知識向量化檢索召回模式,研發(fā)數(shù)字孿生永定河智能問答機器人。該智能問答機器人既能回答關(guān)于永定河流域的基礎(chǔ)性知識,如官廳水庫基本情況介紹、官廳水庫的總庫容等,也能回答官廳水庫的預(yù)計來水量之類的預(yù)測類的問題。智能問答系統(tǒng)界面,如圖2所示。

      圖2 智能問答系統(tǒng)界面

      (2)水利對象關(guān)聯(lián)查詢。實體對象包括江河湖泊、水利工程以及水利對象的治理管理活動等,通過對這些水利實體和概念的關(guān)聯(lián)關(guān)系進行查詢檢索,可為水利知識的融合提供基礎(chǔ)。用戶可以方便地查詢到各種水利對象之間的關(guān)聯(lián)關(guān)系,以及與之相關(guān)的屬性、特征等信息。例如,查詢官廳水庫關(guān)聯(lián)的河流、行政區(qū)、水文站、視頻監(jiān)控點、電站等。

      (3)業(yè)務(wù)規(guī)則智能匹配。業(yè)務(wù)規(guī)則包括防洪工程調(diào)度規(guī)則、生態(tài)水量調(diào)度規(guī)則和工程運行管理規(guī)則等,提取流域內(nèi)的水利工程、來水邊界、控制對象等節(jié)點,分析各節(jié)點的來水情況、控制對象、啟用條件、運行方式等要素,將調(diào)度規(guī)則方案邏輯化、知識化、關(guān)聯(lián)化。例如,在知識平臺中可查詢永定河生態(tài)補水的調(diào)度目標(biāo)、各個補水水源之間的關(guān)系和各自的輸水計劃以及詳細(xì)的數(shù)據(jù),也可查詢圖譜中各節(jié)點對應(yīng)的具體數(shù)據(jù)。

      (4)歷史場景復(fù)演。收集整理永定河歷史上發(fā)生的Ⅰ級洪水、Ⅱ級洪水和一般洪水資料,如1737、1780、1801、1819……1956、1963、2012、2023 年等。對歷年的典型洪水進行復(fù)盤推演并提取知識圖譜,包括歷史洪水場景的核心過程、暴雨洪水特征和主要應(yīng)對措施等?;跉v史場景知識庫,可為同類暴雨洪水事件的預(yù)報調(diào)度提供決策參考。

      (5)實時調(diào)度方案編制?;谥R庫、水利專業(yè)模型算法引擎、規(guī)則引擎以及大語言模型,讓計算機學(xué)習(xí)永定河流域內(nèi)的防洪調(diào)度預(yù)案、動態(tài)洪水風(fēng)險圖、流域水工程聯(lián)合調(diào)度方案等預(yù)案方案知識,分析和總結(jié)歷史調(diào)度方案和調(diào)度結(jié)果與成效,推薦水工程聯(lián)合實時調(diào)度最優(yōu)方案,將推薦的調(diào)度方案同步在三維可視化平臺進行實時復(fù)演呈現(xiàn)。同時,可自動生成調(diào)度令,調(diào)用辦公自動化流程輔助下達調(diào)度令。

      3 核心技術(shù)分析

      3.1 大語言模型預(yù)訓(xùn)練與精調(diào)

      永定河數(shù)字孿生大語言模型有別于ChatGPT 這類通用大語言模型,是典型的領(lǐng)域?qū)I(yè)大語言模型。當(dāng)前主流的大語言模型均選擇基于Transformer 架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型作為主體結(jié)構(gòu),有別于傳統(tǒng)的RNN 之類的神經(jīng)網(wǎng)絡(luò)模型,Transformer 具有多頭自注意力機制和高效并行計算能力,并能有效捕獲不同維度詞之間的關(guān)聯(lián)程度,能夠高效處理大規(guī)模文本數(shù)據(jù)。

      數(shù)字孿生永定河大語言模型采用“無監(jiān)督預(yù)訓(xùn)練”+“有監(jiān)督下游任務(wù)精調(diào)”模式,首先基于大規(guī)模文本數(shù)據(jù)訓(xùn)練一個具備通用語義表達能力的大語言模型,然后使用高精度的水利行業(yè)和永定河流域的標(biāo)注數(shù)據(jù)進行精細(xì)微調(diào)優(yōu)化,以適配水利業(yè)務(wù)應(yīng)用的精準(zhǔn)需求。訓(xùn)練過程中采用數(shù)據(jù)并行和模型并行等分布式訓(xùn)練技術(shù),將模型訓(xùn)練任務(wù)分散到多個GPU計算節(jié)點上并行執(zhí)行,從而顯著提升訓(xùn)練效率。

      3.2 知識圖譜與大語言模型深度融合

      知識圖譜是一種結(jié)構(gòu)化的語義知識庫,能夠準(zhǔn)確表達實體及其相互關(guān)系。但知識圖譜的構(gòu)建過程耗時費力,語言理解和文本生成是知識圖譜應(yīng)用中的技術(shù)難點。而大語言模型在語義理解和文本生成方面表現(xiàn)優(yōu)異,但模型訓(xùn)練和推理成本較高,同時存在幻覺、解釋性差、無法實時更新等問題。將兩者深度融合則可實現(xiàn)優(yōu)勢互補,大語言模型補足了知識圖譜的語義理解能力,知識圖譜補足了大語言模型的知識準(zhǔn)確度。兩者的深度結(jié)合可提供精準(zhǔn)、可控、可靠的知識處理方案,可勝任更加復(fù)雜和準(zhǔn)確度要求更高的任務(wù)。

      本系統(tǒng)基于知識圖譜與大語言模型深度融合,通過調(diào)用大語言模型的接口服務(wù),實現(xiàn)知識圖譜從創(chuàng)建到應(yīng)用以及更新全生命周期各環(huán)節(jié)的效率和質(zhì)量提升。在知識圖譜構(gòu)建和更新環(huán)節(jié),通過大語言模型從文本中提取實體及關(guān)系;在知識應(yīng)用階段,通過大語言模型來表達知識圖譜中的知識。同時,通過知識圖譜增強大語言模型的訓(xùn)練和應(yīng)用環(huán)節(jié),利用知識圖譜作為評估數(shù)據(jù)集,優(yōu)化模型預(yù)訓(xùn)練和微調(diào)。在推理階段,將知識圖譜接入大語言模型,為大語言模型提供準(zhǔn)確的知識源,提升大語言模型的推理結(jié)果的可靠性。

      3.3 知識向量化與知識檢索增強生成

      知識向量化是一種將知識轉(zhuǎn)化為高維向量的技術(shù)體系,其核心技術(shù)包括詞向量表示、知識圖譜嵌入和文檔向量表示等,可實現(xiàn)將詞、知識圖譜以及文檔轉(zhuǎn)換為高維向量。為了進一步提升知識檢索和問答的準(zhǔn)確性,本系統(tǒng)基于大語言模型(LLM)+知識召回(Knowledge Retrieval)的知識檢索增強生成(Retrieval-Augmented Generation,RAG)模式,將永定河流域文檔資料和知識圖譜進行切片和向量化處理,基于向量檢索實現(xiàn)知識召回,將召回的知識作為上下文提供給大語言模型進行歸納總結(jié),然后以對話形式與用戶交互,從而提升生成結(jié)果的可解釋性、可控性和可更新性。具體技術(shù)路線,如圖3所示。

      圖3 知識檢索增強生成技術(shù)路線

      4 總結(jié)與展望

      本文以數(shù)字孿生永定河系統(tǒng)已有數(shù)據(jù)為基礎(chǔ),設(shè)計了數(shù)字孿生永定河流域知識平臺,主要建設(shè)內(nèi)容包括知識庫、知識圖譜、大語言模型、智能業(yè)務(wù)應(yīng)用等。其中,知識庫的建設(shè)是基礎(chǔ),知識庫的規(guī)模和質(zhì)量決定了知識圖譜和大語言模型的能力以及知識應(yīng)用的成效;知識引擎是核心,其中大語言模型提供了強大的自然語言解析、語義理解和知識推理能力,知識圖譜和業(yè)務(wù)規(guī)則引擎提供精準(zhǔn)的知識查詢檢索和規(guī)則匹配能力,兩者的深度融合即基于大語言模型和知識圖譜的知識檢索增強生成技術(shù)是提升知識應(yīng)用質(zhì)量的基石;知識應(yīng)用是關(guān)鍵,只有將知識應(yīng)用于具體的業(yè)務(wù)場景中,才能對業(yè)務(wù)起到支撐作用。

      大語言模型的訓(xùn)練、知識圖譜的構(gòu)建以及智能問答的算法實現(xiàn)是知識平臺建設(shè)的技術(shù)難點,大語言模型的訓(xùn)練算法正在快速更新迭代演化,可不斷更新訓(xùn)練算法,訓(xùn)練出高度匹配永定河流域管理業(yè)務(wù)的大語言模型?;诖笳Z言模型和知識圖譜的知識檢索增強生成技術(shù)的智能問答應(yīng)用也能實現(xiàn)更加精準(zhǔn)的信息匹配和更高質(zhì)量的結(jié)果生成。

      猜你喜歡
      永定河知識庫引擎
      永定河治理開啟現(xiàn)代化新征程
      海河水利(2024年4期)2024-05-06 03:36:16
      2022 年春季永定河全線通水工作正式啟動
      中國水利(2022年9期)2022-06-02 02:35:02
      美麗河北之永定河
      公民與法治(2020年8期)2020-05-21 07:39:16
      一條母親河的前世今生——大型音舞詩畫《四季永定河》精彩綻放
      綠色中國(2019年24期)2019-11-26 07:14:10
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
      藍谷: “涉藍”新引擎
      商周刊(2017年22期)2017-11-09 05:08:31
      高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
      基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      無形的引擎
      河南電力(2015年5期)2015-06-08 06:01:46
      基于Cocos2d引擎的PuzzleGame開發(fā)
      大竹县| 青铜峡市| 日喀则市| 衡南县| 唐河县| 锡林郭勒盟| 罗城| 南江县| 西安市| 织金县| 汤原县| 凌云县| 德安县| 区。| 公主岭市| 儋州市| 宜春市| 遵义县| 桃园市| 杭锦后旗| 东阿县| 集安市| 铅山县| 宁城县| 海伦市| 武宣县| 通许县| 迭部县| 陵川县| 扎兰屯市| 旬邑县| 石嘴山市| 什邡市| 灵山县| 青浦区| 介休市| 临汾市| 长沙县| 湄潭县| 韩城市| 正阳县|