• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      博士后制度智能問答系統(tǒng)構(gòu)建研究

      2019-05-13 10:24:16王修來張玉韜曾蘇
      計算機時代 2019年3期
      關鍵詞:知識庫應用

      王修來 張玉韜 曾蘇

      摘 要: 博士后制度智能問答系統(tǒng)是對博士后政策相關的問題自動地給予專家解答。文章提出領域分詞、問題分類和問題相似度的計算方法,利用自動和手工相結(jié)合的方法擬構(gòu)建一定規(guī)模的博士后制度智能問答知識庫,將自然語言處理方法和所建知識庫結(jié)合,開發(fā)一個實用的博士后制度智能問答原型系統(tǒng)。擬建設的問答系統(tǒng)功能全面,能夠滿足博士后工作相關的一般問答需求。

      關鍵詞: 博士后制度; 智能問答系統(tǒng); 知識庫; 應用

      中圖分類號:G2 文獻標志碼:A 文章編號:1006-8228(2019)03-01-03

      Research on the construction of intelligent question answering system for postdoctoral program

      Wang Xiulai, Zhang Yutao, Zeng Su

      (Center for digital talent research, Nanjing, Jiangsu 210007, China)

      Abstract: The intelligent question answering system of postdoctoral system is to automatically give expert answers to questions related to postdoctoral policy. This paper puts forward the calculation method of domain word segmentation, problem classification and problem similarity; Uses the method of combination of automatic and manual to build a certain scale of intelligent question-answering knowledge base of postdoctoral system, combines natural language processing method with established knowledge base, and develops a practical intelligent question-answering prototype system of postdoctoral program. The system has perfect functions and can meet the general needs of postdoctoral groups.

      Key words: postdoctoral program; intelligent question answering system; knowledge base; application

      0 引言

      博士后制度與博士后政策有著密切聯(lián)系,我國博士后政策制度誕生于改革開放的偉大實踐之中,伴隨著深化改革擴大開放的前進步伐不斷創(chuàng)新,對于提高我國高級專業(yè)人才培養(yǎng)質(zhì)量起到了十分重要的作用。博士后群體與博士后管理人員在工作中會遇到一些需要有關專家才能解決的問題。一般的博士后制度答疑主要是咨詢者從網(wǎng)上自行搜索相關政策制度,這種方法往往因為咨詢者對制度不甚了解而事倍功半?;蛘咦稍冋咄ㄟ^中國博士后官方微信公眾號來提問,然后由于相關專家解答,但這種方式存在很多不足,咨詢者和專家難以實時交互,咨詢者還需要經(jīng)常上網(wǎng)關注專家的解答,時效性很差;專家需要對問題進行人工回復,浪費寶貴的專家資源。博士后制度問題是博士后群體關注的重要問題,如果提問沒有及時得到解答,很可能導致博士后群體研究工作上的失誤,造成損失。研究面向博士后制度知識庫智能問答系統(tǒng),能幫助博士后群體及時解決制度理解不清、政策了解不詳?shù)葐栴},提高博士后群體研究效率和博士后工作管理人員的整體水平[1]。

      本文主要研究設計并擬實現(xiàn)博士后制度智能答疑系統(tǒng),旨在構(gòu)建一個能夠滿足博士后群體普遍需求的博士后政策制度智能問答系統(tǒng)。該系統(tǒng)結(jié)合了人工智能、信息檢索和自然語言處理等技術,將用戶的問題和相應的解決方案有機地組織起來,存儲在知識庫中。通過自然語言處理技術,系統(tǒng)可以對用戶提出的問題進行分析和自動匹配,并自動提供解決方案。

      1 博士后制度知識庫構(gòu)建

      知識庫是智能問答系統(tǒng)的重要組成部分。在博士后制度智能問答系統(tǒng)中,知識庫的內(nèi)容豐富主要有三個來源。一是將與博士后工作相關的基本規(guī)章制度導入知識庫,作為知識庫初級搜索解答的基礎。二是博士后研究工作的常見問題和專家解析,包括在線答案和導入知識庫的問題答案豐富。博士后工作常見的問題例如:“博士后人員工作期滿出站的去向怎么安排?”,“進站時戶口、檔案遷入設站單位的博士后人員如何辦理退站手續(xù)?”,“網(wǎng)上進(出)站申請已經(jīng)提交,多久可獲知預審結(jié)果?”這些都是博士后工作中常見且容易混淆的問題。三是可以進行相關網(wǎng)頁搜索和提取部分無法搜索的內(nèi)容,這部分則需要通過網(wǎng)絡爬蟲模塊和網(wǎng)頁源代碼分析模塊,來完成網(wǎng)址抓取和網(wǎng)絡頁面解析的功能。

      網(wǎng)絡爬蟲是一種程序或腳本,它以某種方式自動獲取網(wǎng)絡頁面信息。同時,它也是一個自動提取網(wǎng)址鏈接的程序,搜索引擎通過它從網(wǎng)絡上把網(wǎng)頁下載下來,成為搜索引擎的重要組成部分[2]。網(wǎng)絡爬蟲程序主要從一個或多個初始網(wǎng)絡頁面的網(wǎng)址開始,獲取原始網(wǎng)絡頁面的網(wǎng)址鏈接。在抓取網(wǎng)絡頁面的過程中,爬蟲會從當前頁面抓取下一個網(wǎng)址并將其放入抓取隊列,直到滿足停止抓取條件為止。網(wǎng)頁源碼解析模塊是基于運用Python中的SGMLParser,通過這一模塊,能夠把網(wǎng)頁中的有關問題和解答抓取下來并進行處理,存儲到知識庫中,方便查詢,以此來完善博士后制度的知識庫構(gòu)建[3]。

      通過以上三類資料來源,知識庫就基本包含了博士后制度權(quán)威規(guī)章制度模塊、博士后管理工作常見問題解答模塊以及網(wǎng)絡搜索頻率較高的博士后制度答疑模塊,能夠從多方面對問詢做出智能準確的應對。

      2 自然語言理解方法

      通過對智能問答系統(tǒng)所需分詞、問題歸類、問題相似性計算等相關的自然語言處理技術的研究,提高智能問答系統(tǒng)對問題的理解和答案生成的準確性。通過分析與博士后管理相關的中文信息處理技術,如分詞、問題歸類、問題理解等,采用統(tǒng)計與領域詞典相結(jié)合的分詞方法;問題歸類則采用最大熵分類方法;為了找到最相關的答案,擬使用層次分析法從單詞、語義和句子三個方面來計算所提問題和題庫中問題的相似性。

      2.1 基于統(tǒng)計與領域詞典相結(jié)合的分詞方法

      通過將詞典信息以特征的方式融入到統(tǒng)計分詞模型(使用CRF統(tǒng)計模型,CRF是目前主流的序列標注算法,它在序列標注問題上取得了很大的成功)中使得統(tǒng)計中文分詞模型和詞典有機結(jié)合起來,提高了中文分詞的準確率,同時也大大改善了中文分詞的領域自適應性。CRF是一種無向圖模型或者馬爾可夫隨機域,它采用一階鏈式無向圖結(jié)構(gòu)計算給定觀察值條件下輸出狀態(tài)的條件概率(圖1)[4]。

      2.2 問題歸類

      問題歸類是問答系統(tǒng)中的一個重要模塊。目前,問題歸類的分類算法有很多種,主要包括基于人工規(guī)則的方法和機器學習方法。本研究采用的分類方法是基于統(tǒng)計的機器學習方法,適當?shù)卦跈C器學習方法中加入了一些簡單的規(guī)則。問題分類模塊包括訓練和識別。在訓練階段,最大熵分類器使用特定的算法得到每個句子類型的特征向量集。在識別階段,根據(jù)已有的問題類別特征和句子的特征向量來判斷歸類問題。

      2.3 問題相似性計算

      一般來說,原始問題包含的信息相對較少,可能不包含查詢相關文檔所需的所有單詞,導致召回率較低。因此,有必要對原有的問題進行擴展,加強問題與答案之間的聯(lián)系,使問答系統(tǒng)產(chǎn)生正確的答案。提取問題中的關鍵詞對于理解問題的語義信息具有重要意義,直接影響到后續(xù)的檢索結(jié)果。關鍵詞的構(gòu)成可以是名詞、形容詞、動詞、限制性副詞等,但事實上,除疑問詞之外的大多數(shù)詞都可以被認為是關鍵詞。在回答句中,有些詞不是原問題的關鍵詞,而是這些關鍵詞的同義詞外延。例如,問題“博士后人員最早多久可辦理出站?”的答案是“博士后研究人員完成科研工作并通過出站考核后,可在網(wǎng)上提交出站申請,在站時間不得少于24個月?!眴栴}中使用了“最早多久”這個詞組,答案中卻使用了“不得少于”這個詞組,這樣就造成了關鍵詞語查詢失敗,因此,需要對關鍵詞進行必要的擴展。

      在計算句子相似性時,本研究擬采用了四個方面的信息:關鍵詞、語義、句法結(jié)構(gòu)和句子長度。在使用這種方法描述句子模型時,句子相似度可以分為四個層次:關鍵詞相似度、語義相似度、句法結(jié)構(gòu)相似度和句子長度相似度。摘要句子相似度計算方法的特征權(quán)重從句子的關鍵詞信息、語義、句法結(jié)構(gòu)信息和句子長度的四個角度來計算句子相似度,這樣句子相似度測量范圍更寬、更準確,可以增加一定程度的準確率和召回率[5-6]。

      3 博士后制度智能問答原型系統(tǒng)構(gòu)建

      3.1 系統(tǒng)設計

      根據(jù)智能問答系統(tǒng)的工作流程以及博士后制度智能問答系統(tǒng)存儲的知識庫,結(jié)合用戶的使用習慣,本系統(tǒng)可以解決以下問題:設計友好的人機交互界面,簡單快速的操作;用戶針對博士后領域?qū)ο笕诉M行自然語言提問,系統(tǒng)根據(jù)用戶的提問返回自然語言答案。設計的博士后智能問答系統(tǒng)框架如圖2所示。

      智能問答系統(tǒng)主要包括用戶界面、問題提取模塊、搜索模塊和知識庫模塊四個部分。在用戶界面部分,用戶使用自然語言在對話框中進行提問,然后問題提取模塊利用中文信息處理技術來作用于分析問題分詞、命名實體識別、關鍵字提取和相似度計算等過程,系統(tǒng)再基于關鍵字和相似度計算結(jié)果檢索本地知識庫,并將與這個問題相關的答案返回給用戶。如果在本地知識庫中沒有搜索到這個問題,進一步利用查詢關鍵詞通過搜索引擎檢索與用戶問題相關的網(wǎng)頁文檔。并利用自動文摘技術對網(wǎng)頁文檔進行處理,從中找出答案返回給用戶[7]。專家也可以對此問題進行解答,并將問題和答案在知識庫中更新。

      3.2 系統(tǒng)實現(xiàn)

      本系統(tǒng)擬采用J2EE技術,同時利用Java企業(yè)開發(fā)常用的三大框架Struts2、Hibernate、Spring,并結(jié)合CSS、Java Script、Html等開發(fā)技術設計開發(fā),系統(tǒng)主要開發(fā)工具使用Myeclipse8.5,數(shù)據(jù)庫設計采用SQLServer2008。系統(tǒng)采用B/S模式三層體系結(jié)構(gòu),借助開源的主流框架Struts、Hibernate、Spring實現(xiàn)了Web開發(fā)的MVC三層規(guī)范。由于系統(tǒng)分層,系統(tǒng)各層之間面向接口編程,大大提高了軟件系統(tǒng)的開發(fā)效率。系統(tǒng)采用成熟的J2EE開發(fā)技術,確保了系統(tǒng)的穩(wěn)定性和可擴展性[8]。系統(tǒng)用戶分普通用戶、專家用戶和管理員三種級別的用戶,用戶選擇用戶類型后輸入用戶名和密碼進行身份驗證,驗證成功后,登錄到其所屬主界面。

      4 結(jié)束語

      智能問答系統(tǒng)是眼下IT行業(yè)研究的熱點領域,是未來發(fā)展的必然趨勢。本文大致研究了博士后制度智能問答系統(tǒng)所需的特定領域分詞、問題歸類、問題相似性計算三種中文信息處理方法,提出了使用手動和自動相結(jié)合的方法建立一定規(guī)模的博士后智能問答知識庫,并對知識庫中沒有的答案采用搜索引擎的方式自動搜索相關答案,最終開發(fā)出一套實用的博士后智能問答原型系統(tǒng)。可以預期的是實現(xiàn)系統(tǒng)的基本功能。下一步的工作是提高問答系統(tǒng)的性能,擴大知識庫的規(guī)模。

      參考文獻(References):

      [1] 王修來.中國博士后發(fā)展報告.2015[M].中國人事出版社,

      2016.

      [2] 金濤.網(wǎng)絡爬蟲在網(wǎng)頁信息提取中的應用研究[J].現(xiàn)代計算

      機(上下旬),2012.1.

      [3] 樸石峰.基于Web3.0網(wǎng)絡爬蟲自主學習技術研究[D].吉林

      大學,2015.

      [4] 蔣建洪,趙嵩正,羅玫.詞典與統(tǒng)計方法結(jié)合的中文分詞模型

      研究及應用[J].西北工業(yè)大學,2012.33(1):388-391

      [5] 冶忠林,楊燕,賈真等.基于語義擴展的短問題分類[J].計算機

      應用,2015.35(3):792-796

      [6] 董自濤,包佃清,馬小虎.智能問答系統(tǒng)中問句相似度計算方

      法[J].武漢理工大學學報(信息與管理工程版),2010.32(1):31-34

      [7] 胡小華.基于用戶的智能問答系統(tǒng)的設計與研究[D].天津師

      范大學,2012.

      [8] 邢超.智能問答系統(tǒng)的設計與實現(xiàn)[D].北京交通大學,2015.

      猜你喜歡
      知識庫應用
      漢語近義詞辨析知識庫構(gòu)建研究
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設計中的應用
      美國高校機構(gòu)知識庫開放獲取政策調(diào)查
      圖書館建設(2018年8期)2018-08-31 02:20:56
      多媒體技術在小學語文教學中的應用研究
      考試周刊(2016年76期)2016-10-09 08:45:44
      分析膜技術及其在電廠水處理中的應用
      科技視界(2016年20期)2016-09-29 14:22:00
      GM(1,1)白化微分優(yōu)化方程預測模型建模過程應用分析
      科技視界(2016年20期)2016-09-29 12:03:12
      煤礦井下坑道鉆機人機工程學應用分析
      科技視界(2016年20期)2016-09-29 11:47:01
      氣體分離提純應用變壓吸附技術的分析
      科技視界(2016年20期)2016-09-29 11:02:20
      會計與統(tǒng)計的比較研究
      高速公路信息系統(tǒng)維護知識庫的建立和應用
      万山特区| 吉安县| 卢氏县| 石城县| 内乡县| 庆阳市| 蓬安县| 祁阳县| 长垣县| 吉木乃县| 洛川县| 乌兰察布市| 洛浦县| 临夏市| 新化县| 龙江县| 新源县| 慈利县| 论坛| 微山县| 柏乡县| 内黄县| 泰兴市| 永善县| 涿鹿县| 鱼台县| 祥云县| 汾阳市| 黄山市| 东兴市| 南宫市| 闵行区| 荆门市| 长寿区| 田东县| 申扎县| 洛扎县| 马公市| 大邑县| 佛山市| 宜章县|