• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學(xué)習(xí)的問答系統(tǒng)開發(fā)

    2021-06-01 12:57:10
    關(guān)鍵詞:爬蟲分詞知識庫

    (北方工業(yè)大學(xué)信息學(xué)院,北京 100144)

    0 引言

    在一些日常培訓(xùn)教學(xué)場景中經(jīng)常出現(xiàn)一種比較尷尬的情況,就是在學(xué)生問出一些老師無法立刻給出答案的科學(xué)問題時(shí),老師不能在沒有查閱準(zhǔn)確資料的情況下正確回答問題,經(jīng)分析,在新時(shí)代的青年學(xué)生在接觸了多種多媒體資料后通常對一些未知的知識充滿好奇,并且會在實(shí)際場合中向老師提問,基于深度學(xué)習(xí)的問答系統(tǒng)開發(fā)的成果主要包括以下內(nèi)容:基于B/S架構(gòu)的智能答疑系統(tǒng)軟件以及基于問題回答語言自動(dòng)生成相關(guān)技術(shù)的一項(xiàng)發(fā)明專利。

    1 系統(tǒng)相關(guān)技術(shù)分析

    1.1 問題關(guān)鍵字提取

    基于深度學(xué)習(xí)的自動(dòng)問答系統(tǒng)需要對學(xué)生提出的問題進(jìn)行關(guān)鍵字抽取操作,抽取出最能體現(xiàn)句子含義的一些詞或短語,問題關(guān)鍵字抽取在很大程度上影響著自動(dòng)答疑軟件返回答案的準(zhǔn)確性。問題關(guān)鍵字提取主要經(jīng)過學(xué)生輸入問題、中文分詞、關(guān)鍵字提取三個(gè)步驟。自動(dòng)問答系統(tǒng)輸入模塊主要支持兩種提問形式,學(xué)生可以在文本框內(nèi)直接輸入文字也可以通過語音輸入問題。而中文分詞本系統(tǒng)使用的是jieba全模式方式進(jìn)行分詞,全模式分詞會掃描所有可以成詞的詞語,分詞速度快,呈現(xiàn)關(guān)鍵詞完整,容錯(cuò)率較高,對于可能出現(xiàn)的重復(fù)詞,使用NLTK(Natural Language Toolkit)模塊進(jìn)行去重,達(dá)到準(zhǔn)確分詞的效果。本系統(tǒng)關(guān)鍵字提取步驟采用的是詞頻-逆向文件頻率模型(TF-IDF),該算法根據(jù)某些詞語或者短語在目標(biāo)文本中出現(xiàn)的頻率,給予其一定權(quán)重,最后統(tǒng)計(jì)各個(gè)詞語或短語的權(quán)重和,最終以權(quán)重和選取關(guān)鍵詞檢索的一種算法。意思就是,如果一個(gè)詞語或短語在文本中出現(xiàn)頻率較高,那么它的權(quán)重就高;反之,若一個(gè)詞出現(xiàn)的次數(shù)很少甚至不出現(xiàn),則它的權(quán)重就低。

    1.2 知識庫關(guān)鍵詞檢索

    基于深度學(xué)習(xí)的自動(dòng)問答系統(tǒng)提取出學(xué)生問題關(guān)鍵詞后,會將其與知識庫中的問題關(guān)鍵詞進(jìn)行對比,計(jì)算并選取相似度高的問題,返回其答案,現(xiàn)在使用比較廣泛的相似度計(jì)算方法有基于向量余弦的相似度計(jì)算方法,基于語料庫的相似度計(jì)算方法,二者有各自的使用場景也各有優(yōu)缺點(diǎn),本項(xiàng)目結(jié)合二者的優(yōu)點(diǎn),在此之上按照本項(xiàng)目的相關(guān)情況,設(shè)計(jì)出了關(guān)鍵詞相似度計(jì)算方法。

    首先,基于深度學(xué)習(xí)的自動(dòng)問答系統(tǒng)接收到關(guān)鍵詞后,采用基于向量余弦模型(VSM)計(jì)算方法,該模型的使用前提條件是要基于圖論的理論依據(jù),所以兩個(gè)詞語之間必須存在關(guān)聯(lián),通過判斷兩個(gè)詞語轉(zhuǎn)換成兩個(gè)余弦向量之后的向量距離來判斷兩者之間的相似度大小。在系統(tǒng)中使用向量空間模型將問題句子映射為一個(gè)向量a(x1,x2,x3,…,xn),將目標(biāo)句子映射為另一個(gè)向量b(y1,y2,y3,…,yn),如圖1所示。

    計(jì)算其對應(yīng)向量之間的夾角余弦:

    此方法能夠簡單直接的計(jì)算出詞義的相似度,但也存在不能夠反映詞語在不同語境所表達(dá)的不同含義,所以本項(xiàng)目需要有針對性的建立語料庫,補(bǔ)足關(guān)鍵字匹配關(guān)聯(lián)性的問題。

    1.3 答案語言自動(dòng)組織

    基于深度學(xué)習(xí)的自動(dòng)問答系統(tǒng)需要采用自然語言生成技術(shù)對答案語言進(jìn)行組織,自然語言生成是自然語言處理的一部分,可以看做自然語言處理的反向過程,該技術(shù)通常接受非語法格式的輸入,采用知識庫或者邏輯形式等機(jī)器表述系統(tǒng)生成自然語言。

    圖1 映射向量Fig.1 Mapping vector

    針對學(xué)生語言特點(diǎn)的分析,本項(xiàng)目采用N-gram模型進(jìn)行語言組織。N-gram模型是一種語言模型(Language Model,LM),是一個(gè)基于概率的判別模型,它的輸入是一句話(單詞的順序序列),輸出是這句話的概率,即這些單詞的聯(lián)合概率(joint probability)。N-gram模型類似于生活中“聯(lián)想”的原理。比如:當(dāng)我們提到“西瓜”時(shí),我們會立刻聯(lián)想到“綠色”“大”“圓的”這些詞語、當(dāng)提到“上火”、“金罐”時(shí),肯定會聯(lián)想到“加多寶”而不是百事可樂。Ngram基于這樣的思想,它的特點(diǎn)是某個(gè)詞語的出現(xiàn)依賴于其他若干個(gè)詞語,并且獲取的信息越多,預(yù)測越準(zhǔn)確。

    得到了經(jīng)過N-gram模型排列組合的語句之后,本軟件采用基于LSTM的自然語言生成模型輸出答案[1]。雙向長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)算法設(shè)計(jì)是傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的擴(kuò)展[2],在技術(shù)上解決了RNN容易出現(xiàn)梯度消失的問題,在長序列的中有更好的表現(xiàn)。

    基于LSTM的自然語言生成模型,如圖2所示,主要是通過抽樣選取的方式將一個(gè)個(gè)詞語拼接成完整的句子,利用編碼解碼的方式,進(jìn)而達(dá)到描述語義的目的。

    圖2 LSTM 的自然語言生成模型Fig.2 LSTM's natural language generation model

    LSTM內(nèi)部,如圖3所示,使用門控機(jī)制解決了RNN的梯度消失問題[3],通過三個(gè)門結(jié)構(gòu):輸入門、遺忘門、輸出門、選擇性地遺忘部分歷史信息,加入部分當(dāng)前輸入信息,最終整合到當(dāng)前信息產(chǎn)生輸出信息。

    圖3 LSTM 內(nèi)部結(jié)構(gòu)圖Fig.3 LSTM internal structure diagram

    2 功能模塊設(shè)計(jì)

    2.1 學(xué)生模塊

    基于深度學(xué)習(xí)自動(dòng)問答系統(tǒng)中主要的使用權(quán)限為學(xué)生用戶,主要的功能是提問,步驟如下:學(xué)生進(jìn)入首頁,登錄自己的帳號,進(jìn)入提問頁面,使用語音提出問題,或在文本框內(nèi)輸入問題,點(diǎn)擊提交。系統(tǒng)收到問題后判斷問題輸入格式,如果是語音輸入則公司原有系統(tǒng)將語音轉(zhuǎn)化為文字進(jìn)行錄入。系統(tǒng)處理接收到的句子,進(jìn)行分詞和提取關(guān)鍵詞操作。系統(tǒng)根據(jù)關(guān)鍵詞在知識庫中檢索相似度高的問題。按照相似度從高到低輸出檢索到的問題答案。如果沒有相似度高的問題,轉(zhuǎn)向搜索引擎搜索問題,同時(shí)使用網(wǎng)絡(luò)爬蟲抓取相關(guān)網(wǎng)頁。

    搜索到答案之后,使用自然語言生成技術(shù)將答案返回給學(xué)生,同時(shí)提示答案來源于網(wǎng)絡(luò)。教師通過歷史記錄給出標(biāo)準(zhǔn)答案后,學(xué)生通過查看歷史記錄獲取。

    2.2 教師模塊

    基于深度學(xué)習(xí)的自動(dòng)問答系統(tǒng)中教師的使用權(quán)限為教師用戶,主要負(fù)責(zé)解答學(xué)生問題,篩選爬蟲結(jié)果,具體步驟如下:教師在首頁里登錄,需要先確認(rèn)教師身份,認(rèn)證通過后進(jìn)入教師用戶頁面,可以在此頁面管理學(xué)生的相關(guān)信息。教師可以查看歷史記錄,查看是否有新提出的問題,該問題在現(xiàn)有知識庫中是否存在,若已有問題,查看是否準(zhǔn)確,是否需要更改;若未記錄,查看搜索引擎以及網(wǎng)絡(luò)爬蟲結(jié)果。審閱搜索以及抓取到的結(jié)果是否正確,說法是否符合學(xué)生理解能力。如果對結(jié)果滿意,可以將問題及答案添加到知識庫;如果不滿意,可以刪掉結(jié)果,自行撰寫答案,添加到知識庫中。

    3 系統(tǒng)界面

    基于深度學(xué)習(xí)的自動(dòng)答疑系統(tǒng)是一套B/S 架構(gòu)的智能答疑系統(tǒng),可以幫助學(xué)生答疑科學(xué)常識相關(guān)課程難點(diǎn),提高學(xué)生的自主學(xué)習(xí)能力;也方便教師集中尋找問題,及時(shí)對課程內(nèi)容和教學(xué)方法進(jìn)行調(diào)整。如下表是該軟件簡單介紹:

    完成注冊信息后,返回首頁點(diǎn)擊登錄,進(jìn)入登錄頁面,輸入信息,通過身份驗(yàn)證后可以進(jìn)入使用界面。學(xué)生進(jìn)入使用界面后,可以在文本框中輸入自己想問的問題;或點(diǎn)擊麥克風(fēng)錄入問題,說完語音后系統(tǒng)會將語音轉(zhuǎn)化為文字顯示在文本框內(nèi),確認(rèn)完成后點(diǎn)擊提交即可獲取答案。

    在提交問題后,系統(tǒng)分析模塊便開始分析問題。具體流程如下:

    開始進(jìn)行自然語言理解,進(jìn)行分詞、語義理解、提取關(guān)鍵詞;在知識庫中比較提取出來的關(guān)鍵詞相似度查找答案,找到相似度超過0.5的問題,將答案以列表形式返回給學(xué)生。

    如果知識庫中未收錄過該問題,系統(tǒng)將會轉(zhuǎn)向使用搜索引擎到網(wǎng)絡(luò)上查找答案。同時(shí)使用網(wǎng)絡(luò)爬蟲下載所有問題相關(guān)的網(wǎng)頁,將抓取到的結(jié)果添加到知識庫中。系統(tǒng)會將搜索到的結(jié)果返回顯示給學(xué)生,同時(shí)提示“所提問題在知識庫中未收錄,已為您在網(wǎng)上查詢到如下結(jié)果,結(jié)果可能存在錯(cuò)誤,請等待教師確認(rèn)?!钡冉處煂徍怂阉鹘Y(jié)果并確認(rèn)標(biāo)準(zhǔn)答案后,學(xué)生點(diǎn)擊“查看歷史問題”即可查看準(zhǔn)確答案。

    4 結(jié)語

    本系統(tǒng)所實(shí)現(xiàn)的主要功能包括基于網(wǎng)絡(luò)爬蟲和歷史數(shù)據(jù)的知識庫自動(dòng)構(gòu)建,在系統(tǒng)的使用過程中,隨著使用者在本系統(tǒng)進(jìn)行提問,隨著問題數(shù)量增加和類型不斷地豐富,本系統(tǒng)的網(wǎng)絡(luò)爬蟲功能會爬取網(wǎng)上與問題相關(guān)的網(wǎng)頁,豐富知識庫的內(nèi)容,然后系統(tǒng)對網(wǎng)絡(luò)爬蟲爬取的答案進(jìn)行篩選,這樣不僅能夠有效增強(qiáng)知識庫的精確性,同時(shí)該系統(tǒng)可通過網(wǎng)絡(luò)爬蟲靶向性地聚集在問答內(nèi)容密集的網(wǎng)站,為知識庫的數(shù)據(jù)維護(hù)提供保障。另外本系統(tǒng)還實(shí)現(xiàn)了基于深度學(xué)習(xí)的問題答案語言自動(dòng)組織與撰寫,當(dāng)用戶使用本軟件進(jìn)行提問時(shí),輸入問題之后進(jìn)行自然語言處理、提取關(guān)鍵字,在知識庫中檢索問題答案,最后采用自然語言處理的文本生成技術(shù)進(jìn)行答案語言組織將查詢結(jié)果顯示給用戶。

    猜你喜歡
    爬蟲分詞知識庫
    利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
    基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
    結(jié)巴分詞在詞云中的應(yīng)用
    基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
    利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
    電子測試(2018年1期)2018-04-18 11:53:04
    大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
    電子制作(2017年9期)2017-04-17 03:00:46
    值得重視的分詞的特殊用法
    高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
    基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
    圖書館研究(2015年5期)2015-12-07 04:05:48
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    瑞丽市| 兖州市| 土默特左旗| 邯郸县| 万州区| 湘阴县| 石狮市| 永修县| 洱源县| 辽宁省| 磴口县| 即墨市| 罗源县| 南昌市| 牡丹江市| 略阳县| 长汀县| 南充市| 出国| 五指山市| 张北县| 文化| 张家港市| 遂平县| 清涧县| 泌阳县| 锦州市| 哈巴河县| 抚松县| 麦盖提县| 安福县| 阿拉善左旗| 新丰县| 新宁县| 兴义市| 阳信县| 安远县| 林西县| 泰宁县| 漳州市| 内江市|