• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于交通知識的移動智能問答系統(tǒng)

    2016-07-06 05:53:51趙沛時張曉陽啟明信息技術(shù)股份有限公司長春30吉林大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院長春300
    電子測試 2016年12期
    關(guān)鍵詞:微信

    趙沛時,葛 亮,張曉陽(.啟明信息技術(shù)股份有限公司,長春,30;.吉林大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,長春,300)

    ?

    基于交通知識的移動智能問答系統(tǒng)

    趙沛時1,葛 亮1,張曉陽2
    (1.啟明信息技術(shù)股份有限公司,長春,130122;2.吉林大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,長春,130012)

    摘要:交通知識與人的生命安全息息相關(guān)。針對如何方便快捷的獲取交通知識,設(shè)計并實(shí)現(xiàn)了以即時通訊軟件微信為人機(jī)交互媒介的移動智能自動問答系統(tǒng)。首先,對文本進(jìn)行特征向量提取,并對同義詞進(jìn)行歸一化,消除同義詞對查詢準(zhǔn)確率的干擾;然后,綜合詞頻和詞性信息計算文本關(guān)鍵特征的權(quán)值;最后采用BM25模型計算問題與知識庫中文本信息的相似度,返回與問題最相似的答案。實(shí)驗表明,本系統(tǒng)的移動性強(qiáng),人機(jī)交互友好,查詢準(zhǔn)確度高。

    關(guān)鍵詞:智能問答; 微信; BM25;同義詞歸一化;文本相似度

    0 引言

    在現(xiàn)代生活中,交通知識與人的生命安全息息相關(guān)。根據(jù)百度百科:在中國,每一分鐘就有一人因交通事故傷殘,每五分鐘就有一人因交通事故死亡。每天因車禍死亡的有300人左右,每年因車禍死亡的有10萬人左右。造成交通事故的主要原因是人們對交通知識的匱乏。面對突發(fā)性交通事故,缺乏合理的應(yīng)對知識會造成更大的二次傷害。通過科目考試、宣傳手冊、公益廣告等方式普及交通安全知識受益面窄、社會成本高,且人在緊張、慌亂中會出現(xiàn)短暫的記憶遺忘。如何以低成本、簡單、快捷的方式普及交通安全知識是交通系統(tǒng)面臨的問題。隨著人工智能技術(shù)的發(fā)展和智能手機(jī)的普及,基于交通知識的移動智能問答系統(tǒng)是一種有效的解決方式。

    智能問答系統(tǒng)要解決的首要問題是信息檢索。信息檢索分為搜索引擎和自動問答系統(tǒng)兩種方式。百度、谷歌搜索屬于搜索引擎檢索方式的應(yīng)用,這種方式需用戶輸入和結(jié)果關(guān)聯(lián)的一個或多個關(guān)鍵詞,通過檢索算法獲得結(jié)果信息,結(jié)果信息的價值與輸入的關(guān)鍵詞緊密相關(guān)。自動問答系統(tǒng)是根據(jù)自然語言描述的問題,通過檢索直接返回答案。這類應(yīng)用如微軟的Encarta3和MIT的START。對于自動智能問答系統(tǒng)有很多研究,文獻(xiàn)[1-4]主要研究了智能問答系統(tǒng)中的相似度計算問題,提高了系統(tǒng)檢索的準(zhǔn)確率,文獻(xiàn)[5-7]研究了問答系統(tǒng)的構(gòu)建。上述研究都是都是基于WEB的方式實(shí)現(xiàn)的,在交互方式上并不能滿足如今移動互聯(lián)網(wǎng)發(fā)展的需要。

    目前,手機(jī)等移動終端具有小巧靈活等特點(diǎn),逐漸取代PC機(jī)。作為具有海量用戶群體的微信公眾平臺,是目前移動應(yīng)用的絕好載體。微信公眾平臺在圖書館、醫(yī)院、電子政務(wù)等領(lǐng)域都有了創(chuàng)新性的應(yīng)用,文獻(xiàn)[13-15]主要研究了微信公眾平臺的搭建。上述研究實(shí)現(xiàn)的問答系統(tǒng)在做檢索時都是基于關(guān)鍵詞的搜索,這種方式?jīng)]有考慮語義信息,更不能處理同義詞的干擾?;诖?,本文結(jié)合自然語言處理技術(shù)、數(shù)據(jù)庫技術(shù)和微信公眾平臺開發(fā)接口,以交通知識為依托,設(shè)計并實(shí)現(xiàn)了基于微信的智能問答系統(tǒng)。該系統(tǒng)在做信息檢索時綜合考慮詞頻和詞性信息,并對同義詞進(jìn)行了處理,實(shí)驗表明本文實(shí)現(xiàn)的系統(tǒng)具有靈活、方便、查詢準(zhǔn)確率高等特點(diǎn)。

    2 問答系統(tǒng)關(guān)鍵技術(shù)

    2.1 關(guān)鍵特征提取。關(guān)鍵特征是將自然語言表示的語句,進(jìn)行中文分詞,并去掉一些與語句含義關(guān)聯(lián)程度較小的詞語后,剩余的詞語作為該語句的關(guān)鍵特征。進(jìn)行中文分詞之前應(yīng)該對語句進(jìn)行去除語句中的空格、去除標(biāo)點(diǎn)符號、將英文大寫轉(zhuǎn)換為小寫、進(jìn)行繁簡轉(zhuǎn)化將繁體轉(zhuǎn)化為簡體等預(yù)處理工作。

    問答系統(tǒng)并不用保證每個詞語都會精確的切分,而一些專有名詞或?qū)φZ句檢索有重要意義的詞語應(yīng)該被精確的切分出來,例如“交通信號燈”應(yīng)該為一個詞語不應(yīng)被切分。為了提高語句的檢索效率,本文添加自定義詞典user_dict,將一些交通術(shù)語、符號等添加到自定義詞典中。這樣在對語句進(jìn)行分詞時就可以正確的切分存在于詞典中的詞語。且隨著系統(tǒng)的使用,自定義詞典中的詞語將不斷的添加修改和完善。對語句進(jìn)行分詞后,要根據(jù)停用詞表stopword去掉與語句含義無關(guān)的詞。

    2.2 同義詞處理。問答系統(tǒng)中,一般查詢信息較短,由于同義詞的存在會導(dǎo)致檢索的準(zhǔn)確率低。例如“交通信號燈”是正規(guī)的書面語言,而日常生活中將其稱為:“交通燈”或“紅綠燈”。為解決由于同義詞的存在而導(dǎo)致檢索準(zhǔn)確率低的問題,本文構(gòu)建同義詞典,將同義詞以鍵值對的關(guān)系添加到同義詞典中SimilarDict(key,value)。例如上述交通信號燈將{“交通燈”,“交通信號燈”}、{“紅綠燈”“交通信號燈”}添加到同義詞典中。對由1.1節(jié)中精確分詞并去停用詞后得到的關(guān)鍵詞集合S=(S1,S2,… Sn),進(jìn)行同義詞處理算法思想如下:

    FOR Si IN S:

    IF Si IN SimilarDict:

    Si=v;//v是同義詞典中的value值

    END IF

    END FOR

    這樣將所有的存在同義詞典中的同義詞都進(jìn)行了歸一化,消除了同義詞對檢索準(zhǔn)確度的干擾。

    2.3 相似度的計算。一般的檢索算法中,僅考慮詞頻作為關(guān)鍵詞的權(quán)值,而忽略了單詞本身的重要程度。例如“酒后駕車”,若只考慮詞頻,那么“酒后”和“駕車”的權(quán)值都是1。而這句話的重點(diǎn)應(yīng)該在于“酒后”。所以為了更準(zhǔn)確的描述關(guān)鍵詞的重要程度以提高系統(tǒng)檢索的準(zhǔn)確度,本文根據(jù)不同詞性設(shè)置不同的權(quán)值。由于自定義詞典中存在的是一些必須進(jìn)行精確分詞的術(shù)語或名詞,顧其權(quán)重最高為1。具體權(quán)值表如表1所示。

    表1:詞性權(quán)值表

    本文計算語句相似度的方法采用以BM25算法為基礎(chǔ),通過將IDF算法與詞性權(quán)重相結(jié)合的方法計算文本特征的權(quán)值,用以提高算法的檢索準(zhǔn)確度。BM25模型是由Okapi信息檢索系統(tǒng)所實(shí)現(xiàn)。一般公式如下:

    其中,Q為查詢問句,qi為對Q進(jìn)行分詞處理后得到的一個關(guān)鍵特征,d為一個檢索結(jié)果文檔。Wi為關(guān)鍵特征qi的權(quán)重。R(qi,d)是關(guān)鍵特征qi與文檔d的相關(guān)性得分。

    對于公式(1)中的權(quán)值Wi,較為常用的是IDF。IDF公式如下:

    其中,N取值為全部文檔數(shù)的數(shù)量,n(qi)為包含了qi的文檔數(shù)。由公式(2)可以看出,當(dāng)包含某一關(guān)鍵特征qi的文檔越多時,IDF(qi)的值越小,因為很多文檔中都包含關(guān)鍵特征qi,說明qi的區(qū)分度不好。

    為了達(dá)到更好檢索效果,本文引入詞性權(quán)重。設(shè)IDF在權(quán)重中所占比重為a,詞性所占比重為b,對于關(guān)鍵特征qi的詞性權(quán)值為Wpi。則對于關(guān)鍵特征qi的綜合權(quán)重為:

    經(jīng)實(shí)驗測試,a,b取值均為0.5時算法準(zhǔn)確度比較好。則公式(3)變?yōu)椋?/p>

    對于公式(1)中關(guān)鍵特征qi與文檔d的相關(guān)性得分R(qi,d),其一般性公式為:

    公式(5)中k1,k2,b為調(diào)節(jié)因子,一般根據(jù)經(jīng)驗設(shè)置,本文中,k1=1.5,b=0.75。fi為關(guān)鍵特征qi在d中的頻率,qfi為qi在Q中的頻率。dl為d的長度,avgdl為所有文檔的平均長度。在絕大多數(shù)的情況中,qi在Q中只會出現(xiàn)1次,因此公式(5)簡化為:

    由公式(6)可知b越大,文檔的長度對相關(guān)性得分的影響就越大。

    綜上, BM25算法相關(guān)性得分公式為:

    公式(8)為本文最終采用的文本相關(guān)性得分公式,兩文本之間得分越高,兩文本越相似。

    2.4 智能問答算法實(shí)現(xiàn)。本文使用BM25算法模型,并引入IDF方法和詞性權(quán)重相結(jié)計算關(guān)鍵特征權(quán)值。圖1所示為算法的流程圖。其算法思想如下:

    圖1:智能問答算法流程圖

    輸入:有關(guān)交通知識的問句

    輸出:與輸入問句相同或者相關(guān)度很好的問題與答案。

    1)初始化:加載自定義詞典,連接數(shù)據(jù)庫等;

    2)輸入有關(guān)交通知識的問句Qa;

    3)加載問題庫中所有問題字段Qb;

    4)對Qa和Qb進(jìn)行文本預(yù)處理,得到預(yù)處理后的文本Qap=Pretreatment(Qa);Qbp=Pretreatment(Qb);

    5)對Qap和Qbp進(jìn)行分詞,并去掉停用詞,得到文本的關(guān)鍵特征。Qap_C=Cut(Qap),Qbp_C=Cut(Qbp);

    6)對關(guān)鍵特征進(jìn)行同義詞處理,Q=Synonym(Qap_C),d=Synonym(Qbp_C)。

    7)使用BM25算法計算輸入問題的關(guān)鍵特征Q與問題庫中每個問題字段關(guān)鍵特征d的相關(guān)性分?jǐn)?shù)。并存儲到字典dict_ score中;

    8)在dict_score中選擇相關(guān)性好的N個問題,通過查找問題知識庫中的數(shù)據(jù),返回給用戶相關(guān)的問題與答案。

    3 系統(tǒng)實(shí)現(xiàn)

    3.1 系統(tǒng)結(jié)構(gòu)。本系統(tǒng)以微信認(rèn)證訂閱號為交互平臺,以問題匹配算法和知識數(shù)據(jù)庫技術(shù)為核心模塊,以交通知識作為知識庫,搭建了移動智能問答系統(tǒng)。系統(tǒng)結(jié)構(gòu)如圖2所示。

    微信應(yīng)用程序是用戶的人機(jī)交互界面,用戶關(guān)注微信公眾平臺成為粉絲,通過手機(jī)微信應(yīng)用程序向系統(tǒng)推送問題。

    微信公眾平臺可以接收和發(fā)送圖文、音頻、視頻等多媒體信息,同時在開發(fā)者模式下,具有豐富的可編程接口。

    微信服務(wù)器主要功能是實(shí)現(xiàn)信息轉(zhuǎn)發(fā),將信息轉(zhuǎn)發(fā)到綁定的智能問答服務(wù)器。同時也接收智能問答服務(wù)器返回的信息,并將信息推送到手機(jī)端微信應(yīng)用程序。

    智能問答服務(wù)器是系統(tǒng)的核心。它在接收到微信服務(wù)器的請求后,首先對問句進(jìn)行去空格、中文分詞、過濾停用詞、提取關(guān)鍵詞等操作;然后通過相似度算法計算用戶問句和知識庫存儲信息的相似度;以TOP-N的方式選擇相似度高的N個問題,認(rèn)為這N個問題是知識庫中問句和用戶問句是相同問題或最相似的問題,通過檢索知識庫獲取該問題答案;最后將答案發(fā)送給微信服務(wù)器,再由微信服務(wù)器推送給用戶手機(jī)端的微信。

    3.2 微信公眾平臺開發(fā)接口。通過使用微信公眾平臺開發(fā)接口可以實(shí)現(xiàn)接收消息、發(fā)送消息等普通功能,也可以實(shí)現(xiàn)獲取用戶地理位置、生成帶參數(shù)二維碼等高級功能,但是許多高級功能只有認(rèn)證服務(wù)號才具有,提高了使用門檻。本系統(tǒng)的功能僅通過使用微信接收文本消息、發(fā)送文本消息兩種基本開發(fā)接口實(shí)現(xiàn)。

    (1)接收文本:接收文本:微信用戶在向微信公眾賬號發(fā)消息時,微信服務(wù)器將消息以XML格式的數(shù)據(jù)包POST到開發(fā)者填寫的URL上。

    XML數(shù)據(jù)格式如下:

    <![CDATA[this is a test]]>

    (2)回復(fù)文本消息:用戶發(fā)送消息給微信公眾帳號時,微信服務(wù)器會對智能問答服務(wù)器產(chǎn)生一個POST請求,智能問答服務(wù)器進(jìn)行處理后,在響應(yīng)包中將問題答案以特定XML結(jié)構(gòu),返回給微信服務(wù)器。

    XML數(shù)據(jù)格式如下:

    <![CDATA[toUser]]>

    <![CDATA[text]]>

    上述XML中各個參數(shù)具體描述見文獻(xiàn)[13]。

    3.3 微信公眾及平臺搭建。微信公眾帳號共分為三大類:企業(yè)號、訂閱號、服務(wù)號,其中每大類又分為認(rèn)證和未認(rèn)證兩種。首先申請公眾賬號,獲取微信公眾帳號后,登陸微信公眾平臺管理系統(tǒng)(http://mp.weixin.qq.com)進(jìn)行設(shè)置。打開開發(fā)者中心頁面,點(diǎn)擊“修改配置”按鈕,填寫智能問答系統(tǒng)服務(wù)器所在地址(URL),隨意填寫用于生成簽名的Token字段,手動填寫或者隨機(jī)生成用于加密密鑰的EncodingAESKey字段。

    提交信息后,微信服務(wù)器將發(fā)送帶有四個參數(shù)的GET請求到智能問答系統(tǒng)所在的服務(wù)器地址URL上,這四個參數(shù)為:signature、timestamp、nonce、echostr。微信服務(wù)器將前三個參數(shù)進(jìn)行排序、拼接成一個字符串并進(jìn)行SHA1加密,最后將獲得加密后的字符串與signature對比。對比成功后,用戶請求通過微信服務(wù)器轉(zhuǎn)發(fā)到智能問答系統(tǒng)服務(wù)器由智能問答系統(tǒng)服務(wù)器對信息進(jìn)行處理,智能問答系統(tǒng)服務(wù)器將處理后的結(jié)果返回給微信服務(wù)器,最后,微信服務(wù)器將結(jié)果送到用戶手機(jī)端微信應(yīng)用程序。

    圖2:系統(tǒng)結(jié)構(gòu)

    4 實(shí)驗

    4.1 實(shí)驗數(shù)據(jù)。收集整理2千多條交通知識,將每條知識分成問題和答案兩個部分,構(gòu)建知識庫。知識庫部分內(nèi)容如圖3所示。其中question字段是問題部分,answer字段為問題對應(yīng)的答案,weights字段是用于記錄該問題被查詢的次數(shù)。整理交通知識有關(guān)詞語,構(gòu)建自定義分詞詞典和同義詞詞典。

    4.2 實(shí)驗結(jié)果及分析。本文所實(shí)現(xiàn)的智能問答系統(tǒng)主要應(yīng)用到交通領(lǐng)域,若問題描述清楚,則答案基本唯一。隨機(jī)抽取120個問題進(jìn)行檢索,若返回的結(jié)果中,正確答案出現(xiàn)在TOP-N中,則認(rèn)為匹配正確。表2所示為在N=3、相似度閾值為0.8時,對120個問題做4組對比試驗的結(jié)果。

    表2:相似度測試結(jié)果

    由實(shí)驗結(jié)果可以看出,由于問答系統(tǒng)中的文本信息較短,同義詞處理要比詞性權(quán)值處理對最終檢索準(zhǔn)確率的影響大,且在對文本信息做同義詞處理和加入詞性權(quán)值后準(zhǔn)確率有明顯的提高。

    用戶通過移動端的微信客戶端提問有關(guān)交通知識的問題,經(jīng)由智能問答算法計算知識庫中的問題與用戶問題的相似度,返回兩個結(jié)果。其結(jié)果如圖4所示。

    圖4:微信問答結(jié)果

    5 結(jié)語

    本文以自然語言處理技術(shù)、數(shù)據(jù)庫技術(shù)為核心技術(shù),微信公眾平臺為用戶交互媒介,實(shí)現(xiàn)了交通知識的移動智能問答系統(tǒng)。經(jīng)實(shí)際使用表明,本系統(tǒng)信息獲取便捷、準(zhǔn)確,在規(guī)范日常交通行為、青少年交通知識教育、突發(fā)交通事故應(yīng)對方案檢索等領(lǐng)域具有一定實(shí)用價值。系統(tǒng)在智能技術(shù)方面還需要優(yōu)化。

    圖3:知識庫部分內(nèi)容

    參考文獻(xiàn)

    [1]陰紅志,張帆,丁鼎,趙斌. AnswerSeeker:基于互聯(lián)網(wǎng)挖掘的智能問答系統(tǒng)[J].計算機(jī)系統(tǒng)應(yīng)用,2010,01:6-17.

    [2]康海燕,李飛娟,蘇文杰. 基于問句表征的web智能問答系統(tǒng)[J].北京信息科技大學(xué)學(xué)報(自然科學(xué)版),2011,01:36-41.

    [3]張江濤,杜永萍. 基于語義鏈的檢索在QA系統(tǒng)中的應(yīng)用[J].計算機(jī)科學(xué),2013,02:257-260+300.

    [4]周永梅,陶紅,陳姣姣,張再躍. 自動問答系統(tǒng)中的句子相似度算法的研究[J]. 計算機(jī)技術(shù)與發(fā)展,2012,05:75-78.

    [5]劉芳,于斐. 面向醫(yī)療行業(yè)的智能問答系統(tǒng)研究與實(shí)現(xiàn)[J].微電子學(xué)與計算機(jī),2012,11:95-98.

    [6]侯麗敏,張永強(qiáng). 面向課程的中文FAQ自動問答系統(tǒng)模型[J].計算機(jī)與現(xiàn)代化,2014,10:20-24.

    [7]王北斗,竇志,陳純,卜佳俊. 支持評價類問題與電影智能搜索的問答系統(tǒng)構(gòu)建[J]. 大連理工大學(xué)學(xué)報,2011,S1:93-97. [8]張秋,楊玲,王曼. 高校圖書館微信公眾平臺服務(wù)發(fā)展現(xiàn)狀及對策[J]. 圖書館建設(shè),2014,02:61-65+69.

    [9]張正. 圖書館微信公眾平臺的構(gòu)建[J]. 國家圖書館學(xué)刊,2014,02:26-31.

    [10]劉路遙, 楊祚, 曹戰(zhàn)強(qiáng), 等. 醫(yī)院微信公眾號的技術(shù)與應(yīng)用現(xiàn)狀研究[J]. 中國數(shù)字醫(yī)學(xué), 2014(8): 35-37.

    [11]黃永剛, 劉素溫, 騰騰, 等. 微信公眾平臺在門診就醫(yī)流程中的應(yīng)用研究[J]. 中國數(shù)字醫(yī)學(xué), 2015, 10(5): 105-106. [12]龔花萍, 劉帥. 基于微信平臺的政務(wù)信息公開新模式[J]. 現(xiàn)代情報, 2014, 34(4): 62-66.

    [13]曹小平,程靜. 基于微信自助查詢系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 重慶工商大學(xué)學(xué)報(自然科學(xué)版),2014,02:66-69.

    [14]錢海鋼. 基于微信的移動圖書館服務(wù)系統(tǒng)APP應(yīng)用實(shí)踐[J].河北科技圖苑,2013,06:89-92.

    [15]沈奎林,邵波,趙華. 利用微信構(gòu)建圖書館智能問答系統(tǒng)[J].圖書館學(xué)研究,2015,08:75-80.

    [16]Robertson S E, Walker S, Jones S, et al. Okapi at TREC-3.[J]. 1996.

    Mobile intelligent question answering system based on traffic knowledge.Computer Engineering and Applications

    Zhao Peishi1,Ge Liang1,Zhang Xiaoyang2
    (1.qiming information technology co.,LTD, Changchun,130122,China;2.College of Computer Science and Technology,Jilin University,Changchun,130012,China)

    Abstract:Traffic knowledge is closely related to people's life and safety.Aiming at how to obtain the traffic knowledge conveniently and quickly,the mobile intelligent question answering system,which is based on the instant communication software WeChat,was designed and implemented. Firstly,extract the feature vector of the text,and normalized synonyms,eliminating the interference of synonyms on query accuracy. Secondly,calculation of critical feature weights according to the part of speech and word frequency. Finally,according to the BM25 model to calculate the similarity of text,return the most similar answer to the question. Experiments show that the system features strong mobility,man-machine friendly interaction and high query accuracy.

    Keywords:intelligent question and answer;WeChat;BM25 model;normalized synonyms;text similarity

    猜你喜歡
    微信
    微信
    微信
    微信
    微信
    微信
    微信
    微信
    微信
    微信
    微信
    临西县| 老河口市| 融水| 杭州市| 拜泉县| 集贤县| 宁武县| 井研县| 巴塘县| 汝城县| 太仆寺旗| 襄汾县| 依安县| 广元市| 朔州市| 吐鲁番市| 高尔夫| 永兴县| 新和县| 广东省| 施甸县| 保定市| 靖江市| 策勒县| 饶阳县| 响水县| 福安市| 栾川县| 富宁县| 阿坝| 奈曼旗| 邳州市| 乐清市| 宜兰县| 台北县| 隆回县| 利津县| 津南区| 长葛市| 建平县| 五常市|