• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于倒排索引的問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      2018-09-25 09:43:10齊翌辰,王森淼,趙亞慧*
      教育教學(xué)論壇 2018年35期

      齊翌辰,王森淼,趙亞慧*

      摘要:近年來(lái),隨著人工智能的飛速發(fā)展,自動(dòng)問(wèn)答已經(jīng)成為倍受關(guān)注且發(fā)展前景廣泛的研究方向。為了方便學(xué)生們檢索有關(guān)課程的相關(guān)知識(shí),進(jìn)一步深入學(xué)習(xí),本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于倒排索引技術(shù)的課程問(wèn)答系統(tǒng)。通過(guò)建立問(wèn)答系統(tǒng)的數(shù)據(jù)庫(kù),對(duì)問(wèn)題進(jìn)行分析以及問(wèn)題關(guān)鍵詞的處理、信息檢索進(jìn)行答案抽取。通過(guò)中文分詞系統(tǒng)實(shí)現(xiàn)提取問(wèn)答對(duì)中的關(guān)鍵詞。通過(guò)余弦相似度計(jì)算文本相似度與問(wèn)答對(duì)中的問(wèn)題進(jìn)行比對(duì)及匹配,從而顯示正確答案通過(guò)網(wǎng)頁(yè)反饋給學(xué)生。這樣可以幫助學(xué)生更有效地學(xué)習(xí)課程,為學(xué)生對(duì)該課程的學(xué)習(xí)提供了便利。

      關(guān)鍵詞:倒排索引;余弦相似度;問(wèn)答對(duì);中文分詞

      中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2018)35-0068-02

      一、引言

      隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)技術(shù)也發(fā)生了翻天覆地的變化,人們通過(guò)搜索引擎查找自己需要得到的答案已經(jīng)成為日常生活中必不可少的一項(xiàng)。

      自然語(yǔ)言即人類在生活中進(jìn)行交流的語(yǔ)言。自然語(yǔ)言處理(Natural Language Processing,NLP)[1]是人類與計(jì)算機(jī)之間進(jìn)行溝通的橋梁,將自然語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)可以理解的語(yǔ)言,并通過(guò)計(jì)算機(jī)達(dá)到我們想要實(shí)現(xiàn)的目的。

      問(wèn)答系統(tǒng)(Question Answering System,QA)[2]屬于信息檢索系統(tǒng)的一種,在檢索的基礎(chǔ)上發(fā)展為可以給用戶的一定反饋的系統(tǒng)。自動(dòng)問(wèn)答系統(tǒng)既能用自然語(yǔ)言句子提問(wèn),又能為用戶直接返回所需的答案,而不是相關(guān)的網(wǎng)頁(yè)。所以,問(wèn)答系統(tǒng)能更好的滿足用戶的檢索需求,能更快地找出用戶所需的答案[3]。

      二、文本預(yù)處理

      文本預(yù)處理[4](Text preprocessing)主要包括以下幾個(gè)步驟:中文分詞、詞性標(biāo)注、去除停用詞。

      1.中文分詞。中文分詞是中文信息處理的必備條件,對(duì)處理的結(jié)果起著決定性的作用[5]。中文文本沒有像英文一樣的空格作為分隔符,通過(guò)逆向最大匹配法:先將文本以標(biāo)點(diǎn)符號(hào)分割成句子,同時(shí)設(shè)定一個(gè)準(zhǔn)備獲取詞的最大長(zhǎng)度,然后以每短句為最小單位與字典中的字符進(jìn)行匹配,若匹配則記錄下這個(gè)字符,若不匹配則將該最大長(zhǎng)度縮短為一個(gè)字節(jié)長(zhǎng)度,繼續(xù)進(jìn)行匹配。最后將記錄下來(lái)的詞與詞之間以空格分隔,實(shí)現(xiàn)中文分詞,本系統(tǒng)中利用中科院分詞系統(tǒng)進(jìn)行中文分詞,該系統(tǒng)ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)[6]的主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別,同時(shí)支持用戶詞典,分詞精度(98.45%),是當(dāng)前世界上最好的漢語(yǔ)詞法分析器。

      2.詞性標(biāo)注。詞性標(biāo)注通過(guò)識(shí)別一個(gè)詞的詞性來(lái)確定該詞聯(lián)系的上下文,該步驟是標(biāo)注出來(lái)第一步分好的詞語(yǔ)的詞性過(guò)程,此過(guò)程可以刪除掉一些詞性對(duì)文本意義不大的詞語(yǔ)。

      3.去除停用詞。停用詞在信息檢索中,為了節(jié)省存儲(chǔ)空間和提高搜索效率,在處理自然語(yǔ)言數(shù)據(jù)之前或之后會(huì)自動(dòng)過(guò)濾掉某些字或詞,這些字或詞即被稱為停用詞。這些停用詞都是人工輸入、非自動(dòng)化生成的,生成后的停用詞會(huì)形成一個(gè)停用詞表[7]。若詞語(yǔ)在停用詞表中則去除,這樣可以縮小搜索的范圍。

      三、余弦相似度計(jì)算

      建立完基本的問(wèn)答對(duì)之后,若學(xué)生提出的問(wèn)題恰好與問(wèn)題集中的問(wèn)題相同,系統(tǒng)則直接反饋給學(xué)生答案集中相應(yīng)的答案;若不相同,則需要對(duì)問(wèn)題進(jìn)行分析,找出最相似的問(wèn)題。余弦相似度又稱為余弦相似性,將問(wèn)題數(shù)據(jù)庫(kù)中的問(wèn)題特征項(xiàng)與學(xué)生提問(wèn)的問(wèn)題關(guān)鍵詞視為兩條在空間中的出發(fā)于坐標(biāo)原點(diǎn)指向兩個(gè)方向的線段。通過(guò)計(jì)算兩條線段間形成的夾角的大小來(lái)判斷兩個(gè)向量相似的程度大小。夾角越小,也就說(shuō)明計(jì)算夾角得到的余弦值越近似于1,兩個(gè)向量間距離就越小,可以說(shuō)明這兩個(gè)問(wèn)題的內(nèi)容越相似。本文利用java語(yǔ)言實(shí)現(xiàn)計(jì)算余弦相似度,在已知公式的基礎(chǔ)上,編寫兩個(gè)向量相加(plus)、相乘(multi)及求平方和(squares)的公式的函數(shù),使用時(shí)調(diào)用函數(shù)即可。假設(shè)向量a為[x1,y1],向量b為[x2,y2],余弦相似度可寫為:

      四、倒排索引

      從常規(guī)上來(lái)講,索引是在文檔中找關(guān)鍵詞,在一篇已知準(zhǔn)備好的文檔中搜索關(guān)鍵詞,就會(huì)對(duì)應(yīng)出現(xiàn)該文檔中有哪些關(guān)鍵詞、每個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)以及每個(gè)關(guān)鍵詞在該文檔中出現(xiàn)的位置。這種方法相對(duì)來(lái)說(shuō)建立起來(lái)比較簡(jiǎn)單而且容易維護(hù),但是考慮到出現(xiàn)有文檔加入或有文檔被刪除,就需要檢索所有的文檔來(lái)保證是否有遺漏,因此導(dǎo)致索引的效率降低。為了提高索引的效率,引入倒排索引的方法。在本系統(tǒng)中,通過(guò)建立與課程學(xué)習(xí)內(nèi)容相關(guān)的問(wèn)答對(duì)數(shù)據(jù)庫(kù),即以問(wèn)題—答案的倒排索引機(jī)制。

      五、實(shí)驗(yàn)描述

      在對(duì)100名學(xué)生采取抽樣調(diào)查的過(guò)程中,對(duì)學(xué)生掌握不扎實(shí)、知識(shí)欠缺比較嚴(yán)重的知識(shí)模塊進(jìn)行統(tǒng)計(jì)。其中有92名學(xué)生認(rèn)為關(guān)于Excel的操作知識(shí)模塊不易理解。

      按照學(xué)生們對(duì)知識(shí)的掌握情況,分別對(duì)第一章:計(jì)算機(jī)基礎(chǔ)相關(guān)知識(shí)、第二章:關(guān)于操作系統(tǒng)的相關(guān)知識(shí)(以windows為主)、第三章:關(guān)于Word的操作、第四章:關(guān)于Excel的操作、第五章:關(guān)于PowerPoint的操作、第六章:計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)相關(guān)知識(shí)各建立100道問(wèn)答對(duì)以及著重建立有關(guān)Excel操作部分和其他常考知識(shí)點(diǎn)400道,共1000道問(wèn)答對(duì)。在實(shí)驗(yàn)過(guò)程中,先任意查詢100道問(wèn)題,在不對(duì)問(wèn)答對(duì)進(jìn)行修改的情況下,由于問(wèn)答對(duì)中某些問(wèn)題及答案過(guò)于相似,導(dǎo)致匹配的準(zhǔn)確率僅有73%左右。為區(qū)分開數(shù)據(jù)庫(kù)中的相似問(wèn)答對(duì),經(jīng)過(guò)篩選以及對(duì)問(wèn)答對(duì)特征項(xiàng)的不斷修改及關(guān)鍵詞同義詞的擴(kuò)展,將每一章節(jié)的問(wèn)答對(duì)分開存儲(chǔ),最終實(shí)現(xiàn)系統(tǒng)的準(zhǔn)確率達(dá)到87%,最后通過(guò)PHP實(shí)現(xiàn)系統(tǒng)與網(wǎng)頁(yè)的結(jié)合。學(xué)生們可以自行在慕課平臺(tái)網(wǎng)頁(yè)上解決該課程的疑點(diǎn),提高了學(xué)習(xí)效率,節(jié)省了大量教師回答學(xué)生的人力及時(shí)間,促進(jìn)了教學(xué)任務(wù)的開展。

      六、結(jié)語(yǔ)

      本系統(tǒng)以《大學(xué)計(jì)算機(jī)基礎(chǔ)》課程為藍(lán)本,旨在提高教學(xué)效率,為學(xué)生們提供更加優(yōu)質(zhì)的教學(xué)方式,對(duì)學(xué)科中難以掌握的重點(diǎn)疑點(diǎn)反復(fù)琢磨,深入完成教學(xué)任務(wù),給予教師和學(xué)生一個(gè)更加輕松的教學(xué)環(huán)境。本系統(tǒng)利用對(duì)問(wèn)答對(duì)的中文分詞以及倒排索引與余弦相似度的結(jié)合,減少了相對(duì)于一般問(wèn)答系統(tǒng)的時(shí)間損耗,減少了問(wèn)答對(duì)存儲(chǔ)過(guò)程中不必要的時(shí)間浪費(fèi),但仍存在對(duì)詞性意義不夠精準(zhǔn)的不足之處,需不斷擴(kuò)充問(wèn)答對(duì)以及對(duì)關(guān)鍵詞、同義詞擴(kuò)展的工作,還要繼續(xù)進(jìn)行研究怎樣做到高質(zhì)量辨別學(xué)生提出的問(wèn)題,與問(wèn)答對(duì)進(jìn)行高效匹配,以完成性能更好的系統(tǒng),廣泛地應(yīng)用于學(xué)校的教學(xué)工作當(dāng)中。

      參考文獻(xiàn):

      [1]李生.自然語(yǔ)言處理的研究與發(fā)展[J].燕山大學(xué)學(xué)報(bào),2013,37(05):377-384.

      [2]李沛晏,朱露,吳多勝.問(wèn)答系統(tǒng)綜述[J].數(shù)字技術(shù)與應(yīng)用,2015,(04):69,71.

      [3]鄭實(shí)福,劉挺,秦兵,李生.自動(dòng)問(wèn)答綜述[J].中文信息學(xué)報(bào),2002,(06):46-52.

      [4]周欽強(qiáng),孫炳達(dá),王義.文本自動(dòng)分類系統(tǒng)文本預(yù)處理方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2005,(02):8.

      [5]陳開昌.自然語(yǔ)言處理技術(shù)中的中文分詞研究[J].信息與電腦(理論版),2016,(19):61-63.

      [6]王健,張俊妮.統(tǒng)計(jì)模型在中文文本挖掘中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2017,36(04):609-619.

      [7]官琴,鄧三鴻,王昊.中文文本聚類常用停用詞表對(duì)比研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(03):72-80.

      呼伦贝尔市| 宜黄县| 金阳县| 横峰县| 乌鲁木齐市| 北海市| 临桂县| 东莞市| 宣武区| 仁布县| 桂东县| 留坝县| 东乌珠穆沁旗| 通化县| 荥阳市| 大英县| 长兴县| 子长县| 宿州市| 昂仁县| 云南省| 双鸭山市| 朝阳区| 炎陵县| 宝山区| 昌江| 白水县| 延川县| 洪雅县| 垫江县| 伊通| 沭阳县| 济阳县| 伊宁县| 托里县| 普格县| 和龙市| 新河县| 且末县| 莱阳市| 康马县|