• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于常問問題集的中文問答系統(tǒng)研究

      2021-09-13 01:58:14朱木清文謐
      河南科技 2021年12期
      關(guān)鍵詞:信息檢索服務(wù)器模塊

      朱木清 文謐

      摘 要:中文問答系統(tǒng)作為一種新答疑模式,依托于自然語言處理和人工智能等相關(guān)技術(shù),具有高效、快速、準(zhǔn)確等特征。而基于常問問題集的中文問答系統(tǒng)是一種檢索效率較高的實現(xiàn)模式,可以在原有基礎(chǔ)上,提高用戶信息檢索效率和精準(zhǔn)性?;诖?,本文概述常問問題(FAQ)和問答系統(tǒng)的基本內(nèi)涵,分析候選關(guān)鍵詞和類別關(guān)鍵詞算法,對問句方法進(jìn)行探索,研究基于常問問題集的中文問答系統(tǒng)設(shè)計,旨在給問答系統(tǒng)創(chuàng)新優(yōu)化提供一些有益參考。

      關(guān)鍵詞:常問問題集;中文問答系統(tǒng);系統(tǒng)設(shè)計

      中圖分類號:TP393.09文獻(xiàn)標(biāo)識碼:A文章編號:1003-5168(2021)12-0026-03

      Research on Chinese Question Answering System Based on

      Frequently Asked Questions

      ZHU Muqing1 WEN Mi2

      (1. Huali College, Guangdong University of Technology,Guangzhou Guangdong 511325;2. Guangzhou College of Applied Science and Technology,Guangzhou Guangdong 511370)

      Abstract: As a new question answering model, the Chinese question answering system relies on natural language processing, artificial intelligence and other related technologies, and has the characteristics of high efficiency, speed and accuracy. The Chinese question answering system based on frequently asked questions is an implementation mode with higher retrieval efficiency, which can improve the efficiency and accuracy of user information retrieval on the original basis. Based on this, this paper outlines the basic connotations of frequently asked questions (FAQ) and question-and-answer systems, analyzes candidate keywords and category keyword algorithms, and explores question methods, and studies the design of Chinese question answering system based on frequently asked questions set, aiming to provide some useful references for the innovation and optimization of question answering system.

      Keywords: frequently asked questions;Chinese question answering system;system design

      中文問答系統(tǒng)是一種新信息檢索形式,相比傳統(tǒng)搜索引擎,其在搜索效率、搜索精準(zhǔn)性和高效性方面都有很大提升。目前,中文問答系統(tǒng)是人工智能和自然語言處理領(lǐng)域備受關(guān)注的對象,其中基于常問問題集的問答系統(tǒng)是新研究方向。常問問題集可以作為中文問答系統(tǒng)的基本組成部分,當(dāng)用戶輸入問題語言時,系統(tǒng)先通過問題集查找與之相似的問題,再直接將答案返回給用戶。這樣既有效避免返回大量相關(guān)網(wǎng)頁等現(xiàn)象出現(xiàn),又能提高用戶搜索的精準(zhǔn)性和快速性,改善用戶使用體驗。因此,本文在常問問題集基礎(chǔ)上,對中文問答系統(tǒng)設(shè)計與創(chuàng)新展開進(jìn)一步探討。

      1 FAQ和問答系統(tǒng)

      FAQ通常指用戶常見的問題,也指FAQ檢索系統(tǒng)。某種程度上來說,F(xiàn)AQ是一種在線幫助用戶解決問題的新形式[1]。系統(tǒng)將一些常見問題列舉出來,用戶根據(jù)自身需求,尋找相似的問題答案,以便快速解決難題。目前,F(xiàn)AQ主要作為一種常用的在線客服手段,主要包含一些常見問題以及用戶偶爾會遇到的問題。一般情況下,用戶直接點擊常見問題集,便可快速解決困惑。這樣不僅有效減輕網(wǎng)站工作人員壓力,也節(jié)省了大量顧客服務(wù)成本,增加用戶滿意度。

      問答系統(tǒng)是信息檢索的一種高級形式,它能用準(zhǔn)確、簡潔的自然語言回答用戶用自然語言提出的問題[2]。自動問答系統(tǒng)一般包含問題分析、信息檢索以及答案抽取等三個構(gòu)成要素。其一,問題分析。當(dāng)用戶使用自然語言進(jìn)行問題檢索時,系統(tǒng)捕捉到信息,并對其進(jìn)行預(yù)處理,再根據(jù)處理結(jié)果,抽取關(guān)鍵詞。其二,信息檢索。提取關(guān)鍵詞后,構(gòu)建索引和候選問題集。其三,答案抽取。計算句子相似度,依照計算結(jié)果,將該問題對應(yīng)答案作為用戶問題的答案返回給用戶。

      2 關(guān)鍵詞算法

      類別關(guān)鍵詞提取的主要思路為:針對某一類別,首先提取每篇文檔的關(guān)鍵詞,之后對文檔關(guān)鍵詞集合求并集,得到類別關(guān)鍵詞[3-5]。目前,類別關(guān)鍵詞提取一般是在TextRank算法上進(jìn)行的,該算法具有多種特征。其一,TextRank是一種無監(jiān)督的算法,不需要大規(guī)模標(biāo)記語料庫,還能有效節(jié)約成本;其二,TextRank是在矩陣上展開計算的,其中硬件和軟件的支持使得系統(tǒng)運算速度進(jìn)一步加快;其三,TextRank比較擅長單文本的關(guān)鍵詞提取,所以在確定類別關(guān)鍵詞之前,需要先獲得單文本的關(guān)鍵詞。

      3 問句定位方法

      問句定位一般是在相似度計算基礎(chǔ)上進(jìn)行的。在進(jìn)行問句定位的過程中,要注意以下幾點。其一,在常問問題集進(jìn)行關(guān)鍵詞匹配時,系統(tǒng)需要對常問問題集中的問句進(jìn)行分類組織,并對用戶所提問題進(jìn)行分類,再將這些類別下的問句放入候選問題集;通過候選問題集,匹配相似度最高的問答對,能提高問句定位效率,縮小定位范圍,還能增強(qiáng)系統(tǒng)任務(wù)執(zhí)行實際效果。其二,在候選問題集中進(jìn)行問句定位時,計算候選問題集中所有問句和用戶所提問題之間的相似程度,得出相似值;提出相似值最高的問句,抽取相應(yīng)答案并返回。由于相似度計算一定程度上能影響系統(tǒng)準(zhǔn)確性,因此在進(jìn)行相似度計算之前,系統(tǒng)要選擇合適的計算方案。其三,基于常問問題集的中文問答系統(tǒng)性能受多種因素影響,常問問題集的質(zhì)量便是其中一項重要影響因素。針對這種情形,設(shè)計人員可以采取擴(kuò)大常問問題集覆蓋范圍的方法,提高問答系統(tǒng)執(zhí)行效率。

      4 基于常問問題集的中文問答系統(tǒng)設(shè)計

      4.1 系統(tǒng)設(shè)計要素

      在系統(tǒng)設(shè)計過程中,人機(jī)交互界面、問題理解能力、實效性以及安全性是系統(tǒng)設(shè)計的前提要素。

      4.1.1 人機(jī)交互界面。人機(jī)交互界面可用于評價系統(tǒng)綜合性能,是用戶與系統(tǒng)交互的重要渠道。為實現(xiàn)無刷新用戶體驗,設(shè)計人員可以應(yīng)用Ajax技術(shù)。Ajax是一種客戶端技術(shù),是支撐客戶端和服務(wù)器連接的重要橋梁,一般比較適用于數(shù)據(jù)驗證、頁面局部刷新等場景。

      4.1.2 自然語言理解能力。對自然語言的理解是一切處理進(jìn)行的基本前提,也是問答系統(tǒng)運行的基礎(chǔ)要素。需要注意的是,雖然ICTCLAS分詞工具能夠充分理解用戶問題,但是實際應(yīng)用效果并不是很理想。對此,設(shè)計人員可以融入專業(yè)詞詞典,將其與ICTCLAS分詞工具結(jié)合起來,有效提高分詞準(zhǔn)確率和效率。

      4.1.3 實效性。為提高系統(tǒng)實效性,設(shè)計人員通過采用減少數(shù)據(jù)庫連接次數(shù)進(jìn)而降低時耗的方法來保證系統(tǒng)實際效果。在這個基礎(chǔ)上,設(shè)計人員還可以將Ajax技術(shù)運用到系統(tǒng)中。一是因為Ajax技術(shù)能實現(xiàn)客戶端和服務(wù)器之間的異步通信;二是因為Ajax技術(shù)擁有按照實際需要讀取數(shù)據(jù)的能力,有效減少服務(wù)器處理冗余信息的時間,幫助服務(wù)器緩解工作壓力。

      4.1.4 安全性。安全性是系統(tǒng)設(shè)計的必要元素。為進(jìn)一步保障系統(tǒng)安全、有序運行,設(shè)計人員準(zhǔn)備了幾種不同類別的服務(wù)器,即應(yīng)用型服務(wù)器、備份型服務(wù)器以及數(shù)據(jù)庫服務(wù)器。應(yīng)用型服務(wù)器主要用于發(fā)布業(yè)務(wù);備份型服務(wù)器主要用于數(shù)據(jù)備份,防止數(shù)據(jù)丟失或損壞;數(shù)據(jù)庫服務(wù)器主要用于存儲和處理數(shù)據(jù)。

      4.2 系統(tǒng)模塊的實現(xiàn)

      4.2.1 問題分析模塊。問題分析模塊設(shè)計目的在于對用戶提出的問題進(jìn)行分析,即從中提取關(guān)鍵詞,鑒別問題類型。首先,用戶進(jìn)行問題檢索,中文問答系統(tǒng)中的問題分類模塊對問題進(jìn)行預(yù)處理;其次,對照疑問詞表、停用詞表,對問題進(jìn)行處理,形成一個關(guān)鍵詞集合;最后,結(jié)合以上分析結(jié)果,對問句進(jìn)行分類,得出問句類別。最后一個環(huán)節(jié)主要用于匹配問題庫中的問題,再將匹配問題的對應(yīng)答案返回給用戶。問題分析流程如圖1所示。

      4.2.2 信息檢索模塊。根據(jù)問題分析模塊得出的關(guān)鍵詞集合,信息檢索模塊首先將這些關(guān)鍵詞與數(shù)據(jù)庫中的問題進(jìn)行匹配,如果數(shù)據(jù)庫匯總存在與之相匹配的問題,便將該問題相應(yīng)的答案返回給用戶;如果數(shù)據(jù)庫中沒有與之相匹配的問題,那么便利用百度搜索引擎對關(guān)鍵詞進(jìn)行搜索,將搜索到的網(wǎng)頁進(jìn)行整理,形成一個候選答案集。這里選擇百度搜索引擎的關(guān)鍵原因在于:百度搜索檢索能力較強(qiáng),搜索范圍較廣。經(jīng)過百度搜索之后,得到網(wǎng)頁名稱、網(wǎng)頁鏈接等,這時可以使用HtmlParser庫將網(wǎng)頁下載到本地,再將超文本標(biāo)記語言(HTML)的格式去掉,留下文本信息并對句子進(jìn)行標(biāo)記,保存到候選答案中。值得注意的是,在將關(guān)鍵詞輸入搜索引擎之前,要進(jìn)一步擴(kuò)展關(guān)鍵詞,以便擴(kuò)大搜索范圍。

      4.2.3 答案抽取模塊。答案抽取模塊的主要作用在于:處理候選答案集,從中抽取相似值高的答案,給用戶排疑解難。答案抽取模塊運行流程為:首先,在經(jīng)過問題分析以及信息檢索這兩個環(huán)節(jié)之后,得出候選答案集;其次,答案抽取模塊對候選答案進(jìn)行預(yù)處理,包括句法分析、詞性標(biāo)注等處理步驟;最后,利用相應(yīng)算法進(jìn)行相似度計算,再將計算值較高的答案返回給用戶。答案抽取流程如圖2所示。

      4.2.4 常問問題集模塊。首先,信息檢索利用關(guān)鍵詞現(xiàn)在常問問題集,檢索其是否有該問句的答案,如果常問問題集中有該問題的答案,那么系統(tǒng)直接將問題答案返回。在檢索過程中,如何進(jìn)一步確定問題與常問問題集中的問題存在語義相似性是問答系統(tǒng)的關(guān)鍵所在。對此,常問問題集模塊一般采用普遍使用的分類法。從不同類型角度出發(fā),按照人物、地點、時間等不同類別,該模塊將常問問題集中的問題進(jìn)行分類整理,其中數(shù)據(jù)庫字段主要由關(guān)鍵字字段、問題字段以及答案字段這幾種構(gòu)成。對常問問題集中的問題進(jìn)行分類后,當(dāng)用戶提出問題時,通過問題分析模塊預(yù)處理,得出問題類型;將問題中的關(guān)鍵詞與數(shù)據(jù)庫中的記錄進(jìn)行匹配,匹配成功后將答案返回給用戶,否則使用搜索引擎進(jìn)行檢索。

      5 結(jié)語

      中文問答系統(tǒng)支持用戶使用自然語言,并且可以直接將答案返回給用戶,具有簡單、便捷的基本特征。目前,基于常問問題集的中文問答系統(tǒng)是一個新研究方向,通過建立常問問題集,系統(tǒng)將用戶所提問題與問題集中的問句進(jìn)行匹配,相似度高的可以直接返回答案。這樣既能提高系統(tǒng)執(zhí)行效率,又能增加用戶使用體驗。因此,本文從問題分析、信息檢索、答案抽取以及常問問題集這四個模塊出發(fā),對基于常問問題集的中文問答系統(tǒng)設(shè)計做了基本探討。研究表明,常問問題集的質(zhì)量會影響中文問答系統(tǒng)性能。對此,未來研究可以從優(yōu)化常問問題集組織形式和儲存形式入手。

      參考文獻(xiàn):

      [1]柳自強(qiáng),熊曉蕓,張哲也,等.基于FAQ與知識圖譜的學(xué)分制智能問答系統(tǒng)研究[J].電腦知識與技術(shù),2019(31):49-50.

      [2]韓東方,吐爾地·托合提,艾斯卡爾·艾木都拉.問答系統(tǒng)中問句分類方法研究綜述[J].計算機(jī)工程與應(yīng)用,2021(6):10-21.

      [3]吳佳澤,湯榮亮,冉浩.專業(yè)課程問答系統(tǒng)的設(shè)計與實現(xiàn)[J].福建電腦,2021(2):97-99.

      [4]魏澤林,張帥,王建超.基于知識圖譜問答系統(tǒng)的技術(shù)實現(xiàn)[J].軟件工程,2021(2):38-44.

      • [5]夏艷輝,聶百勝,胡金鳳.中文開放域問答系統(tǒng)的問題分類研究[J].價值工程,2019(16):147-149.

      猜你喜歡
      信息檢索服務(wù)器模塊
      28通道收發(fā)處理模塊設(shè)計
      “選修3—3”模塊的復(fù)習(xí)備考
      通信控制服務(wù)器(CCS)維護(hù)終端的設(shè)計與實現(xiàn)
      得形忘意的服務(wù)器標(biāo)準(zhǔn)
      醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
      新聞傳播(2016年18期)2016-07-19 10:12:06
      計算機(jī)網(wǎng)絡(luò)安全服務(wù)器入侵與防御
      基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
      選修6 第三模塊 International Relationships
      教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計與實施
      河南科技(2014年11期)2014-02-27 14:10:19
      公共圖書館信息檢索服務(wù)的實踐探索——以上海浦東圖書館為例
      圖書館界(2013年5期)2013-03-11 18:50:29
      西青区| 嵊州市| 梓潼县| 常宁市| 木兰县| 蒙阴县| 陆良县| 清原| 莫力| 朝阳市| 绥滨县| 武川县| 闽侯县| 民勤县| 东乌| 基隆市| 翁牛特旗| 宁津县| 西乌珠穆沁旗| 宣威市| 嘉荫县| 宣城市| 太湖县| 常山县| 水富县| 武定县| 衡山县| 万山特区| 扶风县| 眉山市| 江陵县| 抚松县| 元朗区| 营山县| 繁昌县| 唐海县| 湄潭县| 洛川县| 十堰市| 凉城县| 桐梓县|