• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    問(wèn)答系統(tǒng)中特征提取方法研究

    2018-07-20 01:40:56易小凱
    電腦知識(shí)與技術(shù) 2018年13期

    易小凱

    摘要:?jiǎn)柧涮卣魇怯绊憜?wèn)句分類效果的關(guān)鍵因素,因此特征抽取是問(wèn)句分類的關(guān)鍵步驟。該文提出了一種改進(jìn)的基于信息增益模型的問(wèn)句單詞語(yǔ)義特征抽取方法。結(jié)合單詞的語(yǔ)義相似度和信息增益模型計(jì)算單詞的信息增益值。為了獲取問(wèn)句的詞法特征,該文提出了一種基于序列模式挖掘的問(wèn)句頻繁模式挖掘方法,得到的頻繁模式構(gòu)成問(wèn)句的詞法特征空間。該文使用了三種分類器在公共的UIUC數(shù)據(jù)集上對(duì)所提方法進(jìn)行了評(píng)測(cè)。優(yōu)于現(xiàn)有的問(wèn)句分類方法。

    關(guān)鍵詞: 特征抽??; 信息增益; 特征空間; 詞法特征; 句法特征

    中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)13-0171-02

    1引 言

    信息檢索(Information Retrieval,IR)是信息分析與處理的核心問(wèn)題之一[1]。降低用戶的負(fù)擔(dān)和提高檢索的準(zhǔn)確率一直是信息檢索研究領(lǐng)域追求的兩個(gè)重要目標(biāo),因此基于自然語(yǔ)言的信息檢索方式天然地成為國(guó)內(nèi)外學(xué)者研究的興趣所在。問(wèn)答系統(tǒng)[2,3](Question Answering System, QA)是信息檢索系統(tǒng)更高級(jí)、智能的一種形式,系統(tǒng)中用戶以自然語(yǔ)言對(duì)問(wèn)題描述,QA給出相應(yīng)的答案。

    2特征提取

    2.1基于改進(jìn)的PrefixSpan算法的詞法特征提取

    由于在PrefixSpan算法[4]中數(shù)據(jù)的最小單位為單個(gè)字母,以字母為最小單位進(jìn)行迭代計(jì)算進(jìn)行序列模式挖掘,為適應(yīng)本文研究?jī)?nèi)容,對(duì)PrefixSpan算法進(jìn)行修改:

    (1)將單詞作為最小計(jì)算單位進(jìn)行序列模式挖掘。

    (2)輸出數(shù)據(jù)除了滿足支持度閾值[ρ1],增加置信度閾值[ρ2],[ρ2]表示類別中包含某一頻繁模式的句子占包含該模式所有句子數(shù)的比例。

    [ρ1=QpatternSum(QDB)] (1)

    [ρ2=Sum( PmaxSumClass)Sum(α)] (2)

    修改后的PrefixSpan算法(FE-PrefixSpan)如表1中FE-PrefixSpan算法所示。[α]代表由一個(gè)以上單詞組成的單詞序列,在修改后的算法中進(jìn)行序列模式挖掘的最小數(shù)據(jù)單位為單詞,如果[α]在句子中出現(xiàn)的頻率大于支持度閾值[ρ1]且置信度大于[ρ2],則[α]會(huì)被當(dāng)做頻繁序列模式[5]做為問(wèn)題分類的特征。[ρ1]通過(guò)公式(1)計(jì)算,[SumQDB]代表問(wèn)題的總數(shù)目,[Qpattern]包含模式[α]的句子總數(shù)。公式(2)計(jì)算[ρ2],[PmaxSumClass]代表含有模式[α]數(shù)目最多的類中的含有模式[α]的句子,[Sumα]是所有包含[α]模式的句子總數(shù)。

    方法:

    1. 掃描[QS|α],找到滿足最小支持度[ρ1]的頻繁項(xiàng)[b],[b]能夠連接到序列模式[α]最后一個(gè)元素或者[]附加到序列模式[α]后面構(gòu)成一個(gè)序列模式。

    2. 對(duì)每個(gè)頻繁項(xiàng)[b],連接到序列模式[α]后面構(gòu)成序列模式[α'],如果[α']滿足置信度[ρ2]的閾值則輸出[α'],否則進(jìn)行步驟3.

    3. 對(duì)每個(gè)[α'],構(gòu)造[α']的投影數(shù)據(jù)庫(kù)[QS|α'],再調(diào)用[FE-PrefixSpan(α', l + 1, QS|α' )]函數(shù)。 ]

    2.2基于單詞相似度改進(jìn)的信息增益特征提取方法

    根據(jù)信息增益[6]選取問(wèn)句中的類別特征,其主要是通過(guò)計(jì)算組成問(wèn)句單詞的權(quán)值,以挖掘詞匯與類別之間的隱藏關(guān)聯(lián)程度[7],結(jié)合單詞語(yǔ)義相似度[8-10]對(duì)IG方法進(jìn)行改進(jìn),結(jié)合單詞語(yǔ)義改進(jìn)后的信息增益特征抽取過(guò)程用表2中的算法描述。

    為了區(qū)別原有IG公式,將改進(jìn)后的IG公式以公式(3)表示如下:

    [IGw=-i=1nPcilog2Pci]

    [+ Pwi=1nPci|wlog2Pci|w]

    [+Pwi=1nPci|wlog2Pci|w] (3)

    根據(jù)公式可得[w]的信息增益取決于[count(w)]和[count(c,w)]的值。對(duì)于給定的句子[s],如果單詞[w]在句子[s]中出現(xiàn),則[countw]的值加1,否則值不變([count(w)]初始值為0)。如果單詞[w]在句子[s]中出現(xiàn)且句子[s]屬于[c]類,則[count(c,w)]的值加1,否則值不變([count(c,w)]初始值為0)。但是,以上所述關(guān)于[count(w)]的計(jì)算方法并不準(zhǔn)確。基于語(yǔ)義相似度改進(jìn)的關(guān)于[count(w)]和[count(c,w)]的計(jì)算方法(SIM-IG-Count)如表3所示。

    3 結(jié)論

    本文主要提出并評(píng)價(jià)了一種用于問(wèn)句分類的混合特征抽取方法。為了減少特征抽取的計(jì)算開銷,本文考慮了詞法特征和簡(jiǎn)單語(yǔ)義特征。將詞語(yǔ)間的相似度引入信息增益公式中,利用公式得到問(wèn)句的語(yǔ)義特征。該算法通過(guò)計(jì)算組成問(wèn)句的所有單詞的權(quán)值來(lái)評(píng)估單詞的重要性,根據(jù)單詞的重要程度選取高價(jià)值詞匯組成表示問(wèn)句的特征向量,用于問(wèn)句分類。此外,本文還提出一種使用序列模式挖掘算法來(lái)獲取詞法特征。通過(guò)該方法抽取的詞法特征結(jié)合單詞語(yǔ)義特征用于問(wèn)句分類,在多種分類器中進(jìn)行分類實(shí)驗(yàn)。所提方法在UIUC數(shù)據(jù)集上進(jìn)行了評(píng)價(jià),與已有方法相比,該方法大類準(zhǔn)確率達(dá)到96%,小類準(zhǔn)確率達(dá)到90.4%,優(yōu)于現(xiàn)今存在的分類方法。

    參考文獻(xiàn):

    [1] Ioannakis G, Koutsoudis A, Pratikakis I et al. RETRIEVAL-An Online Performance Evaluation Tool for Information Retrieval Methods.IEEE Transactions on Multimedia, 2017, 20(1):119-127.

    [2] 范士喜,王曉龍,王軒,等.面向真實(shí)環(huán)境的問(wèn)句分析方法.電子學(xué)報(bào),2010,38(5): 1131-1135.

    [3] 高明霞, 劉椿年. 基于約束的自然語(yǔ)言問(wèn)題到 OWL 的語(yǔ)義映射方法研究. 電子學(xué)報(bào), 2007, 35(8): 1598-1602.

    [4]公偉, 劉培玉, 賈嫻. 基于改進(jìn) PrefixSpan 的序列模式挖掘算法[J]. 計(jì)算機(jī)應(yīng)用, 2011, 31(9): 2405-2407.

    [5] 吳迪. 基于加權(quán)相似度的序列聚類算法研究[D]. 秦皇島: 燕山大學(xué), 2014.

    [6]Azhagusundari B, Thanamani A S. Feature selection based on information gain[J]. International Journal of Innovative Technology and Exploring Engineering (IJITEE) ISSN, 2013: 2278-3075.

    [7] 張春生, 李艷, 圖雅. 基于屬性拓展的數(shù)據(jù)挖掘預(yù)處理技術(shù)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2014, 24(3): 79-81.

    [8] Pirró G. A semantic similarity metric combining features and intrinsic information content. Data & Knowledge Engineering, 2009, 68(11): 1289-1308.

    望谟县| 犍为县| 玛多县| 宁陕县| 嵩明县| 峨山| 丰原市| 桦甸市| 曲水县| 湘西| 鹤壁市| 项城市| 延长县| 蒲城县| 汽车| 绵竹市| 沙洋县| 鄯善县| 固镇县| 错那县| 隆尧县| 金川县| 兰坪| 当阳市| 泸西县| 大宁县| 休宁县| 周宁县| 渑池县| 霸州市| 武宁县| 建瓯市| 七台河市| 南康市| 太康县| 黑水县| 五寨县| 曲阳县| 独山县| 名山县| 资中县|