藏文試題知識(shí)點(diǎn)抽取方法

2019-02-13 01:36:06德格加安見(jiàn)才讓

計(jì)算機(jī)時(shí)代 2019年1期

德格加安見(jiàn)才讓

摘? 要：在教育教學(xué)信息化的進(jìn)程中，試題管理系統(tǒng)和組卷系統(tǒng)一直是人們致力研究的一個(gè)領(lǐng)域，對(duì)教育教學(xué)的自動(dòng)化、高效化和精準(zhǔn)化具有重要的現(xiàn)實(shí)意義。由于試題知識(shí)點(diǎn)的不確定性、多樣性和隱蔽性等特點(diǎn)，利用計(jì)算機(jī)技術(shù)自動(dòng)抽取試題知識(shí)一直是該領(lǐng)域的難題之一。文章以藏文版試題為研究對(duì)象，通過(guò)深入研究試題的結(jié)構(gòu)特點(diǎn)，探索研究了抽取藏文試題知識(shí)點(diǎn)的方法，力求提高試題管理和存儲(chǔ)的自動(dòng)化，提升組卷系統(tǒng)的性能和效率。

關(guān)鍵詞：組卷系統(tǒng); 藏文試題; 知識(shí)點(diǎn); 自動(dòng)抽取

中圖分類號(hào)：TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)志碼：A? ? ?文章編號(hào)：1006-8228（2019）01-79-04

Abstract： In the process of education and teaching informationization， the test management system and the test paper generating system have always been one of the areas that people are committed to research， and have important practical significance for the automation， efficiency and precision of education and teaching. Due to the uncertainty， diversity and concealment of the knowledge point of test questions， the use of computer technology to automatically extract knowledge point of test questions has always been one of the problems in this field. This paper takes the Tibetan version of test questions as the research object， through in-depth study of the structural characteristics of test questions， explores how to extract the knowledge points of Tibetan test questions， and strives to improve the automation management and storage of test questions and improve the performance and efficiency of the test paper generating system.

Key words： test paper generating system; Tibetan test questions; knowledge points; automatic extraction

0 引言

計(jì)算機(jī)技術(shù)迅速發(fā)展，計(jì)算機(jī)輔助教學(xué)軟件相繼開(kāi)發(fā)，作為教學(xué)輔助系統(tǒng)中的重要組成部分，試題管理系統(tǒng)和組卷系統(tǒng)是人們研究的重要領(lǐng)域之一，在日常教學(xué)活動(dòng)中發(fā)揮著積極的作用[1]。國(guó)內(nèi)外對(duì)試題管理系統(tǒng)中的組卷算法研究比較多，也提出了一些行之有效的組卷算法，但在試題的知識(shí)點(diǎn)抽取方面的研究與實(shí)現(xiàn)仍處于空白狀態(tài)。知識(shí)點(diǎn)自動(dòng)抽取是組卷系統(tǒng)和試題管理系統(tǒng)的智能化和自動(dòng)化的重要體現(xiàn)，所以，研究抽取試題知識(shí)點(diǎn)的方法對(duì)提升整個(gè)系統(tǒng)的效率具有重要的現(xiàn)實(shí)意義。

理工科類試題的出題形式是各式各樣的，有純文字?jǐn)⑹龅模袌D形的，有表格的，也有多種形式混合的。文字?jǐn)⑹鲂问降脑囶}以數(shù)學(xué)式子和符號(hào)類居多，而且數(shù)學(xué)式子和符號(hào)是用專門的軟件編輯的[2]，這對(duì)利用計(jì)算機(jī)處理該類試題增加了很大難度。本文主要針對(duì)含有文字?jǐn)⑹鲂缘脑囶}進(jìn)行研究，探討試題知識(shí)點(diǎn)的抽取方法。

知識(shí)點(diǎn)是通過(guò)對(duì)題目多方面深入理解的基礎(chǔ)上才能提取確定的。對(duì)于藏文試題，試題的知識(shí)點(diǎn)往往表現(xiàn)在題目的中的某個(gè)關(guān)鍵字上或者算式中，因此，要確定題目的知識(shí)點(diǎn)，首先對(duì)藏文試題進(jìn)行相關(guān)的預(yù)處理，提取題目中與知識(shí)點(diǎn)相關(guān)的關(guān)鍵詞，最后通過(guò)對(duì)關(guān)鍵詞的分析和判斷才能確定其知識(shí)點(diǎn)。

1 藏文試題知識(shí)點(diǎn)抽取方法

1.1 建立知識(shí)點(diǎn)網(wǎng)絡(luò)

利用計(jì)算機(jī)技術(shù)自動(dòng)抽取試題知識(shí)點(diǎn)，首先要建立一個(gè)健全的知識(shí)點(diǎn)網(wǎng)絡(luò)，根據(jù)某課程的知識(shí)點(diǎn)分布結(jié)構(gòu)，設(shè)計(jì)合理的知識(shí)點(diǎn)網(wǎng)絡(luò)庫(kù)，知識(shí)點(diǎn)網(wǎng)絡(luò)成樹(shù)狀結(jié)構(gòu)。比如建立一個(gè)人教版初中數(shù)學(xué)知識(shí)點(diǎn)庫(kù)，首先根據(jù)初中數(shù)學(xué)知識(shí)點(diǎn)的分布和編排結(jié)構(gòu)，知識(shí)點(diǎn)編排方式有橫向上的同級(jí)知識(shí)點(diǎn)和縱向上的層級(jí)知識(shí)點(diǎn)，因此，初中數(shù)學(xué)知識(shí)點(diǎn)可以用含有n階層級(jí)的樹(shù)狀形式來(lái)表示，如圖1所示。

根據(jù)人教版初中數(shù)學(xué)教材大綱中的知識(shí)點(diǎn)的編排順序和原則，綜合考慮計(jì)算機(jī)中易于編程實(shí)現(xiàn)，將知識(shí)點(diǎn)樹(shù)狀網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)化成縱向深度限定為3級(jí);如圖2所示。

根據(jù)知識(shí)點(diǎn)網(wǎng)絡(luò)的結(jié)構(gòu)，合理設(shè)計(jì)知識(shí)點(diǎn)網(wǎng)絡(luò)庫(kù)，將各層級(jí)的知識(shí)點(diǎn)按結(jié)構(gòu)和層級(jí)關(guān)系有序存入庫(kù)中。

1.2 藏文知識(shí)點(diǎn)抽取方法

要從一道藏文題目中抽取其知識(shí)點(diǎn)，首先對(duì)藏文題目進(jìn)行預(yù)處理，包括提取題目中的文字性描述和對(duì)文字性描述進(jìn)行分詞，然后提取文字性描述中的數(shù)學(xué)關(guān)鍵字，最后對(duì)關(guān)鍵字結(jié)合知識(shí)點(diǎn)庫(kù)計(jì)算其權(quán)值確定題目中的主要知識(shí)點(diǎn)。

⑴ 預(yù)處理：藏文題目中除了文字性描述之外，還包含數(shù)學(xué)中的各種符號(hào)、字母和圖片等信息，在預(yù)處理階段應(yīng)把這些非文字性元素剔除，提取其藏文描述部分以便進(jìn)一步對(duì)其進(jìn)行處理;

⑵ 分詞：分詞是文字處理中最基礎(chǔ)也是最關(guān)鍵的一步，本文所采用的分詞方法是基于字典的機(jī)械分詞方法[3]，與一般藏文分詞方法的不同之處在于，所使用的字典需要擴(kuò)充或使用專用的分詞字典。因?yàn)橐话愕牟匚脑~典中還未加入數(shù)學(xué)等現(xiàn)代理工科中的專業(yè)數(shù)學(xué)和詞條，如“”等詞條。本文中進(jìn)行擴(kuò)充原有藏文字典，在原字典中增加中學(xué)數(shù)學(xué)中的專用術(shù)語(yǔ)和名詞等詞條，這樣能夠保證在分詞過(guò)程中能夠準(zhǔn)確的切分出題目中的數(shù)學(xué)關(guān)鍵字，例如初中藏文試題：

⑶ 剔除噪音：所謂噪音是指對(duì)處理和研究主體無(wú)實(shí)際意義，甚至對(duì)研究起負(fù)面影響的元素，在提取試題知識(shí)點(diǎn)的問(wèn)題中除了要剔除題目中的無(wú)實(shí)際意義的連詞和停用詞等虛詞外，還有數(shù)學(xué)試題中通用的一些動(dòng)詞和指示詞也可剔除[4]，所以要根據(jù)藏文試題的特點(diǎn)，建立一個(gè)比較齊全的專用停用詞詞表，部分停用詞如表1所示。

根據(jù)表1剔除題目中的停用詞后，只保留試題題干中的關(guān)鍵詞，如例題⑴中，最后所保留的關(guān)鍵詞為<E：＼方正創(chuàng)藝5.1＼Fit201812＼圖＼dgj藏文5.tif>。

⑷ 確定知識(shí)點(diǎn)：經(jīng)過(guò)預(yù)處理和分詞后，需要剔除其中的停用詞和虛詞等無(wú)實(shí)際意義的詞，經(jīng)過(guò)這樣的處理后用切分出的詞中只有數(shù)學(xué)術(shù)語(yǔ)和關(guān)鍵詞名詞等主要信息，最后用這些關(guān)鍵詞去查詢知識(shí)點(diǎn)網(wǎng)絡(luò)庫(kù)中，確定其中的知識(shí)點(diǎn)及級(jí)別，并賦予相應(yīng)的知識(shí)點(diǎn)權(quán)值[5]。如上面的例題中，提取出的關(guān)鍵詞為。

一般將提取出的關(guān)鍵詞用集合S={v1，v2，…，vn}來(lái)表示，用S中的元素vi（1?i?n）查詢知識(shí)點(diǎn)網(wǎng)絡(luò)庫(kù)，根據(jù)查詢匹配情況確定題目屬于哪一類知識(shí)點(diǎn)。

2 藏文試題知識(shí)點(diǎn)提取算法策略

2.1 知識(shí)點(diǎn)數(shù)據(jù)庫(kù)設(shè)計(jì)

根據(jù)以上對(duì)知識(shí)點(diǎn)庫(kù)的結(jié)構(gòu)分析，三個(gè)層級(jí)的知識(shí)點(diǎn)用三個(gè)相互關(guān)聯(lián)的數(shù)據(jù)表存儲(chǔ)，并各表之間創(chuàng)建合適的主外鍵關(guān)系，知識(shí)點(diǎn)庫(kù)E-R圖設(shè)計(jì)為如圖3所示。

2.2 知識(shí)點(diǎn)提取策略

根據(jù)知識(shí)點(diǎn)數(shù)據(jù)庫(kù)的結(jié)構(gòu)，在算法設(shè)計(jì)中將知識(shí)點(diǎn)庫(kù)可以表示為三個(gè)集合;

集合S={K1，K2，K3}表示整個(gè)知識(shí)點(diǎn)網(wǎng)絡(luò)庫(kù)，則有：

其中知識(shí)點(diǎn)ki為kij的上一級(jí)知識(shí)點(diǎn)，kij為kijz的上一級(jí)知識(shí)點(diǎn)，這樣能保證各級(jí)知識(shí)點(diǎn)之間的從屬關(guān)系。

具體算法步驟如下：

Step 1：輸入藏文試題;進(jìn)行預(yù)處理，凈化等;

Step 2：對(duì)凈化后題目?jī)?nèi)容進(jìn)行分詞，剔除停用詞和虛詞等無(wú)實(shí)際意義的詞，得到題目中的關(guān)鍵數(shù)學(xué)術(shù)語(yǔ)和名詞，用S={v1，v2，…，vn}表示;

Step 3：用S中的每個(gè)元素vi依次查詢表Ki（1?i?3），若vw在Ki中的知識(shí)點(diǎn)k匹配成功，則知識(shí)點(diǎn)k對(duì)于關(guān)鍵字vw的權(quán)值設(shè)為r=i，否則在下一級(jí)知識(shí)點(diǎn)表Ki+1中查詢匹配，并賦予相應(yīng)的權(quán)值r=i+1（r?3）;

Step 4：對(duì)匹配成功的所有知識(shí)按其權(quán)值進(jìn)行排序，選擇其中權(quán)值最大的作為該題的知識(shí)點(diǎn)。

根據(jù)以上步驟確定試題的知識(shí)點(diǎn)，算法中的權(quán)值代表的是知識(shí)點(diǎn)的層級(jí)，本文中知識(shí)點(diǎn)的層級(jí)最大有三級(jí)，層級(jí)越大，對(duì)應(yīng)的知識(shí)點(diǎn)越具體細(xì)致，所以選擇權(quán)值最大的知識(shí)點(diǎn)作為試題的知識(shí)點(diǎn)。

3 總結(jié)

本文主要探究了藏文試題的知識(shí)點(diǎn)確定方法，對(duì)藏文試題的呈現(xiàn)方式進(jìn)行了全面分析。由于試題的呈現(xiàn)方式各種各樣，以文、圖、數(shù)學(xué)符號(hào)和圖文混合等形式，本文討論的試題只限有文字描述或圖文并茂的試題，其主要知識(shí)點(diǎn)依賴于對(duì)文字描述部分的深入分析確定的，但組卷系統(tǒng)等試題管理系統(tǒng)中對(duì)試題知識(shí)點(diǎn)等屬性的設(shè)置方面要求較高[6]，需要比較準(zhǔn)確的設(shè)置試題各屬性才可以保證整個(gè)系統(tǒng)的性能，所以在提取的準(zhǔn)確性和適用性方面都存在一定的優(yōu)化和提升空間。

參考文獻(xiàn)（References）：

[1] 蓋洋僑.智能組卷系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].大連理工大學(xué)，2016.

[2] 才項(xiàng)俄日，張有宜.藏語(yǔ)文試卷的智能生成研究與實(shí)現(xiàn)[J].電腦與信息，2015.6.

[3] 劉穎.計(jì)算語(yǔ)言學(xué)[M].清華大學(xué)出版社，2014.

[4] 劉懷蘭.基于改進(jìn)遺傳算法的智能組卷模型優(yōu)化[J].華中科技大學(xué)學(xué)報(bào)，2013.5.

[5] 王淑佩.基于改進(jìn)自適應(yīng)遺傳算法的組卷研究[J].科學(xué)技術(shù)與工程，2012.2.

[6] 王慧敏.利用文本相似度改進(jìn)遺傳算法的組卷實(shí)現(xiàn)與研究[J].現(xiàn)代電子技術(shù)，2016.5.