姚亮亮
摘? 要:當(dāng)今社會(huì)文獻(xiàn)的生產(chǎn)和增長(zhǎng)的速度越來(lái)越快,社會(huì)文獻(xiàn)的類型也變得豐富復(fù)雜。社會(huì)文獻(xiàn)的時(shí)效性強(qiáng)導(dǎo)致了傳播速度加快,文獻(xiàn)的內(nèi)容也出現(xiàn)了交叉、重復(fù)等錯(cuò)誤,這些問(wèn)題使人們?cè)诓殚喓屠蒙献兊酶硬环奖?。針?duì)上述問(wèn)題,設(shè)計(jì)基于關(guān)聯(lián)規(guī)則的圖書館中文文本自動(dòng)分類方法。從這些圖書館產(chǎn)生的問(wèn)題入手,計(jì)算圖書館中文文本,設(shè)計(jì)數(shù)據(jù)預(yù)處理按預(yù)定規(guī)則收集處理信息和提取關(guān)鍵詞檢索文本信息的方法,利用計(jì)算機(jī)解決問(wèn)題,方便了圖書館的自動(dòng)分類和識(shí)別。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則? 自動(dòng)分類? 圖書館
隨著數(shù)字化時(shí)代的到來(lái),人們獲取信息的方式不僅局限于紙質(zhì)書籍上或傳統(tǒng)圖書館內(nèi)進(jìn)行知識(shí)的瀏覽。面對(duì)巨大的儲(chǔ)存量和擴(kuò)散信息的困難,出現(xiàn)了包含種類和形式豐富的數(shù)字圖書館[1]。數(shù)字圖書館在表現(xiàn)各種新型的信息資源和信息傳播服務(wù)的同時(shí),也出現(xiàn)了很多關(guān)于管理分類的問(wèn)題。這就用到了與網(wǎng)絡(luò)通信技術(shù)相結(jié)合的、對(duì)圖書館的各項(xiàng)業(yè)務(wù)實(shí)行自動(dòng)控制的圖書館自動(dòng)化管理方法。圖書館自動(dòng)化運(yùn)用電腦來(lái)處理圖書館的業(yè)務(wù)及相應(yīng)服務(wù),將收集到的文件中有關(guān)課題歸于一個(gè)體系組合成圖書館分類系統(tǒng)。由于各具體網(wǎng)絡(luò)所擁有的功能不盡相同,在對(duì)圖書館的中文文本進(jìn)行自動(dòng)分類時(shí)顯得繁瑣且容易出錯(cuò),引出關(guān)聯(lián)規(guī)則這一方便管理的方法。關(guān)聯(lián)規(guī)則涉及到很多領(lǐng)域,關(guān)聯(lián)規(guī)則的應(yīng)用拓寬了支持管理決策的范圍。圍繞關(guān)聯(lián)規(guī)則的研究主要集中在擴(kuò)展能夠解決問(wèn)題的范圍?;谶@種在大量數(shù)據(jù)中挖掘出一個(gè)事物與其他事物之間的相互依賴性和關(guān)聯(lián)性,反映有價(jià)值的數(shù)據(jù)項(xiàng)之間相關(guān)關(guān)系的技術(shù),對(duì)圖書館中文文本分別用這些方法進(jìn)行自動(dòng)分類。
1? 基于關(guān)聯(lián)規(guī)則的圖書館中文文本自動(dòng)分類方法設(shè)計(jì)
1.1 計(jì)算圖書館中文文本
可以將圖書館中的每一個(gè)文本看作一個(gè)項(xiàng)目,將圖書館的眾多文本看作一個(gè)集合。利用關(guān)聯(lián)規(guī)則的Apriori算法和FP-growth算法計(jì)算圖書館內(nèi)的中文文本。Apriori算法多次掃描交易數(shù)據(jù)庫(kù),每次利用候選文本頻繁集產(chǎn)生文本頻繁集;而FP-growth則利用樹形結(jié)構(gòu),無(wú)需產(chǎn)生候選文本頻繁集,直接得到文本頻繁集,大大減少掃描文本交易數(shù)據(jù)庫(kù)的次數(shù),從而提高了算法的效率。
設(shè)I={i1,i2…,in}為所有文本的集合,設(shè)A是一個(gè)由多種文本構(gòu)成的集合,稱為文本集。事務(wù)T是一個(gè)文本子集,每一個(gè)事務(wù)具有唯一的事務(wù)標(biāo)識(shí)Tid。事務(wù)T包含文本集A,當(dāng)且僅當(dāng)AT。如果文本項(xiàng)集A中包含k個(gè)文本項(xiàng)目,則稱其為k文本項(xiàng)集。D為文本數(shù)據(jù)庫(kù),文本集A在文本數(shù)據(jù)庫(kù)D中出現(xiàn)的次數(shù)占D中總文本的百分比叫作文本集的支持度(support)。如果文本集的支持度超過(guò)用戶給定的最小支持度閾值,就稱該文本集是文本大項(xiàng)集。
關(guān)聯(lián)規(guī)則就是形如XY的文本邏輯蘊(yùn)含關(guān)系,其中XI,YI且XY=Φ,X稱作文本隱性規(guī)則,Y是線性文本規(guī)則,對(duì)于文本關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。支持度是指規(guī)則中所出現(xiàn)模式的頻率,如果文本數(shù)據(jù)庫(kù)有s%的文本包含XY,則稱關(guān)聯(lián)規(guī)則XY在D中的支持度為s%,實(shí)際上,可以表示為概率P(XY),即support(XY)=P(XY)。信任度是指蘊(yùn)含的強(qiáng)度,即文本D中c%的包含X的交易同時(shí)包含XY。若X的支持度是support(x),規(guī)則的信任度為:support(XY)/support(X),這是一個(gè)條件概率P(Y|X),即confidence(XY)=P(Y|X)圖書館中文文本分類概率[3]。
1.2 數(shù)據(jù)處理
數(shù)據(jù)處理是在總結(jié)事物的特性基礎(chǔ)上,按預(yù)定的規(guī)則收集處理信息,為具體應(yīng)用服務(wù)的分類方法。由于計(jì)算機(jī)技術(shù)的發(fā)展,越是龐大的數(shù)據(jù)項(xiàng)目,越是能體現(xiàn)數(shù)據(jù)處理的高效性?,F(xiàn)代計(jì)算機(jī)數(shù)據(jù)處理運(yùn)算速度和效率都比其他任何工具都強(qiáng)大。計(jì)算機(jī)的可靠邏輯判斷能力能實(shí)現(xiàn)信息處理自動(dòng)化[4]。計(jì)算機(jī)的存儲(chǔ)器可以存儲(chǔ)大量的數(shù)據(jù)和程序,能計(jì)算數(shù)值數(shù)據(jù)和非數(shù)值數(shù)據(jù),體現(xiàn)了計(jì)算機(jī)自動(dòng)化程度高的特點(diǎn)。
1.3 提取關(guān)鍵詞
為了能向用戶提供信息服務(wù)的多功能開放系統(tǒng),找出整個(gè)文獻(xiàn)信息中組織存儲(chǔ)的特定信息,然后根據(jù)用戶需求進(jìn)行信息檢索。根據(jù)一定社會(huì)需要和為達(dá)到特定信息交流的目的,具有信息存貯與檢索功能的系統(tǒng)稱為信息檢索系統(tǒng)。用于檢索相關(guān)文獻(xiàn)信息線索的手工檢索階段主要指文摘、題錄、目錄、索引等以書目數(shù)據(jù)庫(kù)為核心的書目檢索。檢索系統(tǒng)存儲(chǔ)的是以目錄、索引、文摘等為對(duì)象的信息,它們是文獻(xiàn)信息的外部特征與內(nèi)容特征的描述集合體。信息用戶以文獻(xiàn)中的事實(shí)為對(duì)象,通過(guò)檢索獲取有關(guān)某問(wèn)題的一系列相關(guān)文獻(xiàn)線索,也可稱為提取關(guān)鍵詞。明確尋找范圍并按順序方便了圖書館的自動(dòng)分類和識(shí)別。如果檢索標(biāo)識(shí)與文獻(xiàn)的存儲(chǔ)標(biāo)識(shí)相一致,就可得到“命中文獻(xiàn)”。
1.4 實(shí)現(xiàn)圖書館中文文本分類
關(guān)聯(lián)規(guī)則的目的就是在一個(gè)數(shù)據(jù)集中找出項(xiàng)與項(xiàng)之間的關(guān)系。在對(duì)圖書館中文文本進(jìn)行分類時(shí),利用數(shù)據(jù)處理就可以以宇宙為標(biāo)準(zhǔn)分類可分為人文類圖書和自然類圖書;以圖書基本學(xué)科屬性為標(biāo)準(zhǔn)分為A哲學(xué)、B宗教、C倫理、D邏輯、E美學(xué)、F心理、G語(yǔ)言、H文學(xué)、I藝術(shù)、J政治、K經(jīng)濟(jì)、L軍事、M法律、N教育、O體育、P傳媒、Q資訊、R管理、S商貿(mào)、T歷史、U考古、V民族、W生活、X財(cái)經(jīng)、Y統(tǒng)計(jì)、Z社會(huì);以圖書品種屬性劃分為作品、理論著作、應(yīng)用著述、學(xué)術(shù)(注釋、評(píng)析、爭(zhēng)鳴、研究、考證、翻譯)、教學(xué)(學(xué)校教材、社會(huì)培訓(xùn)教材、自修教材、參考資料、講義、學(xué)習(xí)資料,普及讀物、實(shí)習(xí)實(shí)驗(yàn)和考試習(xí)題集、教學(xué)大綱)、幫助(詞典、百科、類書、政書、年鑒、手冊(cè)、書目、索引、文摘、表譜、圖錄、標(biāo)準(zhǔn));以圖書附屬學(xué)科標(biāo)準(zhǔn)劃分;以圖書功能屬性劃分;以圖書語(yǔ)言劃分為中文圖書和外文圖書;以圖書時(shí)序劃分。排架方法以主題字順法為首選,中文書刊可以漢語(yǔ)拼音查號(hào)法為順序。在遵從基本級(jí)別律前提下,大型圖書館、圖書城如有必要也可以自定義圖書出版、編輯形式、內(nèi)容、文別、專題、年代、書型等標(biāo)準(zhǔn)進(jìn)行排架。在該圖書館排架準(zhǔn)確、整理及時(shí)的情況下確定想要找的文獻(xiàn)內(nèi)容,敲定一個(gè)關(guān)鍵詞,可以是書名(檢索中的題名項(xiàng)),也可以是著者、出版社等信息,還可以是任意詞組。只要盡可能跟要找的內(nèi)容相關(guān),根據(jù)檢索的結(jié)果,篩選最符合要求的文獻(xiàn)并記住分類號(hào)去數(shù)據(jù)庫(kù)進(jìn)行搜索。
2? 結(jié)語(yǔ)
文獻(xiàn)信息通過(guò)圖書館的整合和處理、進(jìn)行科學(xué)分析后的引導(dǎo),形成有秩序規(guī)律、條理清晰的信息流,更好地交流與傳遞文本資源,根據(jù)數(shù)據(jù)管理和提取關(guān)鍵詞對(duì)圖書館中文文本自動(dòng)分類,使讀者更好地利用它們。
參考文獻(xiàn)
[1] 楊亞,易遠(yuǎn)弘.圖書館海量學(xué)術(shù)資源自動(dòng)分類模型研究[J].知識(shí)管理論壇,2018,3(3):172-179.
[2] 蔡代純,譚新良.文本自動(dòng)分類技術(shù)及其對(duì)圖書館學(xué)的影響[J].現(xiàn)代情報(bào),2006(9):13-14.
[3] 艾楚涵,姜迪,吳建德.基于主題模型和關(guān)聯(lián)規(guī)則的專利文本數(shù)據(jù)挖掘研究[J].中北大學(xué)學(xué)報(bào):自然科學(xué)版,2019,40(6):524-530.
[4] 楊建林,劉揚(yáng).基于關(guān)聯(lián)分類算法的PU學(xué)習(xí)研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(11):12-18.