• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于電力公司的多格式文檔智能信息檢索系統(tǒng)的設(shè)計與實現(xiàn)

    2014-08-14 07:36:34方躍勝姚宏亮
    關(guān)鍵詞:全文檢索分詞文摘

    方躍勝 姚宏亮

    (1.安徽水利水電職業(yè)技術(shù)學(xué)院, 合肥 231603; 2.合肥工業(yè)大學(xué)計算機(jī)與信息學(xué)院, 合肥 230009)

    隨著互聯(lián)網(wǎng)的發(fā)展,用戶采集到的信息數(shù)據(jù)量大、格式繁多,使得發(fā)掘有用信息的難度變大。本系統(tǒng)旨在克服多種文檔格式給檢索造成的困難,同時提高檢索的質(zhì)量,使用戶瀏覽較少文檔即可找到需要的文檔。

    系統(tǒng)設(shè)計目標(biāo)如下:將多格式文檔轉(zhuǎn)換為txt文檔,克服文檔格式對檢索造成的困難;生成自動文摘,用戶花費較少時間即可了解文檔內(nèi)容;采用基于詞索引的全文檢索技術(shù),信息模型采用向量空間模型,同時加入“去停用詞”處理,實現(xiàn)信息檢索。

    1 文檔格式轉(zhuǎn)換簡介

    文檔格式分為純文本文檔和非純文本文檔。純文本文檔是只包含純文字的文件,這些文字沒有格式,如擴(kuò)展名為“.txt”、“.html”的文檔。使用任何編輯器都可以打開純文本文檔,在編程中用文件操作函數(shù)即可讀取文件內(nèi)容。另一類文檔為非純文本文件,如擴(kuò)展名為“.pdf”、“.doc”、“.xls”的文檔。打開非純文本文檔需要特殊的編輯器,讀取內(nèi)容需要使用特殊解析工具[1]。

    目前已有多種工具可以解析“.pdf”文檔的格式并讀取其內(nèi)容。最常見的“.pdf”文本抽取工具包括PDFBox和Xpdf。PDFBox是一個開源的Java PDF庫。Java PDF庫允許用戶訪問“.pdf”文檔的各項信息,通過PDFBox提供的API,可從“.pdf”文檔中提取出文本信息。用PDFBox處理“.pdf”文檔,需要下載PDFBox,并在Java工程中調(diào)用相應(yīng)的jar包。相對于PDFBox,Xpdf可對中文文件提供更強(qiáng)大的支持。除了下載相應(yīng)的Xpdf版本,使用Xpdf還需下載一個中文包“Xpdf-chinese-simplified.tar.gz”,并在Java工程中調(diào)用相應(yīng)的jar包。同時,Xpdf提供的可執(zhí)行文件可以在PHP中直接調(diào)用,但是經(jīng)常出現(xiàn)亂碼。

    DOC和XLS文檔作為Microsoft Office系列的辦公軟件,實現(xiàn)了自動化的COM組件,可以通過調(diào)用COM組件讀取其內(nèi)容?!?xls”文檔還提供可供PHP調(diào)用的類spreadsheet_excel_reader,以讀取“.xls”文檔內(nèi)容。經(jīng)過測試,COM組件讀取“.xls”文檔的質(zhì)量較高,而spreadsheet_excel_reader類讀取“.xls”文檔的速度較快。

    “.html”文本是由HTML命令組成的描述性文本,HTML命令可以說明文字、圖形、動畫、聲音、表格、鏈接等。HTML的結(jié)構(gòu)包括頭部和主體兩大部分,其中頭部描述瀏覽器所需的信息,而主體則包含所要說明的具體內(nèi)容。由于轉(zhuǎn)換成txt文檔的過程中不需要HTML標(biāo)簽的信息,因此,在讀取完字符串后應(yīng)運用PHP中的字符串處理函數(shù)對其做相應(yīng)處理,去除不必要的HTML標(biāo)簽。

    2 自動文摘方法

    文摘是全面準(zhǔn)確地反映文獻(xiàn)中心內(nèi)容的簡單連貫的短文,自動文摘是指利用計算機(jī)自動地從原始文獻(xiàn)中提取文摘[2]。生成自動文摘的主要方法包括基于統(tǒng)計的自動文摘、基于理解的自動文摘、信息抽取和基于結(jié)構(gòu)的自動文摘[3]?;诮y(tǒng)計的自動文摘將句子視為詞的線性序列,將文本視為句子的線性序列,通過計算詞的權(quán)值,從而計算句子的權(quán)值,再針對句子權(quán)值排序,將權(quán)值最高的若干句子作為文摘句,按照其在原文中出現(xiàn)的順序輸出?;诶斫獾淖詣游恼匀斯ぶ悄埽貏e是自然語言理解技術(shù)為基礎(chǔ)而發(fā)展起來的文摘方法,不僅需要語言學(xué)知識判斷語言結(jié)構(gòu),而且需要利用領(lǐng)域知識進(jìn)行判斷、推理,得到文摘的意義,從而生成摘要。信息抽取適用于特定的領(lǐng)域?;诮Y(jié)構(gòu)的自動文摘把篇章作為一個結(jié)構(gòu)體,對篇章結(jié)構(gòu)的引入可以提高文摘質(zhì)量,但實現(xiàn)較為困難。

    2.1 中文分詞

    中文分詞是指將一個漢字序列切分成一個一個單獨的詞,分詞就是將連續(xù)的字序列按照一定的規(guī)范組合成詞的序列[4]。中文分詞是自動文摘以及信息檢索的基礎(chǔ),其算法有基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法[5]。

    基于字符串匹配的分詞方法又稱做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功。基于理解的分詞方法通過計算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。其基本思想是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象,目前基于理解的分詞系統(tǒng)還處于試驗階段?;诮y(tǒng)計的分詞方法認(rèn)為:詞是穩(wěn)定的字的組合,在上下文中,相鄰的詞出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。這種方法只需對語料中的字組頻率進(jìn)行統(tǒng)計,不需要切分詞典,又叫做無詞典分詞法或統(tǒng)計取詞方法。對于任何一個成熟的分詞系統(tǒng),不可能單獨依靠某一種算法來實現(xiàn),都要綜合不同的算法。

    ICTCLAS是中科院研制的漢語詞法分詞系統(tǒng),全部采用CC++語言編寫,支持Linux、FreeBSD及Windows系列操作系統(tǒng),同時支持CC++C#DelphiJava等主流的開發(fā)語言。ICTCLAS系統(tǒng)主要功能包括:中文分詞;詞性標(biāo)注;命名實體識別;新詞識別;用戶詞典。ICTCLAS3.0版分詞速度達(dá)到單機(jī)996kBs,分詞精度98.45%,API不超過200kB,各種數(shù)據(jù)壓縮后不到3M。本實驗室的分詞系統(tǒng)采用基于memcached的動態(tài)四字雙向詞典機(jī)制[6],將詞典按一定的數(shù)據(jù)結(jié)構(gòu)首先儲存于數(shù)據(jù)庫中,在服務(wù)器啟動后通過程序自動載入內(nèi)存,利用memcached對其進(jìn)行管理,為以后的分詞提供服務(wù)。四字詞典與傳統(tǒng)詞典相比,增加了四字內(nèi)字串的前后綴信息。因為文本大部分詞都在四字以內(nèi),這樣有利于使用雙向最大匹配算法,以最少的詞典訪問數(shù)切分出最大匹配詞。

    2.2 基于句子特征的文本摘要生成方法

    基于句子特征的文本摘要技術(shù)通過計算文中句子的權(quán)重,將句子按照權(quán)重排序,輸出權(quán)重較高的句子作為文摘句[7]。在計算句子權(quán)重之前,需要對txt文件進(jìn)行分詞和詞性標(biāo)注,系統(tǒng)采用C++調(diào)用ICTCLAS分詞系統(tǒng)來實現(xiàn)。句子的權(quán)重通過句子的位置特征、句子的長度特征、句子的詞項特征、句子中包含的專有名詞個數(shù)、句子中包含的數(shù)字信息的特征、句子與標(biāo)題的相似度等幾項特征來計算。

    句子的位置特征,如式(1)所示:

    (1)

    式中,Si為文本中的第i個句子,N為句子的總數(shù)。

    句子的長度特征,如式(2)所示:

    (2)

    式中,Len(Si)為句子第i個句子中包含實名詞的個數(shù)。

    句子的詞項特征,通過式(3)(4)反映:

    TF.IDF(w,S)=TF(w,S)

    ×g(|S|SF(w))

    (3)

    ×Wposition(k)

    (4)

    式中:TF(w,S)為詞語w在句子S中出現(xiàn)的次數(shù);|S|為句子的總數(shù);SF(w)表示包含詞語w的句子的數(shù)目;n為句子中詞項的格式;WTF.ISF(k)為句子Si的第k個詞項的TF.ISF值;Wpos(k)為句子Si的第k個詞項的詞性權(quán)重;Wposition(k)為句子Si的第k個詞項的位置權(quán)重。

    句子中包含的專有名詞個數(shù),通過式(5)反映:

    W4(Si)=句子Si中專有名詞的個數(shù)句子Si中詞的總數(shù)

    ( 5)

    式中,專有名詞是指特定的某人、地方或機(jī)構(gòu)的名稱,如人名、地名、國家名、單位名、組織名,等。

    句子包含數(shù)字信息的特征,通過式(6)反映:

    W5(Si)=句子Si中數(shù)字信息的個數(shù)句子Si中詞的總數(shù)

    (6)

    句子與標(biāo)題的相似度,通過式(7)反映:

    ( 7)

    在對句子特征分析基礎(chǔ)上,可以決定句子的特征計算公式:

    (8)

    2.3 性能評測

    自動文摘模塊性能評價采用內(nèi)部評價方法,通過直接分析摘要的質(zhì)量來評價文摘系統(tǒng)[8]。以覆蓋率作為評價指標(biāo),選取25篇文章共496句話,由3人手工選取20%的摘要句作為系統(tǒng)理想文摘。由于主觀因素的影響,3人選取的文摘句可能不同,通過對文摘句賦權(quán)值削弱這一因素的干擾,當(dāng)一句話同時被3人選擇則其權(quán)值為1,被兩人同時選取則權(quán)值為23,只被一人選取則權(quán)值為13。把理想文摘與系統(tǒng)生成文摘作比較,不是理想文摘的句子賦值為0,將系統(tǒng)文摘的權(quán)值之和與理想文摘最高權(quán)值做除法,所得即為該文摘的覆蓋率。通過測試,覆蓋率根據(jù)文章的不同有所變化,最高可達(dá)100%,最低可達(dá)0%,平均覆蓋率為37.7%。文摘覆蓋率如圖1所示。

    圖1 文摘覆蓋率

    3 全文檢索

    全文檢索是指計算機(jī)程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置。當(dāng)用戶查詢時根據(jù)建立的索引查找,類似于通過字典的檢索字表查字的過程。全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù)的軟件系統(tǒng)。功能上全文檢索系統(tǒng)需要具有建立索引,處理查詢返回結(jié)果集,增加索引,優(yōu)化索引結(jié)構(gòu)等功能。系統(tǒng)采用基于倒排表的中文全文檢索方式[9]。

    3.1 索引數(shù)據(jù)庫

    依據(jù)基于倒排表的檢索方式中依據(jù)詞索引的檢索要求[10],系統(tǒng)索引數(shù)據(jù)庫包括三部分:存儲文件的表、存儲關(guān)鍵詞的表和倒排表。文件表(如圖2所示)存儲文件名和文件序號,關(guān)鍵詞表(如圖3所示)存儲關(guān)鍵詞及其序號,倒排表(如圖4所示)存儲關(guān)鍵詞在文件中出現(xiàn)的次數(shù)。

    圖2 文件表結(jié)構(gòu)截圖

    圖3 關(guān)鍵詞表結(jié)構(gòu)截圖

    3.2 向量空間模型

    向量空間模型(VSM:Vector Space Model)[11]把對文本內(nèi)容的處理簡化為空間向量中的向量計算,并且它以空間上的相似度表示語義的相似度,直觀易懂。當(dāng)文檔被表示為文檔空間的向量,就可以通過計算向量間的相似性來度量文檔間的相似性。文本處理中最常用的相似度度量方式是余弦距離。

    圖4 倒排表結(jié)構(gòu)截圖

    系統(tǒng)首先對檢索語句進(jìn)行分詞和去停用詞處理[12],分別將詞及詞出現(xiàn)的次數(shù)存入數(shù)組,形成索引向量。然后在關(guān)鍵詞表中查詢對應(yīng)詞得到該詞出現(xiàn)的倒排表及其在倒排表中位置,每一文檔針對關(guān)鍵詞形成文檔向量,運用向量空間模型計算文檔向量與關(guān)鍵詞向量夾角的余弦值,作為相關(guān)度。設(shè)定閾值為0.7,將相關(guān)度高于閾值的文檔信息輸出。

    當(dāng)檢索句較長時,文中包含關(guān)鍵詞的句子可能很多,通過計算句子向量與關(guān)鍵詞向量的相似度,將相似度最高的三個句子輸出,同時輸出文檔的摘要信息、創(chuàng)建時間以及鏈接供用戶選擇。

    4 結(jié) 語

    本系統(tǒng)基本實現(xiàn)了對存儲的多格式文檔進(jìn)行智能檢索。運用了將多種格式文檔進(jìn)行轉(zhuǎn)換從而方便檢索的思想,同時對文檔生成自動文摘,方便用戶參考;在檢索模塊,運用空間向量模型計算相似度,同時加入了去停用詞處理,提高檢索速度和質(zhì)量。但是,系統(tǒng)還存在不足,下一步的目標(biāo)是進(jìn)一步提高自動文摘的質(zhì)量,同時嘗試用PHP直接實現(xiàn)PDF格式文檔的轉(zhuǎn)換,實現(xiàn)編程語言的統(tǒng)一。

    [1] 張秀秀,張立峰.PDF文件文本內(nèi)容提取研究[J].科技情報開發(fā)與經(jīng)濟(jì),2008(3):118-120.

    [2] 袁津生,李群,蔡岳.搜索引擎原理與實踐[M].北京:郵電大學(xué)出版社,2008:1-2,28.

    [3] 李曉明,閆宏飛,王繼民.搜索引擎:原理、技術(shù)與系統(tǒng)[M].北京:科學(xué)出版社,2005.

    [4] Sproat R,Emerson T.The First International Chinese Word Segmen-tion Bakeoff[C]Proceedings of the Second SIGHAN Workshop on Chinese Language Processing.Sapporo,Japan,2003:133-143.

    [5] 史偉.中文自動分詞關(guān)鍵技術(shù)研究與實現(xiàn)[D].成都:電子科技大學(xué),2008:100-103.

    [6] 張培穎,李村合.一種中文分詞詞典新機(jī)制:四字哈希機(jī)制[J].微型電腦應(yīng)用,2006(10):35-36.

    [7] 張培穎.基于句子特征和語義距離的文本摘要技術(shù)[J].微計算機(jī)應(yīng)用,2009(7):14-18.

    [8] 黃麗瓊,何中市,張杰慧.基于文本相似度的自動文摘評價方法[J].計算機(jī)應(yīng)用研究,2007(8):97-99.

    [9] 楊安生.基于倒排表的中文全文檢索研究[J].情報檢索,2009(7):77-80.

    [10] 熊回香,夏立新.基于詞索引的中文全文檢索關(guān)鍵技術(shù)及其發(fā)展方向[J].中國圖書館學(xué)報,2007(4):45-49.

    [11] Salton G,Wong A,Yang C S.A Vector Space Model for Automated Indexing [J].Communications of ACM,1975,18(11):613-620.

    猜你喜歡
    全文檢索分詞文摘
    IAPA文摘
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    文摘
    寶藏(2017年2期)2017-03-20 13:16:46
    值得重視的分詞的特殊用法
    Oracle數(shù)據(jù)庫全文檢索性能研究
    基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
    特色數(shù)據(jù)庫全文檢索系統(tǒng)的設(shè)計
    高考分詞作狀語考點歸納與疑難解析
    論英語不定式和-ing分詞的語義傳承
    用JSP調(diào)用Lucene包來實現(xiàn)全文檢索
    青阳县| 沂水县| 揭西县| 玉田县| 七台河市| 绵竹市| 佛山市| 榆林市| 金山区| 三穗县| 岢岚县| 惠安县| 城固县| 平度市| 贺兰县| 龙川县| 华坪县| 庄河市| 建德市| 北碚区| 沙雅县| 报价| 镇赉县| 崇明县| 兖州市| 龙山县| 建瓯市| 铅山县| 临湘市| 仪征市| 宁都县| 抚州市| 宜都市| 高尔夫| 岐山县| 贵定县| 黄大仙区| 论坛| 普定县| 灵璧县| 清苑县|