• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      財(cái)務(wù)文檔分詞及文檔相關(guān)性分析

      2013-04-29 21:36:25殷偉
      電腦知識與技術(shù) 2013年7期

      殷偉

      摘要:搜集財(cái)務(wù)專業(yè)語料庫,利用中科院的分詞工具對專業(yè)語料庫進(jìn)行分詞,計(jì)算分詞的準(zhǔn)確率和召回率,并將結(jié)果保存在文件中。計(jì)算文檔中給定詞的詞頻和反文檔頻率,并對專業(yè)詞匯加權(quán),提高專業(yè)詞匯的重要性,利用數(shù)學(xué)模型進(jìn)行文檔的相似度匹配。設(shè)置閾值,若兩篇文檔的相似度大于指定閾值,即認(rèn)定兩篇文檔相似,進(jìn)而生成一個矩陣,求解矩陣的連通性,得到該本聚類的結(jié)果,并進(jìn)行文章的相關(guān)性分析。該文有利于財(cái)務(wù)分析人員根據(jù)已分類好的財(cái)務(wù)文檔,了解企業(yè)過去,評價企業(yè)現(xiàn)狀,作出對企業(yè)有長遠(yuǎn)影響的決策。

      關(guān)鍵詞:準(zhǔn)確率和召回率;財(cái)務(wù)文檔相似度匹配;財(cái)務(wù)文檔相關(guān)性分析

      中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2013)07-1718-02

      財(cái)務(wù)分析[1]為企業(yè)的投資者、債權(quán)人、經(jīng)營者及其他關(guān)心企業(yè)的組織或個人了解企業(yè)過去、評價企業(yè)現(xiàn)狀、預(yù)測企業(yè)未來做出正確決策提供準(zhǔn)確的信息或依據(jù),其本質(zhì)就是搜集與決策有關(guān)的各種財(cái)務(wù)信息,并加以分析和解釋的一種技術(shù)。因此針對財(cái)務(wù)文檔的分詞聚類研究會更有價值,由此便會涉及到數(shù)據(jù)挖掘[2]技術(shù)。

      對財(cái)務(wù)文檔進(jìn)行相關(guān)性分析,必須依賴文本聚類[4]技術(shù),它主要是依據(jù)著名的聚類假設(shè):同類的文檔相似度較大,而不同類的文檔相似度較小。作為一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,聚類由于不需要訓(xùn)練過程,以及不需要預(yù)先對文檔手工標(biāo)注類別,因此具有一定的靈活性和較高的自動化處理能力,已經(jīng)成為對文本信息進(jìn)行有效地組織、摘要和導(dǎo)航的重要手段。而對于財(cái)務(wù)文檔歸類的質(zhì)量的分析,就顯得非常必要。

      1 問題分析

      在該問題的分析中,主要需要解決以下問題:

      1)提高財(cái)務(wù)文檔分詞的準(zhǔn)確率。

      2)求解兩個財(cái)務(wù)文檔的最長公共子序列。

      3)計(jì)算財(cái)務(wù)文檔的相似度。

      4)提高財(cái)務(wù)文本聚類的質(zhì)量。

      根據(jù)以上問題的提出,經(jīng)過分析,初步的解決方案是:首先將問題化成若干子問題,先求解兩字符串的最長公共子序列。其次通過計(jì)算給定文章中單詞的詞頻(TF)和反文檔頻率(IDF)[8],對財(cái)務(wù)詞匯進(jìn)行加權(quán),利用數(shù)學(xué)模型求解文章的相似度。最后將相似度的結(jié)果表示成二維矩陣,求解圖的連通性,達(dá)到聚類的目的。

      2 問題的解決

      先對財(cái)務(wù)專業(yè)文檔進(jìn)行機(jī)器分詞,將分詞結(jié)果保存在相應(yīng)的文件夾下。將分詞結(jié)果與人工分詞的財(cái)務(wù)文檔進(jìn)行比較,計(jì)算機(jī)器分詞的準(zhǔn)確率和召回率,并將機(jī)器分詞的錯誤語句和準(zhǔn)確率和召回率的結(jié)果保存在相應(yīng)的文件夾下。對財(cái)務(wù)文檔的分詞結(jié)果進(jìn)行相似度匹配,半將匹配結(jié)果以二維表格的形式保存在相應(yīng)的文件夾下。讀取二維表格中的數(shù)據(jù),設(shè)定閾值,進(jìn)行財(cái)務(wù)文檔聚類,將將聚類結(jié)果輸出。

      財(cái)經(jīng)詞匯使用百度文庫中的財(cái)經(jīng)金融詞匯大全官方推薦。該財(cái)經(jīng)詞匯庫詞匯量大,共計(jì)11379個詞匯;詞匯豐富,包含知名的銀行、公司等。語料庫中專業(yè)的詞匯在財(cái)務(wù)金融詞匯大全中都有明顯體現(xiàn),如印花稅、增值稅等,利于對語料庫的專業(yè)詞匯進(jìn)行加權(quán),提高專業(yè)詞匯的重要性。根據(jù)以上分析,得到該系統(tǒng)的系統(tǒng)結(jié)構(gòu)組織框架如圖1所示。

      在財(cái)務(wù)分詞系統(tǒng)中,基于財(cái)務(wù)專業(yè)術(shù)語庫的財(cái)務(wù)文檔相似度匹配子系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)是所有其他功能的基礎(chǔ),在處理時首先在給定的財(cái)務(wù)文檔中,先對文檔中的詞進(jìn)行預(yù)處理,去掉無意義的虛詞停頓詞等。計(jì)算每個詞的詞頻(TF)和反文檔頻率(IDF),最終計(jì)算權(quán)重(TF*IDF)。通過匹配財(cái)務(wù)詞庫,對財(cái)務(wù)領(lǐng)域的專業(yè)詞匯再進(jìn)行加權(quán),使的專業(yè)詞匯的重要性增加。依據(jù)求兩個向量的空間夾角的余弦數(shù)值理論計(jì)算兩篇文檔的相似度。相似度匹配部分結(jié)果如圖2所示。分別是文檔“CPI創(chuàng)新高 央行或?qū)⑻岣叽婵罾?txt”和文檔“國際六大央行按兵不動 本周維持利率或不變.txt”的前15個特征詞匯,共同的詞匯是“利率”,在專業(yè)詞庫的第784行。

      在該分詞部分,詞頻(TF)指某一給定的詞在該文件中出現(xiàn)的次數(shù),反文檔頻率(IDF)指一個詞的權(quán)重大小,計(jì)算公式是log(D/Dt),D是文檔總數(shù),Dt是包含該詞的文檔總數(shù)。某一個詞的權(quán)重即為TF*IDF;在此就可以通過函數(shù)getWordsIDF(set[i].getKey().toString())獲取詞的權(quán)重。相似度計(jì)算公式:D*C/(|D|*|C|),D指文章D的向量表示,C指文章C的向量表示。通過Resutl保存兩篇文檔的相似度。

      財(cái)務(wù)文檔的聚類系統(tǒng)也是設(shè)計(jì)中需要注意的地方,在此通過相應(yīng)的變量進(jìn)行相關(guān)數(shù)據(jù)的存取。從矩陣的下三角部分從下往上搜索,搜索時可以指定上下左右的搜索方向,對指定文檔利用遞歸算法求解相鄰數(shù)值為1的矩陣索引,同時添加標(biāo)志位防止二次檢索,提高檢索效率。對相似度為1的文檔直接進(jìn)行保存,其余的根據(jù)相似度用不同的變量單獨(dú)保存,

      因文檔相似度的值多數(shù)小于0.5,設(shè)一系數(shù),用于與相似度的乘積同1進(jìn)行比較。當(dāng)系數(shù)為100時,共分為1369類。歸類數(shù)目多,且每類中的文件數(shù)也很多。查看第19類結(jié)果,共包含49個文件。應(yīng)用舉例部分文件列表如圖3所示。查看文件中的特征詞,可以看出這個歸類中5個文件是以“利率”為特征詞歸類的。

      3 結(jié)束語

      針對財(cái)務(wù)文件量大的特點(diǎn),構(gòu)架了這樣一個財(cái)務(wù)的分詞系統(tǒng),可以實(shí)現(xiàn)日常財(cái)務(wù)文件的自動識別和分配管理,大大減輕了工作人員的工作量,提高了工作效率,在以后的進(jìn)一步研究中,將針對詞庫的進(jìn)一步優(yōu)化識別,系統(tǒng)的運(yùn)行效率再做進(jìn)一步的研究提升。

      參考文獻(xiàn):

      [1] 百度百科.財(cái)務(wù)分析[EB/OL]. (2011-01-10)[2011-03-15].http://baike.baidu.com/view/548342.htm.

      [2] wikipedia. Data_mining[EB/OL]. (2011-03-16) [2011-03-20].http://en.wikipedia.org/wiki/Data_mining.

      [3] 百度百科.中文分詞[EB/OL]. (2010-12-22)[2011-03-01].http://baike.baidu.com/view/19109.htm.

      [4] 百度百科.文本聚類[EB/OL]. (2010-06-19)[2011-03-10].http://baike.baidu.com/view/1133919.htm.

      [5] wikipedia. k-means clustering[EB/OL]. (2011-03-19) [2011-03-20].http://en.wikipedia.org/wiki/k-means.clustering.

      [6] wikipedia. Longest common subsequence problem[EB/OL].[2011-03-20]. http://en.wikipedia.org/wiki/Longest_common_subsequence_problem.

      [7] soulingm.文本相似度的計(jì)算向量空間模型[EB/OL].[2011-03-18].http://hi.baidu.com/soulingm/blog/item/80c38d47c41c8a42500ffe82.html.

      [8] wikipedia. Precision and recall[EB/OL].[2011-03-18]. http://en.wikipedia.org/wiki/Precision_and_recall.

      淮安市| 榕江县| 民勤县| 驻马店市| 竹北市| 永安市| 江华| 法库县| 察雅县| 大方县| 莫力| 会昌县| 巫溪县| 武安市| 会昌县| 雅江县| 凌源市| 龙山县| 舞钢市| 贞丰县| 增城市| 师宗县| 改则县| 启东市| 鄂尔多斯市| 乐亭县| 曲麻莱县| 贵溪市| 伊通| 徐闻县| 衡阳县| 遂平县| 色达县| 襄垣县| 房产| 鹤峰县| 临泉县| 襄城县| 平果县| 富平县| 襄城县|