• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于TF-IDF的古籍文本內(nèi)容特征提取方法

    2019-10-09 08:17:50龔科瑜張一馳
    電子技術(shù)與軟件工程 2019年17期
    關(guān)鍵詞:詞頻分詞古籍

    文/龔科瑜 張一馳

    1 引言

    隨著計(jì)算機(jī)技術(shù)的逐步發(fā)展,大數(shù)據(jù)、人工智能等領(lǐng)域的逐漸興起,使用計(jì)算機(jī)技術(shù)處理、分析人類(lèi)語(yǔ)言成為可能。目前有關(guān)自然語(yǔ)言處理的研究中,大多集中在對(duì)當(dāng)代新聞?wù)Z料、日常對(duì)話語(yǔ)料和新媒體語(yǔ)料的處理分析,對(duì)古代經(jīng)典文本的研究涉及較少。部分人文社科研究者還在使用手工統(tǒng)計(jì)等方法分析文本,時(shí)間成本投入巨大、錯(cuò)誤率高,研究效率較低。因此,借助計(jì)算機(jī)技術(shù),數(shù)字化的分析古代經(jīng)典文本的特征,以輔助人文社科研究者進(jìn)行科研工作,有著顯而易見(jiàn)的價(jià)值。不僅如此,對(duì)古代經(jīng)典文本的處理和分析,還有助于構(gòu)造相關(guān)領(lǐng)域的知識(shí)圖譜,進(jìn)而提升使用深度學(xué)習(xí)技術(shù)的自然語(yǔ)言處理方法對(duì)中文文本的語(yǔ)義理解能力。

    2 基于統(tǒng)計(jì)的文本內(nèi)容特征

    常見(jiàn)的文本特征包括字符數(shù)、非重復(fù)字?jǐn)?shù)、詞數(shù)、標(biāo)點(diǎn)符號(hào)數(shù)等。然而,這些傳統(tǒng)的統(tǒng)計(jì)特征不能刻畫(huà)出文本所蘊(yùn)含的內(nèi)容信息,對(duì)文本分析的輔助作用極其有限。因此,需要引入自然語(yǔ)言處理技術(shù)中的詞頻和逆文本頻率等工具來(lái)描述文本內(nèi)容的特征。

    2.1 詞頻

    所謂詞頻(Term Frequency, TF),即某個(gè)詞匯在一段文本中的出現(xiàn)頻率。將某段文本p的總詞數(shù)記為c(p)、某個(gè)詞匯w在該段文本中出現(xiàn)的次數(shù)記為c(w),則w在該段文本中的詞頻為:

    通過(guò)統(tǒng)計(jì)詞頻,可以觀測(cè)到一段文本中最常出現(xiàn)的詞匯以及詞匯頻率分布情況,進(jìn)而刻畫(huà)這段文本的語(yǔ)言學(xué)特征。

    2.2 逆文本頻率

    逆文本頻率(Inverse Document Frequency, IDF)可以反應(yīng)一個(gè)詞匯在文本中的常見(jiàn)程度。記全部語(yǔ)料的文本總數(shù)為|d|,出現(xiàn)某一詞匯的文本總數(shù)為|n|,其中n為d中包含詞匯w的文檔,則詞匯w的逆文本頻率為:

    基于統(tǒng)計(jì)的文本內(nèi)容特征提取依賴(lài)于詞匯的頻率。一些常用詞在全部文檔中都有很高的出現(xiàn)次數(shù)。這些詞雖然詞頻很高,但并不具備較強(qiáng)的區(qū)分能力。逆文本頻率可以很好的刻畫(huà)一個(gè)詞匯在全部文檔中的獨(dú)特性。詞匯的獨(dú)特性和文本的內(nèi)容特征高度相關(guān)。因此,引入逆文本頻率可以很好的反映出某個(gè)詞在全部文檔中的內(nèi)容區(qū)分能力。

    2.3 TF-IDF值

    將某個(gè)詞匯的詞頻與逆文本頻率相乘,即可得到該詞匯的TF-IDF值,即:

    圖1:《莊子》內(nèi)七篇字頻統(tǒng)計(jì)

    TF-IDF值融合了詞頻和詞匯的獨(dú)特性?xún)刹糠中畔?,可以較為清晰的體現(xiàn)出某個(gè)詞匯對(duì)于某段文本內(nèi)容的描述能力。研究者可以將不同文本中出現(xiàn)的詞匯按照其TF-IDF值由高至低排序,值較高的詞匯能夠更好的體現(xiàn)出該段文本的內(nèi)容信息,進(jìn)而得到不同古籍的內(nèi)容特征。

    3 古籍文本內(nèi)容特征提取方法

    本研究使用Python語(yǔ)言編寫(xiě)程序,通過(guò)計(jì)算詞(字)頻、逆文本頻率指數(shù)和TF-IDF值,提取古籍文本的內(nèi)容特征。

    3.1 提取流程

    參照自然語(yǔ)言處理的常規(guī)流程,古籍文本的內(nèi)容特征提取分為數(shù)據(jù)預(yù)處理、特征計(jì)算、結(jié)果分析與可視化三個(gè)步驟。

    數(shù)據(jù)預(yù)處理階段可分為數(shù)據(jù)清洗和中文分詞兩大模塊。在數(shù)據(jù)清洗階段,要注意繁簡(jiǎn)轉(zhuǎn)換、對(duì)原始語(yǔ)料文本錯(cuò)誤的修訂以及異體字的歸一化。在中文分詞階段,要注意不同分詞工具對(duì)古代漢語(yǔ)的分詞能力的強(qiáng)弱,若分詞結(jié)果不理想,也可以考慮按字處理文本。

    古籍文本內(nèi)容特征計(jì)算要按照詞頻、逆文本頻率、TF-IDF值的順序依次計(jì)算。在計(jì)算完全部文本的字頻信息后,要觀測(cè)統(tǒng)計(jì)結(jié)果,結(jié)合古漢語(yǔ)常見(jiàn)的停用詞,篩去“之”、“也”等不具備區(qū)分能力的詞,再計(jì)算逆文本頻率,這樣可以減少計(jì)算量。在計(jì)算逆文本頻率及TF-IDF值時(shí),要考慮目標(biāo)古籍文本內(nèi)容特征的提取粒度。根據(jù)研究者的需求,按類(lèi)別、書(shū)目、篇章、段落等不同層次進(jìn)行內(nèi)容特征的提取。具體策略要結(jié)合待研究的問(wèn)題進(jìn)行分析,不可一概而論。

    結(jié)果分析與可視化,目的是呈現(xiàn)出目標(biāo)古籍文本的詞頻分布特征及內(nèi)容信息。古籍詞頻分布信息可以把詞匯按照出現(xiàn)頻數(shù)排序作為x軸,對(duì)應(yīng)的頻率值取對(duì)數(shù)作為y軸,做圖給出,并探究該古籍文本是否滿足Zipf定律。內(nèi)容特征可以根據(jù)不同粒度的詞匯TF-IDF值按從高到低排序,以表格形式給出。

    3.2 實(shí)驗(yàn)結(jié)果

    以《莊子》內(nèi)七篇文本為例,計(jì)算得到該書(shū)共使用漢字1501個(gè),字頻分布如圖1所示。

    其中,詞頻最高的十個(gè)詞依次是:之(616次)、而(449次)、也(396次)、不(386次)、其(326次)、以(301次)、者(279次)、為(243次)、乎(237次)、人(224次),該信息可以作為漢語(yǔ)史研究的佐證材料之一。

    按照不同篇目詞匯的TF-IDF值排序,取排序前十的字作為該篇目的內(nèi)容特征,得到不同篇目的內(nèi)容特征表格如表1所示。

    根據(jù)專(zhuān)家學(xué)者對(duì)《莊子》一書(shū)的解讀,我們?nèi)菀字溃罕壁?、鯤鵬等為《逍遙游》中提到的主要意象,《齊物論》以辯論、夢(mèng)境和莊周夢(mèng)蝶的故事為主干,《養(yǎng)生主》的核心為庖丁解牛的寓言,《人間世》以顏回為主要人物討論了心齋、材與不材等問(wèn)題,此后幾篇不一一列舉。由此可以看出,本文所設(shè)計(jì)的古籍內(nèi)容特征提取方法能夠較好的提取到《莊子》不同篇目的內(nèi)容特征。

    4 結(jié)論

    使用自然語(yǔ)言處理中的統(tǒng)計(jì)詞頻、逆文本頻率、TF-IDF值等方法,可以較好的提取到古籍文本中的內(nèi)容特征,能夠幫助語(yǔ)言學(xué)、古典文獻(xiàn)學(xué)等領(lǐng)域的人文社科研究者更便捷的理解古籍文本的語(yǔ)言學(xué)特征及內(nèi)容特征。當(dāng)前,基于深度學(xué)習(xí)的文本理解技術(shù)還依賴(lài)于大量語(yǔ)料數(shù)據(jù),但古籍文本數(shù)據(jù)量極少,目前還不能產(chǎn)生較好的效果。隨著計(jì)算機(jī)技術(shù)的逐步發(fā)展,待深度學(xué)習(xí)技術(shù)更為成熟之后,也可以嘗試使用基于知識(shí)圖譜和注意力模型等方法提取古籍文本的內(nèi)容特征。

    表1:《莊子》內(nèi)七篇內(nèi)容特征提取結(jié)果

    猜你喜歡
    詞頻分詞古籍
    基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
    園林科技(2021年3期)2022-01-19 03:17:48
    中醫(yī)古籍“疒”部俗字考辨舉隅
    關(guān)于版本學(xué)的問(wèn)答——《古籍善本》修訂重版說(shuō)明
    天一閣文叢(2020年0期)2020-11-05 08:28:06
    結(jié)巴分詞在詞云中的應(yīng)用
    關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
    天一閣文叢(2018年0期)2018-11-29 07:48:08
    我是古籍修復(fù)師
    金橋(2017年5期)2017-07-05 08:14:41
    值得重視的分詞的特殊用法
    詞頻,一部隱秘的歷史
    云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
    以關(guān)鍵詞詞頻法透視《大學(xué)圖書(shū)館學(xué)報(bào)》學(xué)術(shù)研究特色
    正阳县| 通海县| 新密市| 长葛市| 安平县| 潍坊市| 达孜县| 资溪县| 黔南| 竹北市| 雷山县| 慈利县| 庆城县| 宜章县| 金湖县| 鄂伦春自治旗| 湛江市| 石河子市| 浠水县| 安福县| 黄龙县| 庄河市| 东平县| 武安市| 临漳县| 遵义县| 霍林郭勒市| 静安区| 克东县| 敖汉旗| 青河县| 汝城县| 潞西市| 盘锦市| 湾仔区| 油尖旺区| 丹巴县| 麻江县| 东宁县| 丹棱县| 福鼎市|