文/龔科瑜 張一馳
隨著計(jì)算機(jī)技術(shù)的逐步發(fā)展,大數(shù)據(jù)、人工智能等領(lǐng)域的逐漸興起,使用計(jì)算機(jī)技術(shù)處理、分析人類(lèi)語(yǔ)言成為可能。目前有關(guān)自然語(yǔ)言處理的研究中,大多集中在對(duì)當(dāng)代新聞?wù)Z料、日常對(duì)話語(yǔ)料和新媒體語(yǔ)料的處理分析,對(duì)古代經(jīng)典文本的研究涉及較少。部分人文社科研究者還在使用手工統(tǒng)計(jì)等方法分析文本,時(shí)間成本投入巨大、錯(cuò)誤率高,研究效率較低。因此,借助計(jì)算機(jī)技術(shù),數(shù)字化的分析古代經(jīng)典文本的特征,以輔助人文社科研究者進(jìn)行科研工作,有著顯而易見(jiàn)的價(jià)值。不僅如此,對(duì)古代經(jīng)典文本的處理和分析,還有助于構(gòu)造相關(guān)領(lǐng)域的知識(shí)圖譜,進(jìn)而提升使用深度學(xué)習(xí)技術(shù)的自然語(yǔ)言處理方法對(duì)中文文本的語(yǔ)義理解能力。
常見(jiàn)的文本特征包括字符數(shù)、非重復(fù)字?jǐn)?shù)、詞數(shù)、標(biāo)點(diǎn)符號(hào)數(shù)等。然而,這些傳統(tǒng)的統(tǒng)計(jì)特征不能刻畫(huà)出文本所蘊(yùn)含的內(nèi)容信息,對(duì)文本分析的輔助作用極其有限。因此,需要引入自然語(yǔ)言處理技術(shù)中的詞頻和逆文本頻率等工具來(lái)描述文本內(nèi)容的特征。
所謂詞頻(Term Frequency, TF),即某個(gè)詞匯在一段文本中的出現(xiàn)頻率。將某段文本p的總詞數(shù)記為c(p)、某個(gè)詞匯w在該段文本中出現(xiàn)的次數(shù)記為c(w),則w在該段文本中的詞頻為:
通過(guò)統(tǒng)計(jì)詞頻,可以觀測(cè)到一段文本中最常出現(xiàn)的詞匯以及詞匯頻率分布情況,進(jìn)而刻畫(huà)這段文本的語(yǔ)言學(xué)特征。
逆文本頻率(Inverse Document Frequency, IDF)可以反應(yīng)一個(gè)詞匯在文本中的常見(jiàn)程度。記全部語(yǔ)料的文本總數(shù)為|d|,出現(xiàn)某一詞匯的文本總數(shù)為|n|,其中n為d中包含詞匯w的文檔,則詞匯w的逆文本頻率為:
基于統(tǒng)計(jì)的文本內(nèi)容特征提取依賴(lài)于詞匯的頻率。一些常用詞在全部文檔中都有很高的出現(xiàn)次數(shù)。這些詞雖然詞頻很高,但并不具備較強(qiáng)的區(qū)分能力。逆文本頻率可以很好的刻畫(huà)一個(gè)詞匯在全部文檔中的獨(dú)特性。詞匯的獨(dú)特性和文本的內(nèi)容特征高度相關(guān)。因此,引入逆文本頻率可以很好的反映出某個(gè)詞在全部文檔中的內(nèi)容區(qū)分能力。
將某個(gè)詞匯的詞頻與逆文本頻率相乘,即可得到該詞匯的TF-IDF值,即:
圖1:《莊子》內(nèi)七篇字頻統(tǒng)計(jì)
TF-IDF值融合了詞頻和詞匯的獨(dú)特性?xún)刹糠中畔?,可以較為清晰的體現(xiàn)出某個(gè)詞匯對(duì)于某段文本內(nèi)容的描述能力。研究者可以將不同文本中出現(xiàn)的詞匯按照其TF-IDF值由高至低排序,值較高的詞匯能夠更好的體現(xiàn)出該段文本的內(nèi)容信息,進(jìn)而得到不同古籍的內(nèi)容特征。
本研究使用Python語(yǔ)言編寫(xiě)程序,通過(guò)計(jì)算詞(字)頻、逆文本頻率指數(shù)和TF-IDF值,提取古籍文本的內(nèi)容特征。
參照自然語(yǔ)言處理的常規(guī)流程,古籍文本的內(nèi)容特征提取分為數(shù)據(jù)預(yù)處理、特征計(jì)算、結(jié)果分析與可視化三個(gè)步驟。
數(shù)據(jù)預(yù)處理階段可分為數(shù)據(jù)清洗和中文分詞兩大模塊。在數(shù)據(jù)清洗階段,要注意繁簡(jiǎn)轉(zhuǎn)換、對(duì)原始語(yǔ)料文本錯(cuò)誤的修訂以及異體字的歸一化。在中文分詞階段,要注意不同分詞工具對(duì)古代漢語(yǔ)的分詞能力的強(qiáng)弱,若分詞結(jié)果不理想,也可以考慮按字處理文本。
古籍文本內(nèi)容特征計(jì)算要按照詞頻、逆文本頻率、TF-IDF值的順序依次計(jì)算。在計(jì)算完全部文本的字頻信息后,要觀測(cè)統(tǒng)計(jì)結(jié)果,結(jié)合古漢語(yǔ)常見(jiàn)的停用詞,篩去“之”、“也”等不具備區(qū)分能力的詞,再計(jì)算逆文本頻率,這樣可以減少計(jì)算量。在計(jì)算逆文本頻率及TF-IDF值時(shí),要考慮目標(biāo)古籍文本內(nèi)容特征的提取粒度。根據(jù)研究者的需求,按類(lèi)別、書(shū)目、篇章、段落等不同層次進(jìn)行內(nèi)容特征的提取。具體策略要結(jié)合待研究的問(wèn)題進(jìn)行分析,不可一概而論。
結(jié)果分析與可視化,目的是呈現(xiàn)出目標(biāo)古籍文本的詞頻分布特征及內(nèi)容信息。古籍詞頻分布信息可以把詞匯按照出現(xiàn)頻數(shù)排序作為x軸,對(duì)應(yīng)的頻率值取對(duì)數(shù)作為y軸,做圖給出,并探究該古籍文本是否滿足Zipf定律。內(nèi)容特征可以根據(jù)不同粒度的詞匯TF-IDF值按從高到低排序,以表格形式給出。
以《莊子》內(nèi)七篇文本為例,計(jì)算得到該書(shū)共使用漢字1501個(gè),字頻分布如圖1所示。
其中,詞頻最高的十個(gè)詞依次是:之(616次)、而(449次)、也(396次)、不(386次)、其(326次)、以(301次)、者(279次)、為(243次)、乎(237次)、人(224次),該信息可以作為漢語(yǔ)史研究的佐證材料之一。
按照不同篇目詞匯的TF-IDF值排序,取排序前十的字作為該篇目的內(nèi)容特征,得到不同篇目的內(nèi)容特征表格如表1所示。
根據(jù)專(zhuān)家學(xué)者對(duì)《莊子》一書(shū)的解讀,我們?nèi)菀字溃罕壁?、鯤鵬等為《逍遙游》中提到的主要意象,《齊物論》以辯論、夢(mèng)境和莊周夢(mèng)蝶的故事為主干,《養(yǎng)生主》的核心為庖丁解牛的寓言,《人間世》以顏回為主要人物討論了心齋、材與不材等問(wèn)題,此后幾篇不一一列舉。由此可以看出,本文所設(shè)計(jì)的古籍內(nèi)容特征提取方法能夠較好的提取到《莊子》不同篇目的內(nèi)容特征。
使用自然語(yǔ)言處理中的統(tǒng)計(jì)詞頻、逆文本頻率、TF-IDF值等方法,可以較好的提取到古籍文本中的內(nèi)容特征,能夠幫助語(yǔ)言學(xué)、古典文獻(xiàn)學(xué)等領(lǐng)域的人文社科研究者更便捷的理解古籍文本的語(yǔ)言學(xué)特征及內(nèi)容特征。當(dāng)前,基于深度學(xué)習(xí)的文本理解技術(shù)還依賴(lài)于大量語(yǔ)料數(shù)據(jù),但古籍文本數(shù)據(jù)量極少,目前還不能產(chǎn)生較好的效果。隨著計(jì)算機(jī)技術(shù)的逐步發(fā)展,待深度學(xué)習(xí)技術(shù)更為成熟之后,也可以嘗試使用基于知識(shí)圖譜和注意力模型等方法提取古籍文本的內(nèi)容特征。
表1:《莊子》內(nèi)七篇內(nèi)容特征提取結(jié)果