摘 要 隨著信息時(shí)代的到來,主題模型技術(shù)作為一種新興的文本挖掘方法,逐漸在出版科學(xué)研究領(lǐng)域中發(fā)揮重要作用。首先,文章通過對(duì)主題模型技術(shù)與內(nèi)容分析、扎根理論及自然語言處理技術(shù)(NLP)進(jìn)行對(duì)比,闡明其在出版研究中的獨(dú)特優(yōu)勢(shì)。其次,將主題建模概念化為一種“演繹過程”,此過程包括整理語料庫、演繹潛在主題、構(gòu)建理論框架3個(gè)關(guān)鍵步驟,通過對(duì)此過程的詳細(xì)解析,強(qiáng)調(diào)了主題模型在將大量文本數(shù)據(jù)轉(zhuǎn)化為理論框架中的應(yīng)用潛力。最后,結(jié)合出版科學(xué)研究的具體案例,探討主題模型技術(shù)在出版領(lǐng)域的實(shí)際應(yīng)用路徑,揭示其在數(shù)字文化產(chǎn)品分析、讀者需求研究等方面的廣泛前景,為出版科學(xué)研究的創(chuàng)新提供理論支持。
關(guān)鍵詞 主題模型技術(shù);出版研究;整理語料庫;演繹潛在主題;構(gòu)建理論框架
隨著人類社會(huì)全面邁入信息時(shí)代,數(shù)字技術(shù)的飛速發(fā)展不僅深刻改變了人們的生產(chǎn)生活方式,也為學(xué)術(shù)研究提供了全新的方法路徑和研究視角。技術(shù)變革促使學(xué)者們重新審視并挑戰(zhàn)以前難以解決的學(xué)術(shù)難題,為知識(shí)的探索和積累注入了新的活力與可能性。
主題模型作為一種源自計(jì)算機(jī)科學(xué)的新型文本挖掘技術(shù),能夠從海量文本數(shù)據(jù)中提取隱含的主題和特征,挖掘其中的問題、觀點(diǎn)、情感和趨勢(shì)等信息[1]。目前,主題模型技術(shù)已廣泛應(yīng)用于經(jīng)濟(jì)學(xué)、傳播學(xué)等社會(huì)科學(xué)領(lǐng)域。例如,主題模型可以深入分析商品評(píng)論和社交媒體文本,幫助企業(yè)了解消費(fèi)者需求和情感態(tài)度,優(yōu)化產(chǎn)品迭代方向,制定精準(zhǔn)的品牌營(yíng)銷策略,從而實(shí)現(xiàn)商務(wù)智能化轉(zhuǎn)型[2-3]。此外,主題模型還能夠?qū)A课墨I(xiàn)進(jìn)行提煉和分析,幫助研究者發(fā)現(xiàn)文獻(xiàn)中的熱點(diǎn)話題和研究趨勢(shì),為后續(xù)的科學(xué)研究提供寶貴的指導(dǎo)意見[4]。
作為社會(huì)科學(xué)的重要分支,出版學(xué)近年來也越來越多地采用主題模型技術(shù)進(jìn)行研究,逐漸成為出版研究領(lǐng)域不可忽視的發(fā)展趨勢(shì)[3,5,6]。這一技術(shù)的引入,為出版研究提供新的方法論支持并推動(dòng)該領(lǐng)域的創(chuàng)新發(fā)展。首先,主題模型能夠處理大規(guī)模的文本數(shù)據(jù),這對(duì)于出版領(lǐng)域日益增長(zhǎng)的數(shù)字化內(nèi)容至關(guān)重要。傳統(tǒng)的研究方法往往難以高效分析海量的出版物和讀者反饋,而主題模型則能夠從中提取出有意義的主題和趨勢(shì)[7],從而幫助研究者更好地理解行業(yè)動(dòng)態(tài)和讀者需求。其次,主題模型的自動(dòng)化分析能力極大地提高了研究的效率和精度。通過利用這一技術(shù),出版學(xué)者可以快速篩選和分析數(shù)以千計(jì)的文本,如圖書評(píng)論、期刊文章和社交媒體帖子,識(shí)別出潛在的研究熱點(diǎn)和學(xué)術(shù)空白。這種自動(dòng)化的文本分析方法,不僅節(jié)省了大量的人力和時(shí)間成本,還減少了人為偏見,確保了研究結(jié)果的客觀性和可重復(fù)性。最后,主題模型還能夠?yàn)槌霭嫖锏膬?nèi)容策劃和市場(chǎng)定位提供數(shù)據(jù)驅(qū)動(dòng)的決策支持。通過對(duì)讀者行為和偏好的深入分析,出版人可以更準(zhǔn)確地預(yù)測(cè)哪些內(nèi)容和主題會(huì)引起市場(chǎng)的關(guān)注,從而制定更具針對(duì)性的出版策略[3]。對(duì)于學(xué)術(shù)出版物而言,主題模型也可以幫助識(shí)別出學(xué)術(shù)研究中的前沿領(lǐng)域和未來發(fā)展方向,為學(xué)術(shù)期刊的選題和稿件審核提供科學(xué)依據(jù)[8]。綜上所述,隨著主題模型在出版研究中應(yīng)用的不斷深入,如何更好地運(yùn)用這一技術(shù)以充分發(fā)揮其潛力,已經(jīng)成為出版學(xué)者亟待解決的關(guān)鍵問題。
本文首先將主題模型的技術(shù)與理論特征與內(nèi)容分析、扎根理論以及自然語言處理(NLP)技術(shù)進(jìn)行比較,以便更好地理解主題模型的獨(dú)特優(yōu)勢(shì)與潛在局限以及其在出版學(xué)研究中的實(shí)際應(yīng)用現(xiàn)狀。盡管主題模型技術(shù)因其強(qiáng)大的應(yīng)用潛力和操作便捷性正日益受到社會(huì)科學(xué)界的廣泛關(guān)注,但如果研究者未能深入理解該技術(shù)背后的統(tǒng)計(jì)原理和理論基礎(chǔ)以及這些原理如何影響分析結(jié)果的準(zhǔn)確性和解釋力,那么這一強(qiáng)大的工具可能會(huì)淪為僅供技術(shù)操作的“黑箱”,而非用于深刻理解數(shù)據(jù)本質(zhì)的有效手段。因此,本文提出“演繹”一詞來描述研究者通過主題模型技術(shù)從語料庫中迭代構(gòu)建理論的過程,包括3個(gè)關(guān)鍵步驟:整理語料庫(準(zhǔn)備分析的文本集)、演繹潛在主題(深入挖掘和識(shí)別語料庫中的主題信息)、構(gòu)建理論框架并不斷迭代形成有意義的理論(通過邏輯推理和理論演繹將主題轉(zhuǎn)化為具有普遍意義的概念、因果關(guān)系或機(jī)制模型)。通過詳細(xì)闡述這3個(gè)步驟,本文將幫助研究者厘清主題模型的理論和技術(shù)特征,強(qiáng)調(diào)主題模型技術(shù)的應(yīng)用不僅是對(duì)文本的機(jī)械化數(shù)據(jù)處理,更突出了研究者在解釋性決策和理論構(gòu)建中的核心作用。借助主題模型技術(shù),出版研究者可以更深入地理解和分析文本內(nèi)容,獲取更豐富的信息支持。
此外,本文還將結(jié)合出版研究的具體案例,進(jìn)一步闡述這一“演繹過程”在出版領(lǐng)域中的應(yīng)用,探討主題模型與出版研究深度融合的路徑與策略,為出版研究的創(chuàng)新發(fā)展奠定理論基礎(chǔ),推動(dòng)出版研究領(lǐng)域的繁榮與進(jìn)步。
1 主題模型技術(shù)與相關(guān)技術(shù)對(duì)比
為了更好地辨析主題模型技術(shù)在眾多文本分析方法中的獨(dú)特性和關(guān)鍵特征,本文首先簡(jiǎn)要考察與主題模型密切相關(guān)的3種方法:內(nèi)容分析、扎根理論和自然語言處理(NLP)技術(shù)。這3種方法涵蓋了從對(duì)少量精選文本的高度情境化、細(xì)致化分析,到通過更廣泛的算法化手段系統(tǒng)處理大型語料庫等多種分析場(chǎng)景。通過將主題模型技術(shù)與這3種方法進(jìn)行對(duì)比,本文能夠更有效地闡明主題模型技術(shù)的特征和優(yōu)勢(shì)。
1.1 內(nèi)容分析
內(nèi)容分析是一種用于客觀、系統(tǒng)和定量描述傳播內(nèi)容的研究方法。其核心在于構(gòu)建一個(gè)包含互斥詞匯的詞典或索引,然后將這些詞匯應(yīng)用于文本中,以分離出特定的意義單元,幫助學(xué)者系統(tǒng)地識(shí)別和量化他們感興趣的概念或主題,從而對(duì)文本內(nèi)容進(jìn)行深入分析。
近年來,出版學(xué)研究者借助內(nèi)容分析方法,探索了圖書及有聲書的內(nèi)容創(chuàng)作與閱讀推廣[9-10],社科學(xué)術(shù)期刊和專著的學(xué)術(shù)影響力評(píng)價(jià)[11-12]、數(shù)字出版產(chǎn)業(yè)的政策研究[13]等多元領(lǐng)域。然而,內(nèi)容分析中的互斥性設(shè)計(jì)可能限制了詞語在不同語境中的多重意義,從而導(dǎo)致分析結(jié)果過于簡(jiǎn)化并忽視了文本的情境化特征。
1.2 扎根理論
扎根理論的核心在于通過對(duì)數(shù)據(jù)的深入分析,逐步形成一個(gè)扎根于實(shí)際數(shù)據(jù)中的理論框架。這種方法要求研究者從一個(gè)范圍較廣的研究問題和感興趣的現(xiàn)象出發(fā),直接從大量數(shù)據(jù)中識(shí)別出反復(fù)出現(xiàn)的模式、概念或元素,以提取主要的觀察結(jié)果和關(guān)鍵點(diǎn)。接下來,研究者使用軸心編碼來識(shí)別概念或關(guān)系并通過反復(fù)將編碼分組為更高層次的類別,從而發(fā)現(xiàn)并構(gòu)建新的理論。
目前,扎根理論已廣泛應(yīng)用于出版人才綜合評(píng)價(jià)指標(biāo)體系的構(gòu)建[14]、用戶的閱讀行為研究[15]、圖書裝幀設(shè)計(jì)策略[16]等多個(gè)領(lǐng)域。然而,扎根理論也存在較強(qiáng)的主觀性,其結(jié)果在很大程度上依賴于研究者的理解能力和專業(yè)分析技能,這對(duì)研究者提出了較高的要求。
1.3 自然語言處理(NLP)技術(shù)
自20世紀(jì)80年代以來,基于語言規(guī)則的自然語言處理(Natural Language Processing,NLP)技術(shù)逐漸興起。NLP結(jié)合詞典數(shù)據(jù)處理與語義分析,以探索文本的多重解釋可能性。初期的NLP技術(shù)主要依賴于嚴(yán)謹(jǐn)?shù)恼Z法規(guī)則來解析語言結(jié)構(gòu),但隨著機(jī)器學(xué)習(xí)技術(shù)的迅猛發(fā)展,NLP在語言處理的靈活性和精確度方面得到了極大提升。
出版學(xué)者也積極嘗試將NLP應(yīng)用于數(shù)字出版知識(shí)服務(wù)領(lǐng)域[17]等。然而,目前NLP領(lǐng)域尚缺乏統(tǒng)一的理論框架和標(biāo)準(zhǔn)實(shí)踐,尤其在出版領(lǐng)域,NLP技術(shù)的應(yīng)用面臨著處理多樣化文本格式、識(shí)別復(fù)雜語境以及準(zhǔn)確理解專業(yè)術(shù)語等挑戰(zhàn)。這些問題導(dǎo)致NLP技術(shù)在出版學(xué)研究中的應(yīng)用仍然存在一定的難度,難以充分發(fā)揮其潛力。
1.4 主題模型技術(shù)
主題模型技術(shù)是一種基于概率統(tǒng)計(jì)的方法,用于自動(dòng)發(fā)現(xiàn)和提取大規(guī)模文本數(shù)據(jù)中的潛在主題。它將文檔表示為若干主題的分布,每個(gè)主題由一組高度相關(guān)的詞匯組成,常用的模型包括潛在狄利克雷分布(LDA)和概率潛在語義分析(PLSA)。出版學(xué)者也積極將主題模型技術(shù)應(yīng)用于數(shù)字文化產(chǎn)品的出版與傳播效果分析[6]、讀者需求分析[3]等領(lǐng)域,為出版學(xué)科的研究方法帶來了創(chuàng)新。
與其他文本分析技術(shù)相比,主題模型技術(shù)具有3大優(yōu)勢(shì):①研究者無需在數(shù)據(jù)上預(yù)先設(shè)定詞典或解釋規(guī)則。②它能夠揭示人類直觀難以捕捉的關(guān)鍵主題。③主題模型允許多義性,增強(qiáng)了分析的靈活性和深度。這些優(yōu)勢(shì)恰恰是主題模型技術(shù)能夠克服內(nèi)容分析、扎根理論和NLP這3種方法不足的體現(xiàn)。
(1)與內(nèi)容分析不同,內(nèi)容分析要求研究者在文本處理之前預(yù)設(shè)詞典或分類框架,這種設(shè)計(jì)雖然有助于精準(zhǔn)地識(shí)別特定主題,但詞典的互斥性也限制了其對(duì)詞語多義性的解讀能力。而主題模型技術(shù)則能通過概率分布自動(dòng)生成主題,無需依賴預(yù)設(shè)的詞典或規(guī)則。這使分析過程更加靈活,尤其是在處理大量文本時(shí),更能適應(yīng)不同語境和數(shù)據(jù)特征的變化。
(2)相比于扎根理論,主題模型技術(shù)在發(fā)現(xiàn)隱含主題方面更為有效。扎根理論需要研究者通過不斷對(duì)數(shù)據(jù)進(jìn)行編碼和歸類來逐步構(gòu)建理論,但由于依賴于主觀編碼,研究結(jié)果容易受到研究者自身經(jīng)驗(yàn)的影響,并且扎根理論的分析過程繁復(fù),特別是在處理大規(guī)模文本時(shí)效率不高。而主題模型技術(shù)通過算法能夠從海量文本中迅速識(shí)別出潛在主題,在一定程度上排除了人為主觀性,使其在大數(shù)據(jù)背景下比扎根理論更為高效。
(3)與NLP技術(shù)相比,雖然NLP技術(shù)在語義解析方面取得了重要進(jìn)展,但由于NLP工具之間缺乏統(tǒng)一的理論框架和標(biāo)準(zhǔn)實(shí)踐,研究者在將其應(yīng)用于理論性研究時(shí)常面臨挑戰(zhàn)。而主題模型技術(shù)則通過概率統(tǒng)計(jì)的方法自動(dòng)生成主題,不依賴預(yù)設(shè)的語義規(guī)則或標(biāo)注數(shù)據(jù)。從而能夠更加靈活地應(yīng)對(duì)多義性和復(fù)雜的語境變化。
因此,正因?yàn)閮?nèi)容分析、扎根理論和NLP技術(shù)在多義性、大規(guī)模文本處理等方面的不足,主題模型技術(shù)在這些領(lǐng)域中的優(yōu)勢(shì)得以充分展現(xiàn),極大地提升了其在出版研究中的應(yīng)用潛力。
2 基于主題模型的理論演繹
迄今為止,關(guān)于主題模型的研究多集中于算法的優(yōu)化選擇及其在文本分析中的直接應(yīng)用[18-19],而對(duì)從數(shù)據(jù)預(yù)處理到理論框架構(gòu)建這一完整流程的探討則相對(duì)不足[20]。尤其在出版領(lǐng)域,隨著數(shù)字內(nèi)容和大數(shù)據(jù)的迅速增長(zhǎng),利用主題模型技術(shù)構(gòu)建理論顯得尤為重要。這不僅有助于理解出版物內(nèi)容和讀者行為,還能夠揭示出版產(chǎn)業(yè)中的新興趨勢(shì)和潛在規(guī)律,從而推動(dòng)理論創(chuàng)新和實(shí)踐發(fā)展。
為了展示主題模型在理論構(gòu)建中的潛力,本文提出使用“演繹”一詞來描述這一過程。具體而言,這一過程包括3個(gè)關(guān)鍵步驟:①選擇和整理原始文本數(shù)據(jù);②應(yīng)用算法揭示潛在主題;③基于這些發(fā)現(xiàn)逐步構(gòu)建理論框架(如分析過程、因果關(guān)系或測(cè)量工具),并通過不斷迭代形成有意義的理論。特別是在出版領(lǐng)域,這一方法不僅能夠提升文本分析的深度和廣度,還為研究者提供新的視角,以應(yīng)對(duì)復(fù)雜的行業(yè)挑戰(zhàn)。
2.1 整理語料庫
在整理語料庫這一階段,研究者需要根據(jù)理論和實(shí)踐的需求,精心選擇適合的文本數(shù)據(jù)類型。樣本(即文本)的選擇是實(shí)證研究的基礎(chǔ),它基本上決定了后續(xù)分析的方向和深度。在選擇文本數(shù)據(jù)時(shí),研究者應(yīng)特別關(guān)注語言的一致性、作者的代表性以及文檔來源的可靠性與相關(guān)性,確保所選文本與研究問題緊密契合。同時(shí),研究者還需兼顧樣本的代表性、分析的深度以及時(shí)間維度(如縱向研究與橫截面研究的區(qū)別)等因素。接著,研究者將這些文本數(shù)據(jù)編譯整合成語料庫,為進(jìn)一步的預(yù)處理和清理做好準(zhǔn)備。如果文本數(shù)據(jù)全部來自單一來源,那么編譯的文本集合被稱為單一語料庫;如果數(shù)據(jù)來自多個(gè)不同來源,則稱為多源語料庫。
一般而言,研究者在使用主題模型技術(shù)時(shí)更傾向于采用多源語料庫,而非單一、同質(zhì)的語料庫[21-22]。因此,主題建模前的預(yù)處理工作顯得尤為重要,這一過程涉及一系列復(fù)雜的技術(shù)與實(shí)踐規(guī)則,核心在于將文本數(shù)據(jù)轉(zhuǎn)化為適合分析的形式。在預(yù)處理階段,文本數(shù)據(jù)會(huì)被細(xì)致地分類和拆解,并根據(jù)內(nèi)容分析的原則進(jìn)行刪減。例如,忽略沒有實(shí)際意義的“停用詞”,優(yōu)先關(guān)注名詞而非動(dòng)詞、形容詞或副詞,以捕捉更為核心的信息。此外,還會(huì)采用詞形標(biāo)準(zhǔn)化技術(shù),如詞干提取和詞形還原,將詞匯轉(zhuǎn)換為其基礎(chǔ)形式,從而減少詞形變化對(duì)分析結(jié)果的干擾。近年來,隨著技術(shù)的進(jìn)步,高級(jí)詞匯處理工具如WordNet的引入,進(jìn)一步提升了詞匯轉(zhuǎn)換的精度。例如,詞匯可以被統(tǒng)一至單數(shù)形式,或者通過同義詞擴(kuò)展詞匯的語義范圍。這一處理至關(guān)重要,因?yàn)榇蠖鄶?shù)主題模型算法在進(jìn)行文本分析時(shí),是嚴(yán)格基于詞匯的精確形式(包括字母序列)來進(jìn)行的,這意味著同一詞的單復(fù)數(shù)形態(tài)在算法看來是截然不同的實(shí)體。上述預(yù)處理步驟構(gòu)成一套系統(tǒng)化、規(guī)范化的文本清理流程,不僅確保詞匯形態(tài)的一致性,還能使算法更有效地捕捉和解析那些代表更深層次社會(huì)文化結(jié)構(gòu)、具有實(shí)質(zhì)性意義的詞群,為后續(xù)深入理解和分析社會(huì)文化現(xiàn)象提供有力支持。
2.2 演繹潛在主題
在演繹潛在主題這一階段,研究者需要運(yùn)用復(fù)雜的算法來精準(zhǔn)識(shí)別并提煉出語料庫中的核心主題。這些算法為研究者提供自動(dòng)降低語料庫維度復(fù)雜性的能力,其中最著名的當(dāng)屬潛在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)。LDA模型假設(shè)文檔中的每個(gè)詞匯都是從一個(gè)混合模型中抽取的樣本,而這個(gè)混合模型正是由多個(gè)潛在主題所構(gòu)成。每個(gè)主題則代表一個(gè)由多項(xiàng)隨機(jī)變量組成的獨(dú)特概念[18]。這一方法的核心思想是,文檔并非孤立地包含詞匯,而是從一組共享的潛在主題中按照一定的概率分布提取內(nèi)容。每個(gè)主題通過可調(diào)整的概率參數(shù)界定,從而獨(dú)特地代表一個(gè)特定的概念或話題。在LDA模型中,盡管某個(gè)詞可能主要?dú)w屬于某個(gè)特定主題,但它也可能以不同的概率出現(xiàn)在其他主題中。由于這些文檔屬于同一語料庫,算法假設(shè)它們是由同一過程生成的,因此,每個(gè)文檔都可以被視為同一組主題以不同比例混合的結(jié)果。與內(nèi)容分析中使用的互斥性詞典不同,主題建模允許同一個(gè)詞出現(xiàn)在不同的主題中,盡管其在不同主題中的權(quán)重和共現(xiàn)詞可能有所不同。
LDA算法的輸入和輸出步驟是主題演繹的關(guān)鍵環(huán)節(jié)。LDA算法的輸入包括兩個(gè)主要部分:首先,是以文檔-詞矩陣形式表示的一組文檔,在該矩陣中,行代表語料庫中的每個(gè)文檔,列代表語料庫中的每個(gè)唯一詞,單元格表示每個(gè)詞在每個(gè)文檔中出現(xiàn)的頻率。這種表示法忽略了詞匯間的語法和順序關(guān)系,僅關(guān)注詞匯的出現(xiàn)頻率。其次,LDA算法還需要用戶指定一個(gè)關(guān)鍵參數(shù)——模型嘗試估計(jì)的主題數(shù)量,這一設(shè)定對(duì)模型的輸出具有直接影響。LDA算法的輸出包括一個(gè)主題-詞矩陣,展示每個(gè)主題內(nèi)部詞匯的權(quán)重分布以及一個(gè)主題–文檔矩陣,揭示每個(gè)文檔中不同主題的權(quán)重占比。在后續(xù)的分析階段,研究人員可以利用這些輸出結(jié)果,運(yùn)用向量空間計(jì)算等數(shù)學(xué)方法,對(duì)文本進(jìn)行分類、主題分析或相似性比較。
在模型選擇方面,每個(gè)成功構(gòu)建的模型都是依據(jù)特定的參數(shù)設(shè)置(如主題數(shù)量)來生成文檔或詞匯的主題分布。研究人員需要借助適配性概念對(duì)模型進(jìn)行評(píng)估,以選擇最適合研究問題的模型。這通常涉及對(duì)模型準(zhǔn)確性的考量(即模型能否精確反映數(shù)據(jù)特征)以及對(duì)模型有效性的評(píng)估(即模型能否為研究提供有意義的解釋或支持)。在這兩種邏輯之間,研究人員的選擇將直接影響他們對(duì)主題模型滿意度的判斷。
在計(jì)算機(jī)科學(xué)領(lǐng)域,研究者們往往側(cè)重于準(zhǔn)確性邏輯的適配性,依賴一系列量化指標(biāo)如困惑度、對(duì)數(shù)似然和連貫性等來評(píng)估并確定主題模型中的主題數(shù)量及其顯著性[23-24]。然而,一些學(xué)者[25]指出,定量指標(biāo)與人類對(duì)主題的語義理解之間可能存在差異:在定量指標(biāo)上表現(xiàn)較好的主題模型有時(shí)會(huì)推導(dǎo)出在語義上不夠明確或缺乏實(shí)際意義的主題。DiMaggio等[26]也提出一個(gè)重要觀點(diǎn):“沒有統(tǒng)計(jì)測(cè)試能夠絕對(duì)確定主題的最佳數(shù)量或解決方案的質(zhì)量”,關(guān)鍵在于“找到一個(gè)能讓人們最清晰地看到數(shù)據(jù)的透鏡”,強(qiáng)調(diào)研究者在選擇主題模型時(shí)不僅要考慮其量化表現(xiàn),還要關(guān)注其是否能夠提供深刻洞察和有用信息。
因此,社會(huì)科學(xué)領(lǐng)域的研究者們則更傾向于關(guān)注有效性邏輯的適配性[27]。DiMaggio等[26]確定兩種關(guān)鍵形式的有效性:語義或內(nèi)部有效性以及預(yù)測(cè)或外部有效性。內(nèi)部有效性要求研究人員確認(rèn)模型能夠在相同或類似術(shù)語的不同含義間做出有意義的區(qū)分,確保模型內(nèi)部的邏輯一致性和主題識(shí)別的準(zhǔn)確性。而外部有效性則強(qiáng)調(diào)模型所識(shí)別的主題需與外部信息相吻合,比如通過觀察在相關(guān)外部事件發(fā)生時(shí),特定主題是否顯著增強(qiáng)。由于在演繹主題過程中伴隨著大量的解釋性挑戰(zhàn)和不確定性,許多社會(huì)科學(xué)學(xué)者正努力在準(zhǔn)確性和有效性邏輯之間尋求最佳平衡,以確定在進(jìn)一步理論化中使用的“最佳”主題模型。
總而言之,主題模型技術(shù)通過自動(dòng)發(fā)現(xiàn)潛在主題而非預(yù)設(shè)分類,革新了學(xué)者對(duì)文本數(shù)據(jù)中主題的理解和解釋。相比于簡(jiǎn)單的詞頻統(tǒng)計(jì),主題模型技術(shù)能夠通過語料庫中詞語組合的分析識(shí)別深層概念和想法,因此更加敏感于復(fù)雜語言現(xiàn)象中的多義性、異質(zhì)性及意義的關(guān)系性。因此,在適當(dāng)?shù)慕忉尯屠碚撝С窒拢黝}模型的輸出對(duì)于探索新理論,尤其在處理龐大且復(fù)雜的數(shù)據(jù)集時(shí),展現(xiàn)出了巨大的潛力。
2.3 構(gòu)建理論框架
在構(gòu)建理論框架這一階段,研究者需要在現(xiàn)有理論與通過主題模型生成的主題之間進(jìn)行反復(fù)迭代,以生成新理論或深化現(xiàn)有理論。詞向量和主題向量作為強(qiáng)大的分析工具,為研究人員構(gòu)建多維理論框架提供了廣泛的可能性。這些理論有的是從圍繞特定詞匯或概念的主題聚類中提煉而出,展現(xiàn)出獨(dú)特的新穎性或差異性。這些理論還可以是關(guān)系性的,能夠揭示相關(guān)性、因果關(guān)系或過程性動(dòng)態(tài),從而幫助研究人員洞察背后的機(jī)制。
以Croidieu和Kim的研究[28]為例,他們采用了一種“迭代、多步驟過程”來解讀主題模型的輸出,探索與非專業(yè)人士專業(yè)知識(shí)合法化及其內(nèi)在機(jī)制相關(guān)的關(guān)鍵概念。他們?cè)敿?xì)闡述從算法輸出到構(gòu)建新理論的整個(gè)流程:①將原始主題視為基礎(chǔ)性的描述性代碼;②這些主題被轉(zhuǎn)化為一級(jí)概念,每位研究成員獨(dú)立對(duì)這些主題進(jìn)行初步編碼,并匯總結(jié)果進(jìn)行集體討論,必要時(shí)對(duì)編碼進(jìn)行調(diào)整和優(yōu)化;③進(jìn)一步將這些一級(jí)主題歸納為更抽象和普遍的二級(jí)主題;④基于二級(jí)主題在時(shí)間維度上的變化趨勢(shì),提煉出4個(gè)核心的綜合維度,這些維度成為理解專業(yè)知識(shí)合法化機(jī)制的關(guān)鍵框架。為了增強(qiáng)理論的說服力,他們將分析劃分為兩個(gè)具有歷史意義和理論關(guān)聯(lián)性的時(shí)期并據(jù)此完善了綜合維度的標(biāo)簽和理論闡述;隨后,通過多次重復(fù)這一過程,確保原始主題數(shù)據(jù)與最終理論解釋之間的高度一致性。通過這一系列嚴(yán)謹(jǐn)?shù)牟襟E,他們不僅得出了重要的研究發(fā)現(xiàn),還成功構(gòu)建了一個(gè)能夠反映專業(yè)知識(shí)合法化過程內(nèi)在機(jī)制的過程模型。
主題模型技術(shù)的內(nèi)在靈活性不僅可以幫助研究人員設(shè)計(jì)出更精細(xì)的測(cè)量方法,擴(kuò)展現(xiàn)有理論架構(gòu)與關(guān)系并引入新穎的概念、過程與機(jī)制。這一特性還使得主題模型技術(shù)在方法論上具備雙重優(yōu)勢(shì):它既能作為演繹推理的工具,剖析既定理論框架下的內(nèi)在邏輯;又能擔(dān)當(dāng)歸納推理的角色,從海量數(shù)據(jù)中提煉出新興模式與見解。在模型的構(gòu)建與演繹過程中,研究者可以根據(jù)對(duì)演繹推理與歸納推理的不同側(cè)重,進(jìn)行一系列差異化的選擇,例如主題選擇、模型擬合策略以及理論表現(xiàn)形式等。因此,主題模型技術(shù)正以其前所未有的活力,對(duì)社會(huì)科學(xué)領(lǐng)域的研究主題產(chǎn)生深遠(yuǎn)影響。無論是持續(xù)深化對(duì)成熟理論的理解與應(yīng)用,還是開拓新興領(lǐng)域,主題模型技術(shù)都展現(xiàn)出極強(qiáng)的靈活性和潛力,也為出版領(lǐng)域的發(fā)展注入了新的活力與靈感。
3 主題模型在出版研究中的應(yīng)用
為深入探討主題模型技術(shù)在出版研究領(lǐng)域的具體應(yīng)用,本文采用文獻(xiàn)分析方法,以“出版”和“主題模型”為關(guān)鍵詞,在中國(guó)知網(wǎng)中檢索到39篇中文文獻(xiàn)。這一結(jié)果顯示,主題模型技術(shù)在出版領(lǐng)域仍是一種新興技術(shù),尚處于應(yīng)用的初期階段。為了更清晰地展現(xiàn)其應(yīng)用過程,本文選取其中最具代表性的兩篇文獻(xiàn):杜恒波等的《基于LDA主題模型的中國(guó)圖書出口效果研究——以亞馬遜海外讀者評(píng)論為例》[3]和龔詩陽等的《數(shù)字文化產(chǎn)品為何流行?基于積極心理理論的大規(guī)模文本分析》[6]。首先,這兩篇論文都是出版領(lǐng)域近兩年發(fā)表的文章,具有較高的時(shí)效性,一定程度上代表著主題模型在出版研究中的最新應(yīng)用趨勢(shì);其次這兩篇論文均有2 000次左右的高下載量,這表明它們?cè)诔霭鎸W(xué)術(shù)界和實(shí)踐中引起了廣泛關(guān)注,在出版領(lǐng)域中具有一定代表性和參考價(jià)值;此外,杜恒波等所使用的LDA主題模型是目前出版研究中最普遍采用的核心算法,其應(yīng)用步驟和方式也具有典型性。而龔詩陽等所采用的主題模型是LDA主題模型的一種分支,在現(xiàn)有的研究中使用較少,較為新穎。兩篇文章都聚焦主題模型應(yīng)用于出版的主題,但研究方法存在一定差異,兩者對(duì)照更能展現(xiàn)出該主題下出版研究多樣化的發(fā)展路徑和態(tài)勢(shì)。因此,本研究希望通過這些案例來探索基于主題模型技術(shù)的理論演繹過程在出版研究中的具體體現(xiàn),從而深化對(duì)主題模型技術(shù)在出版領(lǐng)域應(yīng)用的理論理解。
(1)在整理語料庫階段,杜恒波等研究目的是通過分析中國(guó)圖書的海外讀者評(píng)論信息來探索中國(guó)圖書出口效果。由于美國(guó)亞馬遜網(wǎng)站是國(guó)外讀者購買中國(guó)圖書的主要渠道并且具有較為全面的評(píng)價(jià)系統(tǒng),考慮到數(shù)據(jù)的代表性、權(quán)威性和全面性,研究者選擇亞馬遜網(wǎng)站作為數(shù)據(jù)來源以獲得海量真實(shí)、覆蓋面廣的讀者評(píng)論數(shù)據(jù)。這與前文所提及的主題模型技術(shù)通常采用多源語料庫的要求一致。在預(yù)處理部分,該文通過分類整理和人工篩選等方法對(duì)數(shù)據(jù)進(jìn)行清洗,比如刪減重復(fù)和無關(guān)的文本內(nèi)容、非英文評(píng)論和表情符號(hào)等;然后對(duì)文本數(shù)據(jù)進(jìn)行降噪處理,對(duì)文本進(jìn)行分詞并刪去無意義的停用詞。最終篩選出接近一萬條有效數(shù)據(jù)整合成語料庫。龔詩陽等則是通過研究互聯(lián)網(wǎng)上的數(shù)字文化產(chǎn)品(小說、歌曲等)揭示其成功流行的原因。與前者不同的是,這篇文章強(qiáng)調(diào)了積極心理學(xué)理論在其中的應(yīng)用。因此研究者一方面需要從研究目的和確保數(shù)據(jù)的代表性角度出發(fā),選取晉江文學(xué)城網(wǎng)站上文學(xué)作品的相關(guān)信息作為數(shù)據(jù)來源。同時(shí)還需要根據(jù)理論的需要,在專家的幫助下,從一系列積極心理的經(jīng)典研究及大規(guī)模中文詞向量數(shù)據(jù)庫中建立種子詞庫。在晉江文學(xué)作品的文本數(shù)據(jù)預(yù)處理部分,該文采用jieba工具將文本切分為獨(dú)立的詞語并參考常用停用詞表刪去停用詞,同時(shí)刪去一些不符合要求的詞語。最后按照“詞袋法”將每一部文學(xué)作品視為一組無序的詞向量并且構(gòu)造詞典,形成最終的語料庫。
(2)在演繹潛在主題階段,杜恒波等采用了準(zhǔn)確性邏輯和有效性邏輯相結(jié)合的方法,即采用主題一致性和困惑度二者相結(jié)合的方式來確定最優(yōu)LDA主題數(shù)。主題一致性是指同一主題下詞語的語義關(guān)聯(lián)性。困惑度則是判斷模型適用性和穩(wěn)定性的量化指標(biāo)。僅采取其中一種方法來確定最佳主題數(shù)會(huì)存在一定偏差,因此該文綜合參考了主題一致性和困惑度兩個(gè)指標(biāo),通過分析兩個(gè)指標(biāo)的趨勢(shì),并結(jié)合人工評(píng)價(jià)反復(fù)對(duì)比主題內(nèi)容最終確定最優(yōu)主題數(shù)為5。龔詩陽等采用的模型是Guided-LDA主題模型,這種方法是LDA概率主題模型中的一種,研究者可以制定種子詞引導(dǎo)生成主題,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)與理論知識(shí)相結(jié)合。因此,這篇文章更側(cè)重于有效性邏輯的適配性,依據(jù)積極心理學(xué)理論來確定主題數(shù)為24。然后,應(yīng)用Guided-LDA主題模型輸出“文檔-主題”“主題–詞語”矩陣,即晉江文學(xué)作品中各個(gè)主題的詞匯分布結(jié)果。
(3)在構(gòu)建理論框架階段,杜恒波等根據(jù)其得到的5個(gè)主題,在每個(gè)主題下選取了10個(gè)權(quán)重靠前的主題特征詞。在經(jīng)過內(nèi)容分析后,先將這5個(gè)主題總結(jié)提煉為5個(gè)獨(dú)立的概念作為評(píng)價(jià)的5個(gè)維度,分別為內(nèi)容評(píng)價(jià)、翻譯理解、服務(wù)體驗(yàn)、中國(guó)元素與題材情節(jié)。隨后研究者將先前研究中所總結(jié)的評(píng)價(jià)維度與主題模型所生成的主題進(jìn)行反復(fù)對(duì)比得出該研究所得到的主題模型識(shí)別度更好,結(jié)構(gòu)維度也更為全面的結(jié)論,從而創(chuàng)新了中國(guó)出口圖書效果的評(píng)價(jià)維度,深化了該領(lǐng)域的理論研究。而龔詩陽等則在主題模型輸出的數(shù)據(jù)的基礎(chǔ)上,運(yùn)用數(shù)學(xué)的方法對(duì)文本進(jìn)行相關(guān)性分析和異質(zhì)性分析等實(shí)證研究,具體而言,研究者通過主題模型分析所得到的數(shù)據(jù)構(gòu)建代表文學(xué)作品中積極心理主題特征的變量,隨即進(jìn)行回歸分析,探索數(shù)字文化產(chǎn)品中所反映的積極心理的強(qiáng)度和多樣性與產(chǎn)品流行的關(guān)系,得到了創(chuàng)新性的結(jié)論,同時(shí)為文化產(chǎn)品消費(fèi)者心理和行為研究貢獻(xiàn)了新思路。
4 討論與總結(jié)
隨著數(shù)字化進(jìn)程的加快,出版領(lǐng)域?qū)Υ髷?shù)據(jù)的依賴日益增加。主題模型技術(shù)憑借其在大規(guī)模文本數(shù)據(jù)處理中的獨(dú)特優(yōu)勢(shì),逐漸成為出版學(xué)者探索新理論的一項(xiàng)重要研究工具。通過對(duì)海量文本數(shù)據(jù)的有效分析和處理,主題模型技術(shù)為出版研究提供新的視角和方法,揭示數(shù)據(jù)中潛在的主題結(jié)構(gòu)和趨勢(shì),從而推動(dòng)了對(duì)復(fù)雜出版現(xiàn)象的深入理解。它不僅豐富了研究者的數(shù)據(jù)資源和分析手段,還促進(jìn)了跨學(xué)科的深度融合與理論創(chuàng)新,為出版學(xué)科在大數(shù)據(jù)時(shí)代的理論發(fā)展作出了重要的貢獻(xiàn)。
然而,盡管主題模型技術(shù)在出版領(lǐng)域顯示出巨大的潛力,當(dāng)前的研究仍然存在一些局限性。首先,目前相關(guān)研究的發(fā)文量仍然比較有限。雖然近年來發(fā)文量呈增長(zhǎng)趨勢(shì),但主題模型技術(shù)在出版研究中的應(yīng)用仍處于初步階段,尚未形成系統(tǒng)的研究框架與方法論;其次,大多數(shù)的研究主要依賴傳統(tǒng)的LDA主題模型應(yīng)用上,缺乏對(duì)LDA拓展模型或其他主題模型的探索,這種單一模型的應(yīng)用限制研究者對(duì)數(shù)據(jù)多維度的理解,制約研究的深入發(fā)展;再次,這些研究大多停留在對(duì)主題模型的簡(jiǎn)單應(yīng)用,尚未深入探討如何通過主題模型生成和構(gòu)建理論的具體過程,從而影響了對(duì)理論構(gòu)建過程的全面理解和實(shí)踐應(yīng)用。
本文通過引入“演繹”一詞,描述研究者利用主題模型技術(shù)從語料庫中迭代構(gòu)建理論的過程。本文系統(tǒng)歸納和總結(jié)這一理論構(gòu)建路徑,并在現(xiàn)有出版研究中展示“演繹過程”的應(yīng)用,從而彌補(bǔ)了現(xiàn)有研究的不足。這一“演繹過程”的提出和應(yīng)用不僅展示了主題模型技術(shù)在理論生成中的潛力,還為未來的研究提供了方法論上的指導(dǎo)。通過系統(tǒng)化地應(yīng)用“演繹過程”,本文為研究者提供了一個(gè)清晰的理論構(gòu)建框架。
盡管本文為出版研究引入了新的理論構(gòu)建視角,但仍然存在一些不足。首先,由于研究數(shù)據(jù)和方法的限制,本文尚未充分驗(yàn)證這一理論構(gòu)建路徑的普遍適用性,未來的研究應(yīng)嘗試在更多領(lǐng)域和數(shù)據(jù)集上進(jìn)行驗(yàn)證并進(jìn)一步完善理論構(gòu)建路徑。其次,本文主要聚焦于使用LDA主題模型的研究上,未來的研究可以探索更多多樣化的主題模型,比如(結(jié)構(gòu)化主題模型Structural Topic Model,STM)等,以全面挖掘主題模型技術(shù)的潛力。最后,雖然本文提出“演繹”過程的框架,但如何將這一框架有效地應(yīng)用于更廣泛的出版研究中,仍需未來的研究通過實(shí)際實(shí)踐進(jìn)一步探索和驗(yàn)證。通過這些努力,主題模型技術(shù)將更好地服務(wù)于出版領(lǐng)域,為出版學(xué)術(shù)研究和實(shí)踐提供有力的支持。
(責(zé)任編輯:郭劍)
參考文獻(xiàn)
[1] MOHR J W,BOGDANOV P.Introduction—Topic models:What they are and why they matter[J]. Poetics,2013,41(6):545-569.
[2] 席運(yùn)江,趙燕,廖曉,等.基于LDA的企業(yè)微博主題傳播超網(wǎng)絡(luò)建模及分析方法[J].管理學(xué)報(bào),2018,15(3): 434-441.
[3] 張麗麗.基于文本挖掘的喜馬拉雅用戶需求研究[D].上海:上海師范大學(xué),2022.
[4] 張景琦.基于主題熱度的學(xué)科主題研究態(tài)勢(shì)分析[D].曲阜:曲阜師范大學(xué),2021.
[5] 杜恒波,王紹運(yùn),羅潤(rùn)東.基于LDA主題模型的中國(guó)圖書出口效果研究:以亞馬遜海外讀者評(píng)論為例[J].經(jīng)濟(jì)問題,2024(2):17-23.
[6] 龔詩陽,楊偉超,宋元明,等.數(shù)字文化產(chǎn)品為何流行?基于積極心理理論的大規(guī)模文本分析[J/OL].南開管理評(píng)論,1-34[2024-09-03].http://kns.cnki.net/kcms/detail/12.1288.F.20231201.1412.002.html.
[7] ZHU J,WANG K,WU Y,et al.Mining user-aware rare sequential topic patterns in document streams[J].IEEE Transactions on Knowledge and Data Engineering,2016,28(7):1790-1804.
[8] 蔣潤(rùn)蓮.基于文本挖掘技術(shù)的學(xué)術(shù)研究趨勢(shì)自動(dòng)化識(shí)別及可視化技術(shù)研究[D].深圳:深圳大學(xué),2020.
[9] 湯祎萍,袁曦臨.國(guó)內(nèi)兒童性教育繪本內(nèi)容分析及其閱讀推廣研究[J].圖書館雜志,2024,43(4):43-52.
[10] 蔣秋楠.數(shù)字出版時(shí)代有聲書的內(nèi)容創(chuàng)作與傳播研究[J].新聞前哨,2023(12):73-75.
[11] 劉選,譚明杰,汪燕.提升中文社科學(xué)術(shù)期刊的國(guó)際影響力:基于內(nèi)容分析的策略體系構(gòu)建[J].出版廣角, 2023(19):37-42.
[12] 化明艷,劉小慧,朱玉強(qiáng).基于引用內(nèi)容分析法的優(yōu)秀社科專著學(xué)術(shù)影響力評(píng)價(jià)研究[J].河北科技圖苑, 2023,36(6):76-85,92.
[13] 常嘉玲.基于內(nèi)容分析法的我國(guó)數(shù)字出版產(chǎn)業(yè)政策優(yōu)化路徑探究[J].出版發(fā)行研究,2019(4):24-29.
[14] 席銳,王治.新時(shí)代優(yōu)秀編輯綜合評(píng)價(jià)指標(biāo)體系構(gòu)建與應(yīng)用:基于扎根理論的質(zhì)性研究[J].中國(guó)編輯, 2023(7):71-75.
[15] 陳哲,馮小軒,侯欣潔.基于扎根理論的青年讀者反連接數(shù)字閱讀行為影響因素研究[J].出版廣角, 2024(10):74-79.
[16] 劉維尚,司亞麗,郭綺涵,等.基于扎根理論的智障兒童繪本設(shè)計(jì)策略研究[J].設(shè)計(jì)藝術(shù)研究,2024,14(2):36-39,49.
[17] 李春磊.新時(shí)期數(shù)字出版知識(shí)服務(wù)應(yīng)用研究:人工智能技術(shù)驅(qū)動(dòng)的自然語言處理技術(shù)賦能數(shù)字出版的機(jī)遇與挑戰(zhàn)[J].中國(guó)傳媒科技,2024(3):56-59.
[18] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of machine Learning research,2003,3(1:993-1022.
[19] SCHMIEDEL T,MüLLER O, VOM B J.Topic modeling as a strategy of inquiry in organizational research: A tutorial with an application example on organizational culture[J].Organizational Research Methods,2019,22(4):941-968.
[20] HANNIGAN T R,HAANS R F J,VAKILI K,et al.Topic modeling in management research:Rendering new theory from textual data[J].Academy of Management Annals,2019,13(2):586-632.
[21] BORGMAN C L.Big data,little data,no data: Scholarship in the networked world[M].MIT press,2017.
[22] KITCHIN R,MCARDLE G.What makes Big Data,Big Data? Exploring the ontological characteristics of 26 datasets[J].Big Data amp; Society,2016,3(1): 2053951716631130.
[23] AZZOPARDI L,GIROLAMI M,VAN R K.Investigating the relationship between language model perplexity and IR precision-recall measures[C]//Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval.2003:369-370.
[24] MIMNO D,WALLACH H,TALLEY E,et al.Optimizing semantic coherence in topic models[C]//Proceedings of the 2011 conference on empirical methods in natural language processing.2011: 262-272.
[25] CHANG J,GERRISH S,WANG C,et al.Reading tea leaves:How humans interpret topic models[J]. Advances in neural information processing systems,2009,22.
[26] DIMAGGIO P,NAB M,BLEI D.Exploiting affinities between topic modeling and the sociological perspective on culture:Application to newspaper coverage of US government arts funding[J].Poetics,2013,41(6):570-606.
[27] DIMAGGIO P.Adapting computational text analysis to social science (and vice versa)[J].Big Data amp; Society,2015,2(2):2053951715602908.
[28] CROIDIEU G,KIM P H.Labor of love:Amateurs and lay-expertise legitimation in the early US radio field[J].Administrative Science Quarterly,2018, 63(1):1-42.
Application and Innovation of Topic Modeling Technology in Publishing Research: An Exploration of the Path from Text Mining to Theory Construction
Han Zheng Ming Yang
School of Information Management, Wuhan University, Wuhan, Hubei 430072, China
Abstract With the advent of the information age, topic modeling technology, as an emerging text mining method, is gradually playing an important role in the field of publishing research. This paper first compares topic modeling technology with content analysis, grounded theory, and natural language processing (NLP) techniques, highlighting its unique advantages in publishing research. Then, the paper conceptualizes topic modeling as a “deductive process” involving three key steps: organizing the corpus, deducing latent topics and constructing a theoretical framework. Through a detailed analysis of this process, the article emphasizes the potential of topic modeling in transforming large volumes of text data into theoretical frameworks. Finally, the paper explores the practical application of topic modeling technology in publishing research by examining specific cases in the field, revealing its broad prospects in areas such as digital cultural product analysis and reader demand studies, and providing strong theoretical support for innovation in publishing research.
Keywords Topic modeling technology; Publishing research; Organizing corpus; Deducing latent topics; Constructing theoretical framework