沈思,陳猛,馮暑陽,許乾坤,劉江峰,王飛,王東波
(1. 南京理工大學經(jīng)濟管理學院,南京 210094;2. 南京農(nóng)業(yè)大學信息管理學院,南京 210095;3. 江蘇省科技情報研究所,南京 210042)
政策文本是政府政策行為的反映,也是記錄政策發(fā)展走勢、政策意圖的重要載體,而政策文本研究則是觀察、梳理政策過程的重要途徑[1]。對于政策文本的類別,Chilton等[2]從3個層面進行了劃分,本研究的政策文本主要為“政府或國家或地區(qū)的各級權(quán)力或行政機關(guān)以文件形式頒布的法律、法規(guī)、部門規(guī)章等官方文獻”。目前,政策文本研究主要分為兩類:定性研究與定量研究。其中,定性研究要求研究者擁有較高的實踐經(jīng)驗和分析能力[3],而定量研究則需要研究者擁有大量的數(shù)據(jù)和高性能的計算模型。隨著我國治理體系的不斷完善和政府信息公開化的發(fā)展,政策文本研究所能獲取的數(shù)據(jù)量愈加龐大,分類體系愈加復(fù)雜,同時相應(yīng)增長的還有定性分析所需的人力成本。在數(shù)據(jù)驅(qū)動下的政策文本研究中,將政策文本轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù),再基于相應(yīng)的機器學習模型進行計算和分析,這種定量研究的方法極大降低了人力成本,成為政策文本研究的發(fā)展趨勢[3]。當前,政策定量化研究的內(nèi)涵越來越豐富,涌現(xiàn)出政策文本計算、政策計量、政策文獻計量等研究方向[4-7]。政策文本計算主要通過自然語言處理、機器學習、可視化技術(shù)等進行政策文本分析,其中在機器學習方面,比較受關(guān)注的是深度學習領(lǐng)域的預(yù)訓(xùn)練語言模型技術(shù)。2003年,Bengio等[8]提出NNLM模型(neural network lan‐guage model),神經(jīng)網(wǎng)絡(luò)技術(shù)開始被用于語言模型的構(gòu)建。在此基礎(chǔ)上,word2vec[9]、GloVe[10]模型進一步優(yōu)化性能,靜態(tài)詞向量的誕生使神經(jīng)網(wǎng)絡(luò)方法大規(guī)模應(yīng)用于自然語言處理成為可能。隨著深度學習的發(fā)展,CNN(convolutional neural network)、RNN(recurrent neural network)和LSTM(long short-term memory)等神經(jīng)網(wǎng)絡(luò)模型誕生[11-13]。2018年,Google基于Transformer編碼器提出了BERT(bidirectional encoder representations from transform‐ers)模型[14],其在預(yù)訓(xùn)練方法上的創(chuàng)新推動了預(yù)訓(xùn)練模型的發(fā)展。在BERT模型的基礎(chǔ)上,F(xiàn)acebook AI團隊推出了RoBERTa[15]模型。由于其突出的性能,BERT與RoBERTa模型被廣泛應(yīng)用于自然語言處理研究,提高了自然語言處理理解和文本挖掘研究的整體水平。隨著深度學習技術(shù)的不斷發(fā)展,政策文本研究與深度學習的關(guān)聯(lián)也愈發(fā)密切。已有學者通過具體探究驗證了深度學習技術(shù)和預(yù)訓(xùn)練模型對政策文本研究的推動作用[16-18]。
目前,針對政策全文本數(shù)據(jù)的預(yù)訓(xùn)練模型構(gòu)建尚處于起步階段,為了提升政策文本領(lǐng)域知識挖掘的整體性能,本研究通過爬取259個政府官方網(wǎng)站的政策文本構(gòu)建了較為完備的中文政策全文本數(shù)據(jù)集,在數(shù)據(jù)集上繼續(xù)預(yù)訓(xùn)練獲得了關(guān)于中文政策文本的預(yù)訓(xùn)練模型,彌補了在中文政策文本研究上預(yù)訓(xùn)練模型的缺失,且在3個自然語言處理的下游任務(wù)上模型的性能得到了驗證。
在大數(shù)據(jù)時代,對海量的政策文本進行深度挖掘和利用成為一個亟待解決的重要問題。通過對已有政策研究的梳理可以發(fā)現(xiàn),政策文本方面的研究已從定性分析逐漸轉(zhuǎn)移到定量分析。政策文本量化通過一系列的轉(zhuǎn)換范式將非結(jié)構(gòu)化政策文本轉(zhuǎn)換為抽象化、特征化的計算機可處理的結(jié)構(gòu)化數(shù)據(jù)[19]。近年來,在數(shù)據(jù)驅(qū)動研究范式的推進下,預(yù)訓(xùn)練技術(shù)與政策文本相結(jié)合逐漸成為政策文本知識挖掘的主流趨勢。
政策文本知識挖掘主要通過機器學習挖掘政策文本中所蘊含的知識,實現(xiàn)政策文本的智能化分析,在一定程度上彌補了內(nèi)容分析法和文獻計量方法研究的不足。在傳統(tǒng)機器學習和自然語言處理基礎(chǔ)上的政策文本知識挖掘代表性研究如下。在對政策文本進行自動分詞的基礎(chǔ)上,王晶金等[20]借助政策分析工具,對兩份科技成果轉(zhuǎn)移轉(zhuǎn)化的部委政策文本進行了分析,針對科技成果轉(zhuǎn)移轉(zhuǎn)化過程中存在的缺陷提出了有效的建議?;诳萍颊叩墓δ芏ㄎ缓陀谜Z特征,鄭新曼等[21]通過PMI(pointwise mutual information)和TextRank算法構(gòu)建了科技政策文本的程度詞典。通過把自然語言處理技術(shù)融入政策文本,魏宇等[22]構(gòu)建了基于語義分析的政策量化模型,借助所挖掘出來的語義知識分析了中央及地方的旅游交通政策的外部屬性和內(nèi)部結(jié)構(gòu)的差異?;贚DA(latent Dirichlet allocation)模型,Du等[23]考察了4種JPCAP(joint prevention and control of atmospheric pollution)政策中政策強度對大氣污染物排放的影響,并提出了優(yōu)化對策和解決問題的建議。通過構(gòu)建LDA主題模型和k-means聚類模型,Song等[24]識別了食品安全政策中的熱點話題,并從4個方面對中國的食品安全政策進行了分析?;诮處熽犖榻ㄔO(shè)改革的政策文本,杜燕萍[25]通過LDA主題模型的知識挖掘,提出了有針對性的改革對策。上述自然語言處理和文本挖掘技術(shù)能夠快速、高效地處理大量的政策文本,在一定程度上彌補了定性方法分析深度不夠和效率低的問題。但隨著政策文本數(shù)據(jù)的增加及對深度語義知識挖掘需求的提升,把深度學習特別是預(yù)訓(xùn)練模型與政策文本數(shù)據(jù)結(jié)合起來進行知識挖掘,成為獲取深層、多維和細顆粒度知識的關(guān)鍵。
神經(jīng)網(wǎng)絡(luò)語言模型(neural network language model,NNLM)是最早的詞嵌入(word embed‐dings)模型。word2vec模型采用無監(jiān)督的方式學習語義知識,優(yōu)化了計算效率,被廣泛地應(yīng)用于工業(yè)界。為了彌補word2vec模型難以統(tǒng)計全局信息的不足,GloVe模型進一步利用詞共現(xiàn)矩陣,使得詞向量充分兼顧到語料庫的全局特征,但word2vec和GloVe仍不能解決一詞多義性問題。上下文嵌入模型ELMo(embeddings from language models)通過學習單詞、句法以及語義特征,實現(xiàn)了根據(jù)輸入句的上下文語境獲得每個詞的詞嵌入向量。BERT預(yù)訓(xùn)練模型采用雙向語言模型能夠更好地利用上下文的雙向信息,同時基于Transformer結(jié)構(gòu)更好地捕捉全局信息。
從預(yù)訓(xùn)練模型生成的流程上看,預(yù)訓(xùn)練技術(shù)一般是在一個基礎(chǔ)數(shù)據(jù)集上進行任務(wù)訓(xùn)練,生成一個基礎(chǔ)網(wǎng)絡(luò),并通過將基礎(chǔ)網(wǎng)絡(luò)學習到的特征進行微調(diào)或訓(xùn)練新的任務(wù),進而解決人工智能相應(yīng)的下游任務(wù)。因此,預(yù)訓(xùn)練模型只需從共性出發(fā),學習特定任務(wù)的特征,不僅節(jié)省了大量的時間,而且擁有更好的泛化效果。在這一范式下,基于BERT的相應(yīng)領(lǐng)域化預(yù)訓(xùn)練模型得以構(gòu)建并應(yīng)用。圍繞自然科學的學術(shù)全文本和人文社會科學摘要,在BERT模型的基礎(chǔ)上,Beltagy等[26]和Shen等[27]分別訓(xùn)練和構(gòu)建了SciBERT和SsciBERT模型,并在相應(yīng)的下游任務(wù)上進行了驗證,整體上效果較為突出。Lee等[28]在生物醫(yī)學語料庫上對BERT完成了進一步的訓(xùn)練,構(gòu)建了BioBERT領(lǐng)域化預(yù)訓(xùn)練模型,同時在生物醫(yī)學文本的驗證上取得了較好的成績。在法律文本上,Chalkidis等[29]構(gòu)建了LEGAL-BERT預(yù)訓(xùn)練模型,并在領(lǐng)域任務(wù)上驗證了所構(gòu)建模型的性能。在金融文本數(shù)據(jù)上,Araci[30]提出了一種基于BERT的FinBERT用于處理金融領(lǐng)域的NLP(natural lan‐guage processing)任務(wù),并在具體數(shù)據(jù)集上驗證了FinBERT的效果。楊晨等[31]在BERT的基礎(chǔ)上提出一種側(cè)重學習情感特征的預(yù)訓(xùn)練方法,所得到的SentiBERT在情感任務(wù)上取得了更優(yōu)的效果。在藏文文本上,李亮[32]構(gòu)建了藏文ALBERT預(yù)訓(xùn)練模型,并在分類任務(wù)上對模型進行了驗證,效果較為突出。一方面,上述領(lǐng)域化模型的構(gòu)建為本研究政策文本預(yù)訓(xùn)練模型的構(gòu)建提供了探究視角和方案上的支持;另一方面,為模型具體的訓(xùn)練提供了方法和技術(shù)上的支撐。相關(guān)學者已將通用預(yù)訓(xùn)練模型引入與政策相關(guān)的研究當中。Zhang等[33]基于《紐約時報》的大規(guī)模新聞?wù)Z料庫對預(yù)訓(xùn)練模型進行微調(diào),提出了一個基于BERT的模型用于預(yù)測美國的政策變化。朱娜娜等[34]提出了基于預(yù)訓(xùn)練語言模型的政策識別方法,在小規(guī)模數(shù)據(jù)上獲得了較優(yōu)的結(jié)果?;陬A(yù)訓(xùn)練語言模型BERT,關(guān)海山等[35]在融入規(guī)則的基礎(chǔ)上,實現(xiàn)了在稅收優(yōu)惠政策法規(guī)的表征、關(guān)鍵要素抽取和稅收優(yōu)惠的可視化查詢等多個維度上的探究。在政策文本的知識建模與關(guān)聯(lián)問答中,華斌等[36]采用BERT語義相似度計算并完成了對答案的評估。上述研究表明,預(yù)訓(xùn)練技術(shù)與政策文本研究的融合是大勢所趨,一方面,通過預(yù)訓(xùn)練技術(shù)對政策文本進行挖掘,可以更好地獲取政策文本的多維知識;另一方面,通過預(yù)訓(xùn)練模型對政策文本進行識別、分析、表示等處理,可以在更大程度上提高政策文本處理的效率。但當前政策文本領(lǐng)域所使用的預(yù)訓(xùn)練模型均是通用的預(yù)訓(xùn)練模型,缺乏基于大規(guī)模政策文本構(gòu)建的政策文本預(yù)訓(xùn)練模型,本研究對此進行了探究。
本研究由模型的預(yù)訓(xùn)練和模型的性能驗證兩個部分構(gòu)成。在預(yù)訓(xùn)練階段,利用掩碼語言模型(masked language model,MLM)和全詞掩碼(whole word masking,WWM)任務(wù)分別基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext模型對政策全文本數(shù)據(jù)集進行預(yù)訓(xùn)練,模型初步評價的指標為困惑度。在模型的性能驗證階段,通過對比預(yù)訓(xùn)練語言模型和基準模型在自動分詞、詞性標注和命名實體識別上的效果來評判政策文本預(yù)訓(xùn)練模型的性能。
目前,采用領(lǐng)域數(shù)據(jù)構(gòu)建預(yù)訓(xùn)練模型的研究通常分為模型的預(yù)訓(xùn)練和模型的性能驗證兩大部分。
在模型的預(yù)訓(xùn)練階段中,實驗步驟設(shè)計的整體性呈現(xiàn)如圖1所示。
圖1 模型預(yù)訓(xùn)練實驗步驟
(1)數(shù)據(jù)獲取與預(yù)處理。首先,進行系統(tǒng)而全面的調(diào)研,確定政策數(shù)據(jù)源的網(wǎng)站;其次,通過開發(fā)Python爬蟲工具,獲取全國及各省市的政策文本數(shù)據(jù),進行數(shù)據(jù)清洗,同時將政策文本的標題與全文作為預(yù)訓(xùn)練數(shù)據(jù)的基本單元;最后,將所有基本單元合并,并將數(shù)據(jù)按99∶1劃分為訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集。
(2)模型預(yù)訓(xùn)練?;鶞誓P褪褂肏uggingface網(wǎng)站(https://github.com/sinovation/ZEN)提供的Py‐torch版BERT-base-Chinese和Chinese-RoBERTawwm-ext,并設(shè)定訓(xùn)練集任務(wù)為MLM和WWM。
(3)預(yù)訓(xùn)練模型性能初步測評。在信息論中,困惑度(perplexity)[37]被用于度量一個概率分布或概率模型預(yù)測樣本的好壞程度。在語言模型評測中,困惑度被定義為測試集概率的倒數(shù),一般認為困惑度較低時語言模型性能較好。因此,本研究將其作為初步評價預(yù)訓(xùn)練模型性能指標。
本研究中預(yù)訓(xùn)練模型構(gòu)建所使用的政策文本數(shù)據(jù)來自全國及省市的政策發(fā)布平臺,具體包括國家發(fā)展和改革委員會、財政部、科學技術(shù)部和工業(yè)和信息化部,北京、天津、河北等省和直轄市的中小企業(yè)公共服務(wù)平臺、發(fā)改委、財政廳、科技廳、工業(yè)和信息化廳,以及深圳、廣州、蘇州等經(jīng)濟發(fā)展前沿城市的中小企業(yè)公共服務(wù)平臺、發(fā)改委、財政局、科技局、工業(yè)和信息化局。政策文本按照政策發(fā)布平臺劃分為國家級政策文本、省級政策文本與市級政策文本。國家級政策主要著重于宏觀層面、面向全國,且在法律效力上高于省級政策和市級政策,而省級政策和市級政策則根據(jù)地方經(jīng)濟社會發(fā)展制定,側(cè)重點有所不同。在出現(xiàn)政策內(nèi)容相矛盾時,市級政策一般服從省級政策,省級政策一般服從國家級政策。不同平臺所發(fā)布的政策在內(nèi)容上也存在差異,發(fā)改委擬定經(jīng)濟和社會發(fā)展政策,財政部(廳、局)發(fā)布財稅政策,科技部(廳、局)發(fā)布科技創(chuàng)新政策,工信部(廳、局)發(fā)布產(chǎn)業(yè)政策,中小企業(yè)公共服務(wù)平臺發(fā)布針對中小企業(yè)發(fā)展的政策方針?;谒O(shè)計的網(wǎng)絡(luò)爬蟲共獲取到145043份政策文本,經(jīng)過剔除明顯非政策文本的政策新聞、政策解釋等內(nèi)容,最后得到131390份政策全文本,總字數(shù)為305648206,政策文本具體的分布情況如表1所示。為了確保所獲取數(shù)據(jù)的全面性,在獲取國家級數(shù)據(jù)的基礎(chǔ)上,也獲取了省級的政策數(shù)據(jù),但部分省級數(shù)據(jù)公開度有待提高,所以,在具體獲取到的數(shù)據(jù)量上各個省份存在差異,具體如表2所示。
表1 數(shù)據(jù)基本信息表
表2 政策文本發(fā)布機構(gòu)分布表
通過對抓取數(shù)據(jù)的分析,本研究發(fā)現(xiàn)少量數(shù)據(jù)存在非法字符、字符中夾帶內(nèi)容標簽(如【一圖讀懂】【問答解讀】等)以及文本中存在大量空白、換行等問題。對于上述數(shù)據(jù)存在的問題,本研究的具體操作和處理如下:針對數(shù)據(jù)中存在的非法字符,搜集所有非法字符的類別,替換去除;對于字符中夾帶的內(nèi)容標簽,將標簽連同內(nèi)容一并去除;對于文本中存在大量空白、換行的問題,遍歷文本內(nèi)容替換去除;對于存在大量html標簽的文本,觀察發(fā)現(xiàn)該類文本通常存在內(nèi)容缺失,利用Python正則表達式甄別出該類數(shù)據(jù)并剔除。數(shù)據(jù)預(yù)處理示例如表3所示。
表3 數(shù)據(jù)預(yù)處理示例
當前,預(yù)訓(xùn)練技術(shù)已成為自然語言處理領(lǐng)域的標志性技術(shù),并且極大地提升了自然語言處理任務(wù)的性能。面對不同的任務(wù),通過微調(diào)已有基礎(chǔ)預(yù)訓(xùn)練模型而不是從頭訓(xùn)練已經(jīng)成為一種共識。通過遷移預(yù)訓(xùn)練模型并進行微調(diào),可有效地從大量標記以及未標記的數(shù)據(jù)中獲取領(lǐng)域特征知識。針對中文政策文本,本研究以BERT-base-Chinese和Chinese-Ro‐BERTa-wwm-ext兩個中文預(yù)訓(xùn)練模型為基線,基于MLM和WWM任務(wù)進行預(yù)訓(xùn)練,得到了被命名為ChpoBERT-mlm、ChpoRoBERTa-mlm、ChpoBERT-wwm和ChpoRoBERTa-wwm的中文政策預(yù)訓(xùn)練模型,其中Chpo為Chinese policy的簡稱,同時ChpoBERT系列模型全部在Github進行了開源,鏈接為https://github.com/S-T-Full-Text-Knowledge-Min‐ing/ChpoBERT。
(1)BERT-base-Chinese
BERT是2018年由Google AI研究院發(fā)布的一種預(yù)訓(xùn)練模型,在自然語言處理的各項下游任務(wù)上取得了優(yōu)異的成績,成為自然語言處理發(fā)展史上的一個里程碑。BERT設(shè)計了兩個任務(wù):一個是MLM,它用15%的概率隨機地對訓(xùn)練序列中的token用mask token([MASK])進行替換,然后預(yù)測[MASK]處原有的單詞;另一個是NSP(next sen‐tence prediction),用于預(yù)測兩個句子是否連在一起。在BERT的基礎(chǔ)上,谷歌還發(fā)布了一個多語言版本BERT-base-multilingual和一個中文版本BERT-base-Chinese。在繼續(xù)預(yù)訓(xùn)練階段使用中文語料數(shù)據(jù)的情形下,BERT-base-Chinese通常會有更好的效果。在文本內(nèi)容上,政策文本有其獨特的語言表述方式,例如,政策文本中會大量出現(xiàn)“請”“經(jīng)”“為”“各”等單字詞,且政策文本的行文邏輯較強,政策文本數(shù)據(jù)的這兩個特點正好對應(yīng)了BERT-base-Chinese的兩個任務(wù)。
(2)RoBERTa-wwm
在BERT基礎(chǔ)上的改進版RoBERTa模型能支持更大的模型參數(shù)量、更大的batch size(批處理量)、更多的訓(xùn)練數(shù)據(jù)。WWM與MLM的區(qū)別在于當一個詞的部分被MASK之后,整個詞都會被MASK。這是專門針對像中文這種語言文本而設(shè)計的任務(wù),因為在處理中文語料時,MLM只能MASK獨立的文本,而WWM會將被MASK的字的整個詞全部MASK。中文政策文本中除了大量出現(xiàn)的單字詞外,也存在中文政策文本特有的多字詞,如“關(guān)于”“根據(jù)”“務(wù)必”“通知”“批準”等,而WWM在處理多字詞方面有著更為突出的性能。針對同一個基準模型,利用MLM和WWM任務(wù)對語料庫進行預(yù)訓(xùn)練,對比不同任務(wù)下預(yù)訓(xùn)練模型的性能更有助于把握語料文本的特性及更合適的繼續(xù)預(yù)訓(xùn)練方式。
(3)ERNIE-Gram-zh
ERNIE(enhanced representation through knowl‐edge integration)是百度基于飛槳平臺研發(fā)的語義理解框架,其基于BERT模型做了進一步優(yōu)化,并且在中文的NLP任務(wù)上達到了較為突出的性能。ERNIE-Gram模型更進一步地提出顯示、完備的ngram掩碼語言模型,以實現(xiàn)顯示的n-gram語義單元知識建模。在語義理解能力上,ERNIE-Gram可以實現(xiàn)同時學習細粒度和粗粒度語義信息,能在預(yù)訓(xùn)練過程中實現(xiàn)單一位置多語義粒度層次預(yù)測和顯示的語義信號學習,并在中文任務(wù)的NLI、閱讀理解等語義理解任務(wù)上取得了較好的成績。針對前兩種模型基于token的掩碼方式,本研究增加了ERNIEGram-zh進行對照,以進一步驗證所預(yù)訓(xùn)練的中文政策文本模型的性能。
訓(xùn)練語料文本的每一行都包括兩列,分別是標題和內(nèi)容。本研究對國家級和省市級的文本內(nèi)容平均字數(shù)進行了統(tǒng)計,絕大多數(shù)政策文本的內(nèi)容遠遠大于512個字,所以在實驗前設(shè)置最大序列長度為512的基礎(chǔ)上去除了line by line參數(shù),將單個文本內(nèi)容混合多行處理,而不是每超過512個字符就另外算作一個文本內(nèi)容?;谒@取預(yù)訓(xùn)練政策文本的整體規(guī)模,為了取得較好的預(yù)訓(xùn)練學習效果,本研究將初始學習率設(shè)置為2e-5,進行5輪訓(xùn)練,根據(jù)服務(wù)器配置和模型限制,將train_batch_size設(shè)置為8和16?;谒@取預(yù)訓(xùn)練政策文本的整體數(shù)據(jù)規(guī)模和神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練過程中所需的整體算力,本研究采用高性能NVIDIA Tesla P40處理器來完成實驗。計算機配置如下:操作系統(tǒng)為CentOS 3.10.0;CPU為48顆Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz;內(nèi)存256GB;GPU為2塊NVIDIA Tesla P40;顯存24GB。模型預(yù)訓(xùn)練參數(shù)值如表4所示。
表4 預(yù)訓(xùn)練模型參數(shù)設(shè)置
本研究采用困惑度(perplexity)初步評價預(yù)訓(xùn)練模型的性能。在信息論中,perplexity被用于度量一個概率分布或概率模型預(yù)測樣本的好壞程度,被應(yīng)用到自然語言處理中,則可用于衡量語言概率模型的優(yōu)劣。相較于其他衡量方式,使用perplexity來度量更加直觀,在perplexity值相差較大的情況下,perplexity值越低,模型性能越好。具體計算公式為
其中,S表示句子;N表示句子長度;p(wi)是第i個詞的概率,而第一個詞的概率為p(w1|w0),w0是占位符,表示句子的起始。以sentence=“國務(wù)院關(guān)于同意在全面深化服務(wù)貿(mào)易創(chuàng)新發(fā)展試點地區(qū)暫時調(diào)整實施有關(guān)行政法規(guī)和國務(wù)院文件規(guī)定的批復(fù)國函”為例,p(w1|w0)表示sentence這句話以“國”字開頭的概率,同理p(w2|w1)表示該句在第一個字為“國”的條件下,第二個字為“務(wù)”的概率,由公式(1)可知,預(yù)測效果越好,則p的概率越大,per‐plexity值越小。本研究進行了MLM和WWM兩個任務(wù)在兩個模型上的預(yù)訓(xùn)練實驗,所得語言模型perplexity值如表5所示。
表5 預(yù)訓(xùn)練模型perplexity值
由表5可知,預(yù)訓(xùn)練模型和基準模型的perplex‐ity差值并不顯著。一般來說,perplexity值越小,模型越好。其中,ChpoBERT-mlm的perplexity小于基準模型,而ChpoBERT-wwm的perplexity值大于基準模型,初步判斷ChpoBERT-mlm的性能優(yōu)于ChpoB‐ERT-wwm。同樣地,ChpoRoBERTa-mlm的perplexi‐ty值小于基準模型,ChpoRoBERTa-wwm的perplexi‐ty大于基準模型,初步判斷ChpoRoBERTa-mlm的性能優(yōu)于ChpoRoBERTa-wwm。在微調(diào)階段,初步認為ChpoBERT-mlm和ChpoRoBERTa-mlm的效果要優(yōu)于基準模型,而ChpoBERT-wwm和ChpoRoBERTawwm的效果要遜于基準模型。
困惑度能夠在某種程度上反映預(yù)訓(xùn)練模型的效果,但為了進一步判斷預(yù)訓(xùn)練模型是否能夠更好地完成自然語言處理的相應(yīng)任務(wù),仍需對其進行更進一步的性能驗證實驗。結(jié)合所篩選、整理和加工的語料數(shù)據(jù),本研究設(shè)計了自動分詞、自動詞性標注和實體識別3個驗證實驗。
(1)自動分詞語料數(shù)據(jù)
自動分詞驗證語料數(shù)據(jù)集來源于南京農(nóng)業(yè)大學新時代人民日報分詞語料庫(http://corpus.njau.edu.cn/)[38],該語料庫由黃水清等基于2015年至2018年之間共9個月的《人民日報》數(shù)據(jù)構(gòu)建而成,在多項測評上,比北京大學計算語言研究所構(gòu)建的1988年人民日報分詞語料性能表現(xiàn)更為突出?;谠撜Z料庫,經(jīng)過人工多次和反復(fù)的篩選,從中選取與政策相關(guān)的文本共374篇,總字數(shù)為78311字,并按照9∶1劃分訓(xùn)練集和測試集。所選出來的驗證數(shù)據(jù)集完成了人工的分詞精加工,可以支撐對所構(gòu)建的預(yù)訓(xùn)練模型在自動分詞任務(wù)上的驗證,具體的分詞的政策文本樣例如表6所示。
表6 驗證數(shù)據(jù)樣例
(2)自動詞性標注語料數(shù)據(jù)
自動詞性標注驗證數(shù)據(jù)集來源于經(jīng)過詞性標注的北京大學人民日報語料,該語料由北京大學計算語言學研究所俞士汶等[39]基于《人民日報》1998年的純文本語料構(gòu)建,是我國第一個大型的現(xiàn)代漢語詞性標注語料庫?;谠~性標注語料庫,在人工精篩選的基礎(chǔ)上,獲取了445篇有關(guān)政策的語料文本,共計112028字。該語料以詞為單位切分并標注了詞性,按照9∶1劃分訓(xùn)練集和測試集。選出來的語料經(jīng)過人工詞性標注,在漢語自然語言處理領(lǐng)域具有權(quán)威性和標志性。具體的詞性標注的語料樣例如表6所示。
(3)實體識別語料數(shù)據(jù)
基于所獲取的政策文本,本研究選取了982篇用于標注實體,其中682篇為科技政策文本(共計902048字),300篇為其他領(lǐng)域的政策文本(共計1016346字),按照9∶1劃分訓(xùn)練集和測試集。在制定的實體標注規(guī)范的基礎(chǔ)上,基于“BIOES”標注集完成對所獲取政策文本中實體的人工標注,從而構(gòu)建中文政策預(yù)訓(xùn)練模型的驗證數(shù)據(jù)集。數(shù)據(jù)集中所標注的實體共有4類,分別為政策性質(zhì)、政策時間、適用區(qū)域和政策領(lǐng)域,具體的標注實體樣例如表6所示。
本研究的預(yù)訓(xùn)練模型驗證將結(jié)合混淆矩陣,對于詞匯的分詞、詞性的標注和實體的識別性能使用精確率P(precision)、召回率R(recall)、F1值(F1-score)指標進行評價。對于總體分詞、標注和識別性能,使用宏平均(macro-avg)和加權(quán)平均(weighted-avg)中的P、R、F1-score指標進行評價,混淆矩陣表如表7所示。具體計算公式為
表7 混淆矩陣表
同時,宏平均為所有類別的指標值的算數(shù)平均值,即宏精確率、宏召回率和宏F1值,具體計算公式為
同理,加權(quán)平均將樣本數(shù)量占樣本總數(shù)比例作為計算平均值的權(quán)重,指標為加權(quán)精確率、加權(quán)召回率和加權(quán)F1值,具體計算公式為
在自動分詞、詞性標注和實體識別的參數(shù)設(shè)置上,本研究將訓(xùn)練階段的batch size和測試階段的batch size均設(shè)為32,最大句長設(shè)為256,共訓(xùn)練3輪。為避免模型在訓(xùn)練初期因?qū)W習率過大而造成訓(xùn)練誤差加大,設(shè)置warmup_propotion為0.4。此外,本研究針對不同的下游任務(wù)測試了不同的學習率,使模型在下游任務(wù)中均獲得了較好的表現(xiàn)。
(1)詞匯分詞結(jié)果
分詞是自然語言處理領(lǐng)域的基礎(chǔ)任務(wù),對政策文本的精確分詞是挖掘政策文本知識內(nèi)涵的基礎(chǔ)。由表8可知,ChpoBERT系列模型在分詞任務(wù)上的表現(xiàn)相較于基準模型上均有一定程度的提升,除ChpoRoBERTa-wwm在分詞的召回率上略低于基準模型Chinese-RoBERTa-wwm-ext外,ChopBERT系列模型在全部3項指標上均超越了基準模型。在所有模型中,ChpoBERT-wwm在分詞任務(wù)上的準確率、召回率和調(diào)和平均值上表現(xiàn)均為最佳,分別為97.27%、97.60%和97.43%。ERNIE模型在7個模型中表現(xiàn)最差,分詞的準確率、召回率和調(diào)和值均低于其他模型。在分詞驗證任務(wù)中,原始BERT模型在準確率、召回率和調(diào)和平均值上均優(yōu)于原始Ro‐BERTa模型,而基于MLM和WWM任務(wù)繼續(xù)預(yù)訓(xùn)練的ChpoBERT-mlm和ChpoBERT-wwm在準確率、召回率和調(diào)和平均值上的表現(xiàn)也均優(yōu)于ChpoRo‐BERTa-mlm和ChpoRoBERTa-wwm。政策文本分詞驗證的結(jié)果如表8所示。
表8 政策文本分詞結(jié)果
(2)詞性標注結(jié)果
詞性標注是自然語言處理的基礎(chǔ)模塊,是句法分析、信息抽取等工作的基礎(chǔ)。語料中不同詞性的詞在數(shù)量上存在較大差異,導(dǎo)致整體宏平均值較低,因此,只以準確率、召回率、調(diào)和平均值的加權(quán)平均值作為詞性標注任務(wù)的評價指標。由表9可知,ChpoBERT系列模型在全部3項指標上均超越了基準模型,其中ChpoBRET-mlm在準確率上的加權(quán)平均值上表現(xiàn)最優(yōu),達到89.02%,比基準模型提升了1.14個百分點,ChpoRoBERTa-mlm在召回率與調(diào)和平均值上的加權(quán)平均值表現(xiàn)最優(yōu),分別為91.44%、90.12%,比基準模型提升了0.94個和1.09個百分點。ERNIE表現(xiàn)最差,與其他模型存在較大差距,準確率、召回率與調(diào)和平均值的加權(quán)平均值分別為84.05%、88.35%和85.95%。此外,Chpo‐BRET-mlm在詞性標注任務(wù)上的表現(xiàn)優(yōu)于Chpo‐BRET-wwm,ChpoRoBERTa-mlm在詞性標注任務(wù)上的表現(xiàn)同樣也優(yōu)于ChpoRoBERTa-wwm?;陬A(yù)訓(xùn)練模型的詞性標注結(jié)果比較如表9所示。
表9 基于預(yù)訓(xùn)練模型的詞性標注識別結(jié)果比較
(3)實體識別結(jié)果
實體識別作為自然語言處理的基礎(chǔ)任務(wù),能夠為信息檢索、關(guān)系抽取、知識問答系統(tǒng)等提供有效的實體知識支撐。為了進一步確認預(yù)訓(xùn)練模型的性能,本研究在政策文本預(yù)訓(xùn)練模型以及基準模型上,使用驗證數(shù)據(jù)集進行實體識別任務(wù)以進行比對,具體結(jié)果如表10所示。
表10 實體識別結(jié)果驗證
從實驗結(jié)果可以看出,ChpoBERT系列模型在實體識別效果上均高于其他3種模型。在宏平均上,ChpoBERT-wwm在準確率、召回率和F1值上表現(xiàn)最優(yōu),分別為77.41%、90.08%和82.43%,分別比基準模型BERT-base-Chinese提升了1.51個、2.39個和2.03個百分點。ChpoRoBERTa-mlm和ChpoRoBERTa-wwm在準確率、召回率和F1值上均優(yōu)于基準模型,與基準模型Chinese-RoBERTa-wwmext相比,ChpoRoBERTa-mlm在3項指標上分別提升了1.80個、1.66個和1.78個百分點,ChpoRoBERTawwm在3項指標上分別提升了1.66個、1.96個和1.75個百分點。ERNIE在所有模型中表現(xiàn)最差,準確率、召回率和F1值分別為69.90%、88.08%和77.02%。
在加權(quán)平均上,ChpoBERT-wwm在準確率、召回率和F1值上表現(xiàn)最優(yōu),分別為78.19%、91.84%和83.79%,比基準模型提升了1.47個、2.13個和1.86個百分點。ChpoRoBERTa-mlm和ChpoRoBERTa-wwm在準確率、召回率和F1值相較于基準模型Chinese-RoBERTa-wwm-ext均有一定的提升,ChpoRoBERTamlm在準確率、召回率和F1值上分別提升了1.75個、1.34個和1.66個百分點,ChpoRoBERTa-wwm在準確率、召回率和F1值上分別提升了1.02個、1.61個和1.33個百分點。ERNIE在所有模型中表現(xiàn)最差,準確率、召回率和F1值分別為71.62%、89.97%和78.94%。
首先,以BERT-base-Chinese和Chinese-RoBERTawwm-ext兩個中文預(yù)訓(xùn)練模型為基準模型,結(jié)合海量中文政策文本所構(gòu)建的ChpoBERT系列模型在困惑度上相較于基準模型,最優(yōu)的模型低了0.7924,表現(xiàn)出了較優(yōu)的性能。在自動分詞、詞性標注和實體識別的自然語言處理下游任務(wù)上,政策文本預(yù)訓(xùn)練模型也表現(xiàn)得較為突出。上述性能判定和驗證實驗結(jié)果表明,在政策文本的這一領(lǐng)域化數(shù)據(jù)上所構(gòu)建的預(yù)訓(xùn)練模型具有較強的應(yīng)用性。一方面,從人工智能大語言模型的角度,所構(gòu)建的預(yù)訓(xùn)練模型成為政策文本知識挖掘的基礎(chǔ)模型支撐資源,在一定程度上確保了政策文本領(lǐng)域展開領(lǐng)域化信息智能處理的可能性;另一方面,所構(gòu)建的預(yù)訓(xùn)練模型可以直接應(yīng)用于中文政策文本的自動分詞、詞性標注、實體識別、關(guān)鍵詞抽取和語義標注等自然語言處理的基礎(chǔ)任務(wù),同時也可以支撐政策文本的自動分類、自動聚類、智能信息檢索、智能知識推送和智能評估等應(yīng)用性探究。
其次,面向259個國家級、省級和市級等目標網(wǎng)站,所獲取的3億多字的中文政策文本不僅為相關(guān)研究者展開數(shù)據(jù)驅(qū)動下的政策全文本計量、內(nèi)容分析和文體風格等的研究提供了有力的數(shù)據(jù)支撐,而且為構(gòu)建中文政策預(yù)訓(xùn)練模型奠定了堅實的數(shù)據(jù)基礎(chǔ)。但目前所獲取的政策文本數(shù)據(jù)存在兩個方面的問題,一方面,目前通過網(wǎng)站所獲取的國家級、省級和市級政策文本是不全面的,并且缺乏對過去政策文本的搜集;另一方面,目前沒有獲取縣級以下的政策文本。上述數(shù)據(jù)缺失的問題導(dǎo)致了預(yù)訓(xùn)練模型的整體性能有待提升,這是因為在預(yù)訓(xùn)練模型構(gòu)建過程中數(shù)據(jù)量是基礎(chǔ)和關(guān)鍵。通過各種渠道和方法增加政策文本數(shù)據(jù)的總量是未來進一步提升政策預(yù)訓(xùn)練模型性能所需要重點強化的任務(wù)。
最后,通過選取精加工的經(jīng)過分詞和詞性標注的政策文本和精標注政策文本中的實體,本研究構(gòu)建了自動分詞、詞性標注和實體識別的數(shù)據(jù)集,并設(shè)計了相對應(yīng)的政策文本預(yù)訓(xùn)練模型的3個驗證實驗。從驗證結(jié)果來看,所構(gòu)建的預(yù)訓(xùn)練模型整體性能較為突出,這也說明了所構(gòu)建模型的領(lǐng)域適應(yīng)性和構(gòu)建領(lǐng)域預(yù)訓(xùn)練模型的必要性。但由于目前沒有公開的與政策文本相關(guān)的精加工數(shù)據(jù)集,本研究在有限的時間和人力基礎(chǔ)上所搜集和加工的驗證數(shù)據(jù)集存在數(shù)據(jù)規(guī)模小、精標注淺和覆蓋面窄等問題。上述問題在一定程度上影響了驗證所構(gòu)建政策預(yù)訓(xùn)練模型性能的完整性、精準性和全面性。在未來的研究中,擴大、拓展和增強驗證數(shù)據(jù)集的規(guī)模、深度和廣度是構(gòu)建政策預(yù)訓(xùn)練模型必須要完善的工作。
近年來,政策文本的智能信息處理是信息科學領(lǐng)域的研究熱點之一?;谥形恼呷谋菊Z料庫,本研究構(gòu)建了中文政策文本的預(yù)訓(xùn)練模型,一方面,通過困惑度指標對所構(gòu)建預(yù)訓(xùn)練模型進行了初步的性能判定;另一方面,通過對比預(yù)訓(xùn)練語言模型和基準模型在下游任務(wù)上的性能進一步驗證所構(gòu)建預(yù)訓(xùn)練模型的性能。研究結(jié)果表明,政策文本的預(yù)訓(xùn)練模型在自動分詞、詞性標注、實體識別上相較于基準模型取得了較優(yōu)的效果。誠然,本研究也存在不足之處,一方面,政策文本的數(shù)據(jù)量有待于擴大,特別是非網(wǎng)上的數(shù)據(jù);另一方面,驗證集的數(shù)量、類別和加工的精細度均有待于完善。因此,通過擴大政策文本的規(guī)模訓(xùn)練性能更加突出的預(yù)訓(xùn)練模型,同時結(jié)合不同主題的政策文本細化預(yù)訓(xùn)練模型是未來需要探究的內(nèi)容。