楊雪寒, 焦瑋, 張倩, 孟潔
(河北醫(yī)科大學(xué)第三醫(yī)院, 河北 石家莊 050051)
互聯(lián)網(wǎng)中許多社交平臺(tái)和評(píng)論社區(qū)為公眾提供了大量自由表達(dá)意見(jiàn)的平臺(tái),這導(dǎo)致與醫(yī)院相關(guān)的公眾意見(jiàn)或評(píng)論的數(shù)據(jù)集十分龐大,通過(guò)研究這些公眾意見(jiàn),可以分析公眾對(duì)醫(yī)患關(guān)系、醫(yī)療事故爭(zhēng)議等與醫(yī)院相關(guān)事件的主觀態(tài)度和情感取向,從而為取得輿論導(dǎo)向主動(dòng)權(quán)提供科學(xué)的數(shù)據(jù)支撐[1-3]。因此,開(kāi)展針對(duì)醫(yī)院輿論的文本挖掘和情感分析具有重要的現(xiàn)實(shí)意義。為此,本文提出了附加特征、奇異值分解(SVD)[4]和主成分分析(PCA)[5]的情感文本挖掘方法,實(shí)現(xiàn)提高分析準(zhǔn)確性并減少文本挖掘的時(shí)間,并基于詞干設(shè)計(jì)了五個(gè)具有不同功能的模塊實(shí)驗(yàn),以比較性能并探索哪些因素會(huì)影響性能分類精度。本研究的目標(biāo)如下:1)提出一種基于附加特征方法的情感文本挖掘方法,以提高情感評(píng)論大數(shù)據(jù)分析的分類準(zhǔn)確性;2)提出一種特征提取算法,以提高情感分類的準(zhǔn)確性;3)利用有效的SVD和PCA文本挖掘方法來(lái)減少數(shù)據(jù)維數(shù),提高情感分類效率。
情感分類的目標(biāo)是將文檔、文本或評(píng)論分類為已標(biāo)記的情感類別(例如正面、負(fù)面、快樂(lè)、悲傷等)。情感分類中最具挑戰(zhàn)性的工作是如何提高分類結(jié)果的準(zhǔn)確性。許多因素會(huì)影響分析,例如不同的數(shù)據(jù)預(yù)處理方法、情感分類(文檔或句子)的級(jí)別、所提取各種文本特征、特征詞典以及不同的機(jī)器學(xué)習(xí)方法。已有研究表明不同的特征選擇方法,例如詞語(yǔ)組合、雙字、詞性(POS)標(biāo)記[6]、帶有POS標(biāo)記的n-gram序列[7]和詞語(yǔ)頻率-反向文檔頻率(TF-IDF)[8]等,會(huì)導(dǎo)致情感分類結(jié)果的不同。為此,本文將實(shí)驗(yàn)擴(kuò)展到其他特征上以提高準(zhǔn)確性,并結(jié)合SVD和PCA方法來(lái)減小特征維度、縮短文本分類的時(shí)間。此外,本研究利用詞干設(shè)計(jì)了五個(gè)具有不同功能的模塊實(shí)驗(yàn),以比較其性能并發(fā)現(xiàn)影響分類器準(zhǔn)確性的因素。
本研究所提出的情感文本挖掘方法的過(guò)程,如圖1所示。
首先,將收集的數(shù)據(jù)集用于情感分類;然后,采用R統(tǒng)計(jì)的標(biāo)記化,去除的停用詞和POS標(biāo)記的預(yù)處理步驟;隨后,定義和提取特征,包括TF-IDF、每個(gè)文檔的情感分?jǐn)?shù)、正負(fù)頻率以及形容詞和副詞的數(shù)量,之后,應(yīng)用分類算法訓(xùn)練和預(yù)測(cè)數(shù)據(jù);最后,評(píng)估分類結(jié)果。
圖1 情感文本分類方法
下面結(jié)合所收集的數(shù)據(jù)集對(duì)上述方法中五個(gè)主要步驟展開(kāi)闡述以展示該方法的詳細(xì)過(guò)程。
步驟1,數(shù)據(jù)集收集。所搜集的一個(gè)數(shù)據(jù)集是基于使用Python程序從微博平臺(tái)中所爬取的數(shù)據(jù)組成了針對(duì)疫苗的用戶評(píng)論數(shù)據(jù)集。該數(shù)據(jù)集由WEB文檔組成,包括1 000條正面評(píng)論和1 000條負(fù)面評(píng)論。本研究使用Excel VBA(Microsoft)程序?qū)λ廊〉腤EB文檔進(jìn)行導(dǎo)入處理,形成帶有標(biāo)簽的Excel格式的情感文檔。
步驟2,數(shù)據(jù)預(yù)處理。通常從網(wǎng)絡(luò)收集的數(shù)據(jù)包含噪聲。在實(shí)施各種機(jī)器學(xué)習(xí)方法之前,始終需要通過(guò)以下五個(gè)步驟來(lái)處理所收集的數(shù)據(jù):標(biāo)記化、停用詞刪除、詞干與詞性標(biāo)記(POS標(biāo)記)、特征提取和表現(xiàn)[9-10]。標(biāo)記化的目的是刪除文本中的標(biāo)點(diǎn)符號(hào)。這些標(biāo)記對(duì)分類算法的準(zhǔn)確性沒(méi)有幫助。停用詞是在文章中經(jīng)常使用的詞,即“在”、“也”、“的”、“它”、“為”等。這些詞會(huì)降低分類結(jié)果的準(zhǔn)確性。詞干將單詞還原為詞根形式,而忽略單詞的POS。POS標(biāo)記是用于識(shí)別文本中單個(gè)文字的詞性不同部分的過(guò)程。由于爬取數(shù)據(jù)經(jīng)常涉及噪聲,因此需要進(jìn)行特征提取以幫助獲得相關(guān)信息。此步驟使用了兩個(gè)稱為RTextTools和openNLP的R語(yǔ)言包來(lái)處理POS[11]。特征提取將在下面詳細(xì)討論。除了特征提取之外,特征選擇也是影響分析結(jié)果重要的一步。
表1 特征說(shuō)明
此步驟將所有文檔轉(zhuǎn)換為T(mén)F-IDF矩陣權(quán)重,同時(shí)讓正負(fù)頻率形成另一個(gè)特征集。接下來(lái),利用POS標(biāo)記對(duì)形容詞和副詞的數(shù)量進(jìn)行計(jì)數(shù),并添加附加特征。TF-IDF參數(shù),如表2所示。特征提取算法,如表3所示。
步驟4,縮減TF-IDF矩陣維度。由于TF-IDF矩陣是具有許多零元素的大型稀疏矩陣,因此分析該矩陣需要耗費(fèi)大量計(jì)算時(shí)間。因此,本研究采用SVD和PCA相結(jié)合的方法縮減矩陣維度。特征提取后,將預(yù)處理的矩陣用作SVD輸入。將SVD技術(shù)用于分解TF-IDF矩陣,使得接近零的值轉(zhuǎn)
表2 TF-IDF算法參數(shù)說(shuō)明
表3 特征提取算法
換為零。然后,應(yīng)用PCA技術(shù)處理縮小后的矩陣,以進(jìn)一步縮小矩陣維度。PCA的輸出,如表4所示。
表4 PCA降維算法的輸出
以本研究從微博等社交平臺(tái)所收集的疫苗評(píng)論數(shù)據(jù)集為例,經(jīng)過(guò)降維處理后,TF-IDF矩陣維度從2 000×46 467縮減至2 000×2 000。
步驟5,應(yīng)用四個(gè)分類算法訓(xùn)練處理后的數(shù)據(jù)集以實(shí)現(xiàn)對(duì)文本的分類,對(duì)數(shù)據(jù)集進(jìn)行分類。所使用的四個(gè)分類算法包括樸素貝葉斯分類算法(NB)[12]、最大熵分類算法(ME)[13]、SVM[14]和隨機(jī)森林(RF)[15]分類算法。在本研究中,四個(gè)分類器的所有參數(shù)設(shè)置為默認(rèn)值,并使用10次隨機(jī)采樣和10倍交叉驗(yàn)證來(lái)驗(yàn)證準(zhǔn)確性。詳細(xì)說(shuō)明和參數(shù)設(shè)置,如表5所示。
步驟6,準(zhǔn)確度評(píng)估分類算法的性能。使用分類混淆矩陣計(jì)算準(zhǔn)確度,如表6所示。
以對(duì)帶有正負(fù)標(biāo)簽的文檔級(jí)情感進(jìn)行分類。因?yàn)楸狙芯克婕暗膶?shí)驗(yàn)數(shù)據(jù)集具有明顯的正面和負(fù)面情緒評(píng)論,所以本研究基于混淆矩陣使用來(lái)計(jì)算分類結(jié)果的準(zhǔn)確度,如式(1)。
(1)
基于提出的算法,本研究收集了針對(duì)疫苗的公眾評(píng)論數(shù)據(jù)集,并利用不同的實(shí)驗(yàn)?zāi)K進(jìn)行了實(shí)驗(yàn),并將結(jié)果與列表方法進(jìn)行了比較。數(shù)據(jù)集從微博等社交平臺(tái)收集的評(píng)論文本。實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)屬性,如表7所示。
對(duì)醫(yī)院來(lái)說(shuō),人才是立院之本、發(fā)展之基。齊魯醫(yī)院副院長(zhǎng)陳玉國(guó)表示,通過(guò)三年住培,培養(yǎng)出了基本功扎實(shí)、達(dá)到主治醫(yī)師水平的臨床醫(yī)師,為醫(yī)院提供了真正“好用”的臨床醫(yī)師,縮短了用人單位與醫(yī)師的“磨合期”,充實(shí)與壯大了醫(yī)院醫(yī)療力量,為醫(yī)院的人才梯隊(duì)建設(shè)和學(xué)科發(fā)展提供了優(yōu)良儲(chǔ)備,也為醫(yī)療服務(wù)質(zhì)量提供了根本和長(zhǎng)遠(yuǎn)保障?!白鳛槌袚?dān)住培任務(wù)的基地醫(yī)院,教學(xué)相長(zhǎng)使其保有優(yōu)良的教學(xué)氛圍,提升醫(yī)院帶教醫(yī)師的能力水平,獲得可持續(xù)發(fā)展、追求卓越的強(qiáng)勁動(dòng)力。”
基于TF-IDF的不同參數(shù)設(shè)置和是否進(jìn)行詞干提取,設(shè)計(jì)了五個(gè)實(shí)驗(yàn)?zāi)K,并采用列表方法對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行比較,討論了哪些因素會(huì)影響分類算法的準(zhǔn)確性,如表8所示。
表5 分類算法的參數(shù)設(shè)置
表6 情感分類的混淆矩陣
表7 實(shí)驗(yàn)數(shù)據(jù)集的屬性
表8 實(shí)驗(yàn)?zāi)K
實(shí)驗(yàn)在提出的算法的第2步和第3步之后,從特征集中一共提取了46 467個(gè)特征。為了測(cè)試不同設(shè)置的效果,將SVD和 PCA相結(jié)合方法與列出的方法進(jìn)行比較。實(shí)驗(yàn)采用十次隨機(jī)采樣和十倍交叉測(cè)試方法以驗(yàn)證算法性能,如表9、表10所示。
表9 不降維的實(shí)驗(yàn)結(jié)果
表10 降維的實(shí)驗(yàn)結(jié)果
如表9顯示,就五個(gè)分類算法的平均準(zhǔn)確性而言,所建議的具有附加特征的方法要比不具有附加特征的方法更好。在準(zhǔn)確性方面,SVM和最大熵分類算法優(yōu)于其他分類算法。表10顯示了在沒(méi)有詞干的情況下,模塊1和模塊4在縮小和不縮小矩陣大小之間的比較結(jié)果??傮w而言,在帶有和不帶有矩陣大小縮減的情況,所提出的具有附加特征的方法要比沒(méi)有附加特征的方法性能更好。在大多數(shù)設(shè)置中,SVM和最大熵分類算法更為準(zhǔn)確。
5個(gè)分類算法的總實(shí)現(xiàn)時(shí)間,在五個(gè)模塊中,除了模塊5以外,4個(gè)模塊可以減少運(yùn)行時(shí)間。因此,為該方法中添加附加特征和矩陣降維是可行的,如表11所示。
表11 五個(gè)分類算法的運(yùn)行時(shí)間
基于上述實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)。
1) 從表9可以看出,在特征提取方面,所提出的方法在模塊1和模塊4上表現(xiàn)最優(yōu)。模塊4在所有實(shí)驗(yàn)中均獲得最高的準(zhǔn)確度,并且特征數(shù)量減少到9.4%(4 366/46 467否)。表11的數(shù)據(jù)表明,在本實(shí)驗(yàn)中的詞干特征的分類效果不明顯。
2) 從表9和圖2可以看出,將附加特征組合到特征集中后,可以提高分類性能,尤其是使用帶有徑向基函數(shù)的SVM算法時(shí)。
3) 從表10可以看出,采用附加特征和SVD、PCA相結(jié)合的矩陣降維方法可以增強(qiáng)情感分類的性能。此外基于表11的數(shù)據(jù)可知,采用附加特征和SVD、PCA相結(jié)合的矩陣降維方法后算法的運(yùn)行效率較好,因此該方法具有良好的可行性,如圖2所示。
圖2 附加特征對(duì)不同模塊的影響
隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的普及,互聯(lián)網(wǎng)人口覆蓋率越來(lái)越高,互聯(lián)網(wǎng)已經(jīng)成為人們生活,工作和學(xué)習(xí)的不可或缺的組成部分。因此通過(guò)對(duì)網(wǎng)絡(luò)評(píng)論進(jìn)行情感分析,把握公眾對(duì)醫(yī)院焦點(diǎn)事件的心里態(tài)度和行動(dòng)趨勢(shì),對(duì)醫(yī)院相關(guān)部門(mén)了解輿論動(dòng)態(tài)和政府相關(guān)部門(mén)控制輿論導(dǎo)向都具有現(xiàn)實(shí)意義。為此本研究提出了一種通過(guò)附加特征方法來(lái)提高網(wǎng)絡(luò)文本情感趨向分類準(zhǔn)確性,并采用SVD和PCA結(jié)合的方法則縮短情感文本挖掘中的實(shí)現(xiàn)時(shí)間。附加特征包括正面和負(fù)面形容詞和副詞的頻率。針對(duì)兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集的測(cè)試結(jié)果表明,所提出的方法比其他方法具有更高的精度,并且添加附加特征可以提高分類精度。此外,實(shí)驗(yàn)數(shù)據(jù)表明,相對(duì)于本實(shí)驗(yàn)中的其他算法,SVM和最大熵分類算法被證明是實(shí)現(xiàn)情感文本分類的更好選擇。將來(lái),本研究從以下兩個(gè)方面繼續(xù)進(jìn)行深入探討:1)從使用特定于領(lǐng)域的詞典來(lái)查找或過(guò)濾特征、為特征分配不同的權(quán)重、考慮文字和文檔之間的關(guān)系三個(gè)方面優(yōu)化特征選擇,以提高分類準(zhǔn)確性;2)將該方法應(yīng)用于醫(yī)院聲譽(yù)監(jiān)控和患者情感檢測(cè)等不同的應(yīng)用領(lǐng)域。