蔡天鴻 鄧 金 史國陽 朱 晉 懷麗波
(延邊大學計算機科學與技術(shù)學院智能信息處理研究室 吉林 延吉 133002)
個體人格與個人發(fā)展息息相關(guān),人格研究可以幫助人們達到美好的人生和成功的事業(yè)。在群體生活中,群體成員心理存在社會標準化傾向,對于外界事物的認知和判斷會發(fā)生類化,彼此互相影響,如流行于群體中的歌曲、衣著、飲食等在內(nèi)的習俗化表現(xiàn)。群體人格研究能夠讓人們從更多角度理解某群體的語言,包括一些獨特的想法、習慣、情感在內(nèi)的群體文化和群體人格,增強對某群體的理解和認識。
本文從特定模擬情境入手,記錄大學生群體在該條件下的文本語言表達,采用多種自然語言處理技術(shù)相結(jié)合的方法獲得該群體的人格分布。依據(jù)實驗所得到的結(jié)果了解學生的性格,可以因地制宜地教學,對改善學習效果、提高教學質(zhì)量等研究提供一定的參考價值。
美國心理學家茨霍恩最早提出情景模擬法。隨著人類社會的進步和發(fā)展,管理、教學等領(lǐng)域?qū)θ瞬诺男枨髽O大,將情景模擬測試運用到各個領(lǐng)域可以更有效地選拔人才。目前把情景測試法歸納為以下五種:公文處理、無領(lǐng)導的小組討論、角色扮演、起草公文、案例分析。情景模擬法具備趣味性濃、真實感強的優(yōu)勢,特別是在教學和人力資源管理方面運用得非常廣泛[1]。
隨著對情景模擬的了解越來越深,近年來,合理運用情景模擬法已經(jīng)逐漸成為很多領(lǐng)域不可缺少的一部分。如根據(jù)對突發(fā)性事件的應急場景的模擬,可以測試相關(guān)人員的合格程度[2];根據(jù)對急診搶救場景進行模擬,讓實習護士學會將理論知識應用于實際操作;將情景模擬教學與財務(wù)會計相結(jié)合,提高學生學習興趣和實踐操作能力[3]。情景模擬的應用還在不斷擴展中,本文將情景模擬應用進行拓展,用于大學生群體人物人格分析。
九型人格從古中亞開始發(fā)展,距今已有近兩千五百多年的歷史,在Naranjo、Hudson、David Daniels等來自不同國家的心理學研究學者的廣泛推廣下,九型人格逐漸走入現(xiàn)代心理學體系[4]。作為人格研究工具,RHETI量表是到目前為止九型人格領(lǐng)域使用最多、傳播最廣、影響力最大的量表,該量表被認定了充分的信度和效度,以及內(nèi)部的高度一致性[5]。近年來涉及九型人格的領(lǐng)域愈加廣泛,如醫(yī)療、教育、企業(yè)、人才培養(yǎng)等[6]。如2012年柴佳就給出了大學生教育中個體人格的分析對教育的影響[7],但涉及大學生群體性格研究的文獻相對較少。本文則采用機器學習分析群體人格,具有一定的研究意義。
文本表示如今普遍采用Salton等提出的向量空間模型。在這個模型中不必考慮文本中語義單元的順序,而是將文本簡化為一個BOW(Bag-of-Word),并表示為特征權(quán)重的向量。向量空間模型主要以詞作為特征,以詞頻矩陣為基礎(chǔ)計算權(quán)重[8]。常用的特征提取方法有文檔頻率、信息增益、互信息、卡方檢驗、期望交叉熵、TF-IDF方法和特征降維[9]?,F(xiàn)有的特征降維技術(shù)有PCA等,此外小波變換壓縮數(shù)字信號的特點也能用來進行特征提取[10]。
文本分類是基于內(nèi)容的文本信息挖掘的基本技術(shù)之一,目前常用的文本分類方法主要有樸素貝葉斯分類算法、決策樹分類算法、神經(jīng)網(wǎng)絡(luò)分類算法、K-最近鄰(KNN)分類算法、支持向量機(SVM)分類算法等。其中SVM算法分類器訓練時間長,而決策樹算法的效率也會因為數(shù)據(jù)量的增大而降低。而KNN算法在準確率和穩(wěn)定性方面均有優(yōu)勢,它不需要預先訓練模型,同時具有很好的魯棒性。
情景模擬方法具有一定的情境特征,是一種行為測試手段。情境模擬規(guī)則是模擬特定的情境,并在一定的情境壓力下對其進行評估。此外,由于許多人參與測評,可以為評價者提供條件的比較,使評價結(jié)果更加準確。情景模擬是在動態(tài)中考核,在動態(tài)評價中可以提高評價的真實性、有效性。
九型人格也被稱為人格型態(tài)學。在眾多的人格測試和劃分方法中,與其他人格分類法不同,九型人格揭示了人們內(nèi)在最深層的價值觀和注意力焦點,它不受外在行為的變化影響。按照一個人的核心焦點和深層的動機的不同,將人的人格劃分為九類:1號完美型、2號助人型、3號成就型、4號自我型、5號理智型、6號疑惑型、7號活躍型、8號領(lǐng)袖型、9號和平型[11]。2000年后九型人格作為一門理論,開始逐漸在企業(yè)管理、教育、精神治療等領(lǐng)域發(fā)揮作用。另外,機器學習技術(shù)不斷發(fā)展成熟,將九型人格理論和機器學習相結(jié)合將成為可預見的事實。
在VSM模型中,單詞權(quán)重計算最為有效的實現(xiàn)方法是TF-IDF。它的計算公式如下:
W(ti,dj)=tf(ti,dj)×idf(ti,d)
(1)
式中:W(ti,dj)是特征項ti在文本dj的權(quán)重取值;tf(ti,dj)是特征項ti在文本dj中出現(xiàn)的頻率,用于計算該詞描述文檔內(nèi)容的能力;idf(ti,d)是特征項ti在文本集d中出現(xiàn)文本頻率數(shù)的反比,稱為反文檔頻率,用于計算該詞區(qū)分文檔的能力[12]。
PCA降維方法將高維的詞語特征-文檔空間轉(zhuǎn)換為一個低維度的正交矩陣,從中選擇最有辨別能力的特征。Wavelet是時間(空間)頻率的局部化分析,它通過伸縮平移運算對信號(函數(shù))逐步進行多尺度細化,最終達到高頻處時間細分,低頻處頻率細分,能自動適應時頻信號分析的要求,從而可聚焦到信號的任意細節(jié)。
KNN分類算法能夠確定待分類樣本與訓練樣本之間的相似程度,從而確定與待分類樣本距離最近的K個訓練樣本。其最關(guān)鍵的因素是相似性度量方法,最常采用的相似性度量方法是余弦距離,如下所示:
(2)
式中:X,Y代表兩個文檔表示向量。對于一個待分類文本,根據(jù)相似性度量函數(shù)從整個訓練集中找到與文本最相似的K(K是預先設(shè)定的一個整數(shù))個文本,然后根據(jù)K個近鄰文本所屬的類別給的候選類別評分。
本文以情景模擬法入手,利用文本分析方法對大學生群體人物性格進行群體人格判別,具體流程如圖1所示。
圖1 分析方法整體框架圖
首先需要得到有效的訓練樣本。讓100位志愿者登錄官網(wǎng)進行專業(yè)的九型人格測試,然后按志愿者人格類型分為九個小組,并讓每個小組內(nèi)的志愿者回答設(shè)定的情景模擬題,進而得到100個已經(jīng)標定好人格類型的文本樣本。
讀取100個模板文本樣本,去掉特殊符號和停頓詞等,剩余詞語為關(guān)鍵詞。為了減少計算量,本文利用TF-IDF特征提取方法對關(guān)鍵詞進行排序,選取TF-IDF值較大的詞作為類別關(guān)鍵詞,之后根據(jù)篩選好的類別關(guān)鍵詞構(gòu)建向量空間模型a。
逆向文件頻率(IDF)本質(zhì)上是對噪聲數(shù)據(jù)的加權(quán),本文中如果單純認為文本詞頻越小越有用、頻數(shù)越大越無用是片面的,需要加入其他算法對類別關(guān)鍵詞進行優(yōu)化。分別利用PCA特征提取方法和Wavelet特征提取方法對文本語言表達集進行特征提取,得到PCA空間b、Wavelet空間c。
分別對提取到的空間a、b、c使用KNN算法進行分類,測試時選取3×K個候選項,以3×K個候選項中出現(xiàn)次數(shù)最多的人格類型作為最終判別人格。
本文以“假如去一孤島只能帶三樣東西并闡述理由”作為情景模擬,共收集500位大學生志愿者的回答文本。選取100位志愿者,讓其在九型人格官方測試網(wǎng)站選取180題的測試選項進行測試,選取準確率較高的180題測試網(wǎng)站作為標準,且假定測試結(jié)果準確。
為了獲得較好的分類器,從最初獲得的100個樣本中隨機選取一定比例的訓練樣本和測試樣本進行實驗,實驗結(jié)果如表1和表2所示。
表1 實驗樣本個數(shù)為100時分類器的準確率
表2 訓練樣本數(shù)/測試樣本數(shù)為4/1時分類器的準確率
計算出分類器的準確率約在72.3%,該結(jié)果是在假定模板為絕對正確的前提下進行的,所以是相對結(jié)果。而180題測試的準確率約為75%,故實際準確率約為0.75×72.3%=54.2%,而常見的測評網(wǎng)站例如144題、80題、36題等準確率一般在50%左右[4]。本文方法與常規(guī)測評準確率接近,可以作為人格測評的依據(jù)。前100個標定樣本的分布圖如圖2所示??梢钥闯觯撼?型人格,其他八類人格在訓練樣本中分布差別不大,這能有效地縮小分類誤差。
圖2 100個標記樣本群體人格類型分布
1) 在參數(shù)已設(shè)定好的情況下對其余400個未標定的文本話語進行了人格分類,人格分類結(jié)果如圖3所示??梢钥闯觯谡w中九種人格所占比例分別為:1型占3%,2型占9%,3型占45%,4型占17%,5型占6%,6型占4%,7型占8%,8型占4%,9型占4%。其中:所占比例最高的為3型人格,幾乎占到整體的一半;所占比例最低的為1型人格,僅僅只占整體的3%。
圖3 未標定的400樣本對應群體人格類型分布
2) 500個數(shù)據(jù)樣本總分布圖如圖4所示??梢钥闯?,在整體中九種人格所占比例分別為:1型占4%,2型占9%,3型占40%,4型占17%,5型占7%,6型占5%,7型占8%,8型占5%,9型占5%。其中:所占比例最高人格類型為3型(成就型)人格;所占比例最低的為1型(完美型)人格。由此可以發(fā)現(xiàn),這一群體的主流人格為成就型人格。成就型人格的主要特征是在擁有強烈的好奇心,同時喜歡與人比較,將成就作為衡量自己價值高低的媒介。不僅如此,擁有該人格的人物自信、積極進取、具有接受挑戰(zhàn)的欲望。上述特質(zhì)和實驗研究群體即當代大學生的積極、向上的主流思想特點相吻合,基于TF-IDF方法的文本人物群體人格分析方法是可行且合理的。
圖4 500個樣本對應群體人格類型分布
針對日益增長的人物群體人格分析的需求,本文提出了一種基于TF-IDF方法的文本人物群體人格分析的方法。實驗表明,該方法不但能極大地縮短了預測人格的時間,而且具有相當大的可信度。本文提出的文本人物群體人格分析則能在短時間內(nèi)高效地獲取學生人格分析結(jié)果,真正做到因材施教。下一步需做的工作有如何進一步提高分類器可信度以及引入人物的動作神態(tài)指標等。