徐木子 倪可欣 廖瑜蕾
(湖北經(jīng)濟學院,湖北 武漢 430205)
心理學分析研究由心理醫(yī)生西格蒙德·弗洛伊德提出。他在人格結(jié)構(gòu)的意識形態(tài)中提出了三個發(fā)展階段-“自我”,“本我”,“超我”。Sigmund Freud根據(jù)自己的研究,將人格劃分為8類。該理論被應用于醫(yī)療領域,用以治療患有精神疾病的患者。之后,其他科學家和學者也對性格進行細分,這些理論構(gòu)成了性格分析測試的基礎,旨在找出測試者確切的性格類型。MBTI考試主要為企業(yè)提供就業(yè)指導,并且為測試人員提供了5點需要遵循的條例,如“回答問題的時候保持放松狀態(tài)”。由于測試者需要遵循這些,MBTI測試結(jié)果很容易受主觀因素影響。另一個名為Enneagram(九型人格)的測試模型與MBTI測試不同。該模型將人格分為“完美型”,“助人型”,“成就型”,“自我型”,“理智型”,“疑惑型”,“活躍性”,“領袖型”和“和平型”。它與其他模型相比突出的一點在于它深入到人們的思考模式而不僅是外部行為。此外,這個理論表明,當某些元素發(fā)生變化時,性格特征也會發(fā)生變化,從而建立了不同個性之間的關系。然而,經(jīng)過多次測試,該方法的準確性受到限制。三個主要原因可以解釋。一個是對于導師的依賴,一個是算法的缺陷,最后一個是測試問題的冗雜。與Enneagram(九型人格)測試模型相比,DISC測試減少了性格劃分的維度,并通過對數(shù)據(jù)進行數(shù)字化來區(qū)分最突出的特征與最不突出的特征。更多的測試中的問題數(shù)量是相當適度的。根據(jù)研究,發(fā)展成為成熟步驟的大多數(shù)性格測試旨在幫助個人選擇合適的工作和企業(yè)聘請合適的人員。雖然這些測試開始涵蓋其他領域,比如交友市場。在當代,互聯(lián)網(wǎng)成為了匹配朋友的新方式,打破了人們之間的距離界限,因此在市場上出現(xiàn)了大量的相關應用。盡管如此,這種應用極少考慮到用戶的性格特征,不利于用戶間長期的交往。這篇學術論文的目的是尋找性格分析和匹配的方式,為高校學生構(gòu)造一個良好的交友環(huán)境。此外,該方法還可以用于學校的小組學習,以盡量減少群體成員之間的潛在矛盾。
考慮到Enneagram(九型人格)測試的不足,我們決定減少性格的維度。基于DISC的理論,我們以多維尺度回歸的方法作為問卷設計基礎,設立二維坐標,將問卷中設定的性格信息數(shù)據(jù)化,以供后期匹配分析。其中一個評估人的主動性(更接近外向的個性或內(nèi)向的個性)另一個衡量人的靈活性(更傾向于穩(wěn)定的情況或變化的情況)。由于這兩個維度的測試以前已經(jīng)被測試過,我們主要對測試題目進行了改動。
我們基于二維模型將性格劃分為4種。開朗支持型人格被定義為“OS / SO”型,活潑機靈性被定義為 “OA / OA”型,沉靜穩(wěn)健型劃為 “IS / SI”型,冷靜思辨性則為 “IA / AI”型。
問卷中有15個問題。前14個是多項選擇題,每個問題包括四個選項。七個問題旨在衡量主動性的維度,而左側(cè)則用于測量靈活性的維度。每個選擇都反映每個人物的程度。為了使測試結(jié)果變得更加精確,每個問題都包括一個特定的情況。在Enneagram(九型人格)測試中,間隔表是評估性格的主要方式。然而,考慮到頻率副詞的劃分容易產(chǎn)生誤會,我們這里采用TF-IDF算法,把性格信息轉(zhuǎn)換為權(quán)重向量。此外,考慮到測試人員是大學生,這些問題的場景設計均為學生的日常生活。最后一個問題用于確認測試者的偏好性格。我們使用數(shù)字表來設計問題,可以簡化測量。在提交調(diào)查問卷之前,我們選取了自愿測試的三位學生,完成過后我們向周圍的學生詢問了相關問題,并將其與測試結(jié)果進行對比。在此基礎上,糾正了一些具有爭議的問題。
我們以多維尺度回歸作為問卷設計基礎,設立二維坐標,將問卷中設定的性格信息數(shù)據(jù)化,以供后期匹配分析。
(1)TF-IDF 算法的具體原理如下。
第一步,計算詞頻,即TF 權(quán)重(Term Frequency)。
詞頻(TF)=每個詞語在性格選擇中出現(xiàn)的頻率。
由于每個人對理想型性格的訴求不同,我們采取“標準化”詞頻的處理方式,以便不同文本的比較,將文本中單個研究關鍵詞除以文本中出現(xiàn)頻率最高的詞的出現(xiàn)頻數(shù)或者文本的詞數(shù)總體之和:
詞頻(TF)=問卷和調(diào)查中單個研究關鍵詞出現(xiàn)的次數(shù)/總詞數(shù)
第二步,計算ID權(quán)重,即逆文檔頻率(Inverse Document Frequency),需要建立一個語料庫(corpus),用來容納性格特征的選擇。逆文檔頻率(IDF)越高,那么這種性格選擇出現(xiàn)于問卷和調(diào)查中的分布就會越集中于一個點,說明這個描述詞在內(nèi)容屬性能力方面的區(qū)分能力越強。
第三步,計算 TF-IDF 值(Term Frequency Document Frequency)。
TF-IDF=詞頻(TF)× 逆文檔頻率(IDF)。
根據(jù)計算可以分析出 TF-IDF 值越高,則該表現(xiàn)性格特征的詞語在問卷和調(diào)查中出現(xiàn)的次數(shù)就越多(成正比)。反過來說,某個詞的出現(xiàn)頻率和被選擇的次數(shù)越多,則TF-IDF 值就越大。逐個算出被選擇和填的每個性格特征信息的 TF-IDF 值,并對這些值根據(jù)大小來排出順序,最大的值就是要提取的性格描述中出現(xiàn)的次數(shù)最多的關鍵詞。
(2)生成 TF-IDF 向量的具體步驟。
①用 TF-IDF 的計算公式,尋找被測試的人選擇和描述的性格特征頻率最高的五個描述詞。
②這些被選出的五個描述詞性格特征描述詞,組成一個共同的集合,并算出在集合中每個性格特征描述詞的詞頻。若是沒有,則記該詞詞頻為0,這個詞語被提及的次數(shù)越多,則這個詞頻的數(shù)值越大。
③根據(jù)公式算出各個性格特征詞的 TF-IDF 權(quán)重向量:
TF-IDF = 詞頻(TF)× 逆文檔頻率(IDF)
(3)數(shù)據(jù)統(tǒng)計。
①計算各個性格特征描述詞出現(xiàn)的總次數(shù),并通過比較大小單獨列出最熱門的五個性格特征描述詞。
②對各個年齡的理想型的性格進行分類計數(shù),通過排序得出不同年齡層對理想型性格要求排名前 5 的性格特征。
③對同類職位的理想型的性格進行分類計數(shù),通過排序得出不同類別職位的人對理想型性格要求排名前 5 的性格特征。
(4)聚類中心分類結(jié)果。
用TF-IDF算法最后選出五個性格描述詞后,借助 K-Means 分類可以得到聚類中心,運用KNN算法,得出與聚類中心相匹配的五個其余類別,并通過對出現(xiàn)頻數(shù)的估計,衡量聚類中心詞的范疇:
①算距離:確定聚類中心,算出范圍內(nèi)的性格描述詞與其自身的 TF-IDF 權(quán)重向量的距離。
②找鄰居:挑出最靠近聚類中心的十五個性格描述詞。
③做分類:依據(jù)分類的界限,對聚類中心進行分類。
我們在互聯(lián)網(wǎng)上發(fā)送了大約三百份問卷,并在湖北經(jīng)濟學院發(fā)了一百份。其中有五十份問卷不能使用由于答卷者含糊其辭。剔除掉無用數(shù)據(jù)后,我們獲取了一些有價值的信息。在分組和匹配過程中運用了四種方式。
(1)二維坐標軸。
二維坐標軸是DISC測試模型的理論,它通過二維尺度來評估性格。該方法的好處是可以直接通過數(shù)字反映性格。我們將每個選項代表的數(shù)字求和,根據(jù)具體數(shù)字進行評估。每個維度數(shù)據(jù)最大的反映了其性格。為了計算一般結(jié)果,將個人的數(shù)字加起來平均。同樣,將個人偏好性格的數(shù)字相加后再平均。找出每個人的偏好個性。根據(jù)結(jié)果,我們發(fā)現(xiàn),77.17%的人喜歡“IO”字。 此外,大約30%的組是“AO/OA”性格。
(2)多元回歸模型。
多元回歸分析方法是研究多個自變量與一個因變量間是否具有某種線性或非線性的關系的統(tǒng)計學研究方法,旨在分析多個自變量與因變量之間可能具有的數(shù)量關系,以便于分析自變量對于因變量的影響,達到優(yōu)良的預測效果。多元回歸模型的一般模型為:
Yi=β0+β1X1i+β2X2i+…+βkXki+μii=1,2,…,n
其中 k為解釋變量的數(shù)目,βj(j=1,2,…,k)稱為回歸系數(shù)。通過對自變量與因變量的研究, 發(fā)現(xiàn)二者具有線性關系,因此此次回歸模型歸結(jié)為多元性回歸。設y為應變量,X1,X2…Xk為自變量,多元回歸模型為:
Y=b0+b1x1+…+bkxk+e
其中b0為常數(shù)項,b1,b2…bk為回歸系數(shù)。
本文基于文獻回顧以及深入調(diào)查,選取了九個對于因變量有一定影響的因素,依次為活躍程度,規(guī)律性,應激反應,抗壓能力,計劃性,愛好廣泛程度和專注度。為測試這些變量與學生性格的關系,我們對于這些數(shù)據(jù)進行了處理。由于用變量的對數(shù)形式能更好的估計自變量與因變量的百分比變化,因此建立了對數(shù)模型加以分析:
Character=b0+b1x1+…+bkxk+e
將對于這九項指標的測試數(shù)據(jù)進行預處理后經(jīng)過計算,活躍程度和規(guī)律性的數(shù)值接近顯著值,因此選為主要變量。
(3)K-Means算法。
K-means(MacQueen,1967)是解決眾所周知的聚類問題的最簡單的無監(jiān)督學習算法之一。該過程遵循一種簡單的方式,通過先驗固定的一定數(shù)量的簇(假設有k個簇)來分類給定的數(shù)據(jù)集。主要思想是定義k個質(zhì)心,每個集群一個。由于不同的位置會導致不同的結(jié)果,這些質(zhì)心應該以靈活的方式放置。所以,更好的選擇是讓它們盡可能的遠離彼此。接下來的步驟是把屬于給定數(shù)據(jù)集的每個點和它關聯(lián)到最近的質(zhì)心。當沒有點需要處理時,第一步就完成了,并且早期進行了組合。在這一點上,我們需要重新計算k個新質(zhì)心作為上一步產(chǎn)生的聚類的重心。在制定出這些新的重心之后,必須在相同的數(shù)據(jù)集點和最近的新質(zhì)心之間進行新的測量。已經(jīng)生成了一個循環(huán)。作為這個循環(huán)的結(jié)果,我們可能會注意到,k個質(zhì)心一步一步地改變了它們的位置,直到?jīng)]有進行更多的改變。換句話說,重心不再移動了。最后,該算法旨在將目標函數(shù)最小化,在這種情況下是平方誤差函數(shù)。目標函數(shù):
該算法由以下步驟組成:
①將K點放入由聚類對象表示的空間中。這些點代表初始組質(zhì)心。
②將每個對象分配給具有最接近質(zhì)心的組。
③分配所有對象后,重新計算K個質(zhì)心的位置。
④重復步驟2和3,直到質(zhì)心不再移動。 這產(chǎn)生了將對象分離成可以計算要最小化的度量的組。
基于K-means的理論。數(shù)據(jù)被分為4個類別,因為K被設置為4.然后選擇作為組中項目的圓的質(zhì)心。重復這一步驟多次,重心固定下來了,代表了整個組群的水平。
(4)匹配方法。
歐幾里德度量是一種計算m維空間中兩點的實際距離的方法。在二維坐標軸上,可以用來測量點之間的距離。
ρ(A,B)=√[Σ(a [i] -b [i])^ 2](i = 1,2,…,n)
基于歐幾里德度量,我們測量測試人員的性格與偏好性格之間的距離。經(jīng)測量,距離范圍在0.5和2.7左右的(最大值為10),可以通過考慮圖來適應人物的匹配。定義我們通過特定數(shù)字知道的性格并將其設置為圓的中心,0.5和2.7分別代表最小和最大半徑。重疊部分是可能涵蓋偏好性格的區(qū)域。
本文介紹了分析和匹配個性的創(chuàng)新方式。根據(jù)前期計劃的理論,計算程序分為三個部分。我們通過“二維坐標軸”將問卷信息數(shù)字化,然后通過多維回歸模型測試出顯著性影響因素,運用K-means程序?qū)?shù)據(jù)分組為四組。最后,通過歐幾里德度量匹配組。根據(jù)測試結(jié)果,我們發(fā)現(xiàn)一些問題不能清楚地劃分性格,所以測試問題后期還需調(diào)整。總之,該方法可以用于匹配不同個性的學生。對于大學教育工作者,可以將學生分成不同的類別,以減少學生之間的不必要沖突,增加團隊的凝聚力。
[1] 羅石涌.敏感者的生命色彩——盧西安·弗洛伊德及其藝術的主觀解讀[J].美術大觀,2010,(3).
[2] 曹玉峰.論九型人格在企業(yè)人才招聘中的應用[J].人力資源管理,2012,(11).
[3] 李學明.基于信息增益與信息熵的TFIDF算法[J].計算機工程,2012,(8).
[4] 周愛武.一種改進的K—MEANS聚類算法[J].微型機與應用,2011,(21).
[5] 李濤.多元線性回歸與LOGISTIC回歸分析的正確應用[J].臨床薈萃,2009,(15).
[6] 施培蓓.初始化獨立的譜聚類算法[J].計算機工程與應用,2010,(25).