徐德義 林志恒 張康康
[摘 要]針對(duì)在校大學(xué)生等特殊群體的思想動(dòng)向的快速調(diào)查,本文基于詞頻分析技術(shù),設(shè)計(jì)了關(guān)鍵詞特征向量調(diào)查方法。給出了關(guān)鍵詞特征向量等相關(guān)定義,并設(shè)計(jì)了共性特征向量和帶約束的共性特征向量提取方法。用實(shí)例驗(yàn)證了方法的有效性,指出了該方法的適用范圍和應(yīng)注意的問(wèn)題。
[關(guān)鍵詞]關(guān)鍵詞向量;共性特征向量;迭代擴(kuò)張法;快速調(diào)查
[中圖分類號(hào)] G64 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2095-3437(2018)10-0077-05
如何快速獲取經(jīng)濟(jì)類近百名新生的思想動(dòng)態(tài)?他們最關(guān)心的問(wèn)題是什么?他們中有沒(méi)有意外心理問(wèn)題發(fā)生?這些問(wèn)題是學(xué)生輔導(dǎo)員等學(xué)生工作者常常面臨的問(wèn)題。在新的學(xué)期開始時(shí)、學(xué)生即將畢業(yè)時(shí)、新的重大事件發(fā)生時(shí)都會(huì)有獲取學(xué)生思想動(dòng)態(tài)的需要。車間管理員、保險(xiǎn)業(yè)務(wù)經(jīng)理等也經(jīng)常面臨類似的問(wèn)題。被動(dòng)的做法是等事件發(fā)生了再去補(bǔ)救,這樣不僅成本高,而且效果差。主動(dòng)式做法是事先了解動(dòng)向,正確引導(dǎo),防患于未然。通常了解動(dòng)向的方法有兩種:一是找代表談話以獲取相關(guān)信息;二是做問(wèn)卷調(diào)查獲取相關(guān)信息。然而這兩種獲取信息的方法都有明顯的局限性。第一種方法是統(tǒng)計(jì)學(xué)中的抽樣調(diào)查法,該方法獲取總體的信息的好壞不僅與樣本容量有關(guān),而且與樣本質(zhì)量有關(guān)。第二種方法涉及復(fù)雜的問(wèn)卷設(shè)計(jì),并且可能由于問(wèn)題選項(xiàng)設(shè)計(jì)局限會(huì)將重要的特殊信息排斥在外。這兩種常見(jiàn)方法的共同局限性是獲取信息的時(shí)間長(zhǎng),實(shí)施難度大。特別是,大數(shù)據(jù)的突出特點(diǎn),也是大數(shù)據(jù)統(tǒng)計(jì)區(qū)別于傳統(tǒng)統(tǒng)計(jì)的一個(gè)重要方面是“不是抽樣,而是全體”[1]。有鑒于此,我們基于詞頻分析技術(shù)設(shè)計(jì)了關(guān)鍵詞向量調(diào)查法。
一、關(guān)鍵詞向量調(diào)查法
言為心聲,語(yǔ)言是信息的重要載體。從語(yǔ)言或文字中獲取信息是機(jī)器學(xué)習(xí)(Machine Learning, ML)[2][3]、人工智能(Artificial Intelligence, AL) [4][5]的熱點(diǎn)研究對(duì)象,語(yǔ)言或文字也是大數(shù)據(jù)(Big Data) [6][7][8]中的重要數(shù)據(jù)形式。統(tǒng)計(jì)學(xué)是關(guān)于數(shù)據(jù)的科學(xué),其研究對(duì)象是數(shù)據(jù)。文字也是統(tǒng)計(jì)學(xué)中的數(shù)據(jù)形式,為了方便起見(jiàn)我們將調(diào)查、觀測(cè)等統(tǒng)計(jì)過(guò)程中的文字記錄稱為文字?jǐn)?shù)據(jù)(Verbal Data)。一篇期刊論文往往需要列出3~5個(gè)關(guān)鍵詞(Key Words),其作用是方便檢索。從另一方面看,期刊論文的關(guān)鍵詞也有分類的作用,它們將該論文歸列到具有由關(guān)鍵詞概括的共同特征的一類文章中。然而,論文作者也一定會(huì)列舉體現(xiàn)該論文的創(chuàng)新性和特殊性的關(guān)鍵詞,這些關(guān)鍵詞起到了文章標(biāo)簽的作用。由此看,期刊論文的關(guān)鍵詞既標(biāo)示了論文的共性,也標(biāo)示了論文的特性。如果我們能獲取被調(diào)查對(duì)象在某一情景下“心中的關(guān)鍵詞”不就可以總結(jié)出調(diào)查群體的共性和捕捉個(gè)體的特性嗎?
設(shè)G是被調(diào)查的群體,該群體有n個(gè)成員。我們?cè)O(shè)計(jì)的關(guān)鍵詞調(diào)查法包含四個(gè)步驟,(1)為調(diào)查目的設(shè)置一個(gè)情景(Scenario);(2)采集每個(gè)成員的關(guān)鍵詞向量,構(gòu)成關(guān)鍵詞向量集;(3)從關(guān)鍵詞向量集中提取特征向量(Keyword Character Vector, KCV);(4)特征向量的校驗(yàn)及應(yīng)用。
(一)情景設(shè)置
情景設(shè)置的目的是使得被調(diào)研的群體中的每個(gè)個(gè)體寫出來(lái)的關(guān)鍵詞能夠較好地反映調(diào)查的主題。因此,從某種程度上說(shuō),情景設(shè)置是一種心理暗示[9]。情景可以以文字形式描述,也可以口頭表述。比如,設(shè)計(jì)調(diào)查新入學(xué)的大學(xué)生的思想動(dòng)態(tài),則可以要求學(xué)生按順序?qū)懗鲎约航谙氲米疃嗟氖?,?0個(gè)關(guān)鍵詞形式給出。情景設(shè)置很重要,所獲得的關(guān)鍵詞向量數(shù)據(jù)集中能否提取出達(dá)到調(diào)查目的的特征向量與情景設(shè)置密切相關(guān)。換句話說(shuō),情景與目的是對(duì)應(yīng)的,即便相同的調(diào)研對(duì)象,設(shè)置的情景不同所得到的關(guān)鍵詞向量集是不一樣的,可用G(S, n)表示,其中S表示情景。當(dāng)不強(qiáng)調(diào)被調(diào)查對(duì)象的個(gè)數(shù)n或情景S時(shí),G(S, n)也可簡(jiǎn)寫為G(S)或G。
(二)關(guān)鍵詞向量采集
關(guān)鍵詞向量的采集可以是現(xiàn)場(chǎng)進(jìn)行,也可以在指定時(shí)間在網(wǎng)絡(luò)上填寫并提交。為保證不同對(duì)象所提供的關(guān)鍵詞向量間的一致性,需要盡量讓受調(diào)研對(duì)象被置同一情景中。設(shè)第i個(gè)調(diào)研對(duì)象提供的順序關(guān)鍵詞向量為 Vi=(v1(i), v2(i),… ,vm(i))。其中vk(i)是第i個(gè)被調(diào)研對(duì)象的第k個(gè)關(guān)鍵詞。為了方便,在不至于引起混淆的情況下我們也用Vi表示其分量組成的集合Vi={v1(i), v2(i),… ,vm(i)}。m是每個(gè)被調(diào)研對(duì)象提供的關(guān)鍵詞的個(gè)數(shù),通常要求每個(gè)被調(diào)研對(duì)象提供的關(guān)鍵詞的個(gè)數(shù)是相同的。在實(shí)際應(yīng)用中,少數(shù)被調(diào)研對(duì)象提供的關(guān)鍵詞個(gè)數(shù)與要求的不一致對(duì)結(jié)果的影響不大。全部關(guān)鍵詞向量組成的集合稱為關(guān)鍵詞向量集,記為
或者在不引起混淆的情況下用同一符號(hào)表示各分量組成的集合,稱為關(guān)鍵詞集,即
(三)特征向量的提取
假設(shè):關(guān)鍵詞向量集是被調(diào)研群體的在指定主題情景下的真實(shí)反應(yīng)的關(guān)鍵詞形式的記錄;被調(diào)研群體的個(gè)體間的關(guān)鍵詞詞匯量(語(yǔ)料庫(kù))沒(méi)有區(qū)別;在相同情景下被調(diào)研個(gè)體間的心理狀態(tài)沒(méi)有區(qū)別。
顯然,以上假設(shè)只有被調(diào)研的對(duì)象在年齡、文化水平、心理素質(zhì)、專業(yè)、職業(yè)等因素差別不大時(shí)才適用。比如同一學(xué)校的同一年級(jí)的學(xué)生、部隊(duì)中同一個(gè)班的戰(zhàn)士、同一個(gè)車間的工人等。
1.共性特征向量的提取
設(shè)在情景S下獲得了關(guān)鍵詞向量集G(S, n)。從任意一個(gè)關(guān)鍵詞向量Vi開始,將其分量集合(關(guān)鍵詞集合)逐一加進(jìn)其他被調(diào)研對(duì)象的關(guān)鍵詞集合,進(jìn)行詞頻統(tǒng)計(jì)。設(shè)累計(jì)統(tǒng)計(jì)的對(duì)象個(gè)數(shù)為M(1≤M≤n),如果存在某個(gè)正整數(shù)N,當(dāng)M足夠大時(shí),詞頻數(shù)最高的前N個(gè)關(guān)鍵詞穩(wěn)定不變,則稱這前N個(gè)關(guān)鍵詞組成的向量為G在情景S下的共性特征向量(Universality Character Vector, UCV),也可以簡(jiǎn)稱為共性向量(Universality Vector, UV)。由關(guān)鍵詞提取出的共性特征向量稱之為關(guān)鍵詞共性特征向量,記為W = (w1, w2, …, wN)。注,此處的特征向量與線性代數(shù)中的特征向量(Eigen Vector)含義不一樣。
文獻(xiàn)計(jì)量學(xué)中常常需要提取文獻(xiàn)中頻數(shù)高的詞條[10-19],如果將提取出的高頻詞條作成的向量稱為高頻詞向量,則本文中的共性特征向量與高頻詞向量既有聯(lián)系又有區(qū)別。如果共性特征向量存在,則共性特征向量的分量必須是頻率高的;一般情況下高頻詞向量總是存在的,但從定義來(lái)看,共性特征向量不一定存在,即使共性特征向量存在,它所包含的關(guān)鍵詞個(gè)數(shù)與高頻詞向量所包含的詞條數(shù)不一定相同。再實(shí)際應(yīng)用中,共性特征向量的存在性不容易檢驗(yàn),但被調(diào)研群體中的被調(diào)研對(duì)象往往是有限的,如果共性特征向量存在,則一定可以提取出來(lái),且其分量是高頻詞,因此我們可以借鑒文獻(xiàn)計(jì)量學(xué)中的方法提取高頻詞向量,并按一定的準(zhǔn)則將高頻詞向量或其部分向量作為共性特征向量。
此處定義的特征向量是只與情景S有關(guān)的被調(diào)研群體中大多數(shù)人關(guān)心的問(wèn)題,關(guān)心的程度可以用
來(lái)表示, 稱為W的G(S, n)的集中度(The focusing of W on G)。其中,f(wi)是wi的頻數(shù),文中提到的詞頻分析就是基于詞條出現(xiàn)頻數(shù)的分析,這種方法的最有名的應(yīng)用是通過(guò)詞頻挖掘大詞條數(shù)據(jù)集中的關(guān)聯(lián)法則[20]。||G||是G中元素的個(gè)數(shù)(此處為n×m)。從定義不難看出集中度是被調(diào)研對(duì)象共同關(guān)心對(duì)象的代表性的一種體現(xiàn),既然如此,分母中頻數(shù)為1的詞條可以去掉。去掉的是個(gè)性,保留的是共性。那么修正后的集中度
反映的是W描述的G的共性的集中程度。
顯然,0 ≤ f(W) ≤ 1,如果規(guī)定W中每個(gè)詞條的頻率不小于2,則同樣有0≤ f *(W)≤1。f或f *越接近于1說(shuō)明由W提出的G共性越集中。很顯然集中度與N有關(guān),對(duì)于給定的G,其關(guān)鍵詞特征向量一般情況下是不唯一的。事實(shí)上,按照上述定義,若W = (w1, w2, …, wN)是G的關(guān)鍵詞特征向量,則當(dāng)N1 我們可以將與特征向量至少有一個(gè)分量相同的關(guān)鍵詞向量的個(gè)數(shù)定義該特征向量對(duì)G的涵蓋率ρ(W)。 2.帶約束的共性特征向量的提取 在實(shí)際工作中,我們除了要了解整個(gè)調(diào)研群體的共性之外,往往還要了解群體中特殊子群體的情況。比如,入學(xué)新生中男生和女生思想動(dòng)態(tài)的差別,不同專業(yè)學(xué)生共同興趣點(diǎn)的差別,準(zhǔn)備考研究生的學(xué)生普遍關(guān)心的問(wèn)題,低收入人群中突出的思想動(dòng)態(tài),等等。用關(guān)鍵詞向量分析這些問(wèn)題關(guān)鍵在于能夠?qū)⑷后w劃分成特殊的子群體,然后提取子群體的特征信息,這種問(wèn)題我們稱之為帶約束的特征向量的提取。為處理這樣的問(wèn)題我們提出了三種方法。 第一種方法是預(yù)置分類變量法。在情景設(shè)置中事先設(shè)置分類變量,如根據(jù)調(diào)查目的不同,讓受調(diào)研者提供性別、專業(yè)(或班號(hào))、薪金數(shù)量等信息,用這些信息當(dāng)作分類變量將G分成相應(yīng)的子集,然后提取各子集的特征向量用作分析。比如,用性別信息將G(S, n)分成G女和G男,分別提取它們的共性特征向量UV(G女)和UV(G男)。這些特征向量除了可以直接用在實(shí)際分析中,也可以用在兩個(gè)特殊子群體比較分析中,還可以將它們看成集合,作集合的各種運(yùn)算,用以揭示更深層次的特征。比如,UV(G女)和UV(G男)的交UV(G女)∩UV(G男)表現(xiàn)的是男生和女生的共同共性;UV(G女)-[UV(G女)∩ UV(G男)]表示的是女生區(qū)別于男生的特有共性等。 第二種方法是先驗(yàn)特征向量法。首先根據(jù)經(jīng)驗(yàn)設(shè)置特殊調(diào)研目的的特征向量,或在關(guān)鍵詞向量集中提取特殊調(diào)研目的的特征向量;然后用該特征向量識(shí)別調(diào)研群體中的對(duì)象組成特征向量集的子集;最后提取該子集的特征向量用作分析。這種方法類似于多元統(tǒng)計(jì)分析中的判別分析,先獲取分類特征向量,再將被調(diào)研群體的每個(gè)對(duì)象與獲得的特征向量進(jìn)行比較,將滿足一定相似程度的對(duì)象歸為該特殊群體組,再進(jìn)行特征向量提取分析。 上述提到的根據(jù)經(jīng)驗(yàn)設(shè)置的特殊調(diào)查目的的特征向量可以稱之為先驗(yàn)特征向量(Priori Character Vector, PCV),先驗(yàn)特征向量可以是以往相同主題和場(chǎng)景調(diào)研所獲得的特征向量。 第三種方法是迭代擴(kuò)張法。關(guān)于在關(guān)鍵詞向量集中提取特殊調(diào)研目的的特征向量我們?cè)O(shè)計(jì)了一個(gè)迭代擴(kuò)張法( Iterative Expansion Method, IEM )。 該方法是根據(jù)調(diào)研的目的,首先選取種子關(guān)鍵詞集G0,提取G中包含G0的所有關(guān)鍵詞向量組成集合的特征向量CV1;用CV1代替G0,提取G中包含CV1的所有關(guān)鍵詞向量組成集合的特征向量CV2;如此迭代,當(dāng)本次提取的關(guān)鍵詞特征向量CVk等于CVk-1時(shí)終止迭代,CVk即為所求的特征向量。 種子關(guān)鍵詞集,可以選取一個(gè)或多個(gè)最能體現(xiàn)特殊調(diào)研目的的關(guān)鍵詞組成。比如我們的調(diào)查對(duì)象是大學(xué)二年級(jí)初經(jīng)濟(jì)學(xué)專業(yè)大學(xué)生中準(zhǔn)備考研究生的學(xué)生們的思想動(dòng)態(tài),根據(jù)經(jīng)驗(yàn)一般考研學(xué)生都比較注重高數(shù)(高等數(shù)學(xué))和英語(yǔ)的學(xué)習(xí),他們通常會(huì)將高數(shù)和英語(yǔ)列為關(guān)鍵詞,故而,我們可以設(shè)置G0={高數(shù),英語(yǔ)}。當(dāng)然,可以設(shè)G0={考研}。 迭代擴(kuò)張算法為: Step1:設(shè)置種子關(guān)鍵詞集G0。令s=1,CVs=G0。 Step2:將CVs與G中每個(gè)Vi進(jìn)行比較,令t=1,將包含CVs的Vi的分量組成Gt Gt={vk(i) | Vi=(v1(i), v2(i),… ,vm(i))[?]CVs, k=1, 2, …, m} Step3:提取Gt的共性特征向量CVs+1,顯然CVs+1[?]CVs,Gt [?]Gt-1。 Step4:令s=s+1,t=t+1,重復(fù)Step2和Step3得 G[?]…[?]CVs+1[?]CVs[?]…[?]CV1=G0 (6)
Step5:如果CVs+1≠CVs返回Step4;如果CVs+1=CVs,則結(jié)束迭代,CVs+1即為所求特征向量。
迭代過(guò)程使得特征向量集不斷擴(kuò)大,構(gòu)成了單調(diào)上升有上界的序列(6)。G是有限集時(shí),該迭代擴(kuò)張算法顯然是收斂的,因?yàn)镃Vs+1不能超過(guò)G;G是無(wú)限集時(shí),根據(jù)單調(diào)上升有上界必有極限的原理同樣得到該算法收斂。
(四)特征向量的校驗(yàn)
因?yàn)樘卣飨蛄渴且帽M可能少的關(guān)鍵詞概括盡可能多的被調(diào)研群體的共性,因此關(guān)鍵詞向量所包含的關(guān)鍵詞的個(gè)數(shù)和關(guān)鍵詞向量的集中度之間要取得平衡。被調(diào)查群體越大獲得的特征向量越穩(wěn)定,并且群體中部分對(duì)象中所提取的特征向量隨著部分?jǐn)?shù)的增加而趨近于整個(gè)群體的特征向量。不過(guò),由于文字?jǐn)?shù)據(jù)沒(méi)有順序性(order)和可加性(additivity),上述“趨近于”不能簡(jiǎn)單地理解為通常的極限。顯然特征向量越穩(wěn)定越好,我們可以借用Bootstrap思想[21]對(duì)特征向量的穩(wěn)定性進(jìn)行校驗(yàn)。
為此,我們給出兩個(gè)有限集合的匹配度的定義。設(shè)集合A和B的元素個(gè)數(shù)||A||= nA,||B||=nB。定義A和B的匹配度為
[r(A,B)=A∩B2nAnB] (7)
顯然,[0≤r(A,B)≤1,且r(A,B)=1?A=B]。
1.特征向量穩(wěn)定性校驗(yàn)
設(shè)W是G的特征向量,作G的子集集合[GKGK?G;K=1,2…,M;GK=nik],作Gk的特征向量Wk,若
[r=1Mk=1Mr(W,Wk)] (8)
充分接近于1,則稱W是穩(wěn)定的。
實(shí)際應(yīng)用中子集所包含關(guān)鍵詞的個(gè)數(shù)[nik(k=1,2,…,M)]盡可能大,[nik]也可以取同一個(gè)值。Gk不必互斥?!皉充分接近于1”可以根據(jù)經(jīng)驗(yàn)判斷,如果可以得到r的經(jīng)驗(yàn)分布,則可以構(gòu)造統(tǒng)計(jì)量進(jìn)行假設(shè)檢驗(yàn)。
2.關(guān)鍵詞向量長(zhǎng)度的校驗(yàn)。
在關(guān)鍵詞向量調(diào)研中,所采集的關(guān)鍵詞向量的長(zhǎng)度也是需要考量的問(wèn)題。采集的是被調(diào)查對(duì)象的最關(guān)心問(wèn)題,當(dāng)被調(diào)研對(duì)象提供最關(guān)心問(wèn)題的關(guān)鍵詞向量時(shí)往往是越關(guān)心的就越靠前。因而,要求提供關(guān)鍵詞向量時(shí)不必需要向量太長(zhǎng);在提取特征向量時(shí)也不必用整個(gè)向量,而是只要用前面的部分分量就可以,這樣不至于使得提取出的特征向量對(duì)調(diào)研對(duì)象的集中度過(guò)低。當(dāng)然,有可能越往后提供的關(guān)鍵詞有可能是心里更深處所關(guān)心的問(wèn)題,也可能是更長(zhǎng)遠(yuǎn)的問(wèn)題,這方面與分量順序有關(guān)的深層次問(wèn)題本文暫不考慮。
設(shè)G的特征向量為W,[G[k]]是G中每個(gè)向量的前k個(gè)分量組成的關(guān)鍵詞集,其特征向量為CV[k],若存在某個(gè)k0,使得r(W,CV[k0])充分接近于1,則稱k0是關(guān)鍵詞特征向量的充分長(zhǎng)度。
二、新生思想動(dòng)態(tài)調(diào)查
今年國(guó)慶節(jié)之后,新生軍訓(xùn)剛剛結(jié)束,在給經(jīng)濟(jì)專業(yè)新生和統(tǒng)計(jì)專業(yè)新生上專業(yè)導(dǎo)論課的第一節(jié)課上課之前,給每位學(xué)生分發(fā)一樣白紙,告訴每學(xué)生在5分鐘之內(nèi)用20個(gè)詞語(yǔ)寫出自己目前最關(guān)心的、想得最多的事物,不需要提供個(gè)人任何信息。
(一)數(shù)據(jù)描述
經(jīng)濟(jì)學(xué)專業(yè)86人,統(tǒng)計(jì)專業(yè)26人,共收得問(wèn)卷112份,其中少數(shù)人沒(méi)有寫滿20個(gè)詞,共得記錄2181個(gè)。另有少數(shù)學(xué)生提供的關(guān)鍵詞是語(yǔ)句而不是一個(gè)詞,我們用R的斷詞函數(shù)進(jìn)行了處理,共得3398個(gè)詞。根據(jù)中文停詞表對(duì)處理后的詞進(jìn)行整理,最終得到1224個(gè)關(guān)鍵詞。基于詞頻的關(guān)鍵詞向量分析過(guò)程均用R語(yǔ)言編程實(shí)現(xiàn)。圖1為關(guān)鍵詞云圖。
我們對(duì)關(guān)鍵詞集作了頻數(shù)統(tǒng)計(jì),如表1所示。
(二)共性特征向量的提取
根據(jù)共性特征向量的定義和表1頻數(shù)的分布 ,對(duì)比樣本量為50、60、80、90、100、112的前14個(gè)高頻詞,結(jié)果如表2所示。
根據(jù)表2的結(jié)果和特征向量的穩(wěn)定性、確定特征向量的充分長(zhǎng)度兩種方法對(duì)特征向量的校驗(yàn),得到頻數(shù)為前8的關(guān)鍵詞可作為共性特征向量,如(9)式所示。
E={高數(shù) 學(xué)習(xí) 英語(yǔ) 健康 朋友 睡覺(jué) 作業(yè) 成績(jī)} (9)
E的集中度為0.176,涵蓋率達(dá)到了79.46%。其中,各關(guān)鍵詞出現(xiàn)的頻數(shù)如表3所示。所得的共性特征向量體現(xiàn)出來(lái)的新生思想動(dòng)態(tài)是健康向上的,為進(jìn)步和今后的工作而努力學(xué)習(xí)成為學(xué)生中的主流,這會(huì)推動(dòng)良好氛圍的形成?!芭笥选背蔀楣残蕴卣飨蛄康年P(guān)鍵詞說(shuō)明新入校的大學(xué)生感情方面的需求悄然凸顯,正確引導(dǎo)必不可少?!八X(jué)”成為特征關(guān)鍵詞是個(gè)意外。事后進(jìn)一步調(diào)查才知道,入校1個(gè)月以來(lái)學(xué)生們不僅經(jīng)歷大強(qiáng)度的軍事訓(xùn)練,而且?guī)缀鯖](méi)間斷地參加各種各樣的集體活動(dòng),并且同寢室同學(xué)間“臥談”盛行,每天早晨還要參加集體早鍛煉,這些使得同學(xué)們普遍睡眠嚴(yán)重不足,渴望睡覺(jué)。睡覺(jué)問(wèn)題非常突出,學(xué)生輔導(dǎo)員等學(xué)生工作者應(yīng)重視這一問(wèn)題。
為了了解有考研意向?qū)W生的思想狀態(tài),根據(jù)數(shù)據(jù)集中的特征,以{考研}、{保研}和{研究生}為種子關(guān)鍵詞,根據(jù)本文提出的迭代擴(kuò)張法計(jì)算,每次循環(huán)所提取的共性特征向量依據(jù)共性特征向量的提取方法,樣本量分別選取篩選Gt的2/3、4/5和全樣本,每次選取前14個(gè)高頻詞集比對(duì),結(jié)果如(10-14)式所示。
CV4={高數(shù) 學(xué)習(xí) 英語(yǔ)}= CV3 (13)
經(jīng)過(guò)3次迭代算法收斂,得到準(zhǔn)備考研究生的同學(xué)的共性特征向量如(15)式所示。
E研={高數(shù) 英語(yǔ) 學(xué)習(xí)} (14)
考研共性特征向量看起來(lái)很正常,其實(shí)其中隱藏著高等教育中長(zhǎng)期存在的弊端,那就是“目的性太強(qiáng)”。對(duì)于考研究生的學(xué)生而言,考研不應(yīng)該是全部,不能為了考研而輕視了綜合素質(zhì)的培養(yǎng),更不能忽視應(yīng)承擔(dān)的社會(huì)責(zé)任。
三、討論
從應(yīng)用實(shí)例看,本文提出的基于詞頻分析的關(guān)鍵詞向量調(diào)查方法具有快速高效的特點(diǎn),適用于對(duì)大學(xué)生群體等生活環(huán)境相同、文化水平相當(dāng)?shù)娜后w進(jìn)行實(shí)時(shí)快速調(diào)查,群體越大效率越高,效果也會(huì)越好。關(guān)鍵詞特征向量的提取需要的是計(jì)算機(jī)文字處理與分析技術(shù),R語(yǔ)言可以很方便地實(shí)現(xiàn)相關(guān)功能。采集到的關(guān)鍵詞向量集不僅僅可以做本文所提出的特征向量的提取,還可以進(jìn)行深度數(shù)據(jù)挖掘,比如關(guān)聯(lián)分析[20]等。
我們將關(guān)鍵詞集G(S, n)中低頻的關(guān)鍵詞組成的向量或集合稱為G的個(gè)性特征向量(Individuality Character Vector, ICV)。個(gè)性特征向量的分析是要針對(duì)具體的對(duì)象,雖然不能代表總體的共性特征,也不一定會(huì)引起學(xué)生輔導(dǎo)員等學(xué)生工作者的關(guān)注,但個(gè)性特征向量在某一方面的集聚代表著潛在問(wèn)題的存在,需要格外重視,防患于未然。在特征向量調(diào)查法中,個(gè)性特征向量應(yīng)該被高度重視,它是對(duì)共性特征向量的重要補(bǔ)充,本文不在此展開討論。
由于文字?jǐn)?shù)據(jù)不具備可加性,傳統(tǒng)的數(shù)學(xué)和統(tǒng)計(jì)方法的應(yīng)用受到局限,甚至像本文中提到的收斂等概念不能用實(shí)空間中極限理論定義,但這并不影響特征向量的提取,更不影響其應(yīng)用。
文字?jǐn)?shù)據(jù)另一方面具有模糊性和多解性,因此特征向量的提取之前進(jìn)行文字預(yù)處理是必需的,文字預(yù)處理可以用到模糊理論和方法甚至人工智能技術(shù)。如果將受調(diào)研的對(duì)象可以選擇的全部關(guān)鍵詞組成的集合稱為關(guān)鍵詞支撐集,那么理論上看不加限制的關(guān)鍵詞支撐集是無(wú)限的、開放的,為了使得特征向量的收斂性質(zhì)更好,在實(shí)際應(yīng)用中可以對(duì)支撐集加以限制。比如,我們?cè)趯?duì)新生進(jìn)行調(diào)研時(shí)發(fā)現(xiàn)兩個(gè)字的關(guān)鍵詞占41.3%,如果限制關(guān)鍵詞全是兩個(gè)字的則會(huì)提高共性特征向量的集中度,損失的信息在可接受的范圍之內(nèi)。如果根據(jù)以往的調(diào)研數(shù)據(jù),制作一個(gè)備選關(guān)鍵詞集合(可以足夠大),讓被調(diào)研者在該集合中勾選關(guān)鍵詞,這時(shí)候支撐集是有限的、封閉的,文字本身的模糊性就消除了,得到的關(guān)鍵詞集就是AGRAWAL他們用的詞條集[20]。有限支撐集對(duì)共性特征向量的影響比個(gè)性特征向量大。本文僅對(duì)學(xué)生群體做了關(guān)鍵詞特征向量的分析試驗(yàn),其他的群體甚至其他語(yǔ)言的關(guān)鍵詞的分析必定有特別之處,另外本文提出的方法還有許多需要完善的地方,這些工作有待今后逐步完成。
[ 參 考 文 獻(xiàn) ]
[1] MAYER-SCH?NBERGER V.CUKIER K.Big data:A Revolution that will transform how we live, work and think [M].Houghton Mifflin Harcourt Publishing Company,2013.
[2] 何清,李寧,羅文娟,等.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模擬識(shí)別與人工智能,2014(4):327-336.
[3] 蘇金樹,張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006(9):1848-1859.
[4] 馬玉慧,柏茂林,周政.智慧教育時(shí)代我國(guó)人工智能教育應(yīng)用的發(fā)展路徑探究[J].電化教育研究,2017(3):123-128.
[5] 閆志明,唐夏,夏秦旋,等.教育人工智能(EAI)的內(nèi)涵、關(guān)鍵技術(shù)與應(yīng)用趨勢(shì)[J].遠(yuǎn)程教育雜志,2017(1):26-35.
[6] 程學(xué)旗,靳小龍,王元卓等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014(9):1889-1908.
[7] 邱東.大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014(1):16-22.
[8] 張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計(jì)算機(jī)研究與發(fā)展,2013(S2):216-233.
[9] 管鑫雨.情境性詞匯教學(xué)的研究分析[J].教育現(xiàn)代化,2016(27):146-150.
[10] 邱均平,丁敬達(dá),周春雷.1999—2008年我國(guó)圖書館學(xué)研究的實(shí)證分析(上) [J].中國(guó)圖書館學(xué)報(bào),2009(35):72-79.
[11] 邱均平,丁敬達(dá).1999—2008年我國(guó)圖書館學(xué)研究的實(shí)證分析(下) [J].中國(guó)圖書館學(xué)報(bào),2009(35):79-118.
[12] 傅柱,王曰芬.共詞分析中術(shù)語(yǔ)收集階段的若干問(wèn)題研究[J].情報(bào)學(xué)報(bào),2016(35):704-713.
[13] 張寶生,祁曉婷.我國(guó)政府公共關(guān)系研究的演進(jìn)路徑及熱點(diǎn)主題的可視化分析[J].圖書情報(bào)工作,2017(61):122-126.
[14] WANG ZY,LI G,LI A,et al.Research in the semantic-based co-word analysis[J].Scientometrucs,2012,90(3):855-875.
[15] 魏瑞斌.基于關(guān)鍵詞的情報(bào)學(xué)研究主題分析[J].情報(bào)科學(xué),2006,24(9):1400-1404.
[16] DONOHUE J C.Understanding Scientific Literatures:A Bibliometric Approach[M].Cambridge:The MIT Press,1973:49-50.
[17] 劉敏娟,張學(xué)福,顏蘊(yùn).基于詞頻、詞量、累積詞頻占比的共詞分析詞集范圍選取方法研究[J].圖書情報(bào)工作,2016(23):135-142.
[18] ZHANG S, LIU C X, CHANG Y.Selection research of keywords in co-word clustered based on the G-index of word frequency[J].Modern Educational Technology,2013,23(10):54-57.
[19] 楊愛(ài)青,馬秀峰,張風(fēng)燕,等.g指數(shù)在共詞分析主題詞選取中的應(yīng)用研究[J].情報(bào)雜志,2012(2):52-55.(YANG AQ,MA XF,ZHANG FY,et al.Application research of g-index in the topic words of co-word analysis[J].Journal of Intelligence,2012,31(2):52-55.)
[20] AGRAWAL R,IMIELINSKI T,SWAMI A.Mining Association Rules between Sets of Items in Large Databases[J].ACM SIGMOD Record,1993,22(2):207-216.
[21] BRADLEY E.Bootstrap methods:another look at the jackknife [J].The Annals of Statistics,1979,7(1):1-26.
[責(zé)任編輯:王 品]