孫 艷,田麗梅
(渤海大學(xué) 圖書館,遼寧 錦州 121013)
基于多維尺度分析的輿情研究主題詞知識(shí)圖譜
孫 艷,田麗梅
(渤海大學(xué) 圖書館,遼寧 錦州 121013)
為了對(duì)輿情的研究現(xiàn)狀進(jìn)行客觀梳理,總結(jié)研究文獻(xiàn)內(nèi)在的聯(lián)系和科學(xué)結(jié)構(gòu),文中選取近5年來中國知網(wǎng)收錄的“中文核心期刊”和“CSSCI”相關(guān)研究文獻(xiàn)展開研究。首先,進(jìn)行前期數(shù)據(jù)準(zhǔn)備,包括準(zhǔn)備的步驟與方法及其相關(guān)的數(shù)學(xué)模型;然后,將相異系數(shù)矩陣輸入到SPSS中進(jìn)行多維尺度分析并繪制知識(shí)圖譜;最后,從維度定義和空間分布特點(diǎn)兩個(gè)方面對(duì)知識(shí)圖譜進(jìn)行分析。結(jié)果表明,當(dāng)前輿情研究主要集中于4個(gè)方向,輿情直接相關(guān)研究是重點(diǎn)與熱點(diǎn),媒體相關(guān)的研究領(lǐng)域也較活躍,但一些細(xì)分的研究方向成果比較分散。
多維尺度分析;輿情研究;主題詞;知識(shí)圖譜
(1)高頻主題詞統(tǒng)計(jì)排序。
對(duì)輿情研究主題詞知識(shí)圖譜進(jìn)行分析,必須選取具有代表性的研究文獻(xiàn)。文中選取近5年(2010-2014年)中國知網(wǎng)收錄的來源類別為“中文核心期刊”和“CSSCI”,包含“輿情”主題詞的文獻(xiàn)共計(jì)1 045篇,使用統(tǒng)計(jì)分析軟件統(tǒng)計(jì)這1 045篇文獻(xiàn)中出現(xiàn)的前40個(gè)高頻主題詞排序,如表1所示。
表1 40個(gè)高頻主題詞排序
(2)建立共詞矩陣。
共詞分析是一種比較成熟的內(nèi)容分析方法,原理是通過統(tǒng)計(jì)各主題詞在同一篇論文中共現(xiàn)的次數(shù),來分析這些詞所代表的主題和領(lǐng)域的結(jié)構(gòu)變化情況[6-7]。表1的詞頻統(tǒng)計(jì)不足以準(zhǔn)確描述“輿情”研究的熱點(diǎn)和變化,必須以高頻主題詞為基礎(chǔ),構(gòu)建共詞矩陣。共詞矩陣(Co-word matrix)是由兩兩主題詞共同出現(xiàn)次數(shù)構(gòu)成的矩陣。設(shè)有n個(gè)高頻主題詞,共詞矩陣R是一個(gè)n×n階矩陣,令rij表示第i個(gè)主題詞和第j個(gè)主題詞同時(shí)出現(xiàn)的次數(shù),共詞矩陣R表示如下[8]:
(1)
手工構(gòu)建共詞矩陣工作量大且不準(zhǔn)確,文中使用《書目共現(xiàn)分析系統(tǒng)》(BibliographicItemCo-OccurrenceMatrixBuilder,BICOMB)對(duì)表1的主題詞構(gòu)建40×40階的共詞矩陣,受文章篇幅所限,文中不列出實(shí)際的矩陣數(shù)據(jù)。
(3)數(shù)據(jù)標(biāo)準(zhǔn)化。
數(shù)據(jù)標(biāo)準(zhǔn)化(DataNormalization)是將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間,消除不同因素在量綱、量級(jí)上的差異,便于進(jìn)行比較和計(jì)算[9]。常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法包括Z得分、全距從-1到1、全距從0到1、1的最大量、均值為1、標(biāo)準(zhǔn)差為1等,文中選用“全距從0到1”。
第j列(因素)數(shù)據(jù)的平均值為:
(2)
數(shù)據(jù)均值化處理后的新序列為:
(3)
對(duì)數(shù)據(jù)均值化的結(jié)果進(jìn)行歸一化處理,用某一數(shù)值減去該行數(shù)據(jù)的最小值除以該行數(shù)據(jù)的最大值減去該行數(shù)據(jù)的最小值,計(jì)算公式如下:
(4)
經(jīng)過標(biāo)準(zhǔn)化處理后的數(shù)據(jù)矩陣為:
(5)
(4)建立相似系數(shù)矩陣。
相似系數(shù)矩陣(SimilarityCoefficientMatrix)由相似系數(shù)構(gòu)成,相似系數(shù)又稱皮爾遜相似系數(shù),描述了兩個(gè)定距變量間聯(lián)系的緊密程度[10]。主題詞i與主題詞j的相似系數(shù)為[11]:
(6)
(7)
(5)建立相異系數(shù)矩陣。
相異系數(shù)矩陣(DissimilarityCoefficientMatrix)根據(jù)相似系數(shù)矩陣求得。相異系數(shù)用dij表示。
“相異系數(shù)=1-相似系數(shù)”,即:
dij=1-sij
(8)
n個(gè)主題詞的相異系數(shù)矩陣表示為:
(9)
相異系數(shù)矩陣也是對(duì)稱矩陣,但對(duì)角元素的值為0。相異系數(shù)矩陣分析的基本原理是:矩陣中兩個(gè)主題詞之間的數(shù)據(jù)越接近1,表明這兩個(gè)主題詞之間的距離越大,相似度越?。环粗?,兩個(gè)主題詞之間的數(shù)據(jù)越接近0,表明這兩個(gè)主題詞之間的距離越小,相似度越大。限于文章篇幅,文中不列出40×40階的相異系數(shù)矩陣。
將相異系數(shù)矩陣輸入到SPSS中進(jìn)行多維尺度分析。度量標(biāo)準(zhǔn)采用區(qū)間方式的Euclidean距離,標(biāo)準(zhǔn)化選擇“全距從0到1”,S應(yīng)力收劍性、最小s應(yīng)力值和最大迭代次數(shù)均采用系統(tǒng)默認(rèn)值,輸出結(jié)果為組圖,包括派生的激勵(lì)配置圖、線性擬合的散點(diǎn)圖、非線性擬合的散點(diǎn)圖、轉(zhuǎn)換散點(diǎn)圖等[12-14]。通常使用派生的激勵(lì)配置圖作為知識(shí)圖譜使用,但該圖沒有標(biāo)明各維度的意義,沒有對(duì)主題詞的緊密程度進(jìn)行區(qū)域劃分。同時(shí),由于受坐標(biāo)尺度的影響,很多主題詞擁擠在一起,看起來極不清晰。在知識(shí)圖譜中,各個(gè)主題詞所處的位置用小圓圈表示,主題詞關(guān)系越緊密,它們所代表的圓圈間的距離越近。文中參考派生的激勵(lì)配置圖和SPSS輸出的激勵(lì)坐標(biāo)尺度,重新繪制輿情研究主題詞知識(shí)圖譜,將坐標(biāo)直接分為相等的四個(gè)象限并用不規(guī)則的實(shí)線框?qū)⒏鱾€(gè)領(lǐng)域區(qū)分開來,繪制結(jié)果如圖1所示。
圖1 輿情研究主題詞知識(shí)圖譜
進(jìn)行多維尺度分析時(shí),一般都想得到維度較少而擬合程度又高的分析結(jié)果。對(duì)多維尺度分析結(jié)果進(jìn)行解釋,主要從兩個(gè)方面[15]:一是對(duì)維度定義的解釋,二是對(duì)研究對(duì)象空間分布特點(diǎn)的解釋。
維度意義的解釋主要從各維度兩端研究對(duì)象的典型差異進(jìn)行分析。從圖1中可以看出,分布在橫向維度(維度1)左側(cè)的主題詞大多與輿情管理相關(guān),右端的主題詞大多與媒體相關(guān),因此將橫向維度的含義解釋為“管理-媒體”維度;分布在縱向維度(維度2)上端的主題詞大多與輿情直接相關(guān),下端的主題詞大多與研究方向相關(guān),因此將縱向維度的含義解釋為“輿情-方向”維度。
研究對(duì)象空間分布特點(diǎn)的解釋主要是為了分析研究對(duì)象在研究者所關(guān)心的屬性特點(diǎn)方面的規(guī)律性聯(lián)系。從圖1中可以看出,共分為4個(gè)研究領(lǐng)域和2個(gè)特殊領(lǐng)域。以第1象限為主、部分位于第2象限的輿情直接相關(guān)研究(領(lǐng)域1),具有較高的密度和向心度,各個(gè)主題詞與“輿情”之間的關(guān)系緊密,是目前國內(nèi)學(xué)者輿情研究中的重點(diǎn)與熱點(diǎn),與其他3個(gè)研究領(lǐng)域之間的聯(lián)系也很緊密;位于第2象限和第3象限的輿情管理(領(lǐng)域2)研究相對(duì)活躍,位于第2象限的“監(jiān)測、預(yù)警、監(jiān)管”三個(gè)主題詞與“輿情”之間的聯(lián)系密切,位于第3象限的“決策、建議、民意”三個(gè)主題詞之間的關(guān)系較密切,但與“輿情”的關(guān)系相對(duì)較遠(yuǎn),很容易受其他領(lǐng)域研究影響而演化;位于第3象限和第4象限的各個(gè)輿情研究方向(領(lǐng)域3)與“輿情”之間的關(guān)系相對(duì)較遠(yuǎn),表明研究比較分散,尚未引起足夠的重視,需要加大這方面的研究。但“法律”研究相對(duì)活躍,“大學(xué)生、高校、思想政治教育”三個(gè)主題詞之間的聯(lián)系較緊密,具有較強(qiáng)的相關(guān)性;位于第1象限和第4象限的媒體研究方向(領(lǐng)域4)與“輿情”之間的聯(lián)系較近,各主題詞之間的聯(lián)系也較緊密,表明研究比較集中,也是當(dāng)前研究的熱點(diǎn)問題。“互聯(lián)網(wǎng)、意見領(lǐng)袖、傳播、新媒體”四個(gè)主題詞與“輿情”之間的聯(lián)系非常近,是當(dāng)前輿情相關(guān)的媒體領(lǐng)域研究的熱點(diǎn)問題;“突發(fā)事件、群體性事件”兩個(gè)主題詞歸入周圍其他領(lǐng)域不合理,但二者與“輿情”的聯(lián)系又比較緊密,因此將二者單獨(dú)劃為特殊領(lǐng)域1(應(yīng)急);“評(píng)價(jià)、指標(biāo)體系”兩個(gè)主題詞與特殊領(lǐng)域1類似,既與領(lǐng)域1相關(guān),又與領(lǐng)域2相關(guān),單獨(dú)劃為特殊領(lǐng)域2(評(píng)價(jià))。
多維尺度分析是一種探索性數(shù)據(jù)分析技術(shù)。文中將輿情研究領(lǐng)域相關(guān)的40個(gè)主題詞構(gòu)成的40×40階的相異系數(shù)矩陣壓縮到一個(gè)低維空間,形成一個(gè)直觀的知識(shí)圖譜,將主題詞之間的聯(lián)系直觀地表現(xiàn)出來,揭示主題詞之間的潛在規(guī)律。研究結(jié)果表明,我國當(dāng)前輿情研究主要集中于輿情直接相關(guān)、輿情管理、輿情研究方向、媒體研究方向四個(gè)領(lǐng)域。輿情直接相關(guān)研究是當(dāng)前研究的重點(diǎn)與熱點(diǎn);輿情研究方向雖然很多,但研究內(nèi)容比較分散,沒有比較優(yōu)秀的研究成果;由于信息技術(shù)的發(fā)展,與媒體相關(guān)的研究領(lǐng)域也較活躍。文中的研究存在兩個(gè)局限性:一是數(shù)據(jù)選取方面,只選取近5年的數(shù)據(jù)不能反映長期以來輿情研究的發(fā)展變化情況,只選取中國知網(wǎng)收錄的“中文核心期刊”和“CSSCI”數(shù)據(jù)不夠全面;二是研究方法方面,共詞矩陣使用書目共現(xiàn)分析系統(tǒng),相異系數(shù)矩陣使用自編程序計(jì)算,多維尺度分析使用SPSS,沒有一種集成的軟件來完成全部工作,容易造成數(shù)據(jù)偏差且不規(guī)范。這些局限性會(huì)隨著數(shù)據(jù)源、研究方法和軟件工具的發(fā)展逐步得到改善。
[1] 戴維民,劉 軼.我國網(wǎng)絡(luò)輿情信息工作現(xiàn)狀及對(duì)策思考[J].圖書情報(bào)工作,2014,58(1):24-29.
[2] 許 鑫,章成志,李雯靜.國內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J].情報(bào)理論與實(shí)踐,2009,46(3):115-120.
[3]JiaH,YanY,GongL,etal.Knowledgemap-basedmethodfordomainknowledgebrowsing[J].DecisionSupportSystems,2014,61(1):106-114.
[4]CuiM,YangS,YuT,etal.Expertknowledgemapsforknowledgemanagement:acasestudyinTraditionalChineseMedicineresearch[J].JournalofTraditionalChineseMedicine,2013,33(5):698-702.
[5]KurodaK,HashiguchiH,FujiwaraK,etal.Reconstructionofnetworkstructuresfrommarkedpointprocessesusingmulti-dimensionalscaling[J].PhysicaA:StatisticalMechanicsandItsApplications,2014,415(1):194-204.
[6]WuChao-Chan,LeuHoang-Jyh.Examiningthetrendsoftechnologicaldevelopmentinhydrogenenergyusingpatentco-wordmapanalysis[J].InternationalJournalofHydrogenEnergy,2014,39(11):19262-19269.
[7] 汪偉良,劉 紅.基于共詞分析的我國科研誠信研究現(xiàn)狀[J].科學(xué)管理研究,2014,32(4):35-39.
[8]HuJiming,ZhangYin.ResearchpatternsandtrendsofrecommendationsysteminChinausingco-wordanalysis[J].InformationProcessing&Management,2015,51(4):329-339.
[9] 孫海濤,李仲秋.鐵路物流節(jié)點(diǎn)規(guī)劃模糊聚類分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(3):54-57.
[10]SangamRS,OmH.Thek-modesalgorithmwithentropybasedsimilaritycoefficient[J].ProcediaComputerScience,2015,50(1):93-98.
[11] 紅黑聯(lián)盟.數(shù)據(jù)矩陣與相異性矩陣[EB/OL].2015-05-01.http://book.2cto.com/201210/5869.html.
[12]JungK,TakaneY.MultidimensionalscalingI[M].2nded.[s.l.]:[s.n.],2015.
[13]KisenwetherJS,ProsekRA.Theeffectofexperienceonperceptualspaceswhenjudgingsynthesizedvoicequality:amultidimensionalscalingstudy[J].JournalofVoice,2014,28(5):548-553.
[14]LinLanxin,SoHC,ChanFKW.Multidimensionalscalingapproachfornodelocalizationusingreceivedsignalstrengthmeasurements[J].DigitalSignalProcessing,2014,34(11):39-47.
[15] 趙守盈,呂紅云.多維尺度分析技術(shù)的特點(diǎn)及幾個(gè)基礎(chǔ)問題[J].中國考試,2010(4):13-19.
Mapping Knowledge Domain on Subject Headings of Public Sentiment Research Based on Multi-dimensional Scaling
SUN Yan,TIAN Li-mei
(Library of Bohai University,Jinzhou 121013,China)
In order to conduct objective comb for the current situation of public sentiment research and summarize the intrinsic links and science structure of researched literatures,it researches on "Chinese Core Journals" and "CSSCI" relevant research literatures included in CNKI in the past five years in this paper.First,preliminary data should be prepared,comprising the steps and methods of preparation and associated mathematical model.Then,the dissimilarity coefficient matrix is input into SPSS software to carry on multi dimensional scaling and draw mapping knowledge domain.Finally,mapping knowledge domain must be analyzed from two aspects of dimension definition and spatial distribution.The results show that the current public sentiment research has focused on four directions,and direct relevant research of public sentiment is the focus and hotspot,and media-related field of study is more active,but some results of research direction of segmentation are more dispersed.
multi-dimensional scaling;public sentiment;subject headings;mapping knowledge domain
2015-05-11
2015-08-13
時(shí)間:2016-03-22
遼寧省社會(huì)科學(xué)基金項(xiàng)目(L14BTQ003)
孫 艷(1972-),女,副研究館員,研究方向?yàn)閳D書館學(xué)理論與方法。
http://www.cnki.net/kcms/detail/61.1450.TP.20160322.1518.028.html
TP311
A
1673-629X(2016)04-0187-04
10.3969/j.issn.1673-629X.2016.04.041
0 引 言
又稱敘詞,在標(biāo)引和檢索中用以表達(dá)文獻(xiàn)主題的規(guī)范化的詞或詞組,能夠反映特定主題的概念。主題詞是規(guī)范化的檢索語言,對(duì)文獻(xiàn)中出現(xiàn)的同義詞、近義詞、多義詞以及同一概念的一同書寫形式等進(jìn)行了嚴(yán)格的控制和規(guī)范,使每個(gè)主題詞都含義明確,以便準(zhǔn)確檢索,防止誤檢、漏檢。知識(shí)圖譜(Mapping Knowledge Domain)也被稱為科學(xué)知識(shí)圖譜,在圖書情報(bào)界稱為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖,將數(shù)學(xué)、信息科學(xué)、圖形學(xué)等學(xué)科知識(shí)與引文分析法相結(jié)合,通過繪制可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu),從不同視角揭示知識(shí)之間的相關(guān)性和知識(shí)領(lǐng)域的動(dòng)態(tài)發(fā)展規(guī)律,為學(xué)科研究提供有價(jià)值的參考[3-4]。知識(shí)圖譜的主要研究方法包括共引分析(Co-citation analysis)、共詞分析(Co-word analysis)、多元統(tǒng)計(jì)分析(Multivariate statistical analysis)、詞頻分析(Word frequency analysis)、社會(huì)網(wǎng)絡(luò)分析(Social network analysis)等方法。多維尺度分析(Multi-dimensional Scaling)是研究對(duì)象之間相似性或差異性(不相似性)的一種多元統(tǒng)計(jì)分析方法[5]。采用多維尺度分析可以創(chuàng)建多維空間感知圖,圖中點(diǎn)的距離反映了對(duì)象的相似性或差異性。為此,文中基于多維尺度分析方法,構(gòu)建輿情研究主題詞知識(shí)圖譜,通過詳細(xì)的分析得出結(jié)論,具有一定的理論意義和實(shí)用價(jià)值。
輿情是輿情因變事項(xiàng)發(fā)生、發(fā)展和變化過程中,民眾所持有的社會(huì)態(tài)度[1]。輿情研究是新興的社會(huì)科學(xué)與自然科學(xué)交叉的研究領(lǐng)域,對(duì)于維護(hù)社會(huì)穩(wěn)定、促進(jìn)國家發(fā)展、創(chuàng)建和諧社會(huì)等方面具有重要的現(xiàn)實(shí)意義。我國輿情思想和制度建設(shè)較早,但真正開展研究始于2003年[2],經(jīng)過十多年的發(fā)展,取得了一些有價(jià)值的研究成果。但仍然有必要對(duì)輿情的研究現(xiàn)狀進(jìn)行客觀梳理,歸納主要的研究領(lǐng)域和研究熱點(diǎn),總結(jié)研究文獻(xiàn)內(nèi)在的聯(lián)系和科學(xué)結(jié)構(gòu),描繪輿情研究未來的發(fā)展方向。