• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      你“說(shuō)”我來(lái)“猜”

      2015-07-21 15:43:04洪蘊(yùn)哲
      科學(xué)家 2015年7期
      關(guān)鍵詞:詞庫(kù)中科院詞典

      洪蘊(yùn)哲

      看過(guò)美劇《犯罪心理》(Criminal minds)的人經(jīng)常會(huì)為這樣一個(gè)情節(jié)而感到半信半疑:聯(lián)邦探員們僅僅通過(guò)罪犯的日記或者書(shū)信就能判斷出他們的性別,年齡,社會(huì)地位,甚至人格特征與童年經(jīng)歷。很多時(shí)候,我們都把這些當(dāng)作影視文學(xué)作品對(duì)于主人公的一種神化和茶余飯后的談資,很少有人會(huì)把這些經(jīng)驗(yàn)之談當(dāng)作真正的科學(xué)。然而,隨著信息科學(xué)的發(fā)展,情感詞庫(kù),情感分析工具,文本挖掘技術(shù)為心理學(xué)領(lǐng)域中研究心理和語(yǔ)言的關(guān)系提供了一定的技術(shù)支持。

      德克薩斯州大學(xué)的心理學(xué)教授James Pennebaker(2008年)曾說(shuō)過(guò),人們說(shuō)話的方式以及詞語(yǔ)可以泄露他們的所思所想,他們與事物之間的關(guān)系。近年來(lái),隨著社交網(wǎng)絡(luò)的流行,人們會(huì)在各種平臺(tái)上發(fā)表狀態(tài),例如微博,QQ空間,微信朋友圈等等。“死了的人才被掛念,不曾記起,就相忘于江湖吧?!薄跋胝乙粋€(gè)地方大聲哭出來(lái)?!碑?dāng)我們看到這些狀態(tài)時(shí),是否能感受到發(fā)起者強(qiáng)烈的負(fù)性情緒,是否能感受到他們的無(wú)助感?

      微博作為一個(gè)公開(kāi)的社交平臺(tái),可以從中獲取大量的文本資源,中科院心理研究所的人員針對(duì)中文微博的文本分析與行為預(yù)測(cè)進(jìn)行了開(kāi)創(chuàng)性的研究。

      簡(jiǎn)體中文版心理語(yǔ)言分析詞典的建立

      文本是由特定的人制作的,文本的語(yǔ)義不可避免地會(huì)反映人的特定立場(chǎng)、觀點(diǎn)、價(jià)值和利益。因此,通過(guò)文本內(nèi)容分析,可以推斷文本提供者的意圖和目的。在許多關(guān)于社交媒體的文本分析中,基于計(jì)算機(jī)的文本分析軟件被普遍使用,語(yǔ)言獲得與詞匯計(jì)數(shù)系統(tǒng)(LIWC)就是其中一種,該軟件的核心是擁有一個(gè)詞庫(kù),分為不同的維度,如“心理過(guò)程詞”“語(yǔ)言過(guò)程詞”等。對(duì)于一段輸入的文本,每個(gè)單詞會(huì)與詞庫(kù)中的詞語(yǔ)進(jìn)行比對(duì)。

      英文版的LIWC被廣泛使用。由于中文相對(duì)于英文更加復(fù)雜,所以很有必要建立一個(gè)簡(jiǎn)體中文版的LIWC。之前已經(jīng)有繁體中文版的LIWC詞典,中科院心理研究所的社會(huì)與工程研究室的朱延劭團(tuán)隊(duì)(2013年)就基于此建立了一個(gè)簡(jiǎn)體中文版的LIWC詞典,該詞典不僅有正式常規(guī)的詞語(yǔ),還加入了微博中的高頻詞,因此該詞典既可以用于正式文本的分析,也可以用于微博文本的分析。

      首先,研究人員找到了21個(gè)中國(guó)科學(xué)院大學(xué)的畢業(yè)生,他們的母語(yǔ)都是簡(jiǎn)體中文。這21個(gè)人被分為3個(gè)組,每個(gè)組的每個(gè)人都獨(dú)立地將繁體中文版LIWC詞典里的詞匯一個(gè)個(gè)過(guò)一遍,然后找到最合適的簡(jiǎn)體中文詞來(lái)代替它。例如用“它們”代替“它們”。對(duì)于組內(nèi)的分歧,所有人進(jìn)行討論,采取少數(shù)服從多數(shù)的原則。這樣,每個(gè)組都生成了一個(gè)詞庫(kù)。接著,再請(qǐng)來(lái)3個(gè)評(píng)分者,對(duì)這3個(gè)組生成的詞庫(kù)進(jìn)行檢驗(yàn),如果這3個(gè)組的詞庫(kù)有分歧,評(píng)分者再進(jìn)行討論,然后繼續(xù)采取少數(shù)服從多數(shù)的原則得出一個(gè)更為合理的最終版本的簡(jiǎn)體正式中文版LIWC詞典(SCLIWC)。

      接下來(lái),為了添加微博中的高頻詞到詞典中,研究人員首先獲取了99925821個(gè)新浪微博用戶,并按以下原則來(lái)過(guò)濾掉一些研究?jī)r(jià)值不大的用戶:1.在近3個(gè)月內(nèi)沒(méi)有發(fā)表狀態(tài)或者用戶發(fā)表總狀態(tài)數(shù)少于512條的;2.每天發(fā)表狀態(tài)在40條以上的(廣告用戶)。過(guò)濾掉之后,留下了1953485個(gè)活躍用戶,將他們發(fā)的文本狀態(tài)全部下載下來(lái)。然后,從所有活躍用戶當(dāng)中隨機(jī)選取20000個(gè)用戶,從這20000個(gè)用戶發(fā)表的狀態(tài)中提取詞頻前5000的詞,再將20000個(gè)用戶隨機(jī)分成兩個(gè)組,分別從這兩個(gè)組用戶發(fā)表的狀態(tài)中提取出使用頻率前5000的詞,研究者發(fā)現(xiàn)從這幾個(gè)樣本中提取的高頻詞重合率是非常高的,說(shuō)明這些詞確實(shí)經(jīng)常在微博中被使用。最后,剔除了停用詞和SCLIWC中已有的詞匯,獲得了新浪微博中使用率排在前5000的詞,這樣就構(gòu)成了簡(jiǎn)體中文版微博詞典(SCMBLIWC)。

      這樣,將SCLIWC和SCMBLIWC這兩個(gè)詞典融合到一個(gè)應(yīng)用程序中,就可以同時(shí)分析正式文本和微博文本。中科院就基于此開(kāi)發(fā)了一個(gè)公開(kāi)的網(wǎng)絡(luò)平臺(tái)“文心”(TextMind)http://ccpl.psych.ac.cn/textmind/。通過(guò)“文心”,可以便捷地分析文本中使用的不同類別語(yǔ)言的程度、偏好等特點(diǎn)。

      自殺者和潛在自殺者的語(yǔ)言風(fēng)格

      中科院的研究者首先將他們開(kāi)發(fā)的簡(jiǎn)體中文版詞典應(yīng)用到了自殺的研究中。量表作為一種傳統(tǒng)自殺可能性評(píng)估方法,在時(shí)效性上有所欠缺,有自殺可能的人盡管很多不會(huì)主動(dòng)尋求專業(yè)幫助,但其在言語(yǔ)中往往存在對(duì)于自殺傾向的流露。朱延劭管理等人(2015年)在線招募微博用戶參與問(wèn)卷調(diào)查,根據(jù)個(gè)體自殺可能性量表中文版得分情況將982名受訪者分為446名高自殺可能組和536名低自殺可能組,分析2組在微博提取的10類行為特征和88類語(yǔ)言特征上的差異。結(jié)果發(fā)現(xiàn),高自殺可能組的用戶與其他用戶相比社交活躍度低,夜間更加活躍,關(guān)注別人更少,使用更多表達(dá)否定、死亡的詞語(yǔ),使用更少指向未來(lái)的詞語(yǔ)。

      也許這樣的結(jié)果仍然會(huì)引起別人的質(zhì)疑,因?yàn)槿水吘箾](méi)死,我們有對(duì)結(jié)果進(jìn)行自圓其說(shuō)的嫌疑。其實(shí)不然,該團(tuán)隊(duì)(2015年)接下來(lái)進(jìn)行了更直接的研究,他們經(jīng)新浪微博認(rèn)證用戶提供的信息,收集31 名網(wǎng)絡(luò)識(shí)別自殺死亡用戶(自殺死亡組);邀請(qǐng)微博用戶填寫(xiě)自殺意念相關(guān)篩查量表,收集30 名無(wú)自殺意念用戶(對(duì)照組)。比較兩組用戶在10 種微博行為和88 種語(yǔ)言特征方面的差異。結(jié)果發(fā)現(xiàn),自殺死亡用戶的微博互動(dòng)更少,更加關(guān)注自我,更頻繁地使用表達(dá)排除意義的詞語(yǔ),從情感層面上有更多負(fù)性表達(dá),使用更多與死亡、宗教相關(guān)而更少與工作相關(guān)的表達(dá)。

      我們可以看到,無(wú)論是潛在的高自殺可能性用戶,還是已經(jīng)自殺的用戶,他們?cè)谡Z(yǔ)言特點(diǎn)上都更多使用負(fù)面,與死亡有關(guān)的詞,并且不會(huì)提及他們的工作和未來(lái),在行為層面上更加關(guān)注自我,較少與別人互動(dòng)。

      如果我們哪一天看到自己身邊的人喜歡在夜晚發(fā)類似這樣的狀態(tài):“呵呵,真落寞,永遠(yuǎn)只是一個(gè)人”,并且開(kāi)始頻繁散播負(fù)能量,他的狀態(tài)也沒(méi)人點(diǎn)贊和評(píng)論,他也幾乎不會(huì)給被人點(diǎn)贊和評(píng)論,那么我們應(yīng)該意識(shí)到問(wèn)題的嚴(yán)重性。如果我們?cè)谄匠5纳钪心芗皶r(shí)給予這些人關(guān)愛(ài)與支持,而不是一味地指責(zé)他們矯情,那么也許會(huì)防止一條生命的隕落。

      猜你喜歡
      詞庫(kù)中科院詞典
      加大授權(quán)力度中科院先行一步
      科技傳播(2019年23期)2020-01-18 07:57:10
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      中科院沈陽(yáng)生態(tài)研究所技術(shù)
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      詞庫(kù)音系學(xué)的幾個(gè)理論問(wèn)題芻議
      中科院位列自然指數(shù)全球首位
      環(huán)境變了,詞庫(kù)別變
      電腦迷(2014年14期)2014-04-29 00:44:03
      中科院專家:京津冀何以成霧霾重災(zāi)區(qū)
      法人(2014年4期)2014-02-27 10:43:43
      《胡言詞典》(合集版)刊行
      南开区| 无极县| 神池县| 莎车县| 嘉祥县| 内江市| 普定县| 元氏县| 吉木萨尔县| 鄄城县| 陆川县| 乐至县| 仪陇县| 象州县| 四平市| 石家庄市| 邳州市| 东丽区| 昌黎县| 屯门区| 延川县| 英德市| 乡城县| 湖南省| 莱州市| 安图县| 华阴市| 新乡县| 农安县| 哈巴河县| 定安县| 玉环县| 伊宁县| 遂平县| 博客| 三门峡市| 石渠县| 易门县| 绍兴县| 普定县| 萨嘎县|