• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于歷時語料的詞語穩(wěn)定性度量

      2017-06-15 15:07:01張衛(wèi)華
      河南科技 2017年7期
      關鍵詞:歷時詞頻大綱

      張衛(wèi)華

      (鄭州大學電氣工程學院,河南鄭州 450001)

      基于歷時語料的詞語穩(wěn)定性度量

      張衛(wèi)華

      (鄭州大學電氣工程學院,河南鄭州 450001)

      詞語是能獨立使用的最小語法單位,詞匯大綱是語言教學的基礎,研制一個科學的、反映語言生活現(xiàn)實與人類認知規(guī)律的詞表,對于提高漢語教學效果具有重要意義。本文基于歷時語料,從詞頻和詞義兩方面對詞語的穩(wěn)定性進行度量,以期為漢語詞表的構建提供參考。對詞頻穩(wěn)定性的2種統(tǒng)計指標進行相關性分析,在詞義穩(wěn)定性度量中引入詞向量,對詞語的穩(wěn)定性分布情況進行考察。通過對HSK漢語水平考試詞匯等級大綱(2012年修訂)的分析表明,總體上,本文提出的穩(wěn)定性度量能較好地體現(xiàn)出大綱的等級分布,即大綱級別越低,詞語穩(wěn)定性越高,并可以為大綱的更新與調整提供依據(jù)。

      歷時語料;詞語穩(wěn)定性;詞頻穩(wěn)定性;詞義穩(wěn)定性;HSK詞匯大綱

      隨著社會的快速發(fā)展,語言也在不斷發(fā)展和演化,社會語言學與自然語言處理的許多任務都依賴于詞匯信息,研究和度量詞匯穩(wěn)定性必不可少。自然語言是動態(tài)的,隨時間演變適應其用戶和環(huán)境的需要[1],根據(jù)詞匯的歷時信息不僅可以判斷其在特殊時期及相應領域的使用情況,而且還能反映相應的社會狀況和人民生活的變化。每個時間段上的詞匯都帶有以往的語言歷史,是歷史的混合產物。

      詞匯穩(wěn)定性的研究有助于現(xiàn)代漢語水平大綱的編寫,詞匯的歷時信息更能幫助漢語學習者了解和認識漢語的歷時演變。例如,通過對比和分析《漢語水平詞匯與漢字等級大綱》[2]與統(tǒng)計穩(wěn)定度得到漢語詞匯的異同,不僅發(fā)現(xiàn)和收錄詞匯大綱未錄用的常用詞,而且可以刪除穩(wěn)定度較低的歷史詞匯。通常利用統(tǒng)計分析方法,如詞頻、信息熵等度量詞匯的穩(wěn)定性。王治敏[3]利用語料的頻次信息和時間跨度,通過不同的時間點,統(tǒng)計得到歷時變化的漢語常用詞表。統(tǒng)計詞表不僅為《漢語水平詞匯與漢字等級大綱》新詞的錄用和歷史性詞語的刪除提供了有價值的數(shù)據(jù),也為初學漢語者提供了可靠的參考。

      本文基于歷時語料,從詞頻和詞義兩方面對詞語的穩(wěn)定性進行度量,以期為漢語詞表的構建提供參考。對詞頻穩(wěn)定性的2種統(tǒng)計指標進行相關性分析,以了解不同指標之間的關系。在詞義穩(wěn)定性度量中引入詞向量,利用“觀其伴,知其義”的思想,通過觀察詞義相近詞的情況來度量詞義穩(wěn)定性。最后把詞語穩(wěn)定性應用于HSK漢語水平考試詞匯大綱的分析,并為詞匯大綱的修訂提供依據(jù)。

      1 相關研究

      研究人員針對歷時語料的詞語穩(wěn)定性研究已經采取了諸多方法。針對詞頻穩(wěn)定性方面,荀恩東等[4]采用自然語言處理的相關技術,基于詞語的頻次、頻率以及香農熵的方法分析研究歷時新聞語料,開發(fā)了現(xiàn)代漢語詞匯歷史檢索系統(tǒng),此系統(tǒng)對詞匯的語義、語用等方面的研究較為突出,反映新詞的變化過程及公共領域的詞語信息;王治敏[5]根據(jù)歷時語料詞語的頻繁和穩(wěn)定程度判斷常用詞匯,提出詞語穩(wěn)定程度參數(shù)U來判斷詞語隨時間變化的穩(wěn)定性,該方法得出的常用詞詞表可實現(xiàn)《漢語水平詞匯與漢字等級大綱》(簡稱HSK詞匯大綱)的半自動更新,以及為利用新聞語料研究常用詞提供強有力的依據(jù);Kulkarni等[6]利用詞頻模型捕捉詞語隨時間變化的各個方面,頻率的變化與詞語產生新詞義或失去詞義的變化相一致,所以利用詞頻變化獲取詞義變化。

      關于詞義穩(wěn)定性方面,Yoon Kim等[7]利用神經語言模型訓練歷時語料得到詞向量,其中利用前一年的詞向量來初始化后一年詞向量的訓練,根據(jù)計算詞語在不同時間段的余弦相似度衡量語義的穩(wěn)定性;Popescu和Strapparava[8]采用政治、社會等某些術語與情感詞語的頻率統(tǒng)計檢驗識別語言變化和時間段之間的相關性;胡俊峰等運用點互信息(Pointwise Mutual Information,PMI)計算每個詞對的分布相似性,而PMI是采用構建共現(xiàn)向量和余弦的權重或歸一化點積的方法,根據(jù)語義相似的交集揭示了詞語的語義或用法在較短時間間隔內趨于穩(wěn)定,以及可以獲得歷時敏感詞語和歷時不敏感詞語;Jey-Han Lau等將主題模型應用到詞義歸納(Word Sense Induction,WSI)上,通過歷時語料分析具有高邊際概率的主題詞識別隨時間變化的詞語語義。

      2 詞頻的穩(wěn)定性度量

      本文基于歷時語料,使用統(tǒng)計分析方法即詞頻和信息熵度量詞語穩(wěn)定性。衡量詞語穩(wěn)定程度的參數(shù)U(公式1)和信息熵(公式4)作為衡量詞語穩(wěn)定性的指標,其中衡量詞語穩(wěn)定程度的參數(shù)U反映詞語在語料中出現(xiàn)的平均頻次及詞語隨時間波動等因素[5],即:

      式(1)中,fˉ表示詞語出現(xiàn)的平均頻次,計算公式如(2)所示,stdev(f)代表詞語出現(xiàn)的頻次標準差,計算公式如(3)所示。

      其中,式(2)與式(3)中的n為詞語統(tǒng)計頻次f的個數(shù)。

      詞語穩(wěn)定度參數(shù)U值與詞語在歷史語料庫中出現(xiàn)的平均頻次成正比,與詞語出現(xiàn)頻次的標準差成反比,根據(jù)U值的排序,判斷詞語的穩(wěn)定性。

      信息熵作為衡量詞語穩(wěn)定性的指標,描述詞語的不確定性的數(shù)量,熵越大,不確定性越大。H(X)代表詞語的信息熵,即:

      式(4)中,p(x)為詞語x每一年的概率,即詞語在每一年出現(xiàn)的頻次與該詞語在歷年出現(xiàn)總頻次的比值,R為該詞歷年出現(xiàn)情況的集合。

      3 詞義的穩(wěn)定性度量

      與傳統(tǒng)語言模型相比,本文基于歷時語料,采用神經語言模型獲取更深層次的詞義信息。神經語言模型依賴的一個核心概念就是詞向量,而詞向量是用一個向量來表示一個詞,一定程度上可以刻畫詞之間的語義距離。利用上下文信息進行詞表示,具有相同(類似)上下文信息的詞應該具有相同(類似)的詞表示即詞向量。我們使用Mikolov等提出的Word2vec模型中的Skip-gram模型訓練詞向量。Skip-gram模型是通過語料庫中每個詞預測周圍的詞語,Skip-gram的輸入是當前詞的詞向量,而輸出是周圍詞的詞向量。

      詞語在詞義上彼此接近同樣在詞向量空間里也相近,通過余弦距離表示詞語在向量空間里的距離,從而得到詞語詞義相近的詞。定義詞語w從時間y1到時間y2的語義穩(wěn)定性指數(shù)(Sense Stability Index,SSI),計算公式如(5)所示。

      4 實驗與分析

      實驗考察1946-2005年度的《人民日報》詞語穩(wěn)定性,包括詞頻穩(wěn)定性和詞義穩(wěn)定性度量。利用中科院ICTCLAS漢語分詞系統(tǒng)對60年《人民日報》進行分詞,在分詞結果基礎上度量詞語穩(wěn)定性。同時,利用詞頻穩(wěn)定性和詞義穩(wěn)定性指標與2012年版《漢語水平詞匯與漢字等級大綱》(簡稱HSK詞匯大綱)詞語等級進行比較。

      4.1 詞語的詞頻穩(wěn)定性實驗與分析

      通過spearman相關系數(shù)比較詞語穩(wěn)定度U與信息熵的相關程度,計算得到詞語穩(wěn)定度U值與信息熵的spearman相關系數(shù)值為0.98,顯著性水平p<0.001。詞語穩(wěn)定度U值和信息熵高度相關,選擇其一即可,本文采用詞語穩(wěn)定度U值度量詞頻穩(wěn)定性。spearman相關系數(shù)的計算公式如(6)所示。

      式(6)中,di為信息熵和詞語穩(wěn)定度的排行差分集合,N為詞語的個數(shù)。

      度量詞語的詞頻穩(wěn)定性,統(tǒng)計1946-2005年度《人民日報》中每年的詞頻,計算每個詞語的平均頻次fˉ和詞語出現(xiàn)的頻次標準差stdev(f),根據(jù)公式(1)計算出衡量詞語穩(wěn)定程度的參數(shù)U,將U值進行排序,選取數(shù)值排名靠前的10個詞語,如表1所示。根據(jù)詞語的詞頻穩(wěn)定性U值大小,統(tǒng)計每個穩(wěn)定度階段詞語的個數(shù),如表2所示,詞頻穩(wěn)定參數(shù)階段的U值越大,其詞語的詞頻穩(wěn)定性越高,而其包含的詞語個數(shù)越少,說明使用量大的漢語穩(wěn)定性不高,其穩(wěn)定性容易受歷史事件等影響。

      表1 U值排名靠前的詞語

      詞語穩(wěn)定度參數(shù)U值與詞語在歷史語料庫中出現(xiàn)的平均頻次成正比,詞語的平均頻次反應在語料中使用該詞語的頻繁程度,而與詞語出現(xiàn)頻次的標準差成反比,標準差反應該詞語頻次波動程度,在歷年語料中詞語分布越不穩(wěn)定,標準差越大,U值越小,比如和年度突發(fā)事件的詞語標準偏差很大,參數(shù)U就會把這些詞語排除在外。本文針對1946-2005年度的《人民日報》,“部隊”“干部”“列隊”這些詞語在早期就被頻繁使用,隨著時間的推移,這類詞語的使用頻次一直穩(wěn)定且幅度較為平穩(wěn),所以U值排名較高,詞語比較穩(wěn)定。

      表2 詞語詞頻穩(wěn)定度分布表

      4.2 詞語的詞義穩(wěn)定性實驗與分析

      度量詞語的詞義穩(wěn)定性,使用Word2vec模型中的Skip-gram模型對每一年《人民日報》語料訓練詞向量,模型參數(shù)設置為窗口大小為2,向量維度為200維。每個詞語在每一年的詞向量通過余弦距離計算,選取與其距離最近的K=100個詞語,本文選擇2005年與1946年作為時間y1到時間y2,根據(jù)公式(5)計算得到語義穩(wěn)定性指數(shù)(SSI),將SSI值進行排序,選取數(shù)值排名靠前的10個詞語,如表3所示。根據(jù)詞語“只有”在60年《人民日報》中語義分布畫出曲線變化圖,將2005年作為y2,1946-2004年中每一年作為y1,計算SSI值,如圖1所示。

      根據(jù)表3中語義穩(wěn)定性指數(shù)SSI值排名,發(fā)現(xiàn)SSI值較高的詞語中虛詞居多,這符合虛詞的語義穩(wěn)定特征,根據(jù)“只有”的語義變化曲線,分布平穩(wěn),因此,該詞語的穩(wěn)定性較高。而SSI值較低的詞語的詞義穩(wěn)定性隨時間發(fā)生變化,選取詞語“透明”(SSI=0),畫出“透明”在60a《人民日報》中語義分布畫出曲線變化圖,如圖2所示。

      根據(jù)圖2顯示,詞語“透明”在1997年左右SSI值變化幅度巨大,說明該詞語的詞義發(fā)生巨大變化,根據(jù)“透明”在2005年和1998年的語義相似詞語的交集:“公正,公開,陽光,公平,有序,無色,專賬,參與權,整潔,暗箱,自由,嚴格,一望,明亮”,表明“透明”詞義發(fā)生隱喻變化,產生抽象的新詞義,指的是市場、政府和法律等的公開化;起初,“透明”的詞義是玻璃,水和其他物理事物的性質。因此,“透明”的詞義穩(wěn)定性低。

      表3 SSI值排名靠前的詞語

      圖1 詞語“只有”60年的語義變化曲線

      圖2 詞語“透明”60年的語義變化曲線

      4.3 詞語的穩(wěn)定性指標與HSK詞匯大綱等級比較

      《漢語水平詞匯與漢字等級大綱》(簡稱HSK詞匯大綱)的詞語具有等級劃分,根據(jù)詞語的常用度分為1~6個等級。利用本文提出的詞頻穩(wěn)定性指標U值和詞義穩(wěn)定性指標SSI值對HSK詞匯進行詞頻穩(wěn)定性和詞義穩(wěn)定性度量,將詞匯U值和SSI值按照HSK的等級劃分為6個區(qū)間,分別對每個區(qū)間的U值和SSI值求均值,如表4所示,計算公式如(7)(8)所示。

      式(7)(8)中,n為每個區(qū)間所求U值和SSI值詞語的個數(shù)。

      表4 詞語穩(wěn)定性與HSK詞匯大綱比較

      HSK詞匯等級越低其常用性就越高,根據(jù)表4所示HSK等級低的詞語的U值和SSI值高,因此,這些詞語的穩(wěn)定性就高、常用性高。因此,可以利用本文提出的度量詞語穩(wěn)定性指標對HSK詞匯大綱中的詞匯進行更新,若某些詞語的詞頻穩(wěn)定參數(shù)U或詞義穩(wěn)定性指數(shù)SSI低于上述標準,就可以過濾HSK中過時的詞匯或者更新其等級,實現(xiàn)HSK的半自動更新。例如,詞語“政府”在HSK詞匯大綱里的等級為5,根據(jù)本文提出的詞語穩(wěn)定性指標計算出U值為1.758,SSI值為0.09,明顯大于表中所求的值。所以,可以考慮調低其在HSK詞匯大綱里的等級。

      5 結語

      本文提出基于歷時語料的詞語穩(wěn)定性度量方法,包括詞頻穩(wěn)定性和詞義穩(wěn)定性兩方面。在詞頻穩(wěn)定性度量中,得出了詞頻穩(wěn)定參數(shù)與信息熵兩個統(tǒng)計指標的一致性結論。在詞義穩(wěn)定性度量中,引入了深度學習中的詞向量方法。在60年人民日報歷時語料基礎上,對詞語穩(wěn)定性度量結果進行了定量考察。最后,嘗試把詞語穩(wěn)定性度量結果應用于HSK詞匯等級大綱的分析與調整。

      詞語穩(wěn)定性作為詞語的一個重要屬性,也可以為詞匯語義研究的目標詞選擇提供依據(jù),可以從使用最穩(wěn)定的那些詞作為切入點開始某一項研究任務。詞義的歷時演變將是下一步研究的重點,詞語的穩(wěn)定性可以表明哪些詞發(fā)生了變化,但具體怎樣變化、變化的模式是什么需要進一步研究。

      鄭州大學信息工程學院研究生鄭一對本文的數(shù)據(jù)處理和實驗分析等工作有重要貢獻。

      [1]Aitchison J.Language Change:Progress or Decay?[J].Language in Society,1983(2):411.

      [2]國家漢語水平考試委員會辦公室考試中心.漢語水平詞匯與漢字等級大綱[M].北京:經濟科學出版社,2001.

      [3]王治敏,楊爾弘.面向漢語教學的常用動詞計量研究[J].語言教學與研究,2012(1):1-6.

      [4]荀恩東,饒高琦,謝佳莉,等.現(xiàn)代漢語詞匯歷時檢索系統(tǒng)的建設與應用[J].中文信息學報,2015(3):169-176.

      [5]王治敏.基于時間跨度的漢語教學常用詞表統(tǒng)計研究[J].華文教學與研究,2010(4):49-55.

      [6]Kulkarni V,Alrfou R,Perozzi B,et al.Statistically Significant Detection of Linguistic Change[J].Computer Science,2014:625-635.

      [7]Kim Y,Chiu Y,Hanaki K,et al.Temporal Analysis of Language through Neural Language Models[J].Computer Science,2014 (3):153-178.

      [8]FBK-irst,Trento,Popescu O,et al.Strapparava.2013.Behind the Times:Detecting Epoch Changes using Large Corpora[A]// International Joint Conference on Natural Language Processing,2013:347-355.

      Measuring Word Stability Based on a Diachronic Corpus

      Zhang Weihua
      (School of Electrical Engineering,Zhengzhou University,Zhengzhou Henan 450001)

      Word is the smallest grammatical unit that can be used independently while lexicon is the foundation of language teaching.To improve the effectiveness of Chinese teaching,it is of great significance to develop a scientific vocabulary that reflects the reality of language life and the laws of human cognition.Based on a diachronic corpus, This paper measured the stability of words from two aspects,word frequency and word meaning,to provide a reference for the construction of Chinese vocabulary.This paper made a statistical correlation analysis of the two word frequency stability measures,and introduced word embeddings into the word sense stability measure.Quantitative analysis of word stability distribution was carried out based on the diachronic corpus.After investigation of the HSK vocabulary level outline,it showed that the computed word stability could correlate well with the vocabulary levels,and provided a good knowledge source for the updating and adjustment of the outline.

      diachronic corpus;word stability;word frequency stability;word sense stability;HSK vocabulary outline

      TP391.1

      A

      1003-5168(2017)04-0056-04

      2017-03-25

      張衛(wèi)華(1963-),女,大專,研究方向:圖書情報。

      猜你喜歡
      歷時詞頻大綱
      50個重要的知識點 一份“學習大綱”幫您梳理黨的二十大報告
      工會博覽(2022年33期)2023-01-12 08:53:34
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      量詞“只”的形成及其歷時演變
      常用詞“怠”“惰”“懶”的歷時演變
      對《紅樓夢》中“不好死了”與“……好的”的歷時考察
      紅樓夢學刊(2019年5期)2019-04-13 00:42:36
      古今字“兌”“說”“悅”“敚”歷時考察
      緊貼實戰(zhàn)落實《大綱》要求推進航空體育訓練創(chuàng)新發(fā)展
      詞頻,一部隱秘的歷史
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      以關鍵詞詞頻法透視《大學圖書館學報》學術研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      克什克腾旗| 浠水县| 阜平县| 古丈县| 岗巴县| 且末县| 中西区| 五莲县| 汝南县| 新田县| 阿巴嘎旗| 景东| 罗山县| 龙门县| 梁山县| 海城市| 普格县| 金乡县| 太谷县| 太保市| 彭阳县| 广平县| 广德县| 芦溪县| 济阳县| 罗江县| 内乡县| 东乌珠穆沁旗| 雷波县| 东至县| 东乡族自治县| 油尖旺区| 清苑县| 会宁县| 新沂市| 新竹县| 常熟市| 晋中市| 怀集县| 安康市| 湖口县|