• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      漢語語義場網絡中的無標度分布現象

      2015-04-21 08:43:40姬東鴻蕭國政
      中文信息學報 2015年3期
      關鍵詞:標度度數結點

      楊 華,姬東鴻,蕭國政

      (1. 貴州師范大學 數學與計算機科學學院,貴州 貴陽 550001;2. 武漢大學 文學院,湖北 武漢 430070;3. 武漢大學 計算機學院,湖北 武漢 430070)

      ?

      漢語語義場網絡中的無標度分布現象

      楊 華1,2,姬東鴻3,蕭國政2

      (1. 貴州師范大學 數學與計算機科學學院,貴州 貴陽 550001;2. 武漢大學 文學院,湖北 武漢 430070;3. 武漢大學 計算機學院,湖北 武漢 430070)

      語義場是詞語意義聯系在一起構成的語義系統。一門語言的所有子語義場合在一起,就是該語言的語義場。探索用復雜網絡來表示漢語的語義場,基于聯想場的概念,該文提出用復雜網絡表示漢語的語義場。該網絡的節(jié)點度,節(jié)點權值與邊權值均服從無標度分布。展示結點度、結點權值、邊權值在一定范圍的內容,觀察到一些在網絡視角才能發(fā)掘出的現象。該文將較特別的現象展示給語言學界的專家們,期望引起共鳴,得到對這些現象的更合理解釋。

      語義場;復雜網絡;無標度分布

      1 引言

      過去對語言的統計特性研究往往基于一階統計,比如Zipf定理;近年來,復雜網絡作為描述復雜系統的一種新穎范式,開始被用來描述語言這一復雜現象[1-3],學者們將語言表示為網絡進行研究,嘗試從網絡的角度去探索語言的性質、認知過程、模擬人類語言的產生過程。觀察到了大量在一階統計上難以察覺的語言和認知心理的現象,并用于解釋語言的根源、認知過程等。

      漢語是世界最重要的語言之一,其統計規(guī)律和性質在語言學上具有重要的參考意義。目前該領域學者們對漢語網絡研究已有一些進展。這些網絡有基本詞法網絡[4-5],漢語詞同現網絡[6],漢語詞匯的語法依存句法網絡[7]等。實驗表明這些漢語網絡的拓撲結構表現出復雜網絡的許多普適特性,如小世界特性等,并且與非漢語網絡的特性非常相似。這說明盡管各種語言有自己的詞法和句法,但具有內在的、相對固定的規(guī)律。也說明網絡是挖掘這些規(guī)律的有力工具。

      漢語語義場指的是漢語中的詞語意義聯系在一起構成的語義系統?;诼撓胝Z義場的思想,我們構建漢語的(子)語義場網絡,觀察到該網絡中的無標度分布,并觀察了網絡中結點和邊的內容,展現了從網絡角度探測到的語言現象。

      本文的組織結構如下: 第2節(jié)概覽了目前普遍研究的語言網絡;第3節(jié)介紹了聯想語義場的概念,并基于該概念介紹了語義場網絡的構建方法;第4節(jié)描述了無標度分布及其相關概念;第5節(jié)展現了語義場網絡的無標度分布現象,其中對于節(jié)點權值、邊權值的分布的研究是較為獨特的,并觀察了某些特定范圍的詞語特征;第6節(jié)指出了未來的工作。

      2 語言復雜網絡概覽

      復雜網絡作為描述復雜系統的一種新范式,近年被用來描述語言這一復雜現象[1-2, 8]。很多文獻中將語言的復雜網絡稱為語義網絡(Semantic Network),這個概念不等同于“語義網(Semantic Web)”。

      (1) 單詞同現(相鄰)網和單詞搭配網。文獻[8]從英國國家語料庫的句子集合構造出兩種圖: 1)單詞同現網: 頂點是語料庫中所有的單詞,一個句子當中的單詞之間的距離指的是兩個單詞之間的單詞個數加1,兩個單詞至少在一個句子里小于等于D(實驗中D取2)的距離里出現過,則它們之間有一條邊。2)單詞搭配網: 類似單詞同現網,但只保留了那些同現概率及互信息較高的同現詞對之間的邊。這兩個網絡都具有小世界和無標度等網絡特性。文獻[8-9]構建和分析了各種搭配網。這些網絡被劃分為核心詞匯和比較周邊的社會方言(sociolects)或者與具體話題相關的術語[2]。

      (2) 依存語法網。依存語法網的構建方法[10]是: 以單詞為頂點,如果兩個單詞至少在一個句子里分別以modifier(源頂點)和head(目標頂點)的依存語法角色同現過,則用modifier指向head的有向邊將它們相連。文獻[10]從捷克語、德語和羅馬尼亞語的樹庫(tree bank)中的句子獲得語法依存網絡,這些句子的單詞之間已根據它們的依存結構進行標注。該依存語法網有小世界特性;結點入度,出度服從冪律分布。

      (3) 詞典網絡——專家知識網。同義詞典可以定義詞義之間的關系(如同義,反義,同音異義,同形異義);概念詞典(如WordNet)能定義概念之間的聯系(如上下位關系)?;谶@種含有專家知識的詞典網絡主要有: 同義詞典網和概念網。同義詞典網中,頂點表示詞典中的詞語,邊表示詞義的關系[11];例如,兩個詞語是同義詞,則用邊連接它們。詞典的來源主要有Roget’s同義詞典和Merrian-Webster同義詞典等[1, 12-14]?;赪ordNet的網絡[12, 15]是一種概念網,頂點是詞語(單詞或概念)。詞語之間通過各種關系相連而形成邊,比如同義關系,反義關系、上下位關系。這些網絡都表現出復雜網絡的普遍特征[16]。

      (4) 詞匯聯想網絡。一個用來探索基于詞義關系的替代性的來源是基于詞匯聯想實驗,詞語被用來作為刺激(stimulus),讓參與人員聯想到意思或詞形相關的單詞(response)。詞匯聯想網(Association Graphs)[12]中,將實驗中用到的所有詞(stimulus 和response)作為頂點,用邊表示了從stimulus到response的聯想。

      (5) 中文語言網絡的相關工作。漢語作為世界最重要的語言之一,其統計規(guī)律和性質具有重要的參考意義。文獻[6]在大規(guī)模語料庫(北京大學《人民日報(1998年上半年)》1 300萬字左右的人工分詞語料庫和國家語委5 000萬字左右的人工分詞語料庫)上,基于不同規(guī)模和類型的語料子庫,構建了漢語詞語同現網絡,考察漢詞語同現網絡的特性。實驗結果表明漢詞語同現網絡具有小世界特性和無標度特性[6],該文還基于網絡的方法獲取了漢語的核心詞典。文獻[7]基于大規(guī)模句法標注樹庫[17],根據文獻[18]提出的漢語依存語法規(guī)則,建立了漢詞語匯的語法依存句法網絡,實驗結果表明漢語依存語法網絡具有小世界效應和無標度特性,并在層次性、居間中心性和混合模式等方面也體現了復雜網絡的普遍性質。這些特性與捷克語、德語、羅馬尼亞語等極為相似,說明不同語言的網絡具有類似的特性,這種共性對人類語言本質的研究具有一定的啟發(fā)意義[7]。有一類工作并不止步于網絡的統計特性,而是深入到網絡中的節(jié)點特性與詞語的語言特性之間的印證關系,甚至涉及了更名副其實的語義網絡研究。如文獻[19]給出了“虛詞是網絡中心節(jié)點的”的例證,為漢語虛詞的研究提供了新方法。文獻[20]考察了漢語語義角色(論元結構)網絡,發(fā)現該網絡雖然也同樣具備小世界和無標度特征,但它與句法網絡在層級結構和節(jié)點度相關性方面存在明顯不同。

      3 語義場網絡

      很多研究對以什么單位為網絡結點,如何定義結點之間的關系,研究的興趣何在,都未做出充分回答[2]。然而,盡管各種已研究的網絡從構建上有區(qū)別,但都有一個共同點: 結點之間的關系都試圖表達詞語之間的語義關聯。

      3.1 聯想場的概念

      語義場是指義位形成的系統[21]。語義場的理論有多種: 詞匯場、句法場、聯想場等。聯想場理論認為: 包圍在已給詞周圍的能夠更細地規(guī)定這個詞的價值的體系。例如,“牛”這個詞的聯想場就可由下列單位構成的: (1)公牛,母牛;(2)勞動,犁;(3)強壯,耐勞;等等。Ullmann把聯想場規(guī)定為圍繞一個詞的聯想網絡,一切都是被聯想的網所包圍,依此和其他詞產生聯系[22-24]。

      3.2 如何表達聯想

      為什么給定激發(fā)詞“奧運會”,大多數人會聯想到“金牌”,“世界冠軍”等呢?筆者認為,這種心理過程構建于人共有的背景知識,因而間接地構建于被廣泛使用的媒體,包括報紙,電視,互聯網等。更具體來說,是因為這些詞語是文檔的關鍵詞且高頻率同現。詞語的同現是重要信息,常常同現的詞語放在一起時能表現它們自己的含義,例如,“劉翔”、“跑步”、“冠軍”三個詞語放在一起的時候,盡管沒有句法信息,我們仍能判斷這里“劉翔”是著名運動員而非一般人,“跑步”是一種高水平的比賽,而不是普通的“奔跑”。表明這些詞放在一起的時候,即使沒有語法信息和精確的人工義素分析,我們也能比較準確地了解這些詞語的指稱意義。結合聯想場的概念,從概率的角度來看,同一義場中的義位有比較大的概率在同一窗口同現。反之,同現概率大的義位也傾向于處在同一個義場。那么,可以不二元性地判斷兩個詞語是否屬于同一義場,而是基于概率論進行判斷: 兩個詞語的同現程度越高,屬于同一義場的概率越大。這是一種廣義的義場,在自然語言處理中更加實用。如果能獲得兩個詞語同現的頻次(亦可轉換為概率),就估計了大部分人從一個詞聯想到另一個詞的可能性(容易程度)。

      3.3 漢語語義場網絡的構建方法與特征

      語義場被定義為義位形成的系統[21],但如何來表示這個系統?基于上述廣義語義場的概念,我們嘗試用三種網絡來表示漢語的子場,根據語言復雜網絡研究領域中的分類,可稱為關鍵詞同現網絡(Key Term Concurrence Network,KTCN)。這里僅描述在文獻[25]中用于信息檢索任務中的查詢擴展技術時中表現最好的網絡,記為KTCN-R,其生成過程如下: 以大型語料中所有文檔的所有關鍵詞為結點,如果兩個關鍵詞同時出現在至少一篇文檔的同一段落中,則認為它們可能屬于同一語義場,則在這對關鍵詞之間加邊。邊權值表達的是相應的關鍵詞在語料庫中所有文檔的所有段落中同現的次數。

      KTCN-R相對其他研究中的詞語同現網絡的較為獨特之處在于: 第一,一個詞語只有是某文檔的關鍵詞,才可能導致在網絡中產生新邊或在相應的邊上增加權值;第二,每個關鍵詞必須在指定的窗口中與其他關鍵詞同現,才可能被加入網絡。

      KTCN-R中的邊和邊權值共同表達的“聯想”,其中權值近似了兩個詞語之間的聯想關系的強度。在KTCN-R中的節(jié)點是詞語,從計算機領域看來只是“字符串”,似乎并不接近語言學中的義位的定義,但是,由于詞語節(jié)點與其周邊的與它密切的詞語節(jié)點處在同一系統中,常能反應出其自身的義位,我們強調它被網絡中周邊的節(jié)點保衛(wèi),而非孤立的元素。因此我們稱這些節(jié)點本身為相應詞匯的義位,這是一種近似,也是我們稱KTCN為語義場網絡的理由。

      就目的而言,KTCN-R與聯想網絡相同;從構建上,KTCN-R屬于一種詞語同現網絡;由于邊權值在某種程度上表達了詞語意義上的關聯程度,它又很像專家知識網絡,但這種意義上的關聯來自于巨型語料。

      4 無標度分布及相關概念

      我們調查了KTCN-R的諸多統計特性,這里主要描述網絡中的無標度分布現象。這里先描述一些圖論和統計學中的名詞,以期能和語言學界專家共同探討。以三元組(N,E,W)來描述KTCN-R的規(guī)模,其中N,E,W分別被定義為網絡結點數,網絡的邊數,網絡中邊的權值總和。結點的度定義為該節(jié)點的鄰邊數;對網絡的所有節(jié)點,可用頂點度的直方圖來表現其總體情況,這個直方圖就是網絡的頂點度分布。如果一個網絡的頂點度分布有相當高的異度分布(heterogeneous distributions)特征: 大部分結點的度數很低,而少數結點的度數很高,則稱這種分布為無標度分布。“無標度”的本質含義是“無明顯特征”,而正態(tài)分布則具有絕大部分樣本分布在期望附近的明顯特征。結點的權值定義為其鄰邊上的權值之和,注意,KTCN-R中的結點權值并非相應詞語在語料中的頻次,如前所述,并非語料中出現的詞語就一定會成為網絡結點。網絡的結點平均權值定義為所有結點的權值的平均值。結點平均權值分布的概念則類似于網絡的頂點度分布。如果一條邊上的權值足夠高,說明相應的關鍵詞對同屬于同一個語義場的概率越大。反過來,如果一條邊上的權值太低,則可以認為邊上兩個結點的共現是一種偶然現象,而非因為屬于同一義場的比較必然的結果。因此,以邊權值分布反映這種屬于同一義場的概率的分布: 橫坐標為網絡中邊權值,縱坐標為在網絡中具備某一權值的邊的數目。具有邊權值的復雜網絡難以獲取,這也是文獻中很少看到帶權網絡的原因。

      5 實驗結果

      本文采用NTCIR-7中IR4QA的簡體中文語料構建KTCN-R,該語料由新聞文章組成。分別來自新華社和聯合早報,總共545 162篇文檔。

      KTCN-R的規(guī)模如表 1所示。這里順便列出了網 絡 邊 上 權 值的最大值MaxEdgeWeight。從預料中抽取出的關鍵詞總數為714 738,但是KTCN-R節(jié)點數小于714 738,原因是有一些關鍵詞沒有與其他關鍵詞同現過。KTCN-R中的結點數量遠遠超過了《漢語主題詞表》收錄的詞數,這是因為,本文使用的關鍵詞抽詞工具抽取出的“詞”并不是語言學里嚴格意義的詞,更準確地,可以說是文檔的關鍵字符串,它有可能是語言學上嚴格意義的詞,也可能是詞的組合等,例如,“金牌獲得者”。KTCN-R的平均度,平均權及它們的標準差,如表 2所示。

      表1 語義場網絡規(guī)模及邊的最大權值

      表2 結點平均度

      5.1 結點度分布

      KTCN-R的結點共有3 808種度,結點度最小值是1,最大值是77 214;采取累加分布容易導致迷惑,這里分段描述KTCN-R的結點度分布。第一、二、三段分別是度數在(0,200],(201,500],(500,1 118)的分布,分別如圖 1、圖2、圖 3所示;第四段,即度數大于等于1 118的結點數均小于10。綜合以上四段數據,KTCN的度分布是無標度分布。

      圖2 KTCN-R中201到500度的結點數分布

      圖3 KTCN-R中500到1 118度的結點數分布

      下面觀察結點度數在一定范圍內的詞語特征。本節(jié)數據均展示在文獻[25]的附錄中: 1)文獻[25]中附錄1列出了KTCN-R中200個度數最低的語詞(度數均為1)。這些語詞主要包含以下情形: 比較少見的詞、不準確的抽詞、有意義的并且意義比較具體的語詞組合(例如,“生意比去年”是由常見的“生意”、“比”、“去年”組成的);對于語詞組合的情形,雖然從語言學的角度基本不像詞,在我們基于KTCN-R的查詢擴展工作中起到不可忽略的連接作用。2)文獻[25]中附錄2列出了KTCN-R中度數最高的200個語詞和它們的度數,這些語詞非常符合語言學角度的“詞”,抽“詞”結果相當準確,而且這些語詞基本不是停用詞。此外,這些語詞中,除了“新加坡”、“馬來西亞”、“委員會”,其余詞全部由兩個字組成。對于此現象,筆者尚不能解釋。3)文獻[25]中附錄3 列出了KTCN-R中度數為所有度數的中數左右的200個語詞,它們的度數均為13,這部分語詞雖然不像語言學中嚴格意義上的詞,但是意義卻相當完整,僅從這個語言學的“詞”之外的角度,抽詞錯誤相當少,而且相對附錄2,兩個字的情形很少。4)此外,最高度數的一半左右的200個語詞的數據與附錄2基本相同,因為在KTCN-R中,最大度數為77 214,其一半是38 607,度數大于38 607的語詞僅九個。

      5.2 結點權值分布

      KTCN-R的結點共有7 249種不同的權,最小值是1,最大值是858 411,權值大于等于32 224的權值共629種,對應結點個數均為1。圖4、圖5、圖6分別展示了權值在[1,315],[316,804],[805,1 957]三個區(qū)間的結點分布。剩余的數據點共5 305個,權值均小于10,平均值為1.412 63,標準差為0.845 73,中數為1,為1的數據共3 940個。綜上,KTCN-R的結點權服從無標度分布。

      下面觀察結點權值在一定范圍內的詞語特征: 1) 文獻[25]中附錄4列出了KTCN-R中權值最低的200個結點的詞語,它們的權值均為1,由于權值為1的結點度數必然為1(反之未必成立),而權值為1的結點和度數為1的結點都非常多,因此兩種情況應該相似。造成附錄1和附錄4的差別的原因是實驗過程中使用了二叉排序樹,兩種情況結點被插入二叉樹的先后順序不同。所以它們表現出和度數最低的200個詞相同的特征: 很少見的詞、不準確的抽詞、和少量意義完整的詞語組合。2) 文獻[25]中附錄5列出了KTCN-R中結點權值大于1且最小的200個詞語(結點權值均為2)。顯然,它們與度或權為1的結點具有相同的特征。3) 文獻[25]中附錄6列出了KTCN-R中結點權值最高的200個結點的內容及它們的權值。度數最高的200個結點(附錄2)和權值最高的200個結點之間的重復率為100%,即這兩組數據僅排序不同,因此它們的特征也相同。但KTCN-R中結點度與權的皮爾遜相關系數僅為0.565 346。4)文獻[25]中附錄7列出了結點權值在所有權值的中數左右的200個詞語,它們的權值均為22,這些詞語雖然不像詞,但是意思卻相當完整。5) 此外,最高權值的一半左右的200個詞語基本就是權值最大的那些詞語。因為KTCN-R中最大權值為858 411,其一半是429 205.5,權值大于的429 205.5詞只有五個(結點個數均為1)。

      圖4 KTCN-R中權值在[1,315]的結點數分布

      圖5 KTCN-R中權值在[315,804]的結點數分布

      圖6 KTCN-R中權值在[805,1 957]的結點分布

      5.3 邊權值分布

      邊權為1,2,3,4,5的邊數分別是8 275 598,5 106 606,2 454 626,914 240,500 610。圖7、圖8、圖9、圖10分別描述了邊權值在[6,29],[30,246],[247,573],[574,820]的邊數分布。剩余的數據,即權值為821到10 337的邊共有1 063種權值,對每個權值,對應的邊數均小于10。最小值為1,最大值為8,均值為1.761 99,標準差為1.199 81,中數為1,1 063種權值中有642種權值的邊數為1。綜上,KTCN-R的邊權值服從無標度分布。

      圖7 邊權值在[6,29]的邊數分布

      圖8 KTCN-R中邊權值在[30,246]的邊數分布

      圖9 KTCN-R中邊權值在[247,573]的邊數分布

      圖10 KTCN-R中邊權值在[574,820]的邊數分布

      下面考察一些權值在具體范圍的邊的內容特征: 1)文獻[25]中附錄8列出了200條權值最小的邊的內容,它們的權值均為1。特點是: 結點基本都是意義很完整的詞及組合,而不是那些很少見的詞語或者錯誤抽詞(這是度和權最小的200個結點的特征)。然而,從常識來看這些邊的結點語義關系非常弱,屬于同一義場的概率很小;2)文獻[25]中附錄9列出了KTCN-R中權值最大的200條邊的內容。它們的特點是,結點與附錄8中列出的低權值邊的結點相似,抽詞很準確且很常見。但邊的特性卻與附錄8相反: 語義關系非常明顯,即屬于同一義場的概率較大;3)文獻[25]中附錄10列出了KTCN-R中邊權值在所有邊權值的中位數左右200條邊的內容,它們的權值都是2,說明中數是2,接近眾數1。因此附錄10的與附錄8的特征接近。4)我們還考察了權值在10(邊數20 312)、50(邊數3 149)、100(邊數729),200(邊數205)、500(邊數43)的邊的內容,對邊數少于200的權值,列出全部邊的內容,對邊數超過200的權值,只列出200個。相應實驗結果見文獻[25]中附錄11到附錄15,其中刪除了一些言論敏感的結果。從這些數據可以觀察出以下結論: 隨著權值的增加,邊上的兩個結點之間的語義相關程度越來越高。并且,在權值為10的情況,這種傾向就已經非常明顯了。此外,權值越高,邊上的兩個結點越顯得緊密,但意思也比較寬泛,例如,“企業(yè)-500-美國”,但是在比較有意義的范圍,形成對比的是: 權值為10的一組,就顯得更加領域化,例如,“外商投資企業(yè)批準證書-10-申請”,而且相應的結點字符串也比較長。但,無論邊權值為10還是500的邊的兩個結點的語義關系都比較明確。

      6 未來的工作

      基于本文的工作,有如下工作可以擴展: 1) 更精確地構建網絡,如改進關鍵詞的提取算法,使得文章的關鍵詞更加準確,使得節(jié)點更加準確,盡可能少地出現不符合人類直覺的“詞語”。以互信息為邊權值等,增加邊及權值的準確性。對這一工作的檢驗方法是利用該網絡作為基礎之一實現某些NLP任務,考查性能的提升。例如,可用查詢擴展任務的性能提升程度檢驗互信息和頻率哪一個更能表達詞語的親密程度。2) 用于語料建設??缥谋镜慕Y構特性可以提供關于“無人工干涉的語料”的知識。類似地,如果語料的網絡結構遠遠偏離了文本網絡的原則,則可能有人工干擾。從語料庫語言學的角度,對語料的網絡分析可以研究語料特性,量化對語料的合理性限制,比如語料應具備自然性限制(naturalness constraints,即無刻意的人工干預),文獻[2]及相關研究指出了從復雜網絡的角度對語料進行分析的重要性,例如,在語料作為認知學上詞匯記憶模型的數據時,小世界特性至少可以作為判斷語料需要滿足可靠性的必要條件。由于基于網絡的語料庫語言學研究剛剛起步,目前最主要的任務是探索大型文本網絡的結構,尋找出相關的規(guī)律,找出合適的結構參數指標,評價語料的質量,有益于語料的建設和處理[2]。 3) 類同文獻[6]的工作,尋找中文的核心詞匯;可以KTCN-R為基礎,幫助中文詞匯表(比如漢語主題詞表)的建設與更新,在構建詞表時,度數或者節(jié)點權值越大的節(jié)點,越早受到語言學家的審驗。4) 尋找語言的深層次特征。5) 語義場網絡的權值表達了詞語之間容易聯想到的強度,因而可用于認知及聯想研究,類似文獻[12]中構建網絡時,減少參與網絡的構建的人力工作。6) 用于自然語言處理的任務,通過各種方法修訂該網絡,并找到應用。如文獻[25]中對KTCN-R的權值進行反轉,用最短路徑表達詞語的語義親密程度,并用于信息檢索任務;又如,基于KTCN構建詞匯鏈,可能改善基于詞匯鏈技術的任務的性能。

      [1] Ferrer I Cancho R. The structure of syntactic dependency networks: Insights from recent advances in network theory[J]. The Problems of Quantitative Linguistics,2005: 60-75.

      [2] Mehler A. Large text networks as an object of corpus linguistic studies[J]. Corpus Linguistics.An International Handbook of the Science of Language and Society,2007: 328-382.

      [3] Solé R V, Corominas Murtra B, Valverde S, et al. Language networks: Their structure, function, and evolution[J]. Complexity, 2010, 15(6): 20-26.

      [4] 韋洛霞, 李勇, 李偉,等. 漢字網絡的3度分隔與小世界效應[J]. 科學通報,2004, 49(024): 2615-2616.

      [5] 韋洛霞, 李勇, 康世勇,等.漢語詞組網的組織結構與無標度特性[J]. 科學通報,2005, 50(015): 1575-1579.

      [6] 劉知遠, 孫茂松. 漢語詞同現網絡的小世界效應和無標度特性[J]. 中文信息學報,2007, 21(006): 52-58.

      [7] 劉知遠, 鄭亞斌, 孫茂松. 漢語依存句法網絡的復雜網絡性質[J]. 復雜系統與復雜性科學, 2008, 5(2): 37-45.

      [8] Ferrer I Cancho R, Sole R V. The small world of human language[J]. Proceedings of the Royal Society B: Biological Sciences. 2001, 268(1482): 2261-2265.

      [9] Dorogovtsev S N, Mendes J F. Language as an Evolving Word Web[J]. Proceedings: Biological Sciences. 2001, 268(1485): 2603-2606.

      [10] Ferrer I Cancho R, Solé R V, K?hler R. Patterns in syntactic dependency networks[J]. Physical Review E, 2004, 69(5): 051915.

      [11] Kinouchi O, Martinez A S, Lima G F, et al. Deterministic walks in random networks: An application to thesaurus graphs[J]. Physica A: Statistical Mechanics and its Applications. 2002, 315(3-4): 665-676.

      [12] Steyvers M, Tenenbaum J B. The Large-Scale Structure of Semantic Networks: Statistical Analyses and a Model of Semantic Growth[J]. Cognitive Science. 2001, 29(1): 41-78.

      [13] Albert R, Barabasi A L, Jeong H, et al. Statistical Mechanics of Complex Networks[J]. Nature Genetics. 2002, 31: 60-63.

      [14] Newman M E. The structure and function of complex networks[J]. SIAM Review, Arxiv preprint cond-mat/0303516. 2003, 45: 167-256.

      [15] Sigman M, Cecchi G A. Global organization of the Wordnet lexicon[J]. Proceedings of the National Academy of Sciences. 2002, 99(3): 1742-1747.

      [16] Motter A E, de Moura A P S, Lai Y C, et al. Topology of the conceptual network of language[J]. Physical Review E, 2002, 65(6): 065102.

      [17] 周強. 漢語句法樹庫標注體系[J]. 中文信息學報. 2004, 18(004): 1-8.

      [18] 周明, 黃昌寧. 面向語料庫標注的漢語依存體系的探討[J]. 中文信息學報. 1994, 8(003): 35-52.

      [19] 陳芯瑩, 劉海濤. 漢語句法網絡的中心節(jié)點研究[J]. 科學通報. 2011, 56(10): 735-740.

      [20] 劉海濤. 漢語語義網絡的統計特性[J]. 科學通報. 2009(014): 2060-2064.

      [21] 賈彥德. 漢語語義學[M]. 北京: 北京大學出版社, 1999. 147-208.

      [22] 林紀誠. 英語語篇中詞匯銜接手段試探[J]. 外國語 (上海外國語學院學報), 1986, 5: 20-26.

      [23] 夏日光. 語義聯想場與名形詞類轉變的英譯[J]. 西安外國語學院學報. 2004, 12(4): 84-86.

      [24] 王悅. 俄語語義場劃分的原則與類型[J]. 經濟研究導刊. 2012,14: 227-228.

      [25] 楊華. 復雜網絡在自然語言處理中的應用初探[M]. 南京: 南京大學出版社, 2012: 126-137.

      Scale -Free Distribution Phenomenon in Chinese Semantic Field Network

      YANG Hua1,2, JI Donghong3, XIAO Guozheng2

      (1. School of Mathematics and Computer Scinece, Guizhou Normal University, Guiyang, Guizhou 550001,China; 2. College of Chinese Language and Literature, Wuhan University, Wuhan, Hubei 430070, China; 3. School of Computer, Wuhan University, Wuhan, Hubei 430070, China)

      Semantic field is the semantic system composed of glosseme and the linkage among themselves. For a given language, all sub-semantic-field forms the whole semantic filed for that language. According to the conception of association semantic filed, we employ the complex network to represent Chinese semantic field. The scale-free distributions of node degree, node weight, and edge weight, are observed in this network. Some net-work unique language phenomena can be discovered by terms whose node degree, node weight, edge weight are in specific ranges. We demonstrate some specific phenomena detected, expecting further studies would provide reasonable explanations.

      semantic field, complex network, scale-free distribution

      楊華(1974—),博士后,教授,主要研究領域為自然語言處理。E?mail:yanghuastory@foxmail.com姬東鴻(1967—),博士,教授,博士生導師,主要研究領域為自然語言處理。E?mail:dhji@whu.edu.cn蕭國政(1949—),博士、教授、博士生導師,主要研究領域為漢語言文字學、理論語言學及自然語言處理。E?mail:gzxiao@whu.edu.cu

      1003-0077(2015)03-0034-10

      2013-04-08 定稿日期: 2013-07-31

      國家自然科學基金(61070243)、國家社科基金(11&ZD189)、貴州省高層次人才科研項目(TZJF-2010年048號)、貴州省科教青年英才培養(yǎng)工程項目(“黔省專合字(2012)155號”)、貴州師范大學博士科研啟動基金項目(11904-05032110011)

      TP391

      A

      猜你喜歡
      標度度數結點
      層次分析法中兩種標度的對比分析
      眼鏡的度數是如何得出的
      圖形中角的度數
      Ladyzhenskaya流體力學方程組的確定模與確定結點個數估計
      隱形眼鏡度數換算
      加權無標度網絡上SIRS 類傳播模型研究
      創(chuàng)新孵化網絡演化無標度特征仿真分析
      技術經濟(2014年10期)2014-02-28 01:30:01
      基于Raspberry PI為結點的天氣云測量網絡實現
      基于標度自由演化網絡在不同攻擊下的拓撲性質
      基于DHT全分布式P2P-SIP網絡電話穩(wěn)定性研究與設計
      华宁县| 东港市| 德钦县| 普安县| 布拖县| 塔河县| 原阳县| 嘉黎县| 福泉市| 四子王旗| 高淳县| 霍山县| 石景山区| 赞皇县| 通州区| 买车| 子洲县| 三原县| 大埔县| 历史| 封开县| 德安县| 东海县| 汽车| 博客| 元江| 海城市| 穆棱市| 通江县| 开江县| 天祝| 清新县| 珠海市| 丰都县| 冀州市| 绥芬河市| 修武县| 长宁区| 平阴县| 温州市| 炉霍县|