• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于同義擴(kuò)展的在線百科中實(shí)體屬性抽取

      2016-05-04 01:51:26劉冰洋伍大勇程學(xué)旗
      中文信息學(xué)報(bào) 2016年1期
      關(guān)鍵詞:同義百科置信度

      劉 倩,劉冰洋,賀 敏,伍大勇,劉 悅,程學(xué)旗

      (1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國(guó)科學(xué)院大學(xué),北京 100049;3. 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)

      基于同義擴(kuò)展的在線百科中實(shí)體屬性抽取

      劉 倩1,2,劉冰洋1,2,賀 敏3,伍大勇1,劉 悅1,程學(xué)旗1

      (1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國(guó)科學(xué)院大學(xué),北京 100049;3. 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)

      實(shí)體屬性抽取是信息抽取、知識(shí)庫(kù)構(gòu)建等任務(wù)的重要基礎(chǔ)。該文提出了一種利用在線百科獲取實(shí)體屬性的方法,該方法首先通過在線百科的結(jié)構(gòu)特征和領(lǐng)域獨(dú)立的抽取模式捕獲可能的屬性短語(yǔ),然后根據(jù)同義擴(kuò)展獲取盡可能多的屬性表述形式,并同時(shí)得到對(duì)應(yīng)實(shí)體類別的同義屬性集合。實(shí)驗(yàn)表明,該方法在保證屬性抽取準(zhǔn)確率不變的情況下,獲得了比僅使用頻率的方法覆蓋范圍更廣的實(shí)體屬性集合。

      實(shí)體屬性;同義屬性;命名實(shí)體;信息抽取詞

      1 引言

      隨著互聯(lián)網(wǎng)上信息規(guī)模的膨脹和冗余信息的增加,如何快速準(zhǔn)確地獲取用戶感興趣的信息和知識(shí)成為人們關(guān)注的一個(gè)重要問題。在這種背景下,問答系統(tǒng)、智能搜索引擎這類基于知識(shí)庫(kù)的應(yīng)用也越來(lái)越受人們歡迎。在這些應(yīng)用中,很重要的基礎(chǔ)部分就是命名實(shí)體識(shí)別及其屬性抽取,其中,實(shí)體屬性抽取是一項(xiàng)具有重要意義卻充滿挑戰(zhàn)的工作。

      實(shí)體屬性是指一類實(shí)體所共有的特性。屬性的名稱是抽取相應(yīng)屬性值的前提,名稱的準(zhǔn)確性和覆蓋范圍制約著屬性值抽取的效果,因此本文重點(diǎn)討論如何挖掘盡可能多的屬于同類實(shí)體的屬性名稱。當(dāng)前屬性抽取工作主要圍繞用戶評(píng)論[1]、查詢?nèi)罩綶2-3]、普通Web文本[4]等類型的數(shù)據(jù)展開,這些數(shù)據(jù)的優(yōu)勢(shì)是量大、易獲得,但包含大量不可控的噪音,且處理成本較高。本文面向在線百科這類數(shù)據(jù)資源,基于其三個(gè)優(yōu)勢(shì):第一,包含大量實(shí)體及其描述信息,大部分的百科詞條都是實(shí)體,并且屬性出現(xiàn)非常密集;第二,覆蓋領(lǐng)域較全面,例如,熱門實(shí)體類別“體育明星”、“數(shù)碼產(chǎn)品”和不常見實(shí)體類別“抗生素”;第三,在線百科的半結(jié)構(gòu)網(wǎng)頁(yè)特征為屬性挖掘提供了更多可利用的線索。

      現(xiàn)有的屬性抽取方法直接應(yīng)用于在線百科只能獲得少量的屬性,其主要原因是:屬性判定方法僅依據(jù)屬性所描述的實(shí)體的數(shù)量。然而,自然語(yǔ)言具有一定的隨意性,含義相同的屬性往往有多種不同的表述形式。那些不常用的表述形式由于出現(xiàn)頻率較低而被遺漏。例如,在與手機(jī)相關(guān)的397個(gè)百度百科頁(yè)面中抽取屬性,“拍照功能”在132個(gè)頁(yè)面中出現(xiàn)過,其所描述的實(shí)體的數(shù)量較多,可以被正確抽取。但是,它的同義屬性“照相功能”和“拍攝功能”由于只出現(xiàn)在12個(gè)和兩個(gè)頁(yè)面中而被遺漏。實(shí)驗(yàn)表明,高頻屬性僅占小部分,大量屬性分布在長(zhǎng)尾里,如圖1所示。我們發(fā)現(xiàn)在這些低頻屬性里包含大量的與高頻屬性同義的屬性表達(dá),因此識(shí)別這些同義屬性將能夠獲得更豐富的屬性集合。但是就我們所知,現(xiàn)有的研究工作主要集中在如何獲取正確的屬性和屬性值,很少有人關(guān)注同義屬性的識(shí)別。

      本文介紹的屬性抽取方法與以往方法的不同在于:(1) 本文面向在線百科這類數(shù)據(jù)資源,深入分析并充分利用其結(jié)構(gòu)特征,有效地從頁(yè)面結(jié)構(gòu)和頁(yè)面文本內(nèi)容中獲取實(shí)體屬性;(2) 本文提出一種適用于屬性短語(yǔ)特點(diǎn)的同義判定方法,利用同義擴(kuò)展挖掘盡可能多的屬性名稱的不同表達(dá)形式;(3) 本文提出一個(gè)統(tǒng)一的實(shí)體屬性抽取框架,在抽取屬性的同時(shí)生成同義屬性集合,有助于屬性的歸一化,降低后期知識(shí)庫(kù)構(gòu)建的成本。

      2 相關(guān)工作

      在屬性獲取方面,大部分相關(guān)工作采用基于規(guī)則的方法。文獻(xiàn)[2, 4, 5]基于“the of is”模式抽取屬性。文獻(xiàn)[3]提出一種新的“[why] be ?”模式從疑問句中捕獲可能的屬性。為獲得較多的匹配結(jié)果,Lee[6]等人結(jié)合使用了probase、Web文本、Bing查詢?nèi)罩竞虳Bpedia多種數(shù)據(jù)資源的300多TB數(shù)據(jù),Pasca[3]等人使用上億數(shù)量級(jí)的google查詢?nèi)罩?。大?shù)據(jù)在獲得更多屬性的同時(shí)增加了噪音和處理成本。與這些工作不同的是,我們致力于從在線百科這種規(guī)模相對(duì)較小的數(shù)據(jù)中挖掘出大量屬性;也有一些相關(guān)工作采用非規(guī)則的方法抽取屬性。

      圖1 將標(biāo)記為“為重要”(見4.1節(jié)定義)的屬性,按照所描述的實(shí)體的數(shù)量從高到低排序

      文獻(xiàn)[5]將名詞短語(yǔ)的N-gram作為候選屬性。文獻(xiàn)[7]通過分析句法將置于類名前的形容詞或者符合“類名+謂語(yǔ)+賓語(yǔ)”句式的“賓語(yǔ)”作為屬性。文獻(xiàn)[8]利用網(wǎng)頁(yè)中已標(biāo)注的屬性的HTML層次結(jié)構(gòu),發(fā)現(xiàn)新的位于同層的屬性。我們提出一種無(wú)監(jiān)督的屬性抽取方法,結(jié)合在線百科的結(jié)構(gòu)特點(diǎn)和領(lǐng)域獨(dú)立的抽取模板來(lái)獲得屬性。實(shí)驗(yàn)表明該方法能夠以較低的成本獲取大量屬性。

      本文還涉及同義詞識(shí)別方面的研究工作。分布相似性是最常用的方法,該方法認(rèn)為出現(xiàn)在相似上下文中的詞語(yǔ)具有相近的含義[9]。然而,本文中的屬性短語(yǔ)主要從表格、段落標(biāo)題和短句子中獲得,缺少上下文信息,從而使得分布相似性方法并不完全適用。此外,文獻(xiàn)[10]提出基于檢索的點(diǎn)互信息方法來(lái)識(shí)別同義詞。文獻(xiàn)[11]利用Wikipedia中的鏈接計(jì)算詞的相似度。

      在線百科在自然語(yǔ)言處理的許多研究領(lǐng)域中發(fā)揮著重要作用,例如,命名實(shí)體識(shí)別[12],命名實(shí)體消歧[13]和知識(shí)庫(kù)構(gòu)建[14]等。但是,從在線百科中獲取屬性的相關(guān)研究很少。此外,針對(duì)中文的實(shí)體屬性研究仍然較少,現(xiàn)有工作主要集中在特定領(lǐng)域的屬性值抽取。文獻(xiàn)[15]利用人工標(biāo)注的訓(xùn)練集識(shí)別了五個(gè)給定類別的人物屬性。文獻(xiàn)[16]抽取數(shù)量型屬性值。與之不同的是,我們面向開放領(lǐng)域,提出一種適用于中文的領(lǐng)域無(wú)關(guān)的屬性獲取方法。

      3 本文的實(shí)體屬性抽取方法

      為獲得質(zhì)量較高的屬性,一些工作僅從包含類別名稱的句子中進(jìn)行抽取[7]??紤]到這種數(shù)據(jù)太稀少,我們的方法從該類所包含的實(shí)例的描述數(shù)據(jù)中進(jìn)行抽取,首先基于頻率獲取部分高置信度的屬性,然后利用屬性短語(yǔ)間的同義關(guān)系擴(kuò)展得到更多屬性。

      3.1 收集實(shí)體描述數(shù)據(jù)

      在線百科的每個(gè)詞條頁(yè)面上會(huì)有一些人工標(biāo)注的類別標(biāo)簽,如百度百科頁(yè)面下方的“開放分類”標(biāo)簽,此外,在線百科自身通常具有分類體系,例如百度百科中的“百科分類”。利用頁(yè)面類別標(biāo)簽和固有分類體系將每個(gè)頁(yè)面映射到相應(yīng)類別中,過濾掉重定向的頁(yè)面。對(duì)于每個(gè)類別下的所有實(shí)例頁(yè)面,利用向量空間模型計(jì)算全部頁(yè)面的中心向量,過濾掉距離中心向量較遠(yuǎn)的個(gè)別頁(yè)面。此數(shù)據(jù)作為屬性抽取的目標(biāo)數(shù)據(jù),是下一步工作的基礎(chǔ)。

      3.2 基于頻率的中文屬性獲取方法

      為了充分利用百科頁(yè)面上的所有信息,我們分別從頁(yè)面結(jié)構(gòu)特點(diǎn)和平文本兩個(gè)角度獲取可能的屬性,平文本是指除去表格和段落標(biāo)題之后剩余的正文內(nèi)容,本文簡(jiǎn)稱平文本。

      利用頁(yè)面結(jié)構(gòu)信息捕獲屬性:通過觀察,我們發(fā)現(xiàn)在線百科的頁(yè)面具有一些特征:(1) 大部分頁(yè)面包含一個(gè)用于描述詞條所對(duì)應(yīng)實(shí)體概要信息的信息框(Infobox),該信息框含有實(shí)體的屬性;(2) 實(shí)體的屬性名稱及取值往往以表格的形式進(jìn)行組織,并且屬性名稱通常出現(xiàn)在表頭;(3) 復(fù)合屬性往往出現(xiàn)在段落標(biāo)題中。復(fù)合屬性是相對(duì)于簡(jiǎn)單屬性而定義的,簡(jiǎn)單屬性的取值單一、確定,而復(fù)合屬性的取值正好相反,例如,“NBA球星”的“個(gè)人簡(jiǎn)介”既可以由“國(guó)籍”、“出生日期”和“身高”等簡(jiǎn)單屬性復(fù)合而成,也可以由“曾效力球隊(duì)”、“退役時(shí)間”和“職業(yè)生涯最高得分”等簡(jiǎn)單屬性復(fù)合而成。

      針對(duì)百科頁(yè)面的上述特點(diǎn),我們使用HTML的特定標(biāo)簽,如

      、
      、
      、
      等,抽取表格的表頭和段落標(biāo)題作為候選屬性集合。

      利用領(lǐng)域無(wú)關(guān)的抽取模式捕獲屬性:平文本里仍然包含大量屬性,為此我們提出如下兩個(gè)適用于中文語(yǔ)言習(xí)慣的抽取模板:

      P-1:<實(shí)體>的<屬性>是

      P-2:<屬性>:<值>

      在模式P-2中,單個(gè)句子除“:”外不能包含其他標(biāo)點(diǎn)符號(hào)。此外,實(shí)驗(yàn)發(fā)現(xiàn),字符長(zhǎng)度過長(zhǎng)的<屬性>和<值>多為噪音,因此過濾掉大于10個(gè)字符的匹配結(jié)果。值得一提的是,模式P-1對(duì)應(yīng)于英文屬性抽取中普遍使用且效果較好的“the of is”模式,但在實(shí)際應(yīng)用中該模式不是很有用。這一結(jié)果說(shuō)明,中、英文之間存在的差異使得這些在英文數(shù)據(jù)上行之有效的方法應(yīng)用于中文數(shù)據(jù)時(shí)失效,有必要提出針對(duì)中文的解決方案。

      計(jì)算屬性置信度:獲得候選屬性集合之后,我們采用基于頻率的置信度計(jì)算方法來(lái)度量屬性的質(zhì)量。給定實(shí)體類別C,候選短語(yǔ)a是類別C的屬性的置信度可以被計(jì)算為式(1)。

      (1)

      其中,ei為C中的一個(gè)實(shí)體,page(ei)為ei的描述頁(yè)面,a∈page(ei)表示屬性a可以從page(ei)中抽取出。

      3.3 利用屬性同義的特點(diǎn)擴(kuò)展抽取

      3.2節(jié)所述的方法可以獲得一些高質(zhì)量的屬性,但是置信度得分較低的候選屬性中仍然含有大量高質(zhì)量的屬性,這些屬性由于不常出現(xiàn)而被遺漏。我們發(fā)現(xiàn)這些被遺漏的屬性中許多與高置信度屬性是同義的,據(jù)此,我們提出一種基于同義屬性擴(kuò)展的方法進(jìn)一步抽取屬性的不同表達(dá)形式。其中,屬性的同義性分別從兩個(gè)方面進(jìn)行度量。

      字面相似度:由于屬性短語(yǔ)的長(zhǎng)度較短,平均為4.7個(gè)漢字,許多常用的相似度度量方法(如編輯距離、Jaccard相似度)效果并不理想。例如,非同義屬性“主頻參數(shù)”和“主屏參數(shù)”的Jaccard相似度為0.6,而同義屬性“攝像頭”和“攝像頭像素”的Jaccard相似度僅有0.4。此外,屬性短語(yǔ)多來(lái)自相似的實(shí)體描述頁(yè)面,缺少足夠有區(qū)分度的上下文信息,因此,余弦距離等方法也不適用。為此我們做嚴(yán)格約束,僅當(dāng)某一屬性為另一屬性的完全子串時(shí)才計(jì)算字面相似度,否則認(rèn)為字面不相似,即給定兩個(gè)屬性短語(yǔ)a和b,字面相似度計(jì)算為式(2)。

      surSim(a,b)=

      (2)

      其中a∈b表示a為b的完全子串,|a|表示屬性短語(yǔ)a的字符長(zhǎng)度。該公式的直觀解釋是兩個(gè)屬性短語(yǔ)重疊的字符數(shù)占兩個(gè)短語(yǔ)平均長(zhǎng)度的比值越大,則兩個(gè)屬性越相似。

      語(yǔ)義相似度:給定兩個(gè)屬性短語(yǔ)a和b,分詞之后記為a=和b=,對(duì)于任意的詞對(duì)cij=,利用同義詞典*http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=162計(jì)算其語(yǔ)義相似度,從而得到屬性短語(yǔ)a和b的詞語(yǔ)相似度矩陣C=[cij]m×n。該同義詞典采用五層編碼,可以看成一顆深度為五的詞語(yǔ)樹,葉節(jié)點(diǎn)為詞語(yǔ),位于同一顆子樹上的詞語(yǔ)均具有一定的語(yǔ)義關(guān)系。如果兩個(gè)詞語(yǔ)的共同父節(jié)點(diǎn)數(shù)量越多,說(shuō)明兩個(gè)詞語(yǔ)的語(yǔ)義越相近。給定兩個(gè)詞語(yǔ)w和v,五層編碼分別記為w=l1l2l3l4l5和v=h1h2h3h4h5,它們的語(yǔ)義相似度計(jì)算為式(3)。

      (3)

      其中prefix(*,*)表示兩個(gè)五層編碼的公共前綴的字符數(shù)量。

      對(duì)于一個(gè)給定的詞對(duì)序列seq={,,...,}(s為m和n的最小值),其語(yǔ)義相似度計(jì)算為式(4)。

      (4)

      屬性a和b的語(yǔ)義相似度為所有可能的詞對(duì)序列相似度中的最大值,形式化地表示為式(5)。

      (5)

      我們采用貪心的方法求解,每次從C中選取最大的cij并同時(shí)將wi和vj從屬性短語(yǔ)中移除。屬性短語(yǔ)最終的相似度為式(6)。

      (6)

      基于上述同義屬性度量方法,我們提出一種擴(kuò)展的屬性置信度計(jì)算方法(算法1所示),該方法利用屬性同義的特點(diǎn)有選擇地提高低頻屬性的置信度,與3.2節(jié)中基于頻率的置信度計(jì)算方法相比,可以獲得更多高質(zhì)量的屬性,同時(shí)得到了同義屬性集合。其中,算法1步驟9中的閾值在實(shí)驗(yàn)中設(shè)置為0.8。較高的閾值能夠保證獲得的同義屬性的質(zhì)量,但數(shù)量較少,反之,較低的閾值能夠獲取更多的同義屬性但準(zhǔn)確率會(huì)降低,可以根據(jù)具體應(yīng)用需求進(jìn)行調(diào)整。

      4 實(shí)驗(yàn)與分析

      4.1 實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)數(shù)據(jù):實(shí)驗(yàn)使用百度百科作為數(shù)據(jù)集。值得注意的是,我們提出的系統(tǒng)框架和算法同樣適用于其它中文在線百科,只需在解析HTML的實(shí)現(xiàn)細(xì)節(jié)稍作改動(dòng)即可。截止到2013年4月20日,共采集1 199個(gè)實(shí)體類別的379 654個(gè)詞條。由于無(wú)法對(duì)所有類別進(jìn)行評(píng)價(jià),選取“手機(jī)”、“NBA球星”、“國(guó)內(nèi)高?!?、“槍械”、“汽車”和“抗生素”六個(gè)類別,涉及熱門領(lǐng)域“人物”、“產(chǎn)品”和新領(lǐng)域“機(jī)構(gòu)”、“武器”等,各類別的實(shí)體數(shù)量見表1。

      算法 1 基于同義屬性擴(kuò)展的屬性抽取算法

      輸入:D?包含某類實(shí)體的百科頁(yè)面集合輸出:L?屬性及同義屬性列表1:抽取D中所有可能的屬性,存入Temp2:對(duì)任意的ai∈Temp,計(jì)算conffre(ai),并降序排列3: forai∈Tempdo4: ifai?Lthen5: 添加ai到L6: else7: 對(duì)任意的lj∈L,計(jì)算sim(ai,lj)8: 找到相似度最大的屬性l?,其相似度記為θ?9: ifθ?>thresholdthen10: 更新ai的置信度為conf=(1-θ?)·conffre(ai)+θ?·conffre(l?)11: 添加ai到L,并標(biāo)記l?和ai為同義屬性12: endif13: endelse14: endfor15:returnL

      評(píng)價(jià)指標(biāo):人工標(biāo)注評(píng)價(jià)抽取結(jié)果。為克服評(píng)價(jià)的主觀性和不一致性,我們采用文獻(xiàn)[2]中提出的評(píng)價(jià)指標(biāo):如果一個(gè)屬性對(duì)描述該類實(shí)體來(lái)說(shuō)是必要的,標(biāo)記為“重要”;如果一個(gè)屬性有用但不重要,標(biāo)記為“一般”;如果一個(gè)屬性是錯(cuò)誤的,標(biāo)記為“錯(cuò)誤”,將標(biāo)記轉(zhuǎn)換為對(duì)應(yīng)的分值用以計(jì)算結(jié)果的整體準(zhǔn)確率,見表2。請(qǐng)六個(gè)研究人員分別獨(dú)立標(biāo)注,對(duì)于標(biāo)注不一致的屬性,則采取投票的方式來(lái)確定標(biāo)注值。給定一個(gè)目標(biāo)類別, 根據(jù)第3節(jié)中描述的方法可以得到一個(gè)按照置信度排序的屬性列表,使用Precision@N(P@N)作為屬性準(zhǔn)確率的評(píng)價(jià)指標(biāo),即結(jié)果列表前N個(gè)屬性的總得分除以N。

      表1 各個(gè)類別的實(shí)體數(shù)量及樣例

      表2 人工標(biāo)記的標(biāo)簽及舉例說(shuō)明

      基準(zhǔn)系統(tǒng):由于缺少可比較的中文屬性挖掘方面的工作,我們實(shí)現(xiàn)了一個(gè)在英文數(shù)據(jù)上具有代表性的方法[2]作為基準(zhǔn)系統(tǒng)(記為BL)。該方法主要思想為,利用領(lǐng)域獨(dú)立的模式來(lái)獲取無(wú)結(jié)構(gòu)文本中的屬性,并且基于頻率對(duì)屬性排序。為了使之適用于中文,我們將原方法中的英文模式映射成等價(jià)的中文模式,事實(shí)上就是3.2節(jié)中提到的P-1模式。使用NLPIR漢語(yǔ)分詞系統(tǒng)*http://ictclas.nlpir.org/對(duì)句子進(jìn)行分詞和詞性標(biāo)注,抽取“的”后面最長(zhǎng)的名詞短語(yǔ)作為屬性。此外,我們還對(duì)比兩組不同設(shè)置的運(yùn)行結(jié)果,用以分析同義屬性擴(kuò)展帶來(lái)的增量效果:

      (RUN-1):僅使用3.2中的基于頻率的方法獲取屬性,不做同義屬性擴(kuò)展。

      (RUN-2):在RUN-1基礎(chǔ)上,使用3.3中的方法進(jìn)行擴(kuò)展。

      4.2 實(shí)驗(yàn)結(jié)果及其分析

      準(zhǔn)確率:圖2展示了基準(zhǔn)系統(tǒng)和本文方法的整體結(jié)果,為便于對(duì)比,表3列出了P@10、P@50和P@100三個(gè)特定點(diǎn)上的值。從圖中可以看出,不同類別的抽取效果不盡相同,例如“國(guó)內(nèi)高?!焙汀翱股亍?,無(wú)論是我們的方法還是基準(zhǔn)系統(tǒng)效果都比其他類別要差,這是因?yàn)椤皣?guó)內(nèi)高?!倍酁閺?fù)合屬性,“抗生素”本身具有的屬性就較少。由此可見,屬性抽取的效果由實(shí)體類別本身的特點(diǎn)決定。

      圖2表明,RUN-1和RUN-2在六個(gè)類別上的準(zhǔn)確率普遍比基準(zhǔn)系統(tǒng)要高?;鶞?zhǔn)系統(tǒng)在英文數(shù)據(jù)集上P@50的平均值在0.63以上,而應(yīng)用在中文數(shù)據(jù)上P@50的平均值下降到0.55,可見中英文之間存在的差異使得在英文上表現(xiàn)良好的屬性抽取方法并不適用于中文數(shù)據(jù)。RUN-1在P@50的平均值為0.78,這說(shuō)明抽取的屬性基本可用。值得注意的是,屬性抽取方面的相關(guān)工作一般只考察前50個(gè)抽取結(jié)果,本文考察前100個(gè)抽取結(jié)果,由圖2可以看出,基準(zhǔn)系統(tǒng)的準(zhǔn)確率下降較快,RUN-2最平緩。具體來(lái)說(shuō),基準(zhǔn)系統(tǒng)在P@100的平均值僅為0.43,抽取的屬性已基本不可靠,而RUN-2在P@100的平均值為0.83,抽取的屬性仍具有較高的可信性。此外,RUN-2在P@50的平均值為0.86,說(shuō)明通過3.3節(jié)的方法擴(kuò)展進(jìn)來(lái)的 同義屬性并沒有明顯降低原抽取結(jié)果的準(zhǔn)確性。

      圖2 前100個(gè)抽取結(jié)果的準(zhǔn)確率

      前N個(gè)結(jié)果的覆蓋率: 一個(gè)實(shí)體類別的完整屬性集合是不可知的,而人工枚舉所有的屬性也是不現(xiàn)實(shí)的,這是信息抽取尤其是屬性抽取領(lǐng)域普遍面臨的問題,許多研究工作放棄評(píng)估召回率而重點(diǎn)考察準(zhǔn)確率??紤]到我們的目的是進(jìn)行方法的橫向比較,即對(duì)比不同屬性挖掘算法在獲得的屬性數(shù)量上的差異,而不是為了得到真實(shí)的召回值,因此我們使用一種易處理的近似方案:將表1中給出的共2 166個(gè)實(shí)體的百科頁(yè)面作為六個(gè)類別的全部數(shù)據(jù),采用人工標(biāo)注的方法評(píng)估抽取結(jié)果的覆蓋率。顯然,這仍是非常耗時(shí)的,我們只考察標(biāo)記為“重要”的屬性,因?yàn)槠渌麑傩灾匾暂^低且容易發(fā)生標(biāo)注不一致問題。

      表3 前10、前50、前100個(gè)結(jié)果的準(zhǔn)確率

      表4給出了各類別在前10、前50和前100個(gè)抽取結(jié)果的覆蓋率。由于不同類別具有屬性的基數(shù)不同,類別和類別之間的覆蓋率差距較大,但是這不影響橫向?qū)Ρ?。此外,表中的覆蓋率值普遍偏低,這是由于我們只考察前100個(gè)抽取結(jié)果,例如“手機(jī)”共有917個(gè)屬性,即使前100個(gè)抽取結(jié)果全對(duì),覆蓋率也僅有0.11。由表可知,RUN-2在六個(gè)類別上的覆蓋率均比RUN-1高,這說(shuō)明3.3節(jié)中提出的擴(kuò)展方法確實(shí)獲得了更多屬性。

      表4 前10、50和100個(gè)結(jié)果的覆蓋率

      表5 屬性及同義屬性部分結(jié)果

      續(xù)表

      同義屬性評(píng)價(jià):表5為同義屬性集合的部分結(jié)果,“{}”中的為同義屬性。由表可知,部分同義屬性具有相似的字面形式,部分同義屬性字面完全不同,例如,“配用彈種”和“可用子彈類型”。為進(jìn)一步考察同義屬性識(shí)別的效果,我們將同義屬性識(shí)別看成聚類問題,從已被標(biāo)注為“重要”的屬性集合中隨機(jī)選擇10%的屬性,人工標(biāo)注并計(jì)算聚類Purity(公式7)結(jié)果見表6。

      (7)

      其中Si是類別i下待評(píng)測(cè)的聚類集,Rj是類別j下人工標(biāo)注的聚類集。

      表6 同義屬性識(shí)別效果

      5 總結(jié)與展望

      本文提出了一種以在線百科為數(shù)據(jù)資源,基于同義屬性擴(kuò)展的中文屬性抽取方法,實(shí)驗(yàn)表明該方法在保證識(shí)別準(zhǔn)確率的前提下能夠有效地從在線百科中抽取出大量的屬性名稱,該方法與使用頻率的抽取方法相比,能夠獲得覆蓋范圍更廣的屬性名稱集合。

      在本文方法中,我們通過識(shí)別同義屬性,在一定程度上解決了屬性名稱的歸一化問題。在未來(lái)的工作中,我們將進(jìn)一步探討和研究屬性值的歸一化問題以及屬性上下位關(guān)系的自動(dòng)識(shí)別問題,這些研究?jī)?nèi)容也是自動(dòng)構(gòu)建知識(shí)庫(kù)需要解決的重要問題。

      [1] Popescu A-M, Etzioni O. Extracting product features and opinions from reviews[M]Natural language processing and text mining. Springer London, 2007: 9-28.

      [2] Pasca M, Van Durme B, Garera N. The role of documents vs. queries in extracting class attributes from text[C]//Proceedings of CIKM. Lisbon, Portugal, 2007: 485-494.

      [3] Pasca M. Attribute extraction from conjectural queries[C]//Proceedings of COLING 2012. India, 2012: 2177-2190.

      [4] Tokunaga K, Kazama J, Torisawa K. Automatic discovery of attribute words from Web documents[C]//Proceedings of the Natural Language Processing-IJCNLP 2005. Jeju Island, Korea, 2005: 106-118.

      [5] Raju S, Pingali P, Varma V. An unsupervised approach to product attribute extraction[M]. Advances in Information Retrieval. Springer Berlin Heidelberg, 2009: 796-800.

      [6] Lee T, Wang Z, Wang H, et al. Attribute Extraction and Scoring: A Probabilistic Approach[C]//Proceedings of ICDE. Brisbane, Australia, 2013: 194-205.

      [7] Van Durme B, Qian T, Schubert L. Class-driven attribute extraction[C]//Proceedings of the 22nd International Conference on Computational Linguistics. Manchester, UK, 2008: 921-928.

      [8] Ravi S, Pa?ca M. Using structured text for large-scale attribute extraction[C]//Proceedings of CIKM. Napa Valley, California, 2008: 1183-1192.

      [9] Lin D, Zhao S, Qin L, et al. Identifying synonyms among distributionally similar words[C]//Proceedings of IJCAI. Acapulco, Mexico, 2003: 1492-1493.

      [10] Turney P. Mining the web for synonyms: PMI-IR versus LSA on TOEFL[C]//Proceedings of the 12th European Conference on Machine Learning. Freiburg, Germany, 2001: 491-502.

      [11] Witten I, Milne D. An effective, low-cost measure of semantic relatedness obtained from Wikipedia links[C]//Proceeding of AAAI Workshop on Wikipedia and Artificial Intelligence. Chicago, USA, 2008: 25-30.

      [12] Kim S, Toutanova K, Yu H. Multilingual named entity recognition using parallel data and metadata from Wikipedia[C]//Proceedings of ACL,Korea, 2012: 694-702.

      [13] Han X, Zhao J. Structural semantic relatedness: a knowledge-based method to named entity disambiguation[C]//Proceedings of ACL, Sweden, 2010: 50-59.

      [14] Suchanek F M, Kasneci G, Weikum G. Yago: a core of semantic knowledge[C]//Proceedings of WWW, Canada, 2007: 697-706.

      [15] 葉正,林鴻飛,蘇綏,等. 基于支持向量機(jī)的人物屬性抽取[J]. 計(jì)算機(jī)研究與發(fā)展, 2007, 44: 271-275.

      [16] 盧漢,曹存根,王石. 基于元性質(zhì)的數(shù)量型屬性值自動(dòng)提取系統(tǒng)的實(shí)現(xiàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2010, 47(10): 1741-1748.

      Synonymous Expansion Based Entity Attribute Extraction via Online Encyclopedia

      LIU Qian1,2, LIU Bingyang1,2, HE Min3, WU Dayong1, LIU Yue1, CHENG Xueqi1

      (1. CAS Key Laboratory of Network Data Science & Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190,China; 2. University of Chinese Academy of Sciences, Beijing 100049,China;3. National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China)

      Entity attribute extraction is fundamental to information extraction and knowledge base construction. This paper proposes an approach to open-domain entity attributes extraction from the online encyclopedia. The method collects potential attribute phrases through a combination of the web page structure and the domain independent patterns. Then, the acquired attribute patterns are expanded by synonymous expansions, which in turn helps to obtain a set of synonymous attributes. Experimental results show that the proposed approach boosts the coverage of extracted attributes without losing the precision.

      entity attribute;synonymous attribute;named entity,information extraction

      劉倩(1984—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、命名實(shí)體識(shí)別、網(wǎng)絡(luò)文本挖掘、信息抽取。E?mail:liuqian1104@126.com劉冰洋(1987—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、命名實(shí)體識(shí)別、新詞發(fā)現(xiàn)。E?mail:liuctic@gmail.com賀敏(1982—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、網(wǎng)絡(luò)挖掘、信息安全。E?mail:heminsmile@163.com

      1003-0077(2016)01-0016-08

      2013-08-10 定稿日期: 2014-05-10

      國(guó)重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973)(2012CB316303);國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973)(2014CB340401);國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(61232010);國(guó)家科技支撐專項(xiàng)(2012BAH46B04);國(guó)家自然科學(xué)基金(61303156)

      TP391

      A

      猜你喜歡
      同義百科置信度
      Dale Carnegie
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      樂樂“畫”百科
      西夏文《同義》重復(fù)字研究
      西夏學(xué)(2019年1期)2019-02-10 06:22:08
      百科小知識(shí)
      正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
      西夏文《同義》考釋三則
      西夏學(xué)(2018年2期)2018-05-15 11:25:30
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      探索百科
      超有趣的互動(dòng)百科
        
        

            
            

                镇雄县| 阿坝| 时尚| 仪陇县| 鹰潭市| 运城市| 桦甸市| 宁明县| 赤水市| 文登市| 鄂伦春自治旗| 威信县| 琼海市| 汉源县| 婺源县| 北流市| 龙门县| 白山市| 东明县| 渝中区| 林州市| 逊克县| 明光市| 甘孜县| 沿河| 滦南县| 赤壁市| 东宁县| 巴南区| 灌云县| 西华县| 宽城| 南溪县| 永平县| 和林格尔县| 临漳县| 德保县| 仁怀市| 石楼县| 宜城市| 新龙县|