等,抽取表格的表頭和段落標(biāo)題作為候選屬性集合。利用領(lǐng)域無(wú)關(guān)的抽取模式捕獲屬性:平文本里仍然包含大量屬性,為此我們提出如下兩個(gè)適用于中文語(yǔ)言習(xí)慣的抽取模板:
P-1:<實(shí)體>的<屬性>是
P-2:<屬性>:<值>
在模式P-2中,單個(gè)句子除“:”外不能包含其他標(biāo)點(diǎn)符號(hào)。此外,實(shí)驗(yàn)發(fā)現(xiàn),字符長(zhǎng)度過長(zhǎng)的<屬性>和<值>多為噪音,因此過濾掉大于10個(gè)字符的匹配結(jié)果。值得一提的是,模式P-1對(duì)應(yīng)于英文屬性抽取中普遍使用且效果較好的“the of is”模式,但在實(shí)際應(yīng)用中該模式不是很有用。這一結(jié)果說(shuō)明,中、英文之間存在的差異使得這些在英文數(shù)據(jù)上行之有效的方法應(yīng)用于中文數(shù)據(jù)時(shí)失效,有必要提出針對(duì)中文的解決方案。
計(jì)算屬性置信度:獲得候選屬性集合之后,我們采用基于頻率的置信度計(jì)算方法來(lái)度量屬性的質(zhì)量。給定實(shí)體類別C,候選短語(yǔ)a是類別C的屬性的置信度可以被計(jì)算為式(1)。

(1)
其中,ei為C中的一個(gè)實(shí)體,page(ei)為ei的描述頁(yè)面,a∈page(ei)表示屬性a可以從page(ei)中抽取出。
3.3 利用屬性同義的特點(diǎn)擴(kuò)展抽取
3.2節(jié)所述的方法可以獲得一些高質(zhì)量的屬性,但是置信度得分較低的候選屬性中仍然含有大量高質(zhì)量的屬性,這些屬性由于不常出現(xiàn)而被遺漏。我們發(fā)現(xiàn)這些被遺漏的屬性中許多與高置信度屬性是同義的,據(jù)此,我們提出一種基于同義屬性擴(kuò)展的方法進(jìn)一步抽取屬性的不同表達(dá)形式。其中,屬性的同義性分別從兩個(gè)方面進(jìn)行度量。
字面相似度:由于屬性短語(yǔ)的長(zhǎng)度較短,平均為4.7個(gè)漢字,許多常用的相似度度量方法(如編輯距離、Jaccard相似度)效果并不理想。例如,非同義屬性“主頻參數(shù)”和“主屏參數(shù)”的Jaccard相似度為0.6,而同義屬性“攝像頭”和“攝像頭像素”的Jaccard相似度僅有0.4。此外,屬性短語(yǔ)多來(lái)自相似的實(shí)體描述頁(yè)面,缺少足夠有區(qū)分度的上下文信息,因此,余弦距離等方法也不適用。為此我們做嚴(yán)格約束,僅當(dāng)某一屬性為另一屬性的完全子串時(shí)才計(jì)算字面相似度,否則認(rèn)為字面不相似,即給定兩個(gè)屬性短語(yǔ)a和b,字面相似度計(jì)算為式(2)。
surSim(a,b)=
(2)
其中a∈b表示a為b的完全子串,|a|表示屬性短語(yǔ)a的字符長(zhǎng)度。該公式的直觀解釋是兩個(gè)屬性短語(yǔ)重疊的字符數(shù)占兩個(gè)短語(yǔ)平均長(zhǎng)度的比值越大,則兩個(gè)屬性越相似。
語(yǔ)義相似度:給定兩個(gè)屬性短語(yǔ)a和b,分詞之后記為a=和b=,對(duì)于任意的詞對(duì)cij=,利用同義詞典*http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=162計(jì)算其語(yǔ)義相似度,從而得到屬性短語(yǔ)a和b的詞語(yǔ)相似度矩陣C=[cij]m×n。該同義詞典采用五層編碼,可以看成一顆深度為五的詞語(yǔ)樹,葉節(jié)點(diǎn)為詞語(yǔ),位于同一顆子樹上的詞語(yǔ)均具有一定的語(yǔ)義關(guān)系。如果兩個(gè)詞語(yǔ)的共同父節(jié)點(diǎn)數(shù)量越多,說(shuō)明兩個(gè)詞語(yǔ)的語(yǔ)義越相近。給定兩個(gè)詞語(yǔ)w和v,五層編碼分別記為w=l1l2l3l4l5和v=h1h2h3h4h5,它們的語(yǔ)義相似度計(jì)算為式(3)。

(3)
其中prefix(*,*)表示兩個(gè)五層編碼的公共前綴的字符數(shù)量。
對(duì)于一個(gè)給定的詞對(duì)序列seq={,,...,}(s為m和n的最小值),其語(yǔ)義相似度計(jì)算為式(4)。
(4)
屬性a和b的語(yǔ)義相似度為所有可能的詞對(duì)序列相似度中的最大值,形式化地表示為式(5)。
(5)
我們采用貪心的方法求解,每次從C中選取最大的cij并同時(shí)將wi和vj從屬性短語(yǔ)中移除。屬性短語(yǔ)最終的相似度為式(6)。

(6)
基于上述同義屬性度量方法,我們提出一種擴(kuò)展的屬性置信度計(jì)算方法(算法1所示),該方法利用屬性同義的特點(diǎn)有選擇地提高低頻屬性的置信度,與3.2節(jié)中基于頻率的置信度計(jì)算方法相比,可以獲得更多高質(zhì)量的屬性,同時(shí)得到了同義屬性集合。其中,算法1步驟9中的閾值在實(shí)驗(yàn)中設(shè)置為0.8。較高的閾值能夠保證獲得的同義屬性的質(zhì)量,但數(shù)量較少,反之,較低的閾值能夠獲取更多的同義屬性但準(zhǔn)確率會(huì)降低,可以根據(jù)具體應(yīng)用需求進(jìn)行調(diào)整。
4 實(shí)驗(yàn)與分析
4.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)數(shù)據(jù):實(shí)驗(yàn)使用百度百科作為數(shù)據(jù)集。值得注意的是,我們提出的系統(tǒng)框架和算法同樣適用于其它中文在線百科,只需在解析HTML的實(shí)現(xiàn)細(xì)節(jié)稍作改動(dòng)即可。截止到2013年4月20日,共采集1 199個(gè)實(shí)體類別的379 654個(gè)詞條。由于無(wú)法對(duì)所有類別進(jìn)行評(píng)價(jià),選取“手機(jī)”、“NBA球星”、“國(guó)內(nèi)高?!?、“槍械”、“汽車”和“抗生素”六個(gè)類別,涉及熱門領(lǐng)域“人物”、“產(chǎn)品”和新領(lǐng)域“機(jī)構(gòu)”、“武器”等,各類別的實(shí)體數(shù)量見表1。
算法 1 基于同義屬性擴(kuò)展的屬性抽取算法

輸入:D?包含某類實(shí)體的百科頁(yè)面集合輸出:L?屬性及同義屬性列表1:抽取D中所有可能的屬性,存入Temp2:對(duì)任意的ai∈Temp,計(jì)算conffre(ai),并降序排列3: forai∈Tempdo4: ifai?Lthen5: 添加ai到L6: else7: 對(duì)任意的lj∈L,計(jì)算sim(ai,lj)8: 找到相似度最大的屬性l?,其相似度記為θ?9: ifθ?>thresholdthen10: 更新ai的置信度為conf=(1-θ?)·conffre(ai)+θ?·conffre(l?)11: 添加ai到L,并標(biāo)記l?和ai為同義屬性12: endif13: endelse14: endfor15:returnL
評(píng)價(jià)指標(biāo):人工標(biāo)注評(píng)價(jià)抽取結(jié)果。為克服評(píng)價(jià)的主觀性和不一致性,我們采用文獻(xiàn)[2]中提出的評(píng)價(jià)指標(biāo):如果一個(gè)屬性對(duì)描述該類實(shí)體來(lái)說(shuō)是必要的,標(biāo)記為“重要”;如果一個(gè)屬性有用但不重要,標(biāo)記為“一般”;如果一個(gè)屬性是錯(cuò)誤的,標(biāo)記為“錯(cuò)誤”,將標(biāo)記轉(zhuǎn)換為對(duì)應(yīng)的分值用以計(jì)算結(jié)果的整體準(zhǔn)確率,見表2。請(qǐng)六個(gè)研究人員分別獨(dú)立標(biāo)注,對(duì)于標(biāo)注不一致的屬性,則采取投票的方式來(lái)確定標(biāo)注值。給定一個(gè)目標(biāo)類別, 根據(jù)第3節(jié)中描述的方法可以得到一個(gè)按照置信度排序的屬性列表,使用Precision@N(P@N)作為屬性準(zhǔn)確率的評(píng)價(jià)指標(biāo),即結(jié)果列表前N個(gè)屬性的總得分除以N。

表1 各個(gè)類別的實(shí)體數(shù)量及樣例

表2 人工標(biāo)記的標(biāo)簽及舉例說(shuō)明
基準(zhǔn)系統(tǒng):由于缺少可比較的中文屬性挖掘方面的工作,我們實(shí)現(xiàn)了一個(gè)在英文數(shù)據(jù)上具有代表性的方法[2]作為基準(zhǔn)系統(tǒng)(記為BL)。該方法主要思想為,利用領(lǐng)域獨(dú)立的模式來(lái)獲取無(wú)結(jié)構(gòu)文本中的屬性,并且基于頻率對(duì)屬性排序。為了使之適用于中文,我們將原方法中的英文模式映射成等價(jià)的中文模式,事實(shí)上就是3.2節(jié)中提到的P-1模式。使用NLPIR漢語(yǔ)分詞系統(tǒng)*http://ictclas.nlpir.org/對(duì)句子進(jìn)行分詞和詞性標(biāo)注,抽取“的”后面最長(zhǎng)的名詞短語(yǔ)作為屬性。此外,我們還對(duì)比兩組不同設(shè)置的運(yùn)行結(jié)果,用以分析同義屬性擴(kuò)展帶來(lái)的增量效果:
(RUN-1):僅使用3.2中的基于頻率的方法獲取屬性,不做同義屬性擴(kuò)展。
(RUN-2):在RUN-1基礎(chǔ)上,使用3.3中的方法進(jìn)行擴(kuò)展。
4.2 實(shí)驗(yàn)結(jié)果及其分析
準(zhǔn)確率:圖2展示了基準(zhǔn)系統(tǒng)和本文方法的整體結(jié)果,為便于對(duì)比,表3列出了P@10、P@50和P@100三個(gè)特定點(diǎn)上的值。從圖中可以看出,不同類別的抽取效果不盡相同,例如“國(guó)內(nèi)高?!焙汀翱股亍?,無(wú)論是我們的方法還是基準(zhǔn)系統(tǒng)效果都比其他類別要差,這是因?yàn)椤皣?guó)內(nèi)高?!倍酁閺?fù)合屬性,“抗生素”本身具有的屬性就較少。由此可見,屬性抽取的效果由實(shí)體類別本身的特點(diǎn)決定。
圖2表明,RUN-1和RUN-2在六個(gè)類別上的準(zhǔn)確率普遍比基準(zhǔn)系統(tǒng)要高?;鶞?zhǔn)系統(tǒng)在英文數(shù)據(jù)集上P@50的平均值在0.63以上,而應(yīng)用在中文數(shù)據(jù)上P@50的平均值下降到0.55,可見中英文之間存在的差異使得在英文上表現(xiàn)良好的屬性抽取方法并不適用于中文數(shù)據(jù)。RUN-1在P@50的平均值為0.78,這說(shuō)明抽取的屬性基本可用。值得注意的是,屬性抽取方面的相關(guān)工作一般只考察前50個(gè)抽取結(jié)果,本文考察前100個(gè)抽取結(jié)果,由圖2可以看出,基準(zhǔn)系統(tǒng)的準(zhǔn)確率下降較快,RUN-2最平緩。具體來(lái)說(shuō),基準(zhǔn)系統(tǒng)在P@100的平均值僅為0.43,抽取的屬性已基本不可靠,而RUN-2在P@100的平均值為0.83,抽取的屬性仍具有較高的可信性。此外,RUN-2在P@50的平均值為0.86,說(shuō)明通過3.3節(jié)的方法擴(kuò)展進(jìn)來(lái)的 同義屬性并沒有明顯降低原抽取結(jié)果的準(zhǔn)確性。

圖2 前100個(gè)抽取結(jié)果的準(zhǔn)確率
前N個(gè)結(jié)果的覆蓋率: 一個(gè)實(shí)體類別的完整屬性集合是不可知的,而人工枚舉所有的屬性也是不現(xiàn)實(shí)的,這是信息抽取尤其是屬性抽取領(lǐng)域普遍面臨的問題,許多研究工作放棄評(píng)估召回率而重點(diǎn)考察準(zhǔn)確率??紤]到我們的目的是進(jìn)行方法的橫向比較,即對(duì)比不同屬性挖掘算法在獲得的屬性數(shù)量上的差異,而不是為了得到真實(shí)的召回值,因此我們使用一種易處理的近似方案:將表1中給出的共2 166個(gè)實(shí)體的百科頁(yè)面作為六個(gè)類別的全部數(shù)據(jù),采用人工標(biāo)注的方法評(píng)估抽取結(jié)果的覆蓋率。顯然,這仍是非常耗時(shí)的,我們只考察標(biāo)記為“重要”的屬性,因?yàn)槠渌麑傩灾匾暂^低且容易發(fā)生標(biāo)注不一致問題。

表3 前10、前50、前100個(gè)結(jié)果的準(zhǔn)確率
表4給出了各類別在前10、前50和前100個(gè)抽取結(jié)果的覆蓋率。由于不同類別具有屬性的基數(shù)不同,類別和類別之間的覆蓋率差距較大,但是這不影響橫向?qū)Ρ?。此外,表中的覆蓋率值普遍偏低,這是由于我們只考察前100個(gè)抽取結(jié)果,例如“手機(jī)”共有917個(gè)屬性,即使前100個(gè)抽取結(jié)果全對(duì),覆蓋率也僅有0.11。由表可知,RUN-2在六個(gè)類別上的覆蓋率均比RUN-1高,這說(shuō)明3.3節(jié)中提出的擴(kuò)展方法確實(shí)獲得了更多屬性。

表4 前10、50和100個(gè)結(jié)果的覆蓋率

表5 屬性及同義屬性部分結(jié)果

續(xù)表
同義屬性評(píng)價(jià):表5為同義屬性集合的部分結(jié)果,“{}”中的為同義屬性。由表可知,部分同義屬性具有相似的字面形式,部分同義屬性字面完全不同,例如,“配用彈種”和“可用子彈類型”。為進(jìn)一步考察同義屬性識(shí)別的效果,我們將同義屬性識(shí)別看成聚類問題,從已被標(biāo)注為“重要”的屬性集合中隨機(jī)選擇10%的屬性,人工標(biāo)注并計(jì)算聚類Purity(公式7)結(jié)果見表6。
(7)
其中Si是類別i下待評(píng)測(cè)的聚類集,Rj是類別j下人工標(biāo)注的聚類集。

表6 同義屬性識(shí)別效果
5 總結(jié)與展望
本文提出了一種以在線百科為數(shù)據(jù)資源,基于同義屬性擴(kuò)展的中文屬性抽取方法,實(shí)驗(yàn)表明該方法在保證識(shí)別準(zhǔn)確率的前提下能夠有效地從在線百科中抽取出大量的屬性名稱,該方法與使用頻率的抽取方法相比,能夠獲得覆蓋范圍更廣的屬性名稱集合。
在本文方法中,我們通過識(shí)別同義屬性,在一定程度上解決了屬性名稱的歸一化問題。在未來(lái)的工作中,我們將進(jìn)一步探討和研究屬性值的歸一化問題以及屬性上下位關(guān)系的自動(dòng)識(shí)別問題,這些研究?jī)?nèi)容也是自動(dòng)構(gòu)建知識(shí)庫(kù)需要解決的重要問題。
[1] Popescu A-M, Etzioni O. Extracting product features and opinions from reviews[M]Natural language processing and text mining. Springer London, 2007: 9-28.
[2] Pasca M, Van Durme B, Garera N. The role of documents vs. queries in extracting class attributes from text[C]//Proceedings of CIKM. Lisbon, Portugal, 2007: 485-494.
[3] Pasca M. Attribute extraction from conjectural queries[C]//Proceedings of COLING 2012. India, 2012: 2177-2190.
[4] Tokunaga K, Kazama J, Torisawa K. Automatic discovery of attribute words from Web documents[C]//Proceedings of the Natural Language Processing-IJCNLP 2005. Jeju Island, Korea, 2005: 106-118.
[5] Raju S, Pingali P, Varma V. An unsupervised approach to product attribute extraction[M]. Advances in Information Retrieval. Springer Berlin Heidelberg, 2009: 796-800.
[6] Lee T, Wang Z, Wang H, et al. Attribute Extraction and Scoring: A Probabilistic Approach[C]//Proceedings of ICDE. Brisbane, Australia, 2013: 194-205.
[7] Van Durme B, Qian T, Schubert L. Class-driven attribute extraction[C]//Proceedings of the 22nd International Conference on Computational Linguistics. Manchester, UK, 2008: 921-928.
[8] Ravi S, Pa?ca M. Using structured text for large-scale attribute extraction[C]//Proceedings of CIKM. Napa Valley, California, 2008: 1183-1192.
[9] Lin D, Zhao S, Qin L, et al. Identifying synonyms among distributionally similar words[C]//Proceedings of IJCAI. Acapulco, Mexico, 2003: 1492-1493.
[10] Turney P. Mining the web for synonyms: PMI-IR versus LSA on TOEFL[C]//Proceedings of the 12th European Conference on Machine Learning. Freiburg, Germany, 2001: 491-502.
[11] Witten I, Milne D. An effective, low-cost measure of semantic relatedness obtained from Wikipedia links[C]//Proceeding of AAAI Workshop on Wikipedia and Artificial Intelligence. Chicago, USA, 2008: 25-30.
[12] Kim S, Toutanova K, Yu H. Multilingual named entity recognition using parallel data and metadata from Wikipedia[C]//Proceedings of ACL,Korea, 2012: 694-702.
[13] Han X, Zhao J. Structural semantic relatedness: a knowledge-based method to named entity disambiguation[C]//Proceedings of ACL, Sweden, 2010: 50-59.
[14] Suchanek F M, Kasneci G, Weikum G. Yago: a core of semantic knowledge[C]//Proceedings of WWW, Canada, 2007: 697-706.
[15] 葉正,林鴻飛,蘇綏,等. 基于支持向量機(jī)的人物屬性抽取[J]. 計(jì)算機(jī)研究與發(fā)展, 2007, 44: 271-275.
[16] 盧漢,曹存根,王石. 基于元性質(zhì)的數(shù)量型屬性值自動(dòng)提取系統(tǒng)的實(shí)現(xiàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2010, 47(10): 1741-1748.
Synonymous Expansion Based Entity Attribute Extraction via Online Encyclopedia
LIU Qian1,2, LIU Bingyang1,2, HE Min3, WU Dayong1, LIU Yue1, CHENG Xueqi1
(1. CAS Key Laboratory of Network Data Science & Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190,China; 2. University of Chinese Academy of Sciences, Beijing 100049,China;3. National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China)
Entity attribute extraction is fundamental to information extraction and knowledge base construction. This paper proposes an approach to open-domain entity attributes extraction from the online encyclopedia. The method collects potential attribute phrases through a combination of the web page structure and the domain independent patterns. Then, the acquired attribute patterns are expanded by synonymous expansions, which in turn helps to obtain a set of synonymous attributes. Experimental results show that the proposed approach boosts the coverage of extracted attributes without losing the precision.
entity attribute;synonymous attribute;named entity,information extraction

劉倩(1984—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、命名實(shí)體識(shí)別、網(wǎng)絡(luò)文本挖掘、信息抽取。E?mail:liuqian1104@126.com劉冰洋(1987—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、命名實(shí)體識(shí)別、新詞發(fā)現(xiàn)。E?mail:liuctic@gmail.com賀敏(1982—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、網(wǎng)絡(luò)挖掘、信息安全。E?mail:heminsmile@163.com
1003-0077(2016)01-0016-08
2013-08-10 定稿日期: 2014-05-10
國(guó)重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973)(2012CB316303);國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973)(2014CB340401);國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(61232010);國(guó)家科技支撐專項(xiàng)(2012BAH46B04);國(guó)家自然科學(xué)基金(61303156)
TP391
A
镇雄县|
阿坝|
时尚|
仪陇县|
鹰潭市|
运城市|
桦甸市|
宁明县|
赤水市|
文登市|
鄂伦春自治旗|
威信县|
琼海市|
汉源县|
婺源县|
北流市|
龙门县|
白山市|
东明县|
渝中区|
林州市|
逊克县|
明光市|
甘孜县|
沿河|
滦南县|
赤壁市|
东宁县|
巴南区|
灌云县|
西华县|
宽城|
南溪县|
永平县|
和林格尔县|
临漳县|
德保县|
仁怀市|
石楼县|
宜城市|
新龙县|