• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于實(shí)體屬性抽取的植物問答系統(tǒng)的研究

      2020-02-16 14:45:46魏恒,紀(jì)芳,李儒夢(mèng)
      教育教學(xué)論壇 2020年1期

      魏恒,紀(jì)芳,李儒夢(mèng)

      摘要:隨著互聯(lián)網(wǎng)的不斷發(fā)展,信息抽取技術(shù)也在不斷革新與進(jìn)步,將植物描述信息結(jié)構(gòu)化,對(duì)于植物分類學(xué)和植物標(biāo)本的采集鑒定等進(jìn)一步的深入研究具有重要意義。文章結(jié)合實(shí)體屬性抽取技術(shù),構(gòu)建了植物信息知識(shí)庫,從而實(shí)現(xiàn)了一個(gè)新型的植物問答系統(tǒng),使用戶能直接得到準(zhǔn)確具體的答案。

      關(guān)鍵詞:實(shí)體屬性抽取;植物知識(shí)庫;問答系統(tǒng)

      中圖分類號(hào):G642.0 ? ? 文獻(xiàn)標(biāo)志碼:A ? ? 文章編號(hào):1674-9324(2020)01-0070-02

      一、引言

      互聯(lián)網(wǎng)的不斷發(fā)展,推動(dòng)了信息抽取技術(shù)的不斷革新與進(jìn)步。實(shí)體屬性抽取作為信息抽取的重要組成部分,其主要任務(wù)是抽取不同類型實(shí)體的獨(dú)有屬性特征。在非結(jié)構(gòu)屬性抽取中,目的是給定實(shí)體,從非結(jié)構(gòu)化文本中抽?。▽?shí)體、屬性、屬性值)三元組[1]。盡管實(shí)體屬性抽取在國內(nèi)外成為一些領(lǐng)域的研究熱點(diǎn)[2],但針對(duì)植物領(lǐng)域的研究仍然較少。并且由于植物專業(yè)術(shù)語的特殊性,其邊界難以確定,導(dǎo)致其他領(lǐng)域的屬性集與技術(shù)不可完全移植。此外,植物信息檢索目前只能通過傳統(tǒng)的搜索引擎(如百度)或相關(guān)網(wǎng)站(如《中國植物志》官網(wǎng))完成,用戶只能得到相關(guān)網(wǎng)頁鏈接或大段非結(jié)構(gòu)化的文本描述,需要耗費(fèi)大量的精力去篩選有用信息,不能直接得到準(zhǔn)確具體的答案。針對(duì)這些情況,本文在植物領(lǐng)域結(jié)合實(shí)體屬性抽取技術(shù),構(gòu)建了較全的植物信息知識(shí)庫,從而實(shí)現(xiàn)了植物問答系統(tǒng)。

      二、基于實(shí)體屬性抽取的植物知識(shí)庫構(gòu)建

      本文將基于實(shí)體屬性抽取的植物知識(shí)庫構(gòu)建分解為三項(xiàng)任務(wù):數(shù)據(jù)獲取與預(yù)處理、分詞與標(biāo)注、屬性與關(guān)系抽取并構(gòu)建知識(shí)庫。

      1.數(shù)據(jù)獲取與預(yù)處理?!吨袊参镏尽啡珪?0卷,126冊(cè),5000多萬字,記載了我國3萬多種植物,是目前世界上最龐大、種類最豐富的一部巨著。其中,種子植物數(shù)量約占總植物的80%。本文選其作為原始數(shù)據(jù)進(jìn)行研究。使用爬蟲從電子版網(wǎng)站(http://frps.eflora.cn)上獲取種子植物的相關(guān)數(shù)據(jù)。由于這些植物網(wǎng)頁的結(jié)構(gòu)可能有所不同,因而需要網(wǎng)頁清洗,進(jìn)行規(guī)范化處理。網(wǎng)頁是標(biāo)記語言構(gòu)建的半結(jié)構(gòu)化文本。將網(wǎng)頁解析成DOM樹,去除無關(guān)的HTML標(biāo)簽元素,提取植物的有效信息。進(jìn)行規(guī)范化處理,將植物的描述文本分為科學(xué)名稱、形態(tài)特征、地理分布、經(jīng)濟(jì)用途等文本塊。

      2.分詞與標(biāo)注。本文基于種子植物的相關(guān)專業(yè)知識(shí),確定了種子植物的基礎(chǔ)性狀及其屬性取值的范圍,構(gòu)建了植物屬性特征詞典,進(jìn)一步提高了植物實(shí)體屬性信息抽取的準(zhǔn)確性??紤]到中文的特性,尤其許多植物的專有名詞難以被計(jì)算機(jī)區(qū)分,為節(jié)省時(shí)間成本,對(duì)于植物信息描述,本文使用中文分詞軟件Jieba進(jìn)行分詞處理和詞性標(biāo)注預(yù)處理。由于植物專業(yè)術(shù)語的特殊性,為保證準(zhǔn)確率,在分詞前會(huì)將上述自主構(gòu)建的植物屬性特征詞典導(dǎo)入該軟件。此外,對(duì)于可能出現(xiàn)的嵌套詞等計(jì)算機(jī)無法識(shí)別的部分則進(jìn)行手工處理。通過分析與標(biāo)注,得到預(yù)處理的語料。

      3.屬性與關(guān)系抽取并構(gòu)建知識(shí)庫。本文采用基于規(guī)則的方法進(jìn)行實(shí)體屬性與關(guān)系的抽取。并且使用RDF模型表示被識(shí)別和抽取的信息。RDF表達(dá)式的基本結(jié)構(gòu)是三元組,每個(gè)三元組由一個(gè)主體、一個(gè)謂詞和一個(gè)客體組成。首先,定義屬性規(guī)則集,包括通用規(guī)則和專用規(guī)則,進(jìn)行植物屬性抽取。通用規(guī)則,即針對(duì)具有共性的描述形式定義的提取規(guī)則。在《中國植物志》中,種子植物的信息描述大部分具有規(guī)律性和一致性。如:植物描述一般都是從生長(zhǎng)習(xí)性、根、莖、葉、花、果實(shí)描述到物候?qū)W特征,對(duì)于較復(fù)雜的器官結(jié)構(gòu),則依其構(gòu)成進(jìn)一步展開;描述文本的句子通常以表示植物結(jié)構(gòu)的名詞詞組(先導(dǎo)詞)開頭;一些屬性具有內(nèi)部特征,如顏色的標(biāo)志為“色”,形狀的標(biāo)志為“狀”“形”等;標(biāo)點(diǎn)符號(hào)起一定作用,如“、”表示某一屬性的屬性值并列,“;”表示葉片與葉柄的分離,“?!北硎靖c葉的分離等。專用規(guī)則,即針對(duì)不同植物具有特性的描述形式定義的規(guī)則。譬如,在有些植物描述花的語句中出現(xiàn)“植物結(jié)構(gòu)”+“數(shù)量”的形式,抽取時(shí)需合理設(shè)定語序?;谕ㄓ靡?guī)則和專用規(guī)則,定義屬性規(guī)則集,用正則匹配的方式抽取出植物的屬性,包括生長(zhǎng)類型、顏色、形狀、形態(tài)、質(zhì)地、毛被、花期、果期、長(zhǎng)度、寬度、高度、胸徑等。在表示植物屬性的RDF模型中,三元組的主體是實(shí)體,謂詞是屬性,客體是屬性值,譬如“油杉”“高度”“30m”。其次,定義關(guān)系規(guī)則集,進(jìn)行植物關(guān)系抽取。由于數(shù)據(jù)的限制,本文從中只抽取到了3種關(guān)系:地域關(guān)系、異名關(guān)系、變種關(guān)系。地域關(guān)系可表示為一個(gè)植物實(shí)體與多個(gè)地域的關(guān)系,也可表示為多個(gè)植物實(shí)體與一個(gè)地域的關(guān)系。異名關(guān)系和變種關(guān)系也是如此。在表示植物關(guān)系的RDF模型中,三元組的主體是實(shí)體,謂詞是關(guān)系,客體是實(shí)體,譬如“油杉”“產(chǎn)于”“浙江南部、福建、廣東、廣西南部”。最后,通過數(shù)據(jù)庫實(shí)現(xiàn)RDF模型的實(shí)際存儲(chǔ)就完成了植物知識(shí)庫的構(gòu)建。

      三、植物問答系統(tǒng)的實(shí)現(xiàn)

      植物問答系統(tǒng)的實(shí)現(xiàn)包括三個(gè)部分:用戶輸入、調(diào)用問答模塊、答案輸出。其中,問答模塊的構(gòu)建是核心。本文基于自主構(gòu)建的結(jié)構(gòu)化植物知識(shí)庫,并且參照相關(guān)問答系統(tǒng)[3],確定本系統(tǒng)的問答模塊分為四個(gè)部分,包括問題分類、問題分析、三元組語義槽提取、答案生成。

      1.問題分類。對(duì)于用戶輸入的問題,確定是屬性問題還是關(guān)系問題。譬如,問題“油杉有多高?”是屬性問題,問題“油杉產(chǎn)自哪里?”是關(guān)系問題。

      2.問題分析。對(duì)問題進(jìn)行分析,確定句子中的實(shí)體、屬性或關(guān)系。譬如,問題“油杉有多高?”中的實(shí)體是“油杉”,屬性是“高度”;問題“油杉產(chǎn)自哪里?”中的實(shí)體是“油杉”,關(guān)系是“地域”。

      3.三元組語義槽提取。從問題分析的結(jié)果中提取語義信息,用三元組表示。譬如,從問題“油杉有多高”中提取出三元組(“油杉”“高度”“?”),從問題“油杉產(chǎn)自哪里”中提取出三元組(“油杉”“產(chǎn)于”“?”)(“?”表示未知)。

      4.答案生成。根據(jù)問題分類和提取到的三元組,在知識(shí)庫的屬性部分和關(guān)系部分中選擇查詢,填充三元組中的未知部分,生成答案。譬如,問題“油杉有多高?”查詢填充后的三元組為“油杉”“高度”“30m”,答案為“30m”;問題“油杉產(chǎn)自哪里?”查詢填充后的三元組為“油杉”“產(chǎn)于”“浙江南部、福建、廣東、廣西南部”,答案為“浙江南部、福建、廣東、廣西南部”。

      將構(gòu)建的問答模塊結(jié)合Web應(yīng)用,即可實(shí)現(xiàn)植物問答系統(tǒng)。

      四、結(jié)語

      本文實(shí)現(xiàn)了一個(gè)基于實(shí)體屬性抽取的植物問答系統(tǒng),對(duì)于植物分類學(xué)和植物標(biāo)本的采集鑒定等進(jìn)一步地深入研究具有重要意義。筆者希望有更多的有志之士能夠投身這個(gè)課題的研究之中,并指出筆者在文中的不足之處,同時(shí)為這一課題的研究做出自己應(yīng)有的一份貢獻(xiàn)。

      參考文獻(xiàn):

      [1]曾道建,來斯惟,張?jiān)埽瑒⒖?,趙軍.面向非結(jié)構(gòu)化文本的開放式實(shí)體屬性抽取[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,(03):279-283,305.

      [2]丁君軍,鄭彥寧,化柏林.國內(nèi)外屬性抽取研究綜述[J].情報(bào)科學(xué),2011,(05):793-796.

      [3]杜澤宇,楊燕,賀樑.基于中文知識(shí)圖譜的電商領(lǐng)域問答系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2017,(05):159-165.

      Research on Plant Question Answering System Based on Entity Attribute Extraction

      WEI Heng,JI Fang,LI Ru-meng

      (School of Information Science & Technology,Beijing Forestry University,Beijing 100083,China)

      Abstract:With the continuous development of the Internet,information extraction technology is also in constant innovation and progress,the plant description information structured,for plant taxonomy and plant specimen collection and identification of further in-depth research is of great significance.In this paper,a knowledge base of plant information is constructed by combining entity attribute extraction technology,so as to realize a new plant question answering system and enable users to get accurate and specific answers directly.

      Key words:entity attribute extraction;plant knowledge base;question answering system

      江阴市| 抚顺县| 广平县| 曲沃县| 新郑市| 卢氏县| 化州市| 隆尧县| 郁南县| 台东市| 郎溪县| 定南县| 柘荣县| 铜陵市| 武平县| 富阳市| 柳河县| 静安区| 穆棱市| 民和| 菏泽市| 宁阳县| 大新县| 康马县| 福州市| 贞丰县| 长宁县| 凌海市| 萍乡市| 米脂县| 刚察县| 宜阳县| 宜宾县| 靖西县| 南丹县| 都兰县| 松阳县| 剑河县| 铁岭市| 新巴尔虎左旗| 霍州市|