• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于醫(yī)療衛(wèi)生文本語義依存樹庫建設(shè)研究

      2018-05-10 10:03:15陳亞波侯云霞
      關(guān)鍵詞:分詞術(shù)語詞典

      于 清,陳亞波,徐 健,常 樂,侯云霞

      (1.新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046;2.新疆大學 軟件學院,新疆 烏魯木齊 830008)

      大數(shù)據(jù)、云平臺、移動網(wǎng)絡(luò)、社交媒體、深度學習、人工智能等計算機技術(shù)迅猛發(fā)展,顛覆了許多傳統(tǒng)行業(yè),行醫(yī)治病模式也發(fā)生巨大變化,醫(yī)學與計算機技術(shù)結(jié)合越來越緊密。此外,人們生活水平不斷提高,對健康越來越重視,加速了醫(yī)療智能化發(fā)展,“互聯(lián)網(wǎng)+健康醫(yī)療”開啟了新時代,穿戴式計算產(chǎn)品、移動醫(yī)療應(yīng)用越來越多走進人們生活[1]。但是,新疆維吾爾自治區(qū)民族居多,語言不通,加之基礎(chǔ)醫(yī)療設(shè)施落后,造成偏遠地區(qū)看病難,由此,開展醫(yī)療衛(wèi)生服務(wù)信息化、翻譯自動化研究意義深遠。

      實現(xiàn)醫(yī)療衛(wèi)生領(lǐng)域信息化、自動化,最基礎(chǔ)的技術(shù)研究詞法分析、句法分析、語義分析是關(guān)鍵。現(xiàn)有分詞工具應(yīng)用于醫(yī)學文本,出錯率高,并且面對復(fù)雜專業(yè)的醫(yī)學術(shù)語詞匯,現(xiàn)有標注集中的符號,無法準確標注,目前醫(yī)療衛(wèi)生領(lǐng)域,還沒有統(tǒng)一標準的詞性標注規(guī)范集。

      語義依存分析是建立在精確分詞,精準詞性標注以及語義關(guān)系標記基礎(chǔ)之上,它融合了句子的依存結(jié)構(gòu)和語義信息,對高層次應(yīng)用研究如:自動問答、信息抽取、機器翻譯、信息檢索、自動文摘等有很大幫助。關(guān)于醫(yī)學文本數(shù)據(jù)語義依存樹庫建設(shè),還沒有檢索到相關(guān)文獻。文章研究目標是構(gòu)建醫(yī)學術(shù)語詞典提高現(xiàn)有分詞系統(tǒng)準確率;在現(xiàn)有詞性標注規(guī)范集基礎(chǔ)上,對醫(yī)療衛(wèi)生文本數(shù)據(jù)詞性標注提出建議;對語義依存句法分析工具錯誤的標注結(jié)果進行總結(jié),為下一步實現(xiàn)自動化后處理以及探索維語依存樹庫建設(shè)奠定基礎(chǔ)。

      圖1 研究內(nèi)容設(shè)計方案

      1 醫(yī)學專業(yè)術(shù)語詞典構(gòu)建及切分規(guī)則

      國內(nèi)比較流行的中文分詞工具有:結(jié)巴、THULAC、LTP[2]、ICTCLAS[3],這些分詞工具在github上已經(jīng)開源,對通用文本如:新聞、體育、政治有較高的自動識別率,但是應(yīng)用于專業(yè)領(lǐng)域,識別率偏低[4]。

      結(jié)巴分詞系統(tǒng)優(yōu)勢在于支持用戶添加自定義詞典,并且用戶添加詞典的優(yōu)先級高于系統(tǒng)原詞典,根據(jù)第二屆國際漢語分詞測評,發(fā)布的國際中文分詞測評標準,它的精確率為81.4%,未登錄詞召回率為80.9%,F(xiàn)值為81.1%。它的詞性標注集參考了北大詞性標注集、清華大學詞性標注集及美國賓州大學中文詞性標注集。將結(jié)巴分詞工具應(yīng)用于醫(yī)療衛(wèi)生文本數(shù)據(jù),準確率只有26%,造成切分不準確的主要原因:大量醫(yī)學專業(yè)術(shù)語詞匯,且詞的組合形式多樣,增加了分詞工具識別難度,構(gòu)建醫(yī)學專業(yè)術(shù)語詞典是提高分詞工具切分準確率的可行方案。

      醫(yī)療衛(wèi)生領(lǐng)域疾病種類多、藥物名稱多、專業(yè)稱呼復(fù)雜,專用動詞出現(xiàn)頻繁。經(jīng)過對醫(yī)學術(shù)語大量查找、篩選、查重,重點從以下幾方面采集數(shù)據(jù):國際疾病分類標準編碼[5];搜狗醫(yī)學詞庫;臨床術(shù)語;人體器官名;常用藥品名稱;人體穴位及解剖學常用詞匯;國際醫(yī)學組織、醫(yī)院科室、醫(yī)用工具及醫(yī)護人員專業(yè)稱呼。最終獲得65394個醫(yī)學術(shù)語詞匯,其中最長12字,對整理后的術(shù)語詞匯進行人工詞性標注,完成醫(yī)學專業(yè)術(shù)語詞典構(gòu)建。

      文獻[6]分別應(yīng)用三種分詞方法:基于詞典的分詞方法,基于統(tǒng)計的分詞方法和詞典與統(tǒng)計相結(jié)合的分詞方法對醫(yī)療數(shù)據(jù)進行分詞實驗,其中,基于詞典的分詞方法準確率最高。文章深入探索該方法的實際應(yīng)用,發(fā)現(xiàn)如果合理解決醫(yī)學術(shù)語中大量組合詞何時組合、何時拆分,該方法用于對醫(yī)療文本數(shù)據(jù)切分,效果明顯提升。提出組合詞切分規(guī)則“如果該詞切分后,每個詞都有實際意義,做切分處理,否則組合成一個詞”[7]。具體實例如下:

      1.“腎上腺利尿激素”這個組合詞,由“腎上腺”和“利尿激素”兩個詞構(gòu)成,由于“腎上腺”在醫(yī)學詞匯中有實際意義,而“利尿激素”也具有實際意義,所以對該類詞拆分處理。

      2.“阿爾茨海默蛋白”這個組合詞,分詞系統(tǒng)處理結(jié)果為“阿爾茨海默”(被標注為人名(nr))和“蛋白”(名詞,(n))兩個詞。雖然“阿爾茨海默”表示人名,但在醫(yī)學用語中,通常見它與“病”,“癥”等詞組合,表示一種疾病或病理。將該類詞組合成一個詞,方能表達出詞匯真實含義。

      遵循切分規(guī)則,構(gòu)建醫(yī)學術(shù)語常用詞典,結(jié)巴分詞系統(tǒng)添加了自定義的詞典后,對醫(yī)療衛(wèi)生文本數(shù)據(jù)再切分,準確率達到78.5%,較之前提高了52.5%。

      2 醫(yī)學文本詞性標注建議

      對中文文本信息化處理過程中,首要問題是分詞,從而需要制訂分詞標準以及詞性標注規(guī)范集,判斷詞與詞的分界,以及對不同詞類進行詞性標注?,F(xiàn)有的標注集有:《信息處理用現(xiàn)代漢語分詞規(guī)范》(簡稱國家規(guī)范)[8],1992年頒布;《現(xiàn)代漢語語料庫基本加工規(guī)范》,由北京大學2002年頒布;《現(xiàn)代漢語語料庫文本分詞規(guī)范Ver3.0》,由清華大學計算機科學與技術(shù)系和北京語言文化大學語言信息處理研究所1998年頒布;《973當代漢語文本語料庫分詞、詞性標注加工規(guī)范》,由山西大學2003年頒布,以及《資訊處理用中文分詞規(guī)范》,由臺灣1998年頒布。除了臺灣頒布的規(guī)范集外,其余規(guī)范集都是在大陸規(guī)范的基礎(chǔ)上制定的。但是,對于醫(yī)療衛(wèi)生領(lǐng)域,目前沒有統(tǒng)一標準的規(guī)范集。

      不同于新聞報紙詞匯,醫(yī)療衛(wèi)生領(lǐng)域詞匯有明顯醫(yī)學特色及特殊含義,如果完全參考原標注體系,有些詞將無法表示出實際意義。如:“肌力4+級”,分詞系統(tǒng)對符號“+”的標注結(jié)果為“x”,而它在句中的真實含義是“強”,標注為“a”形容詞更貼切。諸如此類情況,迫切需要醫(yī)療領(lǐng)域信息化進程中,基于原有標注集,進行完善補充。

      對分詞工具處理后的醫(yī)療衛(wèi)生文本進行分析發(fā)現(xiàn),一般詞匯都能準確切分,醫(yī)學專業(yè)術(shù)語出錯率極高,而包含大量醫(yī)學專業(yè)術(shù)語命名實體,尤其名詞是醫(yī)學文本主要特征。文章就名詞類展開研究,綜合上述已有規(guī)范,名詞類常見詞性標記如表1。

      表1 名詞類詞性標注

      細觀自動分詞標注后的醫(yī)療衛(wèi)生文本數(shù)據(jù),大量命名實體,類型繁雜,上述名詞詞性標記,不足以反映出醫(yī)學術(shù)語專有名詞特點,建議在原有標注集基礎(chǔ)上增加一類標記,醫(yī)學術(shù)語專有名詞標記“ny”,由名詞代碼n和“醫(yī)”的聲母y并在一起構(gòu)成,ny又可細分為以下3類:

      (1)“眼眶”、“脊髓”、“靜脈”等器官名稱,包括中醫(yī)人體穴位,在醫(yī)療衛(wèi)生文本中大量出現(xiàn),建議列為醫(yī)學術(shù)語專有名詞一個子類——器官類“nyq”。

      (2)“腦性癱瘓”、“高血壓”為疾病;“CT”、“B超”為檢查;“手術(shù)刀”、“止血鉗”為醫(yī)療器械。醫(yī)療衛(wèi)生文本包含大量疾病治療過程,其中疾病病理名稱、疾病癥狀,所用器械、檢查、手術(shù)名稱及治療過程等與疾病密切相關(guān),建議列為醫(yī)學術(shù)語專有名詞一個子類——疾病類“nyj”。

      (3)大量與治療疾病相關(guān)的藥物,不但包括藥物名稱(包括通用名,正式商品名,以及藥物主要成分命名的醫(yī)用名),而且包括藥物的施治方式,計量,用藥頻率等,建議列為醫(yī)學術(shù)語專有名詞中一個子類——藥物類“nyy”。針對醫(yī)療衛(wèi)生文本數(shù)據(jù)特點,醫(yī)學術(shù)語專有名詞分類細則參見圖2所示。

      圖2 醫(yī)學術(shù)語專有名詞分類

      以上對原有標注集的補充完善,必將促進醫(yī)療領(lǐng)域文本數(shù)據(jù)的自動化處理。

      3 醫(yī)學文本語義依存分析

      語義依存分析的目標是跨越句子表層句法結(jié)構(gòu)束縛,分析句子各個語言單位之間的語義關(guān)聯(lián),并將具有直接語義關(guān)聯(lián)的語言單元直接連接依存弧,并標記上相應(yīng)的語義關(guān)系,從而獲取深層語義信息[9]。

      語義依存關(guān)系分為三類,語義角色:包含34種關(guān)系,每一種語義角色對應(yīng)存在一個嵌套關(guān)系和反關(guān)系;事件關(guān)系:描述兩個事件間的關(guān)系,包含19種類型;語義依附標記:標記說話者語氣等依附信息,包含17種標記;此外還包含一個根節(jié)點Root,是全句的核心節(jié)點,詳見哈工大LTP語言云,目前已經(jīng)開放。

      語義依存分析,是用以上制訂的各種關(guān)系標記,深刻描述出句子語義信息,人工標記費時費力耗財,借助語義依存分析平臺,可實現(xiàn)對句子的自動化標記。然而由于醫(yī)學文本句子有其獨特風格,自動化處理結(jié)果往往包含錯誤。此外,語義分析是繼分詞,詞性標注后的自動化處理過程,如果分詞和詞性標注出現(xiàn)錯誤,會導(dǎo)致語義依存分析錯誤累積。以上諸因素,自動生成的依存樹庫,需要后處理。

      文獻[10]提到,句子太短不能表達完整語義,句子太長超過一定限度,依存句法分析會產(chǎn)生劃分錯誤。句子長度閾值介于8-40字為合適范圍[11]。于是構(gòu)建了45215條醫(yī)學文本句子,從中抽取2萬條,每條句子長度介于8-40個字,先進行自動化依存句法分析,通過對500條標注后的句子,人工校對,發(fā)現(xiàn)如下規(guī)律。

      3.1 詞性調(diào)整會改變語義依存關(guān)系

      人工校對過程中,關(guān)于詞切分、詞性標注仍然存在大量分歧,通過搜索和查閱大量文獻,信息處理用電子病歷詞性標注遵循以下原則:第一,語法功能原則;第二,允許有兼類[12]。名詞類和動詞類最容易出錯,需根據(jù)語法功能,判斷詞性,人工重新標注,語義依存關(guān)系自動變化。常見標注錯誤有以下幾方面:

      (1)名詞或動詞詞性標注沖突

      如分詞處理結(jié)果:免疫/v抑制劑/n、/wp免疫/v增強劑/n。

      其中,“免疫”可為動詞也可為名詞。百度搜索后:“免疫是人體的一種生理功能,人體依靠這種功能識別"自己"和"非己"成分,以維持人體的健康?!痹卺t(yī)學方面大量使用其名詞屬性。因此將“免疫”重新標注為名詞。

      (2)分詞歧義造成錯誤

      如分詞處理結(jié)果:有/v此前/nt驅(qū)/v癥狀/n。/wp

      根據(jù)語法、語義,應(yīng)修改為:有/v此/nt前驅(qū)/n癥狀/n。/wp

      上述句子屬于交集型歧義。

      (3)醫(yī)學術(shù)語造成的分詞錯誤

      如分詞處理結(jié)果:口腔/n念/v珠菌病/n

      修正①:口腔念珠菌病/nd

      修正②:口腔/n念珠菌病/nd

      修正③:口腔/n念珠菌/nd病/n

      百度搜索:念珠菌病是由念珠菌病主要是白色念珠菌引起的皮膚、粘膜或內(nèi)臟器官真菌病。根據(jù)查詢結(jié)果及分詞規(guī)則,最終保留第二種糾正結(jié)果。

      3.2 自動語義依存分析存在問題

      盡管當前語義依存工具強大,但是面對特定領(lǐng)域,尤其醫(yī)療衛(wèi)生領(lǐng)域,由于語句明顯有醫(yī)學特點,需要進一步人工校對。通過實踐,總結(jié)出以下規(guī)律:

      (1)主語并列引發(fā)root節(jié)點指向不明

      如原句:營養(yǎng)不良、變態(tài)反應(yīng)體質(zhì)、不良的衛(wèi)生習慣及陰暗潮濕的居住環(huán)境等可誘發(fā)本病。

      詞法分析后的句子:營養(yǎng)/n不良/a、/wp變態(tài)反應(yīng)/i體質(zhì)/n、/wp不良/a的/u衛(wèi)生/a習慣/n及/c陰暗/a潮濕/a的/u居住/v環(huán)境/n等/u可/v誘發(fā)/v本病/r。/wp

      經(jīng)修改后,語義依存分析標注為:

      圖3 主語并列項的句子標注結(jié)果

      如圖3所示:本句用到了根節(jié)點(Root)、描寫角色(Feat)、當事關(guān)系(Exp)、并列關(guān)系(eCoo)、的字標記(mAux)、多數(shù)標記(mMaj)、情態(tài)標記(mMod)和標點標記(mPunc),共8種語義依存標注關(guān)系。圖中“營養(yǎng)不良”、“變態(tài)反體質(zhì)”、“不良的衛(wèi)生習慣”及“陰暗潮濕的居住環(huán)境”作為句子的并列主語,引發(fā)root節(jié)點指向“不良”形容詞,在標記規(guī)范中root節(jié)點是全句的核心節(jié)點,應(yīng)該指向核心詞,本句的核心詞是動詞“誘發(fā)”。

      (2)缺少主語,影響詞間關(guān)系標注

      如原句:多見于青少年及兒童。

      詞法分析后的句子:多/a見于/v青少年/n及/c兒童/n。/wp

      句子沒有主語,只有謂語賓語,“多”字起修飾作用,與動詞的詞間關(guān)系沒有自動生成,經(jīng)討論描寫關(guān)系(Feat)為最接近的關(guān)系表示,修改后,語義依存分析標注為:

      圖4 缺少主語的句子標注結(jié)果

      如圖4所示:本句用到根節(jié)點(Root)、受事關(guān)系(Pat)、描寫角色(Feat)、連詞標記(mConj)、并列關(guān)系(eCoo)和標點標記(mPunc),6種語義依存標注關(guān)系。

      (3)存在多個相連動詞

      如原句:多認為是由多種微生物蛋白質(zhì)引起的遲發(fā)型變態(tài)反應(yīng)性疾病。

      詞法分析后的句子:多/a認為/v是/v由/p多種/m微生物/n蛋白質(zhì)/n引起/v的/u遲發(fā)型/b變態(tài)反應(yīng)性/n疾病/n。/wp

      存在多個相連動詞,造成根節(jié)點(Root)指向錯誤,修改后,語義依存分析標注為:

      圖5 存在多個動詞的句子標注結(jié)果

      (4)醫(yī)療文本中的順承關(guān)系有延伸

      如原句:用0.1%利福平眼藥水、0.1%肽丁胺眼藥水或0.5%氯霉素眼藥水等點眼。

      詞法分析后的句子:用/p 0.1%/m利福平/v眼藥水/n、/wp 0.1%/m肽丁胺/n眼藥水/n或/c 0.5%/m氯霉素/n眼藥水/n等/u點眼/n。/wp

      修改后,語義依存分析標注為:

      圖6 存在順承關(guān)系的句子的標注結(jié)果

      順承關(guān)系(eSucc)中,代表性關(guān)鍵詞為“隨后,然后”。順承關(guān)系表示前后兩個行為之間只有時間的先后,不一定有程度的加深、范圍的擴大。而在醫(yī)療文本中,順承關(guān)系(eSucc)有擴張,不僅表現(xiàn)在出現(xiàn)的關(guān)鍵詞,而且表現(xiàn)在動詞與動詞之間。

      4 結(jié)論與展望

      文章針對現(xiàn)有分詞工具對醫(yī)療衛(wèi)生領(lǐng)域文本分詞、詞性標注出現(xiàn)的諸多問題進行研究,提出擴充詞性標注集方案,對詞切分錯誤進行歸納總結(jié),并構(gòu)建了專業(yè)的醫(yī)學術(shù)語詞典。進一步深入研究了醫(yī)療衛(wèi)生領(lǐng)域句子的依存句法特征,構(gòu)建了小規(guī)模語義依存樹庫。這些研究為醫(yī)學文本信息化處理奠定了基礎(chǔ)。

      下一步將繼續(xù)擴充語義依存樹庫,對醫(yī)療衛(wèi)生領(lǐng)域文本的語義依存特征進行更深入分析和總結(jié),實現(xiàn)用統(tǒng)計方法對現(xiàn)有依存工具句法標注結(jié)果進行自動化后處理,擴大樹庫規(guī)模,達到高層應(yīng)用需求。

      參考文獻:

      [1]《全國醫(yī)療衛(wèi)生服務(wù)體系規(guī)劃綱要(2015-2020年)》國務(wù)院辦公廳(2015)14號文件[EB/OL].http://www.gov.cn/zhengce/content/2015-03/30/content_9560.htm.

      [2]劉挺,車萬翔,等.語言技術(shù)平臺[J].中文信息學報,2011,25(6):53-62.

      [3]唐濤.面向特定領(lǐng)域的中文分詞技術(shù)的研究[D].沈陽航空航天大學,2012.

      [4]魏進.中文分詞技術(shù)在公安信息系統(tǒng)中的應(yīng)用研究[D].解放軍信息工程大學,2007.

      [5]卜擎燕,熊寧寧.ICH國際醫(yī)學用語詞典[M].上海:上海交通大學出版社,2007.

      [6]于清,陳永杰,等.適用于醫(yī)療衛(wèi)生領(lǐng)域的中文分詞方法研究[J].新疆師范大學學報(自然科學版),2017,36(01):62-66.

      [7]蔣志鵬,趙芳芳,等.面向中文電子病歷的詞法語料標注研究[J].高技術(shù)通訊,2014,24(06):609-615.

      [8]楊錦鋒,于秋斌,等.電子病歷命名實體識別和實體關(guān)系抽取研究綜述[J].自動化學報,2014,24(8):1537-1562.

      [9]袁毓林.論元角色的層級關(guān)系和語義特征[J].世界漢語教學,2002,3(002):10-22.

      [10]李向宏,王丁,等.自然語言句法分析研究現(xiàn)狀和發(fā)展趨勢[J].微處理機,2003,1(2):4-12.

      [11]孟謠,李生,等.基于統(tǒng)計的句法綜述分析技術(shù)[J].計算機科學,2003,30(9):54-58.

      [12]楊梅,白楠.國內(nèi)語料庫翻譯研究現(xiàn)狀調(diào)查——基于國內(nèi)學術(shù)期刊的數(shù)據(jù)分析[J].中國翻譯,2010,6(1):46-50.

      猜你喜歡
      分詞術(shù)語詞典
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      評《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標準探索
      值得重視的分詞的特殊用法
      高考分詞作狀語考點歸納與疑難解析
      《胡言詞典》(合集版)刊行
      當代修辭學(2013年4期)2013-01-23 06:43:10
      有感于幾個術(shù)語的定名與應(yīng)用
      從術(shù)語學基本模型的演變看術(shù)語學的發(fā)展趨勢
      論英語不定式和-ing分詞的語義傳承
      外語學刊(2011年3期)2011-01-22 03:42:20
      专栏| 滨州市| 南皮县| 桐乡市| 内丘县| 信宜市| 玛多县| 彭泽县| 句容市| 府谷县| 瓮安县| 江北区| 泰顺县| 铜川市| 正镶白旗| 石渠县| 股票| 冷水江市| 九寨沟县| 稷山县| 射洪县| 千阳县| 修水县| 茶陵县| 额济纳旗| 哈尔滨市| 喜德县| 灵寿县| 衡阳县| 洪洞县| 宽城| 略阳县| 双柏县| 林州市| 郸城县| 彭山县| 格尔木市| 广元市| 丽江市| 武清区| 昌都县|