• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      研發(fā)設(shè)計資源大規(guī)模領(lǐng)域本體構(gòu)建方法

      2022-09-14 13:43:10杜麗峰
      鍛壓裝備與制造技術(shù) 2022年4期
      關(guān)鍵詞:分詞語料庫本體

      栗 統(tǒng),杜麗峰,王 磊

      (1.天津大學(xué) 機(jī)械工程學(xué)院,天津 300350;2.天津市天鍛壓力機(jī)有限公司,天津 300232)

      對于現(xiàn)代復(fù)雜裝備制造研制企業(yè)來說,研發(fā)設(shè)計等知識資源已經(jīng)成為僅次于核心研發(fā)人員的最重要的資產(chǎn),是開展產(chǎn)品正向創(chuàng)新設(shè)計的基礎(chǔ)性資源,企業(yè)已經(jīng)開始越來越重視這些資源的管理與應(yīng)用。由于這些資源來源于不同的業(yè)務(wù)系統(tǒng),客觀上造成了分散在不同系統(tǒng)或不同組織中的現(xiàn)狀,缺乏統(tǒng)一的組織和管理,共享效率低,與研發(fā)流程融合不足,無法在產(chǎn)品全生命周期中發(fā)揮核心價值。集團(tuán)企業(yè)之中,由于數(shù)據(jù)地域上分散,形式上異構(gòu),儲存上分布的原因,各個企業(yè)之間的信息形成了孤島。

      為解決上述難題,本文運(yùn)用資源空間模型的概念在集團(tuán)企業(yè)之間建立集信息資源整合、共享的應(yīng)用軟件平臺,解決資源分散化、異構(gòu)化,建立資源空間模型,實現(xiàn)研發(fā)設(shè)計資源統(tǒng)一建模開發(fā)資源共享模式。其中設(shè)計資源空間模型通過對集團(tuán)企業(yè)設(shè)計資源內(nèi)容進(jìn)行分類,從而對分散在不同組織系統(tǒng)中的設(shè)計資源進(jìn)行規(guī)范化整理,實現(xiàn)統(tǒng)一管理,促進(jìn)不同資源間的共享,提高與研發(fā)活動的融合程度,高效發(fā)揮集團(tuán)企業(yè)研發(fā)設(shè)計資源的核心作用。構(gòu)建設(shè)計資源空間模型按照自底向上的順序分為5 個層級,分別為分類層、元數(shù)據(jù)層、本體層和圖譜層,資源空間框架如圖1 所示。其中,分類層包含了設(shè)計資源的分類信息,從不同維度和特征對設(shè)計資源進(jìn)行分類,便于設(shè)計資源的快速定位;元數(shù)據(jù)層描述了設(shè)計資源的屬性信息,包含設(shè)計資源的基本信息、功能、狀態(tài)等各方面的屬性;本體層對設(shè)計資源的內(nèi)容進(jìn)行了規(guī)范性描述,便于設(shè)計資源的統(tǒng)一規(guī)范管理、準(zhǔn)確查找;圖譜層體現(xiàn)了不同設(shè)計資源之間的聯(lián)系,提高了設(shè)計資源的搜索和關(guān)聯(lián)資源查找效率。

      圖1 資源空間框架

      本體詞語最早不是在計算機(jī)領(lǐng)域出現(xiàn)的詞匯。本體最早在哲學(xué)中被用于規(guī)范存在論的定義,用來系統(tǒng)性地描述事物,表達(dá)一切抽象事物的本質(zhì)。如今,將本體的理論延伸到計算機(jī)領(lǐng)域,可以將某個知識作詳盡的語義描述,在計算機(jī)領(lǐng)域,本體被用于知識的描述,在語義層次上建立知識模型,以供人們學(xué)習(xí)。目前學(xué)術(shù)界對于本體的定義有很多種,被國內(nèi)外學(xué)者所廣泛接受的是Studer 對本體的定義:“本體是共享概念模型的明確的形式化規(guī)范說明”[1]。本文通過對領(lǐng)域本體構(gòu)建方法的研究來解決資源空間本體層構(gòu)建問題。

      1 研究現(xiàn)狀

      Jorg-Uwe Kietz 等人在研究基礎(chǔ)上提出了一種從文本中提取有關(guān)要素生成領(lǐng)域本體構(gòu)建方法[2];Chang-Shing Lee 構(gòu)思了基于事件的本體構(gòu)建方法,使用模糊數(shù)概念的相似度計算做本體的概念聚類和分類關(guān)系定義方面,以此構(gòu)建領(lǐng)域本體[3];Ana B等通過建立領(lǐng)域概念層次,改進(jìn)層次關(guān)系的獲取,從非結(jié)構(gòu)化文本中獲得的特定的領(lǐng)域知識信息[4]。D.Gregor 研究了交通運(yùn)輸領(lǐng)域的本體構(gòu)建方法[5];官瑩瑩對本體中概念的抽取做了相關(guān)研究,提出了循環(huán)處理思想,通過對分詞的領(lǐng)域詞典的不斷增添與修正,結(jié)合TF-IDF 算法更加準(zhǔn)確地提取相關(guān)概念,后用凝聚層次聚類算法提取概念關(guān)系[6];王學(xué)厚根據(jù)車間業(yè)務(wù)活動知識的分析與建立的業(yè)務(wù)活動領(lǐng)域本體元模型,建立了車間業(yè)務(wù)活動領(lǐng)域本體,以解決車間業(yè)務(wù)活動領(lǐng)域中的術(shù)語以及概念在語義上的歧義問題[7]。Chen RC,Bau CT,Yeh CJ 基于概念格的相關(guān)理論,用形式概念分析FCA 進(jìn)行本體構(gòu)建[8];李軍蓮等從敘詞表等級結(jié)構(gòu)還有敘詞表中包含的本體中概念的關(guān)系出發(fā),研究了基于敘詞表的本體構(gòu)建方法,但是適合應(yīng)用領(lǐng)域較為局限[9];劉磊提出一種全新的本體自動構(gòu)建方法,采用了模板識別的SSE_CMM技術(shù),實現(xiàn)了領(lǐng)域本體自動構(gòu)建[10];王向前等使用TF-IDF 公式改良了概念獲取的方法,在之前的基礎(chǔ)上增加了相關(guān)性的判斷,通過統(tǒng)計概念在領(lǐng)域的相關(guān)程度,設(shè)置合適的閾值過濾出相關(guān)性高的概念[11]。

      本文采用了LDA(Latent Dirichlet Allocation)模型[12]抽取出文本中隱藏的本體核心概念,通過層次聚類等算法進(jìn)行關(guān)系的提取包括:同義語義、上下位關(guān)系和相關(guān)關(guān)系,最后建立本體。

      2 研究思路

      本文所建立的領(lǐng)域本體構(gòu)建流程如圖2 所示。

      圖2 研究思路

      資源分類:對集團(tuán)企業(yè)的研發(fā)設(shè)計資源進(jìn)行定義,并且以集團(tuán)企業(yè)的研發(fā)設(shè)計過程為基準(zhǔn),從資源的不同維度和特征出發(fā)對設(shè)計資源進(jìn)行動態(tài)歸類,通過資源的功能和特征對研發(fā)設(shè)計資源進(jìn)行區(qū)分。

      預(yù)處理:針對非結(jié)構(gòu)化的文本信息,使用Jieba分詞系統(tǒng),在普通的分詞詞典中加入通用的機(jī)械術(shù)語以及集團(tuán)企業(yè)領(lǐng)域中常用的詞匯,形成領(lǐng)域本體概念的語料庫。

      領(lǐng)域本體核心概念提?。簩⑻幚砗玫奈谋菊Z料庫作為輸入,設(shè)置相應(yīng)的參數(shù),通過訓(xùn)練過的LDA模型進(jìn)行主題的推斷,將文本文檔中隱藏的主題作為本體的核心概念提取出來。

      基本語義關(guān)系識別:通過NLP 相關(guān)技術(shù)處理三種語義關(guān)系:同義關(guān)系、上下位關(guān)系、相關(guān)關(guān)系。分別采用雙語詞典語言策略、基于word2vec 的層次聚類以及關(guān)聯(lián)規(guī)則的方法識別關(guān)系。

      將構(gòu)建出的每個分類的資源本體融合,完成企業(yè)研發(fā)設(shè)計資源的領(lǐng)域本體構(gòu)建。

      3 資源分類

      研發(fā)設(shè)計資源領(lǐng)域本體構(gòu)建的目標(biāo)是將其分類并表達(dá),但集團(tuán)企業(yè)研發(fā)設(shè)計資源數(shù)量巨大且種類繁多,直接進(jìn)行本體構(gòu)建相對較為繁瑣。因此,構(gòu)建本體之前,需將資源進(jìn)行分類。根據(jù)設(shè)計資源的性質(zhì)和特點(diǎn)對資源進(jìn)行層次劃分,劃分結(jié)果的形式為樹狀結(jié)構(gòu)。

      設(shè)計資源的分類方法并不統(tǒng)一,根據(jù)行業(yè)標(biāo)準(zhǔn)的不同以及企業(yè)實際情況及要求,設(shè)計資源可以有多重分類方法:Hitt,Ireland 和Hosikisson 把企業(yè)資源定義為七類資源。財務(wù)資源、物化資源、技術(shù)資源、創(chuàng)新資源、商譽(yù)資源、人力資源以及組織資源[13]。羅輝道總結(jié)前人研究的成果,將廣義的資源粗?;?,將企業(yè)作為定義的核心,將企業(yè)資源定義為可以帶來優(yōu)勢或劣勢的東西[14]。國家標(biāo)準(zhǔn)在網(wǎng)絡(luò)化制造環(huán)境下,對企業(yè)資源進(jìn)行分類分層,逐層細(xì)化,根據(jù)資源的物理特性進(jìn)行細(xì)分,將企業(yè)的制造資源分為物能資源(包括物料、設(shè)備、產(chǎn)品、能源等)、信息資源、技術(shù)資源、人力資源、資金資源和其他資源等6 類資源[15];高偉增從管理角度,將資源分為人力資源、生產(chǎn)資源、財務(wù)資源、市場資源以及開發(fā)設(shè)計資源[16]。以集團(tuán)企業(yè)中新產(chǎn)品的研發(fā)設(shè)計過程作為分類基準(zhǔn),在上述文獻(xiàn)中提及的分類基礎(chǔ)上,結(jié)合資源提供方、需求方以及集團(tuán)企業(yè)的需求(不涉及生產(chǎn)過程),從資源的功能維度,專業(yè)領(lǐng)域維度,以及業(yè)務(wù)活動維度等角度出發(fā),將集團(tuán)企業(yè)研發(fā)設(shè)計資源分為六類,如表1 所示。

      表1 資源分類

      4 本體構(gòu)建

      領(lǐng)域本體由一個四元組組成,其中包含領(lǐng)域相關(guān)概念、領(lǐng)域概念間關(guān)系、公理規(guī)則以及領(lǐng)域概念的實例。

      4.1 數(shù)據(jù)預(yù)處理

      集團(tuán)企業(yè)積淀了大量的知識資源,比如設(shè)計文檔、設(shè)計模型、分析數(shù)據(jù)、試驗數(shù)據(jù)、測試報告以及收集到的專利、標(biāo)準(zhǔn)規(guī)范、設(shè)計手冊、情報文獻(xiàn)等資源,這些信息具有多種信息形態(tài),其中包含了極其豐富的領(lǐng)域知識。提取識別大量文本中的領(lǐng)域知識需要將文本數(shù)據(jù)進(jìn)行分詞與過濾處理,即獲取語料庫的過程。

      非結(jié)構(gòu)化的文本需要進(jìn)行分詞等處理方式使計算機(jī)準(zhǔn)確地識別詞語,但是由于中文文本的特殊性,詞與詞之間模糊的界限如果不加規(guī)則來限制,機(jī)器很難準(zhǔn)確識別到在領(lǐng)域文集中的專業(yè)領(lǐng)域詞匯,進(jìn)而無法保證準(zhǔn)確得到領(lǐng)域術(shù)語。本文采用Jieba 分詞系統(tǒng),添加機(jī)械術(shù)語以及集團(tuán)企業(yè)所特有的領(lǐng)域詞匯到分詞詞典,在使用少量文本分詞結(jié)束后,檢查分詞結(jié)果對照原文檢查分詞詞匯,之后檢查出新的詞匯結(jié)果添加到分詞詞典,遍歷領(lǐng)域文集分詞,分詞結(jié)果形成語料庫。

      分詞結(jié)束對文本語料庫進(jìn)行過濾處理。停用詞過濾使用所有公認(rèn)的中文停用詞表組成的停用詞表對語料庫進(jìn)行過濾,刪去語料庫中的停用詞。本體構(gòu)建中能夠成為文本文檔中主題詞的詞語一定是高頻詞,所以對語料庫中的低頻詞需要進(jìn)行過濾處理,設(shè)定頻率最小閾值過濾出現(xiàn)頻率過低的術(shù)語;主題詞是名詞、名詞性短語以及動名詞,最后利用詞性標(biāo)注功能,只保留術(shù)語集中的名詞、名詞性短語和動名詞,進(jìn)行詞性過濾。

      4.2 概念抽取

      領(lǐng)域主題表達(dá)的核心概念是領(lǐng)域概念,即文本的核心主題。國內(nèi)外的眾多學(xué)者對核心概念的抽取方法研究眾多,主要分為直接提取以及間接提取兩種。直接提取是指基于現(xiàn)有的資源直接在文本中提取領(lǐng)域概念,如基于WordNet 等資源的直接提取以及直接將基于TF-IDF、句法分析等方法提取的領(lǐng)域術(shù)語作為領(lǐng)域概念;間接提取則是在文本抽取核心概念的基礎(chǔ)上,再進(jìn)行聚類形成更為準(zhǔn)確可靠的領(lǐng)域概念。本文選擇LDA 模型完成設(shè)計研發(fā)資源本體核心概念抽取任務(wù)。

      非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)中的文檔主題生成模型LDA 挖掘文本中潛藏的主題信息,該模型用主題概率分布對所輸入的文檔進(jìn)行描述,在保留了統(tǒng)計信息的同時較好地完成了分類,非常適合用于自然文本的處理工作。

      4.2.1 LDA 模型建立

      主題LDA 模型設(shè)計了很多數(shù)學(xué)知識,本文只介紹LDA 模型的基本知識,不作詳細(xì)的講解,在數(shù)學(xué)本質(zhì)上可以用三層貝葉斯概率模型表達(dá),如圖3 所示。

      圖3 貝葉斯概率模型

      LDA 模型建立在詞袋化模型的基礎(chǔ)上,將文本數(shù)據(jù)轉(zhuǎn)化為純數(shù)字信息,對一個詞語出現(xiàn)的位置以及其上下文的關(guān)系暫且忽略,考慮詞語出現(xiàn)的頻率,將文檔集中的文檔分別轉(zhuǎn)化為詞頻向量。

      LDA 主題模型不僅僅是一種三層貝葉斯模型,在一種理解中,其也屬于典型的有向概率圖模型,如圖4 所示。

      圖4 LDA 模型有向概率圖

      圖中的圓形圖案均代表一種變量,Wm,n 在模型中是唯一一種可觀測變量,其他均為潛在變量,兩兩變量之間皆存在一種條件依賴性,圖中使用箭頭表示。方框在圖中表示抽樣方式,抽樣采取重復(fù)抽樣的辦法,抽樣次數(shù)標(biāo)記在方框右下角。圖中α、β 為兩個超參數(shù),θm、φk表示兩種概率分布,Zm,n表示主題概率分布下的主題。

      計算某領(lǐng)域術(shù)語在文檔中出現(xiàn)的概率,主題作為中間層時計算的公式為:

      即通過主題在文檔中出現(xiàn)的概率與領(lǐng)域術(shù)語在主題中出現(xiàn)的概率乘積表達(dá)為領(lǐng)域術(shù)語在文檔中出現(xiàn)的概率。

      4.2.2 LDA 模型概念抽取

      LDA 主題模型進(jìn)行概念抽取任務(wù),首先需要對模型進(jìn)行訓(xùn)練,模型的輸入為預(yù)處理后的語料庫以及超參數(shù)α,β 以及主題數(shù)K。

      根據(jù)以前學(xué)者的研究,超參數(shù)α 與β 的值設(shè)定為50/K 和0.01時,模型的預(yù)測分類效果最佳,主題數(shù)量關(guān)系模型的運(yùn)算,主題數(shù)對模型困惑度影響很大,根據(jù)語料庫的大小對主題數(shù)量設(shè)置一個區(qū)間,計算LDA 模型困惑度,通過曲線取局部最優(yōu)規(guī)定最優(yōu)參數(shù)。

      抽取概念流程如下。

      Step1:將過濾后的語料庫作模型訓(xùn)練使用,語料庫中的所有詞語按照LDA 模型隨機(jī)生成一個主題,將主題統(tǒng)計完全,生成文檔對應(yīng)主題的計數(shù)矩陣表達(dá)主題概率分布,生成主題對應(yīng)詞語的計數(shù)矩陣表達(dá)詞頻率分布;

      Step2:對語料庫中的所有單詞所對應(yīng)的主題進(jìn)行采樣,之后按照吉布斯采樣公式從頭采樣其中每一個詞對應(yīng)的概念主題,之后按照重新采樣的結(jié)果同步更新主題概率分布以及詞頻率分布矩陣,其公式如下:

      式中:超參數(shù)αt和β 是Ntd和Nwt的先驗指導(dǎo);V 表示詞表大?。籐d表示文檔d 的詞總量;Nwt表示文檔中主題t 中詞w 的頻次;Nt表示文檔中主題t 的頻次;Ntd表示文檔d 中主題t 總共出現(xiàn)的次數(shù);﹁的意思是排除當(dāng)前采樣詞w 的影響,即當(dāng)前采樣詞w 不計入頻數(shù)統(tǒng)計。

      Step3:重復(fù)Step2,直到詞頻率分布矩陣收斂;

      Step4:將訓(xùn)練好的模型存儲好,并將語料庫重新輸入進(jìn)行求解,得到文檔集的主題分布,推斷出的所有主題詞構(gòu)成概念集合。

      4.3 關(guān)系識別

      如何有效并且快速識別在前述章節(jié)中獲取的領(lǐng)域本體核心概念之間的語義關(guān)系是本文中的關(guān)鍵。

      本文將本題中概念語義關(guān)系定義為三類:同義關(guān)系、上下位關(guān)系以及相關(guān)關(guān)系。

      4.3.1 同義關(guān)系抽取

      本文將同義詞關(guān)系描述為同義關(guān)系,即詞語表達(dá)的含義為相同時,將兩個詞語定義為同義詞,在詞庫中即可剔除其中一個,這樣可以提高關(guān)系識別的準(zhǔn)確性。綜合之前學(xué)者的相關(guān)研究,本文使用基于雙語詞典的方法來識別詞語的同義關(guān)系。這種方法簡單有效,此方法是基于語言轉(zhuǎn)換的策略,將漢語詞語轉(zhuǎn)換為英語翻譯將英漢大詞典作為算法調(diào)取的知識庫,借此實現(xiàn)同義關(guān)系抽取。其過程敘述如下。

      Step1:將語料庫中的每個中文概念通過英漢詞典進(jìn)行中英文轉(zhuǎn)換,得到此概念所有的英文解釋,將所有的單詞或者短語放入一個集合中,得到Wi={w1,w2,…wn};

      Step2:從Step1 中得到的單詞或者短語集合兩兩相交,如果集合相交后不是空集,則說明概念是同義詞;

      Step3:驗證所有概念后結(jié)束。

      4.3.2 上下位關(guān)系

      根據(jù)文獻(xiàn)調(diào)查等方法,本文確定使用層次聚類方法實現(xiàn)上下位關(guān)系的抽取。

      層次聚類算法分為分類的聚類以及凝聚的聚類兩種,本文采取凝聚的聚類方法,將每個初始點(diǎn)作為一類,計算距離后依次聚類到一個中心,將所有層次關(guān)系抽取出來。

      使用word2vec 模塊把語料庫中的所有中文概念詞語轉(zhuǎn)換為一個詞向量,在進(jìn)行上下位關(guān)系識別之前計算兩兩詞向量之間的語義相似度。

      簇間平均距離計算公式:

      式中:X,Y 表示兩個簇,絕對值則表示相應(yīng)簇中的元素個數(shù);sim(x,y)表示概念間的相似度。

      抽取上下文關(guān)系的算法流程如下。

      Step1:將語料庫輸入算法中,把語料庫中的每個概念單獨(dú)作為一個初始簇;

      Step2:簇間距離使用上文中word2vec 模型計算詞向量之間的距離代替,分別計算所有簇;

      Step3:將詞語之間的距離作為合并基準(zhǔn),不斷取詞向量之間距離最小的兩個簇進(jìn)行合并,直到算法結(jié)束所有的詞語合并為一個簇。

      這樣的算法進(jìn)行到最后無法確定簇中哪個概念為父類概念,根據(jù)本體中的定義,父類概念在簇內(nèi)應(yīng)該與每個概念都具有很高的相似度,所以,本文規(guī)定一種平均相似度表達(dá)簇中概念與其他概念的相似程度,平均相似度高的概念即為簇中的父概念,平均相似度定義:

      式中:sim(Wi,Wj)為兩個概念之間的相似度;n 表達(dá)簇中的概念個數(shù)。

      4.3.3 相關(guān)關(guān)系

      相關(guān)關(guān)系復(fù)雜且重要,本體中概念關(guān)系很大一部分都是相關(guān)關(guān)系,本文擬采用基于關(guān)聯(lián)規(guī)則統(tǒng)計的方法識別概念之間的相關(guān)關(guān)系。

      關(guān)聯(lián)規(guī)則的運(yùn)用根據(jù)詞語間的支持度與置信度來計算,有關(guān)于關(guān)聯(lián)度與置信度的講解本文不詳細(xì)介紹。

      抽取相關(guān)關(guān)系的算法流程如下。

      Step1:將分詞后的語料庫按照每份文檔(文檔數(shù)量多)或者每個句子(文檔數(shù)量少)分開輸入;

      Step2:依照模型以及實際的需求來設(shè)置關(guān)聯(lián)規(guī)則算法的最小置信度以及最小支持度的閾值;

      Step3:計算語料庫中所有詞語集合中所有概念元之間的置信度與支持度,如果得出支持度與置信度均大于最小支持度與最小置信度,則說明概念兩個概念之間具有非層次關(guān)系;

      Step4:驗證所有詞組之后結(jié)束。

      5 實驗驗證

      為了驗證本文提出的集團(tuán)企業(yè)研發(fā)設(shè)計資源領(lǐng)域本體構(gòu)建方法的可行性,本文使用企業(yè)資源檔案中軟件資源的部分文檔做測試,具體實例驗證如下。

      5.1 概念抽取

      通過對企業(yè)研發(fā)設(shè)計資源相關(guān)語料的分詞及干擾項消除后運(yùn)用LDA 模型進(jìn)行概念的抽取。部分3分詞結(jié)果如表2 所示。

      表2 部分分詞結(jié)果

      模型困惑度是選取最佳主題數(shù)的標(biāo)準(zhǔn),繪制模型困惑度曲線選取合適的拐點(diǎn)對應(yīng)的主題數(shù)量作為最佳主題數(shù),根據(jù)實驗驗證最佳主題數(shù)T=8。

      困惑度計算公式如下:

      式中:D 為測試集;M 為文本數(shù)量;Ni為文檔d 的單詞數(shù)目。

      式中:z 是主題;d 是文檔;gamma 是訓(xùn)練集學(xué)出來的主題文本的概率分布,設(shè)置閾值過濾后,將主題詞抽取出來以便進(jìn)行關(guān)系識別。

      5.2 關(guān)系識別

      同義關(guān)系識別,使用有道詞典外部鏈接將詞語翻譯成英文合集,將所有詞匯翻譯后生成的每個集合做交集處理,如若交集后不是空集則判斷兩個詞匯是同義關(guān)系。

      判斷同義詞匯如表3 所示。

      表3 同義關(guān)系

      上下層關(guān)系判斷,將詞語使用word2vec 轉(zhuǎn)換為詞向量后使用層次聚類的方法,將所有的概念聚合到一個中心,以此識別概念間的上下層關(guān)系。抽取后的部分上下層關(guān)系如圖5 所示。

      圖5 部分上下層關(guān)系

      抽取部分相關(guān)關(guān)系如表4 所示。

      表4 部分相關(guān)關(guān)系

      6 結(jié)語

      本文對于企業(yè)設(shè)計研發(fā)資源統(tǒng)一管理分享的需求,提出了一種研發(fā)設(shè)計資源空間中本體層的構(gòu)建方法,分析了現(xiàn)有本體構(gòu)建方法后,針對文本數(shù)據(jù)到領(lǐng)域本體概念的抽取選擇LDA 主題模型,將概念之間的關(guān)系分類并進(jìn)行相應(yīng)的識別,分別選擇了不同的抽取策略,并用企業(yè)的部分軟件數(shù)據(jù)進(jìn)行了案例驗證證明本方法的可行性。

      在本體構(gòu)建的過程中,發(fā)現(xiàn)了本文提出方法中的一些不足,字典的缺乏導(dǎo)致分詞結(jié)果不準(zhǔn)確,以至以后的概念抽取以及關(guān)系識別均存在一定程度的影響。但本體提出的本體層中領(lǐng)域本體的構(gòu)建方法可行有效,為以后企業(yè)資源本體建模奠定了基礎(chǔ)。

      猜你喜歡
      分詞語料庫本體
      Abstracts and Key Words
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      《語料庫翻譯文體學(xué)》評介
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      值得重視的分詞的特殊用法
      《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      高考分詞作狀語考點(diǎn)歸納與疑難解析
      龙海市| 随州市| 新乡市| 阳江市| 邵阳市| 罗田县| 新乡市| 宜城市| 五指山市| 兴隆县| 崇义县| 松桃| 长汀县| 湾仔区| 晴隆县| 夏邑县| 新宾| 桓台县| 亚东县| 横峰县| 海盐县| 绥芬河市| 怀来县| 枣强县| 探索| 普兰县| 汉沽区| 景洪市| 冷水江市| 开远市| 咸丰县| 文昌市| 白朗县| 调兵山市| 曲周县| 绵竹市| 东台市| 贵德县| 平塘县| 平度市| 海原县|