• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于本體填充的設(shè)計案例獲取方法研究*

      2019-08-06 03:51:08徐榮振邵祖光李建勛
      關(guān)鍵詞:實例本體文檔

      徐榮振,高 琦,邵祖光,李建勛

      (1.山東大學 a.機械工程學院;b.高效潔凈機械制造教育部重點實驗室,濟南 250061;2.山東大學深圳研究院,廣東 深圳 518057;3.山東山大華天軟件有限公司,濟南 250000)

      0 引言

      隨著經(jīng)濟全球化程度的不斷加深,在產(chǎn)業(yè)分工更加細致,整體生產(chǎn)率得到提升的同時,制造企業(yè)也面臨著來自全球的競爭。為應(yīng)對日益激烈的競爭,制造企業(yè)采取了多種措施,其中通過設(shè)計知識重用提高產(chǎn)品設(shè)計效率,保證產(chǎn)品質(zhì)量,降低產(chǎn)品成本成為企業(yè)保持競爭力的關(guān)鍵。

      CBR(Case-Based Reasoning,基于案例的推理)是通過對以往的設(shè)計案例進行表示、檢索和修改實現(xiàn)設(shè)計知識重用的一種方法,由于其符合人類的思維習慣,能夠很好地將設(shè)計人員的推理能力和計算機的存儲與檢索能力相結(jié)合,受到廣泛的研究和應(yīng)用。隨著數(shù)據(jù)存儲成本的降低,無紙化辦公和PDM(Product Data Management,產(chǎn)品數(shù)據(jù)管理)系統(tǒng)的普及,企業(yè)中一般都存儲著大量的歷史設(shè)計數(shù)據(jù)。如果通過人工對這些設(shè)計數(shù)據(jù)進行讀取和錄入,需要巨大的工作量。

      為提高案例獲取的自動化程度,在其他領(lǐng)域已有多位學者展開了相關(guān)研究。如Abidi[1]通過結(jié)構(gòu)映射和內(nèi)容映射將以XML格式存儲的診療記錄映射為以O(shè)CC(Operable Clinical Case)表示的案例,進而實現(xiàn)案例獲取。Marvin[2]利用信息抽取技術(shù)從文本型的問題解決手冊中提取信息,實現(xiàn)了維修案例的半自動獲取。Roth-Berghofer[3]采用基于本體的信息抽取技術(shù),經(jīng)過規(guī)范化、分割、語義標注、實例化、語境化和填充,從XML格式的數(shù)據(jù)源中抽取信息,實現(xiàn)了案例的獲取。Kerstin Bach[4]采用基于模型的信息抽取方法,從文本型的服務(wù)記錄中抽取信息,首先構(gòu)建后續(xù)抽取所需的詞匯表,然后對文本中的信息進行拷貝、計算和基于模型的抽取,最終實現(xiàn)了案例的獲取。ValmiDufour-Lussier[5]采用自然語言處理的方法,首先進行句子分割,然后對句子進行語法分析,識別句子中個組成部分的語法結(jié)構(gòu),從文本型的食譜中抽取出過程性的案例知識,實現(xiàn)了案例獲取。上述研究雖然提高了案例獲取的自動化程度,但是所針對的都是半結(jié)構(gòu)化或非結(jié)構(gòu)化的單一類型數(shù)據(jù)源。而產(chǎn)品設(shè)計案例的信息不僅存儲于非結(jié)構(gòu)化的設(shè)計文檔中,還存儲于PDM系統(tǒng)的數(shù)據(jù)庫中,因此需要一種能夠同時從數(shù)據(jù)庫與文檔數(shù)據(jù)源中抽取信息以實現(xiàn)案例獲取的方法。

      因此,本文提出一種基于本體填充的案例獲取技術(shù),從PDM系統(tǒng)的數(shù)據(jù)庫和文本型設(shè)計文檔中抽取出所需的信息,填充到所構(gòu)建的設(shè)計案例本體中,實現(xiàn)案例的獲取。其中,本體填充是一種將非結(jié)構(gòu)化、半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變成本體實例的知識獲取過程[6]。

      1 案例獲取方法框架

      本文提出的案例獲取方法的總體過程如圖1所示。

      圖1 案例獲取方法框架

      首先利用7步法結(jié)合Protégé工具構(gòu)建產(chǎn)品設(shè)計案例本體,然后通過Jena實現(xiàn)對案例本體的解析,將本體存儲于關(guān)系型數(shù)據(jù)庫SQL Server中,同時生成用于對文本文檔進行標注的詞表。在從數(shù)據(jù)庫中抽取信息時,首先建立案例本體中的概念模型與源數(shù)據(jù)庫中的數(shù)據(jù)模式之間的映射關(guān)系,然后利用該映射關(guān)系自動生成SQL查詢語句,從源數(shù)據(jù)庫中讀取案例本體中各元素的取值。在從文本文檔中抽取信息時,首先對文檔進行預(yù)處理,主要是實現(xiàn)文檔的標注,形成標注集,然后根據(jù)需要抽取的本體元素,針對標注集進行檢索,返回本體元素的取值。通過上述過程獲取到的信息通過本體寫入模塊,自動生成Jena的本體實例定義語句,寫入數(shù)據(jù)庫,最終生成設(shè)計案例。

      2 案例本體的構(gòu)建與解析

      2.1 基于本體的案例表示

      案例表示是指確定案例所要包含的內(nèi)容,并采用合理的結(jié)構(gòu)對案例內(nèi)容進行描述[7]。所采用的實例表示方法的優(yōu)劣直接影響到實例的檢索、共享和維護等后續(xù)環(huán)節(jié)的效率。為實現(xiàn)案例的表示,學者們采用了屬性圖[8]、面向?qū)ο骩9]、框架[10]和本體[11]等多種方法。其中,基于本體的案例表示由于包含了語義信息,可提高案例庫的重用性、共享性和可進化性,同時能夠為后續(xù)的信息抽取過程提供必需的語義支持,因此本文采用本體進行案例表示。

      本體是指一套公認的,關(guān)于概念體系的明確的、形式化的規(guī)范說明[12]。本體一般包括以下4個要素:概念、關(guān)系、公理和實例[13]。概念表示對象的集合,關(guān)系表示領(lǐng)域中概念之間的相互聯(lián)系,公理是指永真斷言。實例是指概念的具體實體,類似于面向?qū)ο笏枷胫蓄惖膶ο蟆?/p>

      一個完整的設(shè)計案例由兩部分構(gòu)成——設(shè)計要求和設(shè)計結(jié)果。設(shè)計要求是產(chǎn)品設(shè)計的輸入,包括對新產(chǎn)品在功能、性能、可制造性、可維修性和經(jīng)濟性等方面的要求。設(shè)計結(jié)果是產(chǎn)品設(shè)計的輸出,包括產(chǎn)品及零部件的屬性和產(chǎn)品及零部件之間的結(jié)構(gòu)關(guān)系。按照抽象程度,可將案例庫分為案例模版和具體案例數(shù)據(jù)兩部分。其中,案例模版表示構(gòu)成設(shè)計案例的元素以及各元素之間的關(guān)系,通過本體的概念模型,即概念、屬性及其相互關(guān)系加以定義,具體案例數(shù)據(jù)則表示實例的設(shè)計案例,通過本體實例進行表示和存儲。

      2.2 案例本體的構(gòu)建與解析

      本體的構(gòu)建方法目前主要包括以下幾種:骨架法、METHONGTOLOGY法、SENsus法、TOVE法、IDEF法、KAcTus工程法和七步法等綜合方法[14]。其中最著名的是由斯坦福大學提出的七步法,該方法邏輯性強,符合人類的思維方式,且便于操作,得到廣泛的應(yīng)用[15]。由于七步法具有上述優(yōu)點,本文選擇該方法進行案例本體的構(gòu)建。標準的七步法包括以下步驟:①確定所構(gòu)建本體的應(yīng)用范圍;②考慮現(xiàn)有本體的重用;③列出本體中的重要術(shù)語;④定義概念和概念間的層級結(jié)構(gòu);⑤定義概念的屬性;⑥定義屬性的特征和約束;⑦創(chuàng)建概念的實例。

      在案例本體構(gòu)建完成以后,需要采用一種計算機能理解的方式對其進行描述。萬維網(wǎng)聯(lián)盟(World Wide Web Consortium, W3C)推薦的Web本體描述語言(Web Ontology Language, OWL)是一種基于描述邏輯的本體語言,語義表達能力豐富,語義表述能力精確,能夠?qū)︻I(lǐng)域本體進行正規(guī)、顯式的描述,并進行合理一致的推理[16]。因此,本文選擇OWL作為本體描述語言。本體構(gòu)建工具采用最常用的本體建模工具之一——Protégé。用Protégé構(gòu)建的本體存儲于擴展名為.owl的文件中,可以直觀顯示本體語言的語法,易于理解,但如果本體較大,概念和實例較多,本體檢索的效率會受到極大的影響。本文采用Jena的Ontology API對.owl文件進行解析,并存儲在關(guān)系型數(shù)據(jù)庫SQL Server中。

      3 從數(shù)據(jù)庫中抽取信息

      3.1 產(chǎn)品設(shè)計信息在PDM數(shù)據(jù)庫中的存儲方式

      PDM系統(tǒng)作為一種信息管理系統(tǒng),在制造業(yè)中的應(yīng)用已經(jīng)相當普及,其主要作用是管理產(chǎn)品研發(fā)過程中產(chǎn)生的相關(guān)數(shù)據(jù)。一個產(chǎn)品的相關(guān)數(shù)據(jù)在PDM系統(tǒng)的數(shù)據(jù)庫中以三類表格進行存儲,分別是產(chǎn)品及零部件信息表、產(chǎn)品結(jié)構(gòu)表和產(chǎn)品文檔表。其中,產(chǎn)品及零部件信息表用于存儲產(chǎn)品和零部件的屬性信息,如編碼、名稱、材料等。產(chǎn)品結(jié)構(gòu)表用于存儲產(chǎn)品的裝配關(guān)系信息,含有父節(jié)點編碼、子節(jié)點編碼以及裝配數(shù)量等信息。產(chǎn)品文檔表用于存儲與產(chǎn)品相關(guān)的文檔屬性信息,如文檔名稱、文檔版本、文檔類型等。本階段抽取的信息主要來自產(chǎn)品及零部件信息表和產(chǎn)品結(jié)構(gòu)表。

      3.2 建立映射文件

      源數(shù)據(jù)庫中的信息是以數(shù)據(jù)表的形式加以存儲的,其數(shù)據(jù)結(jié)構(gòu)遵循數(shù)據(jù)庫關(guān)系模式,而案例庫則采用本體的方式對案例進行表示。因此,為從源數(shù)據(jù)庫中抽取信息,必須建立數(shù)據(jù)庫模式與案例本體之間的映射關(guān)系。主要是建立本體中的概念名與數(shù)據(jù)庫中產(chǎn)品及零部件信息表的表名之間的映射關(guān)系,以及本體中概念的屬性名與數(shù)據(jù)庫中信息表的字段名之間的映射關(guān)系。為保證該映射關(guān)系對于人和計算機的可讀性,本文采用XML對其進行描述和存儲。

      3.3 源數(shù)據(jù)庫讀取

      為實現(xiàn)數(shù)據(jù)庫中設(shè)計信息的自動抽取,首先通過對數(shù)據(jù)結(jié)構(gòu)和產(chǎn)品結(jié)構(gòu)的識別和推理自動生成數(shù)據(jù)庫查詢語,然后利用生成的查詢句讀取數(shù)據(jù)庫中的設(shè)計數(shù)據(jù),具體流程如圖2所示。

      圖2 數(shù)據(jù)庫讀取流程

      通過讀取數(shù)據(jù)庫所得的設(shè)計信息及其相應(yīng)的本體元素信息,利用Jena生成本體實例寫入語句,寫入案例庫。

      例如,假設(shè)當前遍歷節(jié)點為結(jié)構(gòu)表中的“8XP.200.221.1-2”節(jié)點,通過查詢,得到以該編號為主鍵的表的表名為“axle”,通過映射文件可知,該表對應(yīng)本體中的“軸”概念,因此8XP.200.221.1-2是軸的一個實例,并且該表中有一個字段名為“aLength”,于是生成查詢語句,返回值為750,且由映射文件可知該值對應(yīng)本體中的“長度”這一屬性。然后根據(jù)返回的值及其所屬的類型,生成Jena的本體實例寫入語句,填充到相應(yīng)的本體元素中,具體過程如圖3所示。

      圖3 數(shù)據(jù)庫讀取示例

      4 從文本文檔中抽取信息

      4.1 文檔預(yù)處理

      為從文本型數(shù)據(jù)源中抽取所需的信息,首先需要對其進行預(yù)處理,預(yù)處理過程包括文檔的合并、分詞和標注,其中最重要的是對文本的標注。本文所涉及的文本型數(shù)據(jù)源主要是產(chǎn)品的設(shè)計任務(wù)書和設(shè)計說明書。設(shè)計任務(wù)書中對新產(chǎn)品的各項設(shè)計要求做了描述,設(shè)計說明書中對產(chǎn)品中的主要零部件的選配和參數(shù)的計算做了描述,為方便處理,首先將一個產(chǎn)品的設(shè)計任務(wù)書和設(shè)計說明書合并為一個文檔,并將其轉(zhuǎn)化為平文本格式。

      本文采用由英國Sheffield大學開發(fā)的GATE[17](General Architecture for Text Engineering,文本工程通用框架)為主體實現(xiàn)對文本的標注。GATE雖然提供了針對中文信息抽取的Lang_Chinese插件,但是其結(jié)果并不能令人滿意,主要原因是缺乏對中文分詞處理的良好支持,并且缺少中文標注所需的詞表。因此,本文采用中國科學院計算技術(shù)研究所針對中文信息處理開發(fā)的漢語詞法分析系統(tǒng)ICTCLAS[18](Institute of Computing Technology, Chinese Lexical Analysis System)對文檔進行分詞處理。此外,根據(jù)所構(gòu)建的設(shè)計案例本體,利用Jena的解析功能生成詞表,分別是概念名稱.lst、屬性名稱.lst,概念實例.lst和屬性取值.lst,每個詞表的內(nèi)容為本體中的相應(yīng)條目。

      經(jīng)過分詞處理,文檔中的每個詞之間都添加了空格,以便于后續(xù)的處理,分詞前后的文本如圖4所示。

      圖4 文本分詞示例

      然后用GATE中的Tokeniser和Gazeteer對文檔進行標注,Tokeniser可識別每個詞的類型、長度和字符串的內(nèi)容,Gazeteer是通過所生成的詞表,識別出與詞表內(nèi)容相匹配的詞語,并將詞表的名稱標注為該詞語的類別。標注后會生成一個與該文檔相對應(yīng)的標注集,標注集中的每個標注都有編號、類別、起始點和屬性集,表1為圖4中部分文本所對應(yīng)的標注集。

      表1 標注集示例

      4.2 標注集檢索

      在從文本中進行信息抽取前,已經(jīng)從數(shù)據(jù)庫中抽取了一部分數(shù)據(jù),此時只須從文本標注集中讀取案例本體所空缺的信息即可。因此需要以空缺的本體元素作為輸入,對標注集進行檢索,返回該本體元素的實際值,如果該元素為概念,則返回概念的實例,如果該元素為屬性,則返回屬性的取值,具體過程如圖5所示。

      圖5 標注集讀取流程

      根據(jù)返回的值及其對應(yīng)的本體元素,生成Jena的本體實例寫入語句,將其填充到相應(yīng)的本體元素中。

      例如,在案例獲取過程中,需要從表1所示的標注集中檢索得到定子槽的槽寬這一屬性值,則根據(jù)所需的本體元素類型,生成相應(yīng)的標注集檢索語句,從標注集中得到槽寬的值為0.013,然后生成Jena的本體實例值寫入語句,將該值寫入設(shè)計案例中。

      5 系統(tǒng)應(yīng)用與驗證

      基于本文提出的案例獲取方法,應(yīng)用Visual Studio平臺和C#語言,集成數(shù)據(jù)庫管理系統(tǒng)SQL Server集成本體建模軟件Protégé,Jena組件、GATE組件和ICTCLAS系統(tǒng),在某PDM基礎(chǔ)上開發(fā)了產(chǎn)品設(shè)計案例獲取構(gòu)件,并在某電動機生產(chǎn)企業(yè)進行了初步的應(yīng)用,系統(tǒng)的主要界面如圖6~圖8所示。

      圖6 本體構(gòu)建功能模塊

      圖7 信息抽取設(shè)置功能模塊

      圖8 案例查詢與編輯功能模塊

      為驗證所提出的產(chǎn)品設(shè)計案例獲取方法的有效性,利用所開發(fā)的案例獲取構(gòu)件,在該企業(yè)進行了對比實驗。首先隨機選出40個設(shè)計案例(原始數(shù)據(jù)),并將其分為2組,每組20個。然后隨機選擇4個設(shè)計人員,并將其分為兩組,每組2個。每一組設(shè)計人員負責20個設(shè)計案例的錄入,其中一組采用本文開發(fā)的設(shè)計案例獲取構(gòu)件,而另一組則純手工錄入。最終,純手工錄入的一組用時為168min,而使用設(shè)計案例獲取系統(tǒng)的一組用時為23min,比另一組節(jié)省了86.3%的時間。

      6 結(jié)論

      本文提出了一種能夠同時從存儲于數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)和存儲于文本中的非結(jié)構(gòu)化數(shù)據(jù)中抽取信息,以實現(xiàn)產(chǎn)品設(shè)計案例獲取的方法。首先采用七步法構(gòu)建產(chǎn)品設(shè)計案例本體,然后建立本體與數(shù)據(jù)庫模式之間的映射關(guān)系,并利用此映射關(guān)系自動生成數(shù)據(jù)庫查詢語句對源數(shù)據(jù)庫進行查詢。為從文本中抽取信息,采用GATE對文本進行標注,之后針對本體中所空缺的元素對文本的標注集進行檢索,返回所需的設(shè)計信息。經(jīng)過抽取得到的信息最終通過Jena的本體實例寫入語句填充到本體中,形成設(shè)計案例?;谠摲椒ㄩ_發(fā)了設(shè)計案例獲取構(gòu)件,利用該構(gòu)件進行了對比實驗,實驗結(jié)果表明,本文所提出的方法能大幅提高設(shè)計案例獲取的效率。

      猜你喜歡
      實例本體文檔
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      有人一聲不吭向你扔了個文檔
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      基于RI碼計算的Word復(fù)制文檔鑒別
      《我應(yīng)該感到自豪才對》的本體性教學內(nèi)容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      完形填空Ⅱ
      完形填空Ⅰ
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      亚东县| 乡城县| 东港市| 塘沽区| 上虞市| 青铜峡市| 永康市| 中卫市| 仙桃市| 宁安市| 思茅市| 新丰县| 郓城县| 保康县| 怀安县| 阳朔县| 丰镇市| 高州市| 新丰县| 黄冈市| 任丘市| 江源县| 庆安县| 满洲里市| 南昌市| 通州区| 宽甸| 离岛区| 塘沽区| 晴隆县| 富宁县| 营山县| 德昌县| 额济纳旗| 孝义市| 玛沁县| 桃园县| 巴南区| 泰安市| 五莲县| 喀喇|