基于本體填充的設(shè)計案例獲取方法研究*

2019-08-06 03:51:08徐榮振邵祖光李建勛

組合機床與自動化加工技術(shù) 2019年7期

徐榮振，高琦，邵祖光,李建勛

(1.山東大學 a.機械工程學院；b.高效潔凈機械制造教育部重點實驗室，濟南 250061；2.山東大學深圳研究院，廣東深圳 518057；3.山東山大華天軟件有限公司，濟南 250000)

0 引言

隨著經(jīng)濟全球化程度的不斷加深，在產(chǎn)業(yè)分工更加細致，整體生產(chǎn)率得到提升的同時，制造企業(yè)也面臨著來自全球的競爭。為應(yīng)對日益激烈的競爭，制造企業(yè)采取了多種措施，其中通過設(shè)計知識重用提高產(chǎn)品設(shè)計效率，保證產(chǎn)品質(zhì)量，降低產(chǎn)品成本成為企業(yè)保持競爭力的關(guān)鍵。

CBR(Case-Based Reasoning，基于案例的推理)是通過對以往的設(shè)計案例進行表示、檢索和修改實現(xiàn)設(shè)計知識重用的一種方法，由于其符合人類的思維習慣，能夠很好地將設(shè)計人員的推理能力和計算機的存儲與檢索能力相結(jié)合，受到廣泛的研究和應(yīng)用。隨著數(shù)據(jù)存儲成本的降低，無紙化辦公和PDM(Product Data Management,產(chǎn)品數(shù)據(jù)管理)系統(tǒng)的普及，企業(yè)中一般都存儲著大量的歷史設(shè)計數(shù)據(jù)。如果通過人工對這些設(shè)計數(shù)據(jù)進行讀取和錄入，需要巨大的工作量。

為提高案例獲取的自動化程度，在其他領(lǐng)域已有多位學者展開了相關(guān)研究。如Abidi[1]通過結(jié)構(gòu)映射和內(nèi)容映射將以XML格式存儲的診療記錄映射為以O(shè)CC(Operable Clinical Case)表示的案例，進而實現(xiàn)案例獲取。Marvin[2]利用信息抽取技術(shù)從文本型的問題解決手冊中提取信息，實現(xiàn)了維修案例的半自動獲取。Roth-Berghofer[3]采用基于本體的信息抽取技術(shù)，經(jīng)過規(guī)范化、分割、語義標注、實例化、語境化和填充，從XML格式的數(shù)據(jù)源中抽取信息，實現(xiàn)了案例的獲取。Kerstin Bach[4]采用基于模型的信息抽取方法，從文本型的服務(wù)記錄中抽取信息，首先構(gòu)建后續(xù)抽取所需的詞匯表，然后對文本中的信息進行拷貝、計算和基于模型的抽取，最終實現(xiàn)了案例的獲取。ValmiDufour-Lussier[5]采用自然語言處理的方法，首先進行句子分割，然后對句子進行語法分析，識別句子中個組成部分的語法結(jié)構(gòu)，從文本型的食譜中抽取出過程性的案例知識，實現(xiàn)了案例獲取。上述研究雖然提高了案例獲取的自動化程度，但是所針對的都是半結(jié)構(gòu)化或非結(jié)構(gòu)化的單一類型數(shù)據(jù)源。而產(chǎn)品設(shè)計案例的信息不僅存儲于非結(jié)構(gòu)化的設(shè)計文檔中，還存儲于PDM系統(tǒng)的數(shù)據(jù)庫中，因此需要一種能夠同時從數(shù)據(jù)庫與文檔數(shù)據(jù)源中抽取信息以實現(xiàn)案例獲取的方法。

因此，本文提出一種基于本體填充的案例獲取技術(shù)，從PDM系統(tǒng)的數(shù)據(jù)庫和文本型設(shè)計文檔中抽取出所需的信息，填充到所構(gòu)建的設(shè)計案例本體中，實現(xiàn)案例的獲取。其中，本體填充是一種將非結(jié)構(gòu)化、半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變成本體實例的知識獲取過程[6]。

1 案例獲取方法框架

本文提出的案例獲取方法的總體過程如圖1所示。

圖1 案例獲取方法框架

首先利用7步法結(jié)合Protégé工具構(gòu)建產(chǎn)品設(shè)計案例本體，然后通過Jena實現(xiàn)對案例本體的解析，將本體存儲于關(guān)系型數(shù)據(jù)庫SQL Server中，同時生成用于對文本文檔進行標注的詞表。在從數(shù)據(jù)庫中抽取信息時，首先建立案例本體中的概念模型與源數(shù)據(jù)庫中的數(shù)據(jù)模式之間的映射關(guān)系，然后利用該映射關(guān)系自動生成SQL查詢語句，從源數(shù)據(jù)庫中讀取案例本體中各元素的取值。在從文本文檔中抽取信息時，首先對文檔進行預(yù)處理，主要是實現(xiàn)文檔的標注，形成標注集，然后根據(jù)需要抽取的本體元素，針對標注集進行檢索，返回本體元素的取值。通過上述過程獲取到的信息通過本體寫入模塊，自動生成Jena的本體實例定義語句，寫入數(shù)據(jù)庫，最終生成設(shè)計案例。

2 案例本體的構(gòu)建與解析

2.1 基于本體的案例表示

案例表示是指確定案例所要包含的內(nèi)容，并采用合理的結(jié)構(gòu)對案例內(nèi)容進行描述[7]。所采用的實例表示方法的優(yōu)劣直接影響到實例的檢索、共享和維護等后續(xù)環(huán)節(jié)的效率。為實現(xiàn)案例的表示，學者們采用了屬性圖[8]、面向?qū)ο骩9]、框架[10]和本體[11]等多種方法。其中，基于本體的案例表示由于包含了語義信息，可提高案例庫的重用性、共享性和可進化性，同時能夠為后續(xù)的信息抽取過程提供必需的語義支持，因此本文采用本體進行案例表示。

本體是指一套公認的，關(guān)于概念體系的明確的、形式化的規(guī)范說明[12]。本體一般包括以下4個要素：概念、關(guān)系、公理和實例[13]。概念表示對象的集合，關(guān)系表示領(lǐng)域中概念之間的相互聯(lián)系，公理是指永真斷言。實例是指概念的具體實體，類似于面向?qū)ο笏枷胫蓄惖膶ο蟆?/p>

一個完整的設(shè)計案例由兩部分構(gòu)成——設(shè)計要求和設(shè)計結(jié)果。設(shè)計要求是產(chǎn)品設(shè)計的輸入，包括對新產(chǎn)品在功能、性能、可制造性、可維修性和經(jīng)濟性等方面的要求。設(shè)計結(jié)果是產(chǎn)品設(shè)計的輸出，包括產(chǎn)品及零部件的屬性和產(chǎn)品及零部件之間的結(jié)構(gòu)關(guān)系。按照抽象程度，可將案例庫分為案例模版和具體案例數(shù)據(jù)兩部分。其中，案例模版表示構(gòu)成設(shè)計案例的元素以及各元素之間的關(guān)系，通過本體的概念模型，即概念、屬性及其相互關(guān)系加以定義，具體案例數(shù)據(jù)則表示實例的設(shè)計案例，通過本體實例進行表示和存儲。

2.2 案例本體的構(gòu)建與解析

本體的構(gòu)建方法目前主要包括以下幾種：骨架法、METHONGTOLOGY法、SENsus法、TOVE法、IDEF法、KAcTus工程法和七步法等綜合方法[14]。其中最著名的是由斯坦福大學提出的七步法，該方法邏輯性強，符合人類的思維方式，且便于操作，得到廣泛的應(yīng)用[15]。由于七步法具有上述優(yōu)點，本文選擇該方法進行案例本體的構(gòu)建。標準的七步法包括以下步驟：①確定所構(gòu)建本體的應(yīng)用范圍；②考慮現(xiàn)有本體的重用；③列出本體中的重要術(shù)語；④定義概念和概念間的層級結(jié)構(gòu)；⑤定義概念的屬性；⑥定義屬性的特征和約束；⑦創(chuàng)建概念的實例。

在案例本體構(gòu)建完成以后，需要采用一種計算機能理解的方式對其進行描述。萬維網(wǎng)聯(lián)盟(World Wide Web Consortium, W3C)推薦的Web本體描述語言(Web Ontology Language, OWL)是一種基于描述邏輯的本體語言，語義表達能力豐富，語義表述能力精確，能夠?qū)︻I(lǐng)域本體進行正規(guī)、顯式的描述，并進行合理一致的推理[16]。因此，本文選擇OWL作為本體描述語言。本體構(gòu)建工具采用最常用的本體建模工具之一——Protégé。用Protégé構(gòu)建的本體存儲于擴展名為.owl的文件中，可以直觀顯示本體語言的語法，易于理解，但如果本體較大，概念和實例較多，本體檢索的效率會受到極大的影響。本文采用Jena的Ontology API對.owl文件進行解析，并存儲在關(guān)系型數(shù)據(jù)庫SQL Server中。

3 從數(shù)據(jù)庫中抽取信息

3.1 產(chǎn)品設(shè)計信息在PDM數(shù)據(jù)庫中的存儲方式

PDM系統(tǒng)作為一種信息管理系統(tǒng)，在制造業(yè)中的應(yīng)用已經(jīng)相當普及，其主要作用是管理產(chǎn)品研發(fā)過程中產(chǎn)生的相關(guān)數(shù)據(jù)。一個產(chǎn)品的相關(guān)數(shù)據(jù)在PDM系統(tǒng)的數(shù)據(jù)庫中以三類表格進行存儲，分別是產(chǎn)品及零部件信息表、產(chǎn)品結(jié)構(gòu)表和產(chǎn)品文檔表。其中，產(chǎn)品及零部件信息表用于存儲產(chǎn)品和零部件的屬性信息，如編碼、名稱、材料等。產(chǎn)品結(jié)構(gòu)表用于存儲產(chǎn)品的裝配關(guān)系信息，含有父節(jié)點編碼、子節(jié)點編碼以及裝配數(shù)量等信息。產(chǎn)品文檔表用于存儲與產(chǎn)品相關(guān)的文檔屬性信息，如文檔名稱、文檔版本、文檔類型等。本階段抽取的信息主要來自產(chǎn)品及零部件信息表和產(chǎn)品結(jié)構(gòu)表。

3.2 建立映射文件

源數(shù)據(jù)庫中的信息是以數(shù)據(jù)表的形式加以存儲的，其數(shù)據(jù)結(jié)構(gòu)遵循數(shù)據(jù)庫關(guān)系模式，而案例庫則采用本體的方式對案例進行表示。因此，為從源數(shù)據(jù)庫中抽取信息，必須建立數(shù)據(jù)庫模式與案例本體之間的映射關(guān)系。主要是建立本體中的概念名與數(shù)據(jù)庫中產(chǎn)品及零部件信息表的表名之間的映射關(guān)系，以及本體中概念的屬性名與數(shù)據(jù)庫中信息表的字段名之間的映射關(guān)系。為保證該映射關(guān)系對于人和計算機的可讀性，本文采用XML對其進行描述和存儲。

3.3 源數(shù)據(jù)庫讀取

為實現(xiàn)數(shù)據(jù)庫中設(shè)計信息的自動抽取，首先通過對數(shù)據(jù)結(jié)構(gòu)和產(chǎn)品結(jié)構(gòu)的識別和推理自動生成數(shù)據(jù)庫查詢語，然后利用生成的查詢句讀取數(shù)據(jù)庫中的設(shè)計數(shù)據(jù)，具體流程如圖2所示。

圖2 數(shù)據(jù)庫讀取流程

通過讀取數(shù)據(jù)庫所得的設(shè)計信息及其相應(yīng)的本體元素信息，利用Jena生成本體實例寫入語句，寫入案例庫。

例如，假設(shè)當前遍歷節(jié)點為結(jié)構(gòu)表中的“8XP.200.221.1-2”節(jié)點，通過查詢，得到以該編號為主鍵的表的表名為“axle”，通過映射文件可知，該表對應(yīng)本體中的“軸”概念，因此8XP.200.221.1-2是軸的一個實例，并且該表中有一個字段名為“aLength”，于是生成查詢語句，返回值為750，且由映射文件可知該值對應(yīng)本體中的“長度”這一屬性。然后根據(jù)返回的值及其所屬的類型，生成Jena的本體實例寫入語句，填充到相應(yīng)的本體元素中，具體過程如圖3所示。

圖3 數(shù)據(jù)庫讀取示例

4 從文本文檔中抽取信息

4.1 文檔預(yù)處理

為從文本型數(shù)據(jù)源中抽取所需的信息，首先需要對其進行預(yù)處理，預(yù)處理過程包括文檔的合并、分詞和標注，其中最重要的是對文本的標注。本文所涉及的文本型數(shù)據(jù)源主要是產(chǎn)品的設(shè)計任務(wù)書和設(shè)計說明書。設(shè)計任務(wù)書中對新產(chǎn)品的各項設(shè)計要求做了描述，設(shè)計說明書中對產(chǎn)品中的主要零部件的選配和參數(shù)的計算做了描述，為方便處理，首先將一個產(chǎn)品的設(shè)計任務(wù)書和設(shè)計說明書合并為一個文檔，并將其轉(zhuǎn)化為平文本格式。

本文采用由英國Sheffield大學開發(fā)的GATE[17](General Architecture for Text Engineering,文本工程通用框架)為主體實現(xiàn)對文本的標注。GATE雖然提供了針對中文信息抽取的Lang_Chinese插件，但是其結(jié)果并不能令人滿意，主要原因是缺乏對中文分詞處理的良好支持，并且缺少中文標注所需的詞表。因此，本文采用中國科學院計算技術(shù)研究所針對中文信息處理開發(fā)的漢語詞法分析系統(tǒng)ICTCLAS[18](Institute of Computing Technology, Chinese Lexical Analysis System)對文檔進行分詞處理。此外，根據(jù)所構(gòu)建的設(shè)計案例本體，利用Jena的解析功能生成詞表，分別是概念名稱.lst、屬性名稱.lst，概念實例.lst和屬性取值.lst，每個詞表的內(nèi)容為本體中的相應(yīng)條目。

經(jīng)過分詞處理，文檔中的每個詞之間都添加了空格，以便于后續(xù)的處理，分詞前后的文本如圖4所示。

圖4 文本分詞示例

然后用GATE中的Tokeniser和Gazeteer對文檔進行標注，Tokeniser可識別每個詞的類型、長度和字符串的內(nèi)容，Gazeteer是通過所生成的詞表，識別出與詞表內(nèi)容相匹配的詞語，并將詞表的名稱標注為該詞語的類別。標注后會生成一個與該文檔相對應(yīng)的標注集，標注集中的每個標注都有編號、類別、起始點和屬性集，表1為圖4中部分文本所對應(yīng)的標注集。

表1 標注集示例

4.2 標注集檢索

在從文本中進行信息抽取前，已經(jīng)從數(shù)據(jù)庫中抽取了一部分數(shù)據(jù)，此時只須從文本標注集中讀取案例本體所空缺的信息即可。因此需要以空缺的本體元素作為輸入，對標注集進行檢索，返回該本體元素的實際值，如果該元素為概念，則返回概念的實例，如果該元素為屬性，則返回屬性的取值，具體過程如圖5所示。

圖5 標注集讀取流程

根據(jù)返回的值及其對應(yīng)的本體元素，生成Jena的本體實例寫入語句，將其填充到相應(yīng)的本體元素中。

例如，在案例獲取過程中，需要從表1所示的標注集中檢索得到定子槽的槽寬這一屬性值，則根據(jù)所需的本體元素類型，生成相應(yīng)的標注集檢索語句，從標注集中得到槽寬的值為0.013，然后生成Jena的本體實例值寫入語句，將該值寫入設(shè)計案例中。

5 系統(tǒng)應(yīng)用與驗證

基于本文提出的案例獲取方法，應(yīng)用Visual Studio平臺和C#語言，集成數(shù)據(jù)庫管理系統(tǒng)SQL Server集成本體建模軟件Protégé，Jena組件、GATE組件和ICTCLAS系統(tǒng)，在某PDM基礎(chǔ)上開發(fā)了產(chǎn)品設(shè)計案例獲取構(gòu)件，并在某電動機生產(chǎn)企業(yè)進行了初步的應(yīng)用，系統(tǒng)的主要界面如圖6～圖8所示。

圖6 本體構(gòu)建功能模塊

圖7 信息抽取設(shè)置功能模塊

圖8 案例查詢與編輯功能模塊

為驗證所提出的產(chǎn)品設(shè)計案例獲取方法的有效性，利用所開發(fā)的案例獲取構(gòu)件，在該企業(yè)進行了對比實驗。首先隨機選出40個設(shè)計案例(原始數(shù)據(jù))，并將其分為2組，每組20個。然后隨機選擇4個設(shè)計人員，并將其分為兩組，每組2個。每一組設(shè)計人員負責20個設(shè)計案例的錄入，其中一組采用本文開發(fā)的設(shè)計案例獲取構(gòu)件，而另一組則純手工錄入。最終，純手工錄入的一組用時為168min，而使用設(shè)計案例獲取系統(tǒng)的一組用時為23min，比另一組節(jié)省了86.3%的時間。

6 結(jié)論

本文提出了一種能夠同時從存儲于數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)和存儲于文本中的非結(jié)構(gòu)化數(shù)據(jù)中抽取信息，以實現(xiàn)產(chǎn)品設(shè)計案例獲取的方法。首先采用七步法構(gòu)建產(chǎn)品設(shè)計案例本體，然后建立本體與數(shù)據(jù)庫模式之間的映射關(guān)系，并利用此映射關(guān)系自動生成數(shù)據(jù)庫查詢語句對源數(shù)據(jù)庫進行查詢。為從文本中抽取信息，采用GATE對文本進行標注，之后針對本體中所空缺的元素對文本的標注集進行檢索，返回所需的設(shè)計信息。經(jīng)過抽取得到的信息最終通過Jena的本體實例寫入語句填充到本體中，形成設(shè)計案例?；谠摲椒ㄩ_發(fā)了設(shè)計案例獲取構(gòu)件，利用該構(gòu)件進行了對比實驗，實驗結(jié)果表明，本文所提出的方法能大幅提高設(shè)計案例獲取的效率。