• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于專利分析的技術(shù)樹構(gòu)建

    2020-09-16 13:29:19李健博張麗瑋
    科學(xué)與信息化 2020年14期
    關(guān)鍵詞:文本挖掘自然語言處理

    李健博 張麗瑋

    摘要:技術(shù)樹是用來表示某一領(lǐng)域中產(chǎn)品組成,技術(shù)和技術(shù)功能之間關(guān)系的樹形圖。本研究的目的是使用計算機相關(guān)技術(shù),多維度地、快速地構(gòu)建產(chǎn)業(yè)技術(shù)樹。本研究主要使用自然語言處理技術(shù)提取專利文本中的主體一動作一客體結(jié)構(gòu)(SAO),然后使用數(shù)據(jù)挖掘技術(shù)對上述結(jié)構(gòu)分類、處理、標注,最終構(gòu)建技術(shù)樹。本文使用“捕獲碳(吸附和溶劑)”專利數(shù)據(jù)集構(gòu)建了產(chǎn)業(yè)技術(shù)樹,并從產(chǎn)品、技術(shù)和功能的視角分別展示了技術(shù)樹的特征。

    關(guān)鍵詞:文本挖掘;自然語言處理;技術(shù)樹;SAO結(jié)構(gòu)

    引言

    技術(shù)樹是用來表示特定技術(shù)領(lǐng)域或單體組織中技術(shù)特征及技術(shù)間關(guān)系的樹結(jié)構(gòu)圖,通常包含某特定技術(shù)領(lǐng)域的產(chǎn)品組件、技術(shù)以及技術(shù)的功能及其使用效果之間關(guān)系的樹形結(jié)構(gòu)圖,是技術(shù)規(guī)劃的重要決策工具。通過技術(shù)樹的構(gòu)建,用于幫助技術(shù)管理人員梳理并展示企業(yè)的技術(shù)體系架構(gòu),助力于企業(yè)技術(shù)戰(zhàn)略決策的制定。

    目前,對于技術(shù)樹的構(gòu)建常用的主要有兩種方法,分別是基于TRIZ理論中的技術(shù)進化樹理論進行構(gòu)建和通過提取技術(shù)、產(chǎn)品等相關(guān)信息,根據(jù)原始信息的邏輯結(jié)構(gòu)進行技術(shù)樹的構(gòu)建。上述研究成果已經(jīng)取得了一定的成果,但由于技術(shù)樹構(gòu)建很大程度上依賴專家和構(gòu)建者的知識和經(jīng)驗,從而存在人為主觀性強、自動化差等問題。

    針對上述問題,本研究使用文本挖掘和自然語言處理技術(shù)對專利進行,實現(xiàn)自動化技術(shù)樹構(gòu)建研究,從而對企業(yè)技術(shù)結(jié)構(gòu)進行多維度展示。其中,具體流程框架如圖1所示:

    1技術(shù)樹構(gòu)建

    本文使用文本挖掘和自然語言處理技術(shù)對專利文獻進行深入解讀和分析,提取SAO結(jié)構(gòu),并對A0結(jié)構(gòu)分類、標注等,最終構(gòu)建技術(shù)樹。

    1.1提取SA0結(jié)構(gòu)

    提取SAO結(jié)構(gòu)的步驟包括:篩選專利數(shù)據(jù),抽取SAO結(jié)構(gòu)。

    ①選擇專利語料。針對需要研究的企業(yè),確定檢索式,檢索獲取其相關(guān)專利文獻。為確保研究的有效性,本文選取“摘要”和“權(quán)利要求書”作為分析語料,進行SAO結(jié)構(gòu)的抽取。

    ②抽取SAO結(jié)構(gòu)

    提取SAO結(jié)構(gòu)主要依賴自然語言處理技術(shù),在此之前需要先對文本進行預(yù)處理,包括分句、分詞、去除停用詞、詞性標注、依存句法分析等操作,從而提取SAO結(jié)構(gòu),如圖2所示。

    1.2深度標注SA0結(jié)構(gòu)

    在提取和分類SAO的基礎(chǔ)上,對s和AO進行標注。詞組包括產(chǎn)品、技術(shù)、技術(shù)屬性和材料類型,AO包括從屬類型、功效類型和屬性優(yōu)化。

    (1)衡量SAO結(jié)構(gòu)相似度

    提取的SAO結(jié)構(gòu)數(shù)量眾多,其中包含很多意思相似的詞組和短語,例如“二氧化碳的回收”、“分離C02”、“除去二氧化碳”,因此需要將他們聚類,并且用更具代表性的詞語標記他們。

    本文使用機器學(xué)習(xí)中第三方模塊sklearn(Scikit-learn)中的TfidfVectorizer將文本轉(zhuǎn)化為向量,然后用向量的余弦值表示SAO相似度。

    提取的SAO結(jié)構(gòu)具有以下特征:可能有很多無效數(shù)據(jù),而且無法提前獲知聚類的簇的數(shù)量?;诿芏鹊木垲愃惴ú恍枰付ù氐臄?shù)目,而且能夠識別噪聲數(shù)據(jù),所以本文使用DBSCAN聚類算法對短語和AO分類。

    (2)s和0的類型標注

    根據(jù)聚類的結(jié)果將s和0標注為四種類型,包括產(chǎn)品、技術(shù)、技術(shù)屬性和材料(表1)。

    (3)A0類型標注

    根據(jù)聚類的結(jié)果將AO標注為三種類型,包括從屬類型,功效類型和屬性優(yōu)化。(表3)

    1.3構(gòu)造技術(shù)樹

    技術(shù)樹的類型及構(gòu)造方法

    相應(yīng)的,技術(shù)樹可以分成“產(chǎn)品”技術(shù)樹、“技術(shù)”技術(shù)樹和“功效”技術(shù)樹。

    “產(chǎn)品”技術(shù)樹表示產(chǎn)品和組成產(chǎn)品的部件之間的關(guān)系,技術(shù)樹的節(jié)點是被標記為產(chǎn)品的詞組,例如“吸收劑”由“循環(huán)流化床反應(yīng)器”、“埋管式換熱器”等組成,如圖3示。

    “技術(shù)”技術(shù)樹表示產(chǎn)品和組成產(chǎn)品的部件之間的技術(shù)關(guān)系,技術(shù)樹的節(jié)點可以是被標記為技術(shù)類型的詞組或者是描述技術(shù)屬性的AO結(jié)構(gòu)。

    “功能”技術(shù)樹表示產(chǎn)品或技術(shù)的功能和功能之間的關(guān)系,技術(shù)樹的節(jié)點是描述產(chǎn)品或技術(shù)功能的AO結(jié)構(gòu)。

    2實證研究

    為確保上述研究結(jié)果的準確性和有效性,本文應(yīng)用“碳捕獲”領(lǐng)域的專利數(shù)據(jù)構(gòu)建技術(shù)樹,驗證本文提出方法的可行性。

    2.1SAO結(jié)構(gòu)抽取和標注

    本研究使用哈工大自然語言處理工具ltp進行語義依存分析,結(jié)合語法規(guī)則,使用Python~言編寫程序提取SAO結(jié)構(gòu)。程序處理“中國石油化工股份有限公司”的數(shù)據(jù)集得到331個SAO結(jié)構(gòu),部分數(shù)據(jù)見表3

    然后,使用基于向量空間模型的TF-IDF將SAO結(jié)構(gòu)轉(zhuǎn)換成向量,使用DBSCAN聚類算法對短語和AO分類并標注類型。

    2.2技術(shù)樹構(gòu)建與分析

    本實驗構(gòu)建了一個程序,其使用了Python的Pandas庫從SQL Server取出標記好的SAO結(jié)構(gòu),然后使用Python的繪圖庫Matplotlib將技術(shù)書畫出來,保存成圖片。該程序生成了三種類型的技術(shù)樹圖,包括“產(chǎn)品”技術(shù)樹、“技術(shù)”技術(shù)樹和“功能”技術(shù)樹,分別如圖6、圖7和圖8所示。

    (1)“產(chǎn)品”技術(shù)樹

    一種脫除混合氣體中H2s、CO2和有機硫的固體吸附劑”的“產(chǎn)品”技術(shù)樹。(圖6)

    (2)“技術(shù)”技術(shù)樹

    “一種聚對苯二胺/石墨烯基氮摻雜多孔碳材料制備方法”構(gòu)建的“技術(shù)”技術(shù)樹。

    (P代表產(chǎn)品節(jié)點、T代表技術(shù)節(jié)點)

    (3)“功能”技術(shù)樹

    “離子液體的二氧化碳吸收劑”構(gòu)建的“功能”技術(shù)樹。(圖11)

    (F代表功能節(jié)點)

    3結(jié)束語

    本研究彌補了傳統(tǒng)方法構(gòu)建專利技術(shù)樹的不足,如提高技術(shù)樹構(gòu)建速度,降低對專家知識的依賴,減少工作量,多視角展示技術(shù)樹等。本研究以“碳捕獲”專利數(shù)據(jù)集為例,構(gòu)建并分析了不同種類的技術(shù)樹。

    猜你喜歡
    文本挖掘自然語言處理
    數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
    基于組合分類算法的源代碼注釋質(zhì)量評估方法
    基于LDA模型的95598熱點業(yè)務(wù)工單挖掘分析
    文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個性化推薦中的應(yīng)用
    商(2016年34期)2016-11-24 16:28:51
    從《遠程教育》35年載文看遠程教育研究趨勢
    面向機器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
    慧眼識璞玉,妙手煉渾金
    詞向量的語義學(xué)規(guī)范化
    文本觀點挖掘和情感分析的研究
    漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
    铁力市| 黎城县| 泰安市| 镇宁| 青川县| 龙州县| 虹口区| 德江县| 盐边县| 保靖县| 修水县| 徐水县| 嘉黎县| 尤溪县| 台中市| 大庆市| 报价| 桂林市| 信丰县| 大荔县| 诸暨市| 拉孜县| 垣曲县| 庆安县| 武隆县| 崇州市| 于田县| 东乡| 平顶山市| 通榆县| 乐业县| 宁南县| 天柱县| 诸城市| 新密市| 滦平县| 万安县| 大丰市| 宕昌县| 卓尼县| 监利县|