• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      專利主題詞的FW-LDA組合改進與關鍵詞演化分析*

      2022-07-18 06:28:04劉晉霞張志宇
      情報雜志 2022年7期
      關鍵詞:主題詞制氫分類號

      劉晉霞 張志宇 王 芳

      (太原科技大學經濟與管理學院 太原 030024)

      0 引 言

      隨著科學技術的不斷發(fā)展創(chuàng)新,使得專利文獻數量不斷增加,產生了龐大的信息數據,對科研與技術人員把握技術發(fā)展前沿產生了很大困難。為及時掌握技術發(fā)展、輔助技術決策、提高科研效率,許多學者對相關領域展開了技術主題的挖掘與主題詞的提取,其中以LDA概率主題模型的方法發(fā)展迅速,它能夠通過概率統(tǒng)計定量分析和識別研究主題,得到文檔所屬主題與每個主題下對應的主題詞。該模型被證實能夠取得很好的主題建模效果,目前應用較為廣泛,但其自身不能確定主題數會導致存在主題劃分模糊,以及沒有考慮文檔中詞語出現的順序關系會缺乏上下文邏輯信息。

      因此,本文提出一種基于FW(Filter words)-LDA組合改進方法,通過LDA模型提取每個主題及對應的主題詞后,對主題詞進行過濾(FW),以解決LDA模型主題劃分模糊以及缺乏上下文邏輯關系的問題。并且將該組合改進方法應用于我國制氫技術專利數據集的演化分析,以把握技術發(fā)展規(guī)律。

      1 相關研究工作概述

      概率主題模型最早起源于潛在語義分析LSA(Latent Semantic Analysis)[1],之后發(fā)展為概率潛在語義分析PLSA(Probabilistic Latent Semantic Analysis)[2]以及在PLSA的基礎上加入了貝葉斯先驗分布的潛在狄利克雷分布LDA(Latent Dirichlet Allocation)[3],關于LDA概率主題模型改進的研究成果已有很多,主要可以分為三類:

      第一類是對LDA模型本身的改進。這類方法主要是在LDA模型內部,通過調節(jié)分布或權重,更加準確地識別主題。如Blei等[4]提出的DTM模型是將文檔按小時間尺度順序分箱,對每個分箱內的LDA模型之間的全局變量通過指數分布進行連接,通過引入時間動態(tài)的概念,來更好地建模主題;BTM算法[5]結合層級Dirchlet語言模型和LDA,通過Biterm來建模,將詞的順序作為影響主題確定的因素;加權主題模型[6]對不同詞進行權重的分配,解決LDA模型的分析結果向高頻詞傾斜而淹沒能夠代表主題的多數詞問題。但是這類方法會因沒有與外部信息相結合而缺乏主題語境信息,或通過調節(jié)權重來改變生成詞概率時需要大量數據集進行驗證及優(yōu)化。第二類是LDA模型與其他外部結構或信息相結合的改進。如楊超等[7]基于SAO結構[8]的LDA主題模型方法,改善專利技術主題辨識度低等問題;廖列法等[9]在LDA算法上,通過引入IPC分類號來度量技術主題強度,實現了對主題強度、內容和技術主題強度三方面的演化研究;李昌等[10]引入IPC分類號作為語境信息,實現對專利主題更加明確的分類。但是這類方法會因只提取了部分文本詞,而出現上下文邏輯缺失的問題,或只考慮加入語境,而對主題下的詞語仍使用概率分布獲得,缺乏上下文邏輯關系。第三類是LDA模型與其他模型的結合改進。如Zaheer M[11]等人將LDA模型中文檔主題的Dirchlet(狄利克雷)分布改為LSTM的內容,以對序列文本進行建模;Xie X等[12]提出了一種基于RNN的聚類方案來學習標準LDA聚類標簽隨時間的自然相關性,解決了LDA模型在聚類中忽略相鄰聚類之間轉移和相關性的問題;莊穆妮等[13]將LDA主題模型與BERT詞向量深度融合,來優(yōu)化主題向量與文本主題聚類效果。這類方法能有效地進行文本詞的訓練并助力主題的劃分聚類,提高主題識別的準確性。

      綜上所述,目前針對主題建模以及主題關鍵詞的提取,主要利用LDA概率主題模型。大量學者針對其存在主題劃分模糊、未考慮上下文邏輯關系的問題進行了多種方法的改進,但與其他模型結合,從過濾篩選主題詞角度進行問題改進的相關工作較少。因此,本文以過濾處理主題詞的角度,提出一種FW-LDA組合改進方法,對LDA模型輸出做進一步的主題標識、訓練詞向量和建立相似度處理,使過濾出的主題關鍵詞能夠獲得更好的主題劃分泛化能力和主題聚類的效果。

      2 方法構建

      FW-LDA方法流程如下:①數據收集與預處理:在專利數據檢索系統(tǒng)中,收集一段時間內的專利文獻,選取出專利分類號和語料庫,并對語料庫預處理得到模型輸入文本。②LDA概率主題識別:將模型輸入文本作為LDA模型的輸入,輸出每項文檔所屬主題以及主題詞。③定義主題標識詞:通過對專利分類號的選取與定義解釋、語料庫以及LDA輸出信息,定義LDA中輸出的每個主題標識,得到主題標識詞。④負采樣模型過濾主題詞:將模型輸入文本和定義的主題標識詞作為負采樣模型的輸入,過濾LDA模型中輸出的主題詞,得到主題關鍵詞結果。如圖1所示。

      圖1 FW-LDA方法流程

      2.1 數據收集與預處理模塊

      本模塊分為兩個步驟:

      第1步,文本數據選取。首先在專利平臺中對專利類型進行選取,其次對選取的每項專利進行數據項的選取與文本項的選取,其中專利分類號作為數據項的選取結果;建立語料庫作為文本項的選取結果。

      第2步,文本預處理。對文本項中建立的語料庫,進行中文停用詞表的清洗,并對清洗后的文本建立自定義詞典和分詞,得到可用于LDA模型和負采樣模型的輸入文本。

      2.2 LDA概率主題識別模塊

      LDA算法是一種無監(jiān)督的機器學習技術,通過一個貝葉斯鏈式關系,公式為(1),概率生成文檔主題的模型[3]。

      (1)

      將語料庫中的所有詞語進行分主題聚類,實現全自動地從數據集中抽取出每項文檔所屬主題wj|zk,以及文檔中的每個詞語所屬主題zk|di,即主題詞。

      但是LDA模型存在一定的不足:第一,LDA方法本身不能生成最優(yōu)主題數[14],而是要依靠Blei[3]提出使用困惑度的方法來設定,以困惑度最小值或拐點處對應的主題數作為模型的最優(yōu)主題數,當設定的困惑度較高時,往往會導致主題劃分不準確,泛化能力弱。第二,LDA能通過頻率計算出詞語所對應主題,但LDA模型是一個詞袋模型,在詞袋中一篇文檔是由一組詞構成的集合,詞與詞之間沒有順序,未能將詞與詞之間的關系納入計算[15]。因此本文針對這兩個不足,在專利語料庫進行LDA概率主題識別的基礎上,通過定義主題標識詞、負采樣模型過濾主題詞的組合來改進LDA模型識別結果。

      2.3 定義主題標識詞模塊

      LDA模型對專利文本進行主題分類時,輸出中沒有每個分類主題的標識,但每個主題下的詞語是由聚類產生,都有其隱含的標識詞,因此通過尋找每個主題的含義定義主題標識詞。數據庫中的每項專利都有按照技術分配的專利分類號,其中的每個專利分類號都有特定的含義。專利分類號來源于國際專利分類系統(tǒng)體系,它是我國進行專利分類的常用體系,按照不同技術主題把整個技術領域分為5個不同層級:部、大類、小類、大組、小組[16],部是對技術領域最大的劃分層級,其余層級是更細致的逐級劃分,分類越細致則專利之間差異性越小[9]。因此,本文通過LDA模型輸出信息和國際專利分類系統(tǒng)信息相結合,定義每個主題的標識詞,過程如下:

      第1步,提取每個主題信息。

      在通過LDA模型對專利文本進行建模后,依據所輸出的每項文檔所屬主題,提取每個主題對應的語料庫以及專利分類號。

      第2步,選擇專利分類號。

      由于使用最小困惑度來確定分類的最優(yōu)主題數和使用國際專利分類系統(tǒng)的分類存在差距,因此在LDA模型輸出每個主題所對應的文檔中會有多個專利分類號,這使得對主題標識詞的定義產生一定困難。選擇合適的專利分類號可以減少定義的復雜度并且提高主題劃分的準確度,本文建立兩個指標選取專利號。第一,選擇的專利分類號在某一主題下文檔數的占比大于其他主題中文檔數的占比,該指標能夠對某一主題與其他主題進行區(qū)分,體現每個主題的特點,公式為(2)。

      (2)

      第二,選擇的專利分類號在某一主題下所占的文檔數最多,該指標能夠體現某一專利分類號在該主題的重要程度,公式為(3)。

      (3)

      其中,Q代表專利號,Q=q代表第q個專利號,N代表主題,N=n代表第n個主題,MIPC為專利分類號數量,Mtext為專利文本數量。

      第3步,結合語料庫與LDA輸出信息

      通過選擇出每個主題的專利分類號,以國際專利分類系統(tǒng)中對專利分類號的定義為基礎,結合專利語料庫信息與LDA輸出的主題詞,最終選擇適合每個主題的詞語作為主題標識詞。

      定義主題標識詞是組合改進方法的基礎和關鍵步驟。它既是對LDA模型中輸出每個主題的概括,也是負采樣過濾主題詞模塊時的輸入文本,要使得經過過濾后得到的主題關鍵詞,包含大部分屬于LDA中原本輸出的主題詞,并且能夠使主題劃分更加清晰。與單獨依據LDA模型中輸出的主題詞,主觀定義主題標識詞的方法相比,本文在此基礎上,通過結合提取的專利語料庫信息、LDA輸出信息與國際專利分類系統(tǒng)對專利分類號的定義多方面考慮來定義,使效果更加準確。

      2.4 負采樣過濾主題詞模塊

      負采樣模型[17]是對Skip-Gram模型的改進,Skip-Gram模型是在Word2Vec[18]工具中,用來訓練出低維詞向量的模型[19]。但Skip-Gram模型在更新時,每次都要訓練詞典中的所有分詞,概率也做相應調整。而在實際運行過程中,通過Softmax[20]運算得到概率值基本為零,全部更新就會消耗計算資源。因此,引進負采樣模型,其本質是每次只選擇正樣本以及部分負樣本進行訓練與更新,減少Softmax的計算量,以更加迅速有效地得到詞向量。

      LDA主題識別模型不考慮上下文邏輯關系,負采樣模型的一大特點正是對詞語之間的關系進行描述,更加注重上下文邏輯[15]。利用負采樣訓練詞向量并建立向量間的相似度量,以定義的主題標識詞作為查詞對象,計算并輸出其相似詞及相似系數,來篩選過濾LDA模型輸出中的主題詞。

      3 實證研究

      3.1 數據收集與預處理

      3.1.1文本數據選取

      本文研究對象為我國制氫技術領域的專利文獻,檢索平臺選擇“專利之星檢索系統(tǒng)”,使用表格檢索,檢索式為“TX=制氫&制備氫”(TX表示關鍵詞)、“AD=20010101>20191231”(AD表示申請日、20010101>20191231表示時間跨度為2001—2019年),共檢索得到9 243篇專利文獻。其中專利類型為發(fā)明的專利6753篇、實用新型專利2 403篇、外觀設計專利87篇。由于發(fā)明專利具備突出的實質性特點、顯著性進步、新穎性和創(chuàng)造性水平更高、保護年限長、保護產品方法與技術的優(yōu)點,因此選擇發(fā)明專利為研究對象。發(fā)明專利中的法律狀態(tài)包括有效、審中和失效專利,其中有效專利2 372篇、失效專利3 150篇(失效但有過授權的專利為694篇)。由于專利會隨著時間失效,但曾有專利的授權就說明該技術曾為有效專利,創(chuàng)新研究被認可,故選取法律狀態(tài)為有效和已失效但曾有授權時間的專利。

      根據以上選取條件,共檢索得到3 066篇專利文獻。將其導出后對專利權人、發(fā)明人名稱規(guī)范與消歧[21]以及對重復文本剔除,經過篩選,共有2 665條專利記錄。每項記錄中包括發(fā)明人、標題、分類號、摘要、法律狀態(tài)、專利類型等20項內容。由于專利的標題和摘要最能體現所用技術、方法和效果[22],所以選取標題和摘要作為文本項的語料庫,并且在定義主題標識詞時,要利用專利分類號,故選取專利分類號作為數據項。

      3.1.2文本預處理

      對語料庫進行信息整合后進行預處理工作,得到模型輸入文本。

      a.以標點符號和在每項專利摘要中出現的“本發(fā)明”“一項”“公開”等不影響上下文邏輯關系、高頻無用的詞語建立停用詞表。

      b.以文獻關鍵詞和搜狗詞庫中下載相關的專利詞語詞庫來建立自定義詞典。

      c.使用中文分詞組件Jieba(可由https://github.com/fxsjy/jieba下載)和人工分詞相結合的方法對語料庫進行分詞,提高分詞準確性。

      3.2 LDA概率主題識別

      使用Python3作為開發(fā)平臺,選用Scikit-Learn中的LDA主題模型,其主要基于變分推斷EM算法進行參數估計[23]。

      首先,通過計算困惑度來確定最優(yōu)主題數,圖2為1~50個主題時分別對應的困惑度值,最終選取困惑度最低點對應的Number of Topic作為模型的最優(yōu)主題數,故設置K=17進行建模,參數α和β使用默認值。其次在理論上,困惑度越小,泛化能力越強,但其學習效果與迭代次數密切相關,隨著迭代次數增加,收斂速度無明顯變化[14],因此將文檔迭代次數設置為1000次。

      圖2 1-50主題下的困惑度值

      通過LDA對語料庫的訓練,輸出每個文本對應的最大概率主題和每個主題下按照概率大小排列的詞語。對于一個主題下的詞語,與該主題的距離越大,概率越小,聚類程度降低,因此設置每個主題下的概率前100的詞語(n_top_words=100),并將其作為負采樣模型進行過濾的對象。

      3.3 定義主題標識詞

      通過兩個指標選取每個主題專利分類號。在專利之星檢索系統(tǒng)中,提取出的專利分類號層級為小組層級,可以將其分解為任何需要的層級。根據國際專利分類表,不同的分類層級會對標識詞的設定產生不同的效果[24],故提取10%數量的文本,對它們所對應的大類、小類和小組專利分類號進行效果對比分析,結果發(fā)現,基于大類進行設定時,會使標識詞過于粗泛,使得不同的主題有相同的標識詞,主題間相似度偏大;而基于大組或小組的主題詞會使得每個主題下的分類過多,找不準聚類詞語。因此,實驗以小類層級為標準來輔助定義主題的標識詞,使主題劃分更加明確。經過信息的結合,定義出每個主題的主題標識詞如表1。

      表1 主題標識詞

      3.4 負采樣模型過濾主題詞

      實驗使用Python3作為開發(fā)平臺,選用Gensim工具包中的負采樣模型訓練詞向量。通過實驗,輸出不重復的詞語數量共有17 704個。

      3.4.1參數設定

      本實驗將維度參數設置為50,負樣本的個數設置為5,滑動窗口大小設置為4。其中,在維度參數設置時,通過學者的大量實驗得出,降維至50~300維的范圍為最佳,在此范圍內,若設置為50維,計算速度相對快,若設置為300維,計算相對更加準確。本實驗隨機抽取10%的文本,分別將維度參數設置為50、100、200、300,通過查詞的效果比較發(fā)現,維度為50維時,計算速度快,并且與100維、200維和300維時的相似詞基本相同,因此,本實驗設置維度參數Feature_Number=50,并且通過訓練出的低維詞向量,建立詞語之間的相似度量。

      3.4.2主題關鍵詞的過濾

      以主題標識詞為查詞對象,設定Vocabulary_Similar(“標識詞”,100),以此計算出與主題標識詞相似系數高的前100的詞,依據這些詞對3.2中設置的每個主題下前100個主題詞,通過選擇兩者的前20個相同詞的方法過濾出主題關鍵詞。由于LDA模型輸出的主題詞是根據詞頻,而負采樣模型是根據上下文邏輯關系,所以兩者出現相同詞的順序不同,因此有兩種標準,第一種是以LDA中主題詞為準,選取LDA中與負采樣模型中輸出的前20位相同詞,第二種是以負采樣模型中輸出詞為準,選取其與LDA主題中詞的前20位相同詞,作為選詞結果,由于考慮到第二種選詞方式會導致聚類程度過大,在關鍵詞演化過程中出現相同意義詞演化的情況,因此選擇使用第一種選詞方式。

      4 效果對比驗證

      本文將相同主題數下,FW-LDA方法、LDA模型與TF-IDF算法、BTM模型所輸出的主題相互對應。通過對主題詞展示以及逐點互信息、Pearson(皮爾遜)相關系數的方法,從主題詞和混淆效果、聚類效果三個方面,對比驗證FW-LDA方法的有效性與準確性。

      4.1 主題詞對比驗證

      主題詞對比驗證的對象,是四種模型輸出的每個主題前20個關鍵詞。由于TF-IDF算法、BTM模型與LDA模型中的主題詞差距較小,因此本文僅以LDA模型和FW-LDA方法為例,如表2中的Topic3和表3中的Topic13??梢园l(fā)現,在經過FW-LDA方法后,可以過濾掉LDA模型中主題辨別能力差以及與該主題相關性小的關鍵詞。

      表2 Topic3效果對比

      表3 Topic13效果對比

      4.2 混淆效果驗證

      混淆效果體現在主題之間,逐點互信息PMI(Pointwise Mutual Information)指標是可以作為衡量主題相關性的評估指標,為避免計算中出現-∞,通常計算PPMI(Positive PMI),其公式為(4)。本文通過該指標,度量四種模型中某一主題與其他主題之間的相似程度。

      (4)

      其中,tk,tj分別表示第k個主題和第j個主題,Xtk,Xtj表示兩個不同主題之間相同詞的個數。

      為清晰地比較結果,本文將計算每個主題的AN-PPMI值,其公式為(5)。三個模型的AN-PPMI值比較結果如圖3所示。

      圖3 AN-PPMI值比較結果

      (5)

      其中,n表示主題總數量,N-PPMI值表示對每一主題的PPMI值進行歸一化,得到該主題與其他各個主題之間的相關系數。

      由圖3可知,在大多數的主題下,FW-LDA方法中的AN-PPMI數值低于其他三種模型,說明主題之間的混淆程度降低,主題劃分更加明確。

      4.3 聚類效果驗證

      聚類效果體現在主題內部的關鍵詞中,本文根據負采樣模型訓練出的詞向量,運用Pearson(皮爾遜)相關系數的方法,計算主題內部關鍵詞之間的相關系數,其公式如(13),通過比較四種模型中的Pearson最小相關系數以及平均相關系數,來驗證主題內部聚類效果。因篇幅有限,無一一羅列兩種模型的Pearson相關系數,這里僅以四種模型相互對應主題后的Topic0至Topic3為例進行對比。結果為表4,min和avg分別表示主題內關鍵詞之間的Pearson最小相關系數和平均相關系數。

      (6)

      其中,X、Y表示兩個詞向量。

      表4 四種模型的Pearson系數

      由Pearson相關系數的比較可知,FW-LDA中主題內關鍵詞之間的相關系數大,方法的改進產生聚類效果。

      綜上所述,通過對輸出主題詞、主題間混淆關系以及主題關鍵詞內部聚類效果的對比驗證可以得出,相比LDA模型、TF-IDF算法和BTM模型,FW-LDA方法能夠使主題之間混淆度降低、劃分更加準確,主題內部的關鍵詞相關性增強、結果更加聚類。

      5 演化分析

      通過對不同主題關鍵詞的演化分析,可以及時把握技術發(fā)展動態(tài),挖掘技術創(chuàng)新規(guī)律。本文對2001—2019年的專利文本進行演化分析,在時間切片后,利用FW-LDA的方法選取每個時間切片最優(yōu)主題數下的主題關鍵詞;將這些詞進行去重,并通過負采樣模型建立的相似度量,設置關鍵詞之間的相似度閾值,確定有演化關系的詞語作為演化關鍵詞結果。其流程如圖4所示。

      圖4 演化流程

      5.1 時間切片

      本文將2001—2019年分為5個時間切片,由于前7年專利數目較少,因此將其作為一個時間切片,其他以3年為單位進行時間切片。最終切片結果為2001—2007年、2008—2010年、2011—2013年、2014—2016年和2017—2019年。

      5.2 主題關鍵詞選取

      對每個時間切片下的語料庫進行困惑度計算,選擇困惑度最小所對應的主題數作為該時間切片下的最優(yōu)主題數Kt,5個時間切片的最優(yōu)主題數分別為K2001—2007=11,K2008-2010=3,K2011-2013=12,K2014-2016=18,K2017-2019=7。

      利用FW-LDA方法進行演化前的主題關鍵詞選取。對每個時間切片下所有主題,先計算輸出LDA模型中詞頻位于前100的詞語,再應用國際專利分類系統(tǒng)中對應專利分類號的小類層級含義、LDA輸出信息、語料庫相結合定義主題標識詞,并將其作為查詞對象,利用負采樣模型構建的相似度量計算其相似詞及相似系數,對LDA模型中的主題詞進行過濾篩選,過濾出與標識詞相關系數大的前20個詞,作為主題關鍵詞的選取結果。

      5.3 演化關鍵詞選取

      本文演化的目的是分析主題關鍵詞出現的最早時間,因此,演化關鍵詞的選取對象為主題關鍵詞中的不同詞,對5.2中得到的主題關鍵詞再進行兩次篩選。第一次篩選是去重篩選,將每個時間切片所有主題關鍵詞,先是進行時間切片內關鍵詞去重,再按照相鄰時間切片進行依次去重。第二次篩選是相似度篩選,通過負采樣模型建立的相似度量,進行相鄰時間切片詞與詞之間的相似度查詢,以相似度系數0.78作為閾值,相似度系數小于0.78視為沒有演化關系的詞語,不進行演化分析。相似度系數的設定從兩方面考慮:一方面,相似度系數過小會導致相似詞過多,演化結果不清晰;另一方面,相似度系數過大會導致一些主要關鍵詞找不到相似詞。因此將相似系數設定為0.78,這樣既能保證演化清晰度,也能保證主要關鍵詞可以找到相鄰時間切片的相似詞,經過兩次篩詞后,得到每個時間切片的演化關鍵詞,其數量分別為54、20、34、42、16。

      依據演化關鍵詞的特點,可以將其大致分解為5個分支,分別為操作(環(huán)境)、材料、裝置、制備方法和目標,如圖5所示。

      圖5 演化關鍵詞的分支結果

      由于制備方法和制備材料之間的關鍵詞聯(lián)系密切,能夠較直接地體現發(fā)展技術,并且它們的演化關鍵詞和演化關系較為復雜,因此本文在圖5的5個分支中,聚焦制備方法和制備材料兩個方面的演化關鍵詞,分析技術發(fā)展狀態(tài)。兩者之間的聯(lián)系與演化如圖6所示,每個時間切片中加粗字體是制氫方法的演化關鍵詞,淺色字體代表制氫材料的演化關鍵詞,空白處表示沒有對應的演化關鍵詞,即沒有方法或材料的發(fā)展。

      圖6 制備方法與材料的演化

      根據2001—2007年期間的演化關鍵詞,發(fā)現主要有氣體制氫、催化重整制氫、金屬水溶液制氫、生物制氫、化學制氫、光催化制氫以及發(fā)電制氫的方法以及所對應材料,在之后的時間段對其不斷發(fā)展。2008—2010年期間,發(fā)展氣體制氫、化學制氫及光催化制氫的材料,并且在光催化制氫上發(fā)展可見光制氫與光解水制氫方法,在金屬水溶液制氫上發(fā)展分解水制氫方法;2011—2013年期間,在可見光制氫、光解水制氫上發(fā)展光伏制氫方法,分解水制氫上發(fā)展車載制氫方法,化學制氫上發(fā)展化學鏈循環(huán)制氫方法,并對這幾種方法以及氣體制氫、催化重整制氫、發(fā)電制氫發(fā)展新材料;2014—2016年期間,在光伏制氫上發(fā)展光催化水解制氫的方法與材料,在車載制氫上發(fā)展水解制氫方法,在發(fā)電制氫上發(fā)展電解水制氫、電催化制氫和電化學制氫的方法和材料,氣體制氫和催化重整制氫的材料,與此同時發(fā)展生物質制氫與化學鏈制氫相結合的方法與材料;2017—2019年期間,主要將化學鏈制氫、光催化水解制氫以及電催化、電解水、電化學制氫結合,發(fā)展光電化學制氫的制備方法和材料。從整體來說,2008—2019年期間對2001—2007年期間的制氫方法與材料都有相應的發(fā)展,尤其以化學制氫、光催化制氫與發(fā)電制氫發(fā)展迅速。

      5 結語

      LDA概率主題模型進行建模時,存在主題劃分模糊、未考慮上下文邏輯關系的問題,針對這兩個問題,本文以過濾輸出主題詞的角度提出一種FW-LDA組合改進方法。在LDA輸出的基礎上,首先通過對專利分類號的選擇,輔助定義每個主題的主題標識詞;其次運用負采樣模型能夠考慮上下文邏輯關系的特點,訓練每個詞語的低維詞向量,并建立相似度量來計算主題標識詞的相似詞和相似系數,對LDA模型中輸出的主題詞進行過濾。以2001—2019年制氫領域的整體專利文獻為實證對象,通過模型的對比驗證發(fā)現,FW-LDA組合改進方法能夠使主題之間的混淆程度更加準確,主題劃分清晰,并且使得主題內關鍵詞起到聚類的效果。在實證分析及效果驗證后,本文利用FW-LDA方法,對整體文本進行時間切片,輸出每個時間切片的主題關鍵詞;通過去重篩選和相似度篩選得到演化關鍵詞;并利用這些詞進行演化分析,挖掘該領域的技術發(fā)展狀態(tài)。本文在演化分析進行時間切片時,僅以文章數量為切片條件,未來嘗試不斷調整切片時間,以得到發(fā)展技術內容的具體時間點而非時間段。

      猜你喜歡
      主題詞制氫分類號
      A Study on the Change and Developmentof English Vocabulary
      制氫工藝技術比較
      高活性Al-LiBH4-Bi鋁基復合制氫材料
      電源技術(2015年11期)2015-08-22 08:50:26
      Translation on Deixis in English and Chinese
      我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
      我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
      2014年第16卷第1~4期主題詞索引
      The law of exercise applies on individual behavior change development
      《疑難病雜志》2014年第13卷主題詞索引
      電解制氫設備開發(fā)入選“863”
      低溫與特氣(2014年4期)2014-03-20 13:36:50
      威海市| 九龙县| 西乌珠穆沁旗| 璧山县| 博客| 突泉县| 瑞丽市| 开鲁县| 麦盖提县| 罗平县| 霍城县| 响水县| 虹口区| 云霄县| 会同县| 刚察县| 台南县| 泽普县| 彰化县| 日土县| 宜城市| 龙里县| 饶平县| 萨迦县| 连州市| 石渠县| 苍山县| 辛集市| 长宁县| 永嘉县| 鄂温| 仁化县| 恩施市| 赣州市| 库尔勒市| 锡林浩特市| 鸡泽县| 兴义市| 临漳县| 乌兰浩特市| 湖北省|