□鈕 亮 項(xiàng) 瑋 施佳璐
能源短缺與環(huán)境污染是當(dāng)今人類長期所面臨的兩個(gè)巨大難題,開發(fā)一種可再生的清潔型能源、實(shí)現(xiàn)低碳經(jīng)濟(jì)是解決兩個(gè)問題的重要路徑,也是我國發(fā)展戰(zhàn)略性新興產(chǎn)業(yè)的一個(gè)重要突破口。研究和利用可再生能源作為主要的新型清潔能源已經(jīng)成為了人類所面臨的重要課題之一。鋰電池是目前最具發(fā)展前景的高效二次電池和發(fā)展最快的化學(xué)儲(chǔ)能電源,符合新型清潔能源的需要。國外對(duì)于鋰電池技術(shù)研究最早是從20 世紀(jì)50年代開始,但不同時(shí)期的技術(shù)研究關(guān)注點(diǎn)不同。到20世紀(jì)70年代基本上已經(jīng)實(shí)現(xiàn)了對(duì)鋰原子電池的軍用和民用。由于鋰離子電池適合作為電動(dòng)汽車的動(dòng)力來源,進(jìn)入20 世紀(jì)90年代后期,在電動(dòng)汽車中的應(yīng)用研究也越來越多[1]。鑒于鋰電池在各行各業(yè)廣泛的應(yīng)用,很多學(xué)者對(duì)其熱點(diǎn)和趨勢(shì)進(jìn)行研究,以便探索鋰電池領(lǐng)域的未來發(fā)展方向,引導(dǎo)企業(yè)投資和生產(chǎn)。趙蓉英等通過對(duì)美國專利商標(biāo)局(USPTO)數(shù)據(jù)庫中鋰電池專利引文信息的計(jì)量分析,探究了鋰電池行業(yè)技術(shù)的發(fā)展態(tài)勢(shì)、鋰電池技術(shù)的分布狀況以及鋰電池技術(shù)發(fā)展與基礎(chǔ)科學(xué)研究的關(guān)系[2]。蘭鳳崇等采集了國內(nèi)外鋰離子動(dòng)力電池專利信息,并以此分析全球鋰離子電池產(chǎn)業(yè)的發(fā)展情況[3]。王琳等通過檢索國內(nèi)外全固態(tài)鋰電池的專利文獻(xiàn),從申請(qǐng)量變化規(guī)律、申請(qǐng)人分布、技術(shù)領(lǐng)域分布和發(fā)明人分布等方面進(jìn)行定量分析,從專利的申請(qǐng)現(xiàn)狀把握鋰電池領(lǐng)域的發(fā)展趨勢(shì)[4]。龍雪梅基于SCI 數(shù)據(jù)庫近十年來的檢索結(jié)果,定量分析了鋰離子電池相關(guān)研究文獻(xiàn)的歷史年代、文獻(xiàn)類型、作者、國家、機(jī)構(gòu)、出版物、被引頻次等因素[5]。徐睿則致力于以SCI-E、CPCI-S、DII 文獻(xiàn)資料作為分析的對(duì)象,從時(shí)間、技術(shù)領(lǐng)域、國家和主要的研發(fā)單位等多個(gè)角度對(duì)鋰電池進(jìn)行計(jì)量分析[6]。趙晏強(qiáng)等基于關(guān)鍵字從定量、定性角度論述了當(dāng)前鋰電池主要的正極材料在相關(guān)技術(shù)中的應(yīng)用熱點(diǎn)[7]。佟賀豐等基于引文耦合分析法對(duì)中美日三國的鋰離子電池技術(shù)前沿和差距進(jìn)行了分析[8]。陳錦攀等基于SCI、EI 和CNKI 數(shù)據(jù)庫,采用文獻(xiàn)計(jì)量學(xué)和知識(shí)圖譜的方法,從發(fā)文情況、發(fā)文機(jī)構(gòu)、發(fā)文國家及研究主題演化等方面,對(duì)于鋰離子動(dòng)力電池儲(chǔ)能系統(tǒng)研究進(jìn)行了深入的分析[9]。
盡管國內(nèi)外對(duì)鋰電池領(lǐng)域的熱點(diǎn)和趨勢(shì)分析的熱度較高,已有不少學(xué)者發(fā)表相關(guān)文獻(xiàn),但大部分都集中在對(duì)鋰電池性能升級(jí)方面,對(duì)鋰電池技術(shù)的熱點(diǎn)趨勢(shì)談?wù)摬蛔恪<幢阌幸恍┥婕拔墨I(xiàn)計(jì)量的分析,也主要集中在論文關(guān)鍵詞方面,鮮有對(duì)專利文獻(xiàn)的挖掘分析。專利文獻(xiàn)涉及相關(guān)技術(shù)領(lǐng)域最新、最活躍的創(chuàng)新和技術(shù)信息,從專利文獻(xiàn)中我們可以得到更多鋰電池的科技進(jìn)步和發(fā)展趨勢(shì)的信息。鋰電池技術(shù)熱點(diǎn)分析的關(guān)鍵是其專有詞匯識(shí)別。由于專利文獻(xiàn)的專有詞匯被表達(dá)在專利摘要中,要實(shí)現(xiàn)鋰電池?zé)狳c(diǎn)趨勢(shì)分析,首要工作是對(duì)摘要中專有詞匯進(jìn)行識(shí)別。現(xiàn)有文獻(xiàn)對(duì)這方面討論不足。
由于鋰電池的專業(yè)特性,對(duì)其技術(shù)描述的詞匯與日常語言不同,常規(guī)性的jieba 分詞等工具不能很好地識(shí)別鋰電池專業(yè)詞匯。如果將專有名詞視為一個(gè)實(shí)體,通過命名實(shí)體識(shí)別的方式抽取專有名詞,能夠保證識(shí)別的準(zhǔn)確度。它被認(rèn)為是完成機(jī)器翻譯、知識(shí)圖譜構(gòu)建、信息抽取、自動(dòng)摘要、語義分析、自動(dòng)提供問答等技術(shù)任務(wù)的理論依據(jù),在自然語言處理領(lǐng)域占有重要的地位。傳統(tǒng)的基于字典或者啟發(fā)式規(guī)則的實(shí)體抽取已經(jīng)不能完全滿足人們的需求,利用統(tǒng)計(jì)學(xué)方法進(jìn)行命名實(shí)體抽取成為目前的主流抽取方法。統(tǒng)計(jì)學(xué)中條件隨機(jī)場(chǎng)模型由于既可以用HMM 的狀態(tài)序列進(jìn)行求解,又通過自定義特征模板加強(qiáng)了對(duì)詞項(xiàng)的上下文理解,識(shí)別詞項(xiàng)的準(zhǔn)確度很高[10]。
條件隨機(jī)場(chǎng)模型能夠執(zhí)行的前提是語料需要預(yù)先標(biāo)記。傳統(tǒng)做法是人工標(biāo)記一定規(guī)模的實(shí)體,將其作為訓(xùn)練集,用此訓(xùn)練隨機(jī)場(chǎng)模型,得到優(yōu)化模型后投入實(shí)際使用[11]。模型的有效依賴于所標(biāo)記實(shí)體的涵蓋范圍。對(duì)于鋰電池專利文獻(xiàn)來說,特定專業(yè)技術(shù)詞匯不僅數(shù)量龐大,而且技術(shù)推進(jìn)中又不斷地出現(xiàn)新的詞匯,僅標(biāo)記鋰電池專業(yè)詞匯是不現(xiàn)實(shí)的。如果事先有一個(gè)較為合理可觀的詞典,將其作為鋰電池專利文本的標(biāo)記來源,那么就可以避免人工標(biāo)記的疏漏和不全面??紤]到鋰電池論文中關(guān)鍵詞是作者抽離出的專業(yè)詞匯,能夠解釋鋰電池的技術(shù)內(nèi)涵,因此將論文中關(guān)鍵詞作為專利摘要數(shù)據(jù)的標(biāo)記來源有一定意義。但論文的寫作策略和專利畢竟還有不同,論文的關(guān)鍵詞也無法全部涵蓋專利中出現(xiàn)的技術(shù)詞匯。通過語言模型的無監(jiān)督成詞方法[12],將專利摘要進(jìn)行分詞,所得詞匯和論文關(guān)鍵詞混合在一起作為條件隨機(jī)場(chǎng)模型標(biāo)記語料的來源就更具全面性。
經(jīng)過條件隨機(jī)場(chǎng)識(shí)別出的鋰電池專利詞匯,可以作為鋰電池?zé)狳c(diǎn)分析的詞匯來源。為了研究鋰電池技術(shù)的相互依賴、關(guān)系的緊密,對(duì)鋰電池專利摘要中的專利詞匯進(jìn)行共詞分析。共詞分析是對(duì)同一篇文獻(xiàn)中詞匯對(duì)共同出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),揭示這些詞之間的親疏關(guān)系,分析它們所代表主題的結(jié)構(gòu)變化[13]。一對(duì)詞匯在同一篇文獻(xiàn)中出現(xiàn)的次數(shù)越多,代表這兩個(gè)詞關(guān)系越緊密。由此,統(tǒng)計(jì)一組文獻(xiàn)主題詞在同一篇文章中兩兩出現(xiàn)的頻率,建立主題詞共現(xiàn)網(wǎng)絡(luò)。網(wǎng)絡(luò)內(nèi)節(jié)點(diǎn)之間關(guān)系反映了主題的相關(guān)情況。研究技術(shù)路線見圖1 所示。
1.鋰電池專利數(shù)據(jù)。本文以國家知識(shí)產(chǎn)權(quán)局官網(wǎng)中所發(fā)布的鋰電池領(lǐng)域的專利文本為數(shù)據(jù)源,利用爬蟲工具獲取該領(lǐng)域2011-2020年的相關(guān)專利文本。對(duì)檢索結(jié)果分別進(jìn)行了清洗、合并、去重,最終獲得46073 條有效數(shù)據(jù)。
2.鋰電池論文關(guān)鍵詞。由于鋰電池屬于特定技術(shù)領(lǐng)域,其專利文本中存在一部分專業(yè)詞匯,例如“磷酸鐵鋰”“正極活性材料”等,而這些關(guān)鍵詞在研究鋰電池的論文關(guān)鍵詞中有所體現(xiàn),實(shí)驗(yàn)為了提取更為準(zhǔn)確的鋰電池領(lǐng)域?qū)I(yè)詞匯,檢索知網(wǎng)中收錄的“鋰電池”相關(guān)論文,共檢索到50107 篇文獻(xiàn),導(dǎo)出所有文獻(xiàn)標(biāo)題、摘要和關(guān)鍵詞,最終提取其關(guān)鍵詞進(jìn)行清洗、去重并篩選三字及以上詞匯后,共得到25371 個(gè)專業(yè)詞匯。
3.基于語言模型的關(guān)鍵詞。考慮到中國知網(wǎng)中有關(guān)鋰電池的論文關(guān)鍵詞與專利數(shù)據(jù)中蘊(yùn)含的關(guān)鍵詞存在一定的偏差,需要對(duì)專利文獻(xiàn)中符合統(tǒng)計(jì)規(guī)則的一些詞項(xiàng)進(jìn)行獨(dú)立提取。利用KenLM 工具對(duì)專利文本進(jìn)行N-gram 語言模型訓(xùn)練,導(dǎo)出鋰電池相關(guān)詞匯,為條件隨機(jī)場(chǎng)模型做準(zhǔn)備。步驟為:(1)對(duì)46073條專利文本摘要進(jìn)行處理,包括增添空格和去除標(biāo)點(diǎn)符號(hào)等操作,制造符合KenLM 工具的語料;(2)調(diào)用KenLM 工具的count_ngrams 程序統(tǒng)計(jì)專利文本摘要的ngram,執(zhí)行結(jié)束后將結(jié)果保存在一個(gè)二進(jìn)制文件中;(3)利用KenlmNgrams 語句進(jìn)行讀取后,調(diào)用filter_ngrams 程序過濾ngram,其中[0,2,4,6]是互信息的閾值,第一個(gè)0 無意義,僅填充用,而2、4、6 分別是2gram、3gram、4gram 的互信息閾值;(4)構(gòu)建一個(gè)ngram 的Trie 樹,將ngram 片段連接成盡可能長的候選詞,篩選詞頻至少為5 次以上的詞匯,并對(duì)詞匯進(jìn)行清洗,刪除不完整詞匯,例如“二氧化”“氫氧化”等,而后導(dǎo)出詞庫,最終共得到10830 個(gè)相關(guān)詞匯。
4.鋰電池標(biāo)記詞典。將中國知網(wǎng)中近十年來所有與鋰電池領(lǐng)域相關(guān)的25371 個(gè)專業(yè)詞匯和基于N-gram語言模型的無監(jiān)督成詞方法得到的10830 個(gè)相關(guān)詞匯進(jìn)行合并,去掉1642 項(xiàng)重復(fù)項(xiàng),最后得到34559 個(gè)鋰電池領(lǐng)域相關(guān)詞匯。將這些鋰電池相關(guān)詞作為專利文本摘要的標(biāo)記詞,對(duì)專利摘要進(jìn)行標(biāo)注。
表2 條件隨機(jī)場(chǎng)模型特征模板
表3 條件隨機(jī)場(chǎng)模型的精確度、召回率及F 值
為了使用條件隨機(jī)場(chǎng)模型對(duì)專利文本的摘要數(shù)據(jù)進(jìn)行訓(xùn)練,需要將專利文本數(shù)據(jù)進(jìn)行標(biāo)注。標(biāo)注規(guī)則使用“B”“I”和“O”形式。以鋰電池標(biāo)記詞為目標(biāo),遍歷專利摘要文本,遇到標(biāo)記詞的首字母則標(biāo)記為B,其余字母標(biāo)記為I,遍歷過程中不在標(biāo)記詞典中的詞一律標(biāo)記為O。下面為一段專利文本,對(duì)其的標(biāo)記結(jié)果見表1。
摘要數(shù)據(jù)標(biāo)記后,構(gòu)造基于字的上下文特征模板,見表2。其中“U00:%x [-2,0]”中,U 表示一個(gè)序列類型的行為函數(shù)為Unigram,00表示序列特征的id,%x [-2,0]代表x 的位置,-2 代表針對(duì)x 的行序列向上偏移2 個(gè)字符,0 代表針對(duì)x的列序列偏移0 個(gè)位置。
為了提高模型的質(zhì)量,采用交叉驗(yàn)證方法將訓(xùn)練集和驗(yàn)證集合并,隨機(jī)分為互斥的5 個(gè)子集,為了保證其隨機(jī)性,5 次隨機(jī)劃分取平均。將5 個(gè)子集隨機(jī)地劃分為4 個(gè)一組和剩下1 個(gè)為另一組。在每一種分組結(jié)果中,4 個(gè)子集的組當(dāng)作訓(xùn)練集,另外1 個(gè)當(dāng)作測(cè)試集,這樣就產(chǎn)生了5 次預(yù)測(cè),對(duì)其取平均,獲得模型準(zhǔn)確率、召回率和F1 參數(shù)數(shù)值(表3)。
從實(shí)驗(yàn)數(shù)據(jù)中可以看出,條件隨機(jī)場(chǎng)模型訓(xùn)練的精確率、召回率和F1 測(cè)度值數(shù)值都較為可觀,精確度達(dá)到了85%,召回率達(dá)到了84%,F(xiàn)1 測(cè)度值則為84%,說明條件隨機(jī)場(chǎng)模型的訓(xùn)練效果較好,因此利用條件隨機(jī)場(chǎng)模型識(shí)別鋰電池專業(yè)詞匯是可行的。
根據(jù)條件隨機(jī)場(chǎng)模型預(yù)測(cè)結(jié)果,識(shí)別出鋰電池專業(yè)詞匯,對(duì)所得到的專業(yè)詞匯進(jìn)行清洗,共得到14698 個(gè)專業(yè)詞匯。基于該專業(yè)詞匯詞典集,依照正向最大匹配法篩選出46073 條專利摘要中與詞典匹配的詞項(xiàng),將每條摘要中提取出的詞匯進(jìn)行兩兩連邊,重復(fù)連接的次數(shù)設(shè)為邊的權(quán)重,構(gòu)建加權(quán)網(wǎng)絡(luò),最后以邊權(quán)重的離群點(diǎn)為過濾門檻,對(duì)加權(quán)網(wǎng)絡(luò)進(jìn)行篩選,得到鋰電池專利數(shù)據(jù)中的共詞網(wǎng)絡(luò)并對(duì)其進(jìn)行分析(圖2)。
鋰電池共現(xiàn)網(wǎng)絡(luò)中節(jié)點(diǎn)大小為度中心性,邊權(quán)重為關(guān)鍵詞共現(xiàn)的頻次。節(jié)點(diǎn)越大,表示該關(guān)鍵詞越是熱點(diǎn)。邊越寬,兩個(gè)互聯(lián)的關(guān)鍵詞越具依賴性。從圖2 可知,“鋰電池組”和“技術(shù)領(lǐng)域”的度中心性最大,而且與“負(fù)極”“控制器”“傳感器”等連接緊密,說明鋰電池組是當(dāng)前鋰電池技術(shù)領(lǐng)域研究的熱點(diǎn)。鋰電池組與電池負(fù)極材料和電解質(zhì)材料之間的聯(lián)系密切,若要提高鋰電池組的內(nèi)部性能,必須考慮電池的正負(fù)極材料,以實(shí)現(xiàn)最優(yōu)的電池質(zhì)量。“鋰電池組”與關(guān)鍵詞“控制器”之間的節(jié)點(diǎn)聯(lián)系密切,說明鋰電池組在作為其他產(chǎn)品或設(shè)備的控制器動(dòng)力上有著較為廣泛的應(yīng)用。“鋰電池組”與“傳感器”之間的節(jié)點(diǎn)連線聯(lián)系密切,說明鋰電池的研究與其內(nèi)部的溫控有關(guān)。還有一些聯(lián)系緊密的節(jié)點(diǎn)比如“散熱”“鋰電池技術(shù)”“電解液”“穩(wěn)定性”等,說明鋰電池的技術(shù)重點(diǎn)在電解液、散熱和穩(wěn)定性等方面。在鋰電池的應(yīng)用方面,“控制器”“太陽能”“傳感器”等幾個(gè)關(guān)鍵詞連接較為緊密,說明目前鋰電池在其他設(shè)備上的應(yīng)用較為廣泛,例如鋰電池在LED 太陽能路燈控制器,在使用鋰電池的基礎(chǔ)上,配合太陽能光板,推動(dòng)了我國新能源產(chǎn)業(yè)的發(fā)展。
圖2 鋰電池專業(yè)詞匯共現(xiàn)網(wǎng)絡(luò)
專利涉及到所有鋰電池技術(shù)領(lǐng)域中最新、最活躍的創(chuàng)新性技術(shù)資料,從專利文獻(xiàn)中可以了解鋰電池應(yīng)用領(lǐng)域未來發(fā)展的最新動(dòng)態(tài)。本文以國家知識(shí)產(chǎn)權(quán)局官網(wǎng)中2011-2020年鋰電池領(lǐng)域的專利文本為數(shù)據(jù)源,利用爬蟲工具獲取專利摘要信息。通過提取中國知網(wǎng)近十年來所有鋰電池領(lǐng)域的相關(guān)文獻(xiàn)關(guān)鍵詞,使用KenLM 工具中語言模型對(duì)專利文獻(xiàn)進(jìn)行分詞,合并通過上述兩種方法得到的詞匯。以此詞匯為標(biāo)記來源,基于條件隨機(jī)場(chǎng)模型對(duì)專利文本進(jìn)行專業(yè)詞匯提取,最終得到的詞匯預(yù)測(cè)準(zhǔn)確率、召回率和F1 測(cè)度值分別為85%、84%和84%。條件隨機(jī)場(chǎng)模型提取了14698 個(gè)鋰電池領(lǐng)域常用專業(yè)詞匯。
基于該專業(yè)詞匯集,依照正向最大匹配法篩選出46073 條專利數(shù)據(jù)摘要中與詞典匹配的詞項(xiàng),將每條摘要中提取出的詞匯進(jìn)行兩兩連邊,以邊權(quán)重的離群點(diǎn)為過濾門檻,對(duì)加權(quán)網(wǎng)絡(luò)進(jìn)行篩選,得到鋰電池專利數(shù)據(jù)中的共詞網(wǎng)絡(luò)結(jié)構(gòu),并對(duì)其進(jìn)行分析。發(fā)現(xiàn)目前鋰電池技術(shù)領(lǐng)域的研究熱點(diǎn)仍然是在于如何改善和提高鋰電池的內(nèi)部性能上。鋰電池組已經(jīng)成為當(dāng)前鋰電池在突破技術(shù)領(lǐng)域研究的熱點(diǎn)核心。
統(tǒng)計(jì)科學(xué)與實(shí)踐2022年4期