楊 恒 王曰芬 張 露
(1.南京理工大學(xué)知識產(chǎn)權(quán)學(xué)院 南京 210094;2.天津師范大學(xué)管理學(xué)院 天津 300387 )
隨著新一輪科技革命的到來,世界各國都在加緊通過技術(shù)預(yù)測把握先發(fā)優(yōu)勢,搶占科技創(chuàng)新制高點。科學(xué)高效的技術(shù)預(yù)測工作能夠幫助國家和企業(yè)準(zhǔn)確了解技術(shù)研究熱點與技術(shù)發(fā)展脈絡(luò),跟蹤世界主要國家及企業(yè)技術(shù)發(fā)展動態(tài)、預(yù)測技術(shù)未來發(fā)展趨勢、盡快發(fā)現(xiàn)技術(shù)發(fā)展機(jī)會[1]。目前技術(shù)預(yù)測的方法主要分為基于專家智慧的定性預(yù)測法和基于數(shù)據(jù)驅(qū)動的定量預(yù)測法[2],兩種方法的結(jié)合使用正在成為研究關(guān)注的方向。
專利文獻(xiàn)作為技術(shù)創(chuàng)新能力的重要表現(xiàn)形式,蘊(yùn)含著極大的經(jīng)濟(jì)價值及技術(shù)價值,是理想的技術(shù)挖掘的數(shù)據(jù)來源[3],然而隨著專利文獻(xiàn)數(shù)量的急劇增長,需要找到快速準(zhǔn)確挖掘和分析技術(shù)的方法,而對大規(guī)模的專利文獻(xiàn)進(jìn)行數(shù)據(jù)集的有效縮減以及進(jìn)行技術(shù)主題的識別與演化分析[4]將是有效且可行的方法。核心專利是一個產(chǎn)業(yè)/技術(shù)領(lǐng)域中具有重要技術(shù)價值及經(jīng)濟(jì)價值的專利,能夠反映出相關(guān)領(lǐng)域研究的核心技術(shù),從研究內(nèi)容看,核心技術(shù)又是由一個個技術(shù)主題構(gòu)成的。因此,識別出核心專利并進(jìn)行技術(shù)主題分析,不僅可以對海量專利文獻(xiàn)進(jìn)行有效縮減,而且能夠突出重點地跟蹤與預(yù)測技術(shù)發(fā)展態(tài)勢,提高技術(shù)跟蹤與預(yù)測的效果和效率。
國內(nèi)外已有研究中,對技術(shù)主題識別的研究方法主要分為兩大種類:基于引用關(guān)系的技術(shù)主題識別方法、基于文本內(nèi)容的技術(shù)主題識別方法[5]。基于文本內(nèi)容的技術(shù)主題識別主要采用主題模型法,伴隨著自然語言處理技術(shù)發(fā)展而出現(xiàn)的如 Word2Vec、LDA 等高效處理文本的模型,提高了文本語義處理的效果。目前的研究一般將核心專利識別與技術(shù)主題識別分開進(jìn)行,從核心專利數(shù)據(jù)集中識別出技術(shù)主題并進(jìn)行主題演化分析的相關(guān)研究還比較有限。相關(guān)研究已經(jīng)表明:基于核心專利數(shù)據(jù)集對專利文獻(xiàn)的文本數(shù)據(jù)進(jìn)行相關(guān)術(shù)語抽取工作,與基于全數(shù)據(jù)集進(jìn)行比較,其能夠提高術(shù)語抽取的效率[6];同時,面對海量數(shù)據(jù),在技術(shù)主題的識別上,基于核心專利數(shù)據(jù)集進(jìn)行識別的結(jié)果能夠覆蓋基于全數(shù)據(jù)集進(jìn)行識別的結(jié)果的絕大部分,且技術(shù)主題之間的區(qū)分度較高,有助于提高識別過程的效率和識別結(jié)果的準(zhǔn)確性[7]。
因此,本文的創(chuàng)新點有兩點:一是引入核心專利的概念,從行為效果和動機(jī)目的兩個角度入手,考慮專利的影響和價值,全面選取核心專利識別指標(biāo)和識別流程,采用客觀賦權(quán)法對指標(biāo)賦予權(quán)重,然后結(jié)合灰色關(guān)聯(lián)分析法進(jìn)行打分,確定核心專利。二是基于核心專利數(shù)據(jù)集而不是全數(shù)據(jù)集進(jìn)行技術(shù)主題的識別與演化,并將定量分析結(jié)果與專家定性評價相結(jié)合對技術(shù)進(jìn)行預(yù)測。
針對研究目的,本文以數(shù)據(jù)驅(qū)動思想為指導(dǎo),遵循數(shù)據(jù)挖掘與分析的基本流程,提出面向技術(shù)預(yù)測的核心專利技術(shù)主題識別與演化分析的研究框架設(shè)計如圖 1 所示(其中,虛線部分表示的是前期所做的研究,具體內(nèi)容見文獻(xiàn)[8],實線部分表示的是本文所做的研究及內(nèi)容)。
圖1 研究框架設(shè)計
a.數(shù)據(jù)獲取與預(yù)處理。以德溫特專利數(shù)據(jù)庫為數(shù)據(jù)源,德溫特專利數(shù)據(jù)庫收錄了全球50家專利機(jī)構(gòu)的超過3 000萬條專利信息,與Web of Science雙向連接,從而將基礎(chǔ)研究成果和技術(shù)應(yīng)用成果聯(lián)系起來,確保了數(shù)據(jù)的全面和可靠[9]。數(shù)據(jù)預(yù)處理工作主要包括去除重復(fù)項、數(shù)據(jù)篩選、分詞、去除無關(guān)詞語(包括3種類型:一是停用詞,主要為一些沒有明確含義的詞,如數(shù)詞、介詞、冠詞等;二是專利中出現(xiàn)的與技術(shù)無關(guān)的常用詞如“where”“include”等;三是專利中獨特的學(xué)術(shù)詞匯如“analyze”“propose”等)、詞性標(biāo)注(抽取名詞、動詞以及形容詞3種專利文本中的實詞)等步驟。b.核心專利識別。構(gòu)建核心專利識別指標(biāo)體系,利用熵權(quán)法、灰色關(guān)聯(lián)分析法等識別出核心專利,并進(jìn)行分類。c.技術(shù)主題識別與演化分析。依據(jù)全局和局部結(jié)合的原則,利用LDA主題模型、Word2vec詞向量模型兩種模型進(jìn)行技術(shù)主題的識別,并結(jié)合技術(shù)生命周期理論,從技術(shù)主題強(qiáng)度演化和技術(shù)主題內(nèi)容演化兩個方面進(jìn)行技術(shù)主題的演化分析。d.技術(shù)預(yù)測。在得到基于定量分析方法的技術(shù)研究熱點及發(fā)展趨勢后,咨詢該領(lǐng)域相關(guān)專家,借助專家智慧調(diào)整定量分析的結(jié)果,從而實現(xiàn)較為準(zhǔn)確的技術(shù)預(yù)測。
本文是在前期研究基礎(chǔ)上進(jìn)行的,因此,有關(guān)數(shù)據(jù)獲取與預(yù)處理、核心專利識別的方法不再贅述,下面主要對技術(shù)主題識別與技術(shù)主題演化分析方法加以論述。
2.2.1技術(shù)主題識別方法
由于LDA主題模型未考慮詞語與詞語之間的關(guān)系,而Word2vec詞向量模型關(guān)注詞語之間的上下文順序和關(guān)系,從語義方面對文本內(nèi)容進(jìn)行進(jìn)一步理解。因此,本文在LDA主題模型的基礎(chǔ)上,將詞語之間的關(guān)系考慮進(jìn)去。具體做法如下:首先利用Word2vec詞向量對經(jīng)過預(yù)處理后的專利文獻(xiàn)的摘要、標(biāo)題等文本內(nèi)容進(jìn)行訓(xùn)練,以此得到所有詞語的詞向量表示,并輸出與特征詞(經(jīng)過預(yù)處理后的原始語料庫)相似度較大的值(具體輸出多少個根據(jù)實驗需求設(shè)置),將其擴(kuò)充至原始語料庫中,這樣就可得到新的特征詞集合 {W1,W2,W3…Wi,Wi+1,…,Wi+n},其中,W1到Wi為經(jīng)過預(yù)處理后的原始語料庫中的詞語,Wi+1到Wi+n為擴(kuò)充的詞語,兩者結(jié)合構(gòu)成新的語料庫;然后利用LDA主題模型對新的語料庫進(jìn)行訓(xùn)練,以此獲取技術(shù)主題。將Word2vec詞向量模型以文本擴(kuò)展的形式引入,可以更深層次地挖掘文本語義知識,提高技術(shù)主題識別的質(zhì)量。主要思路流程如圖2所示:
圖2 技術(shù)主題識別的思路流程
2.2.2技術(shù)主題演化分析方法
本研究設(shè)計的技術(shù)主題演化分析方法包括技術(shù)主題強(qiáng)度演化和技術(shù)主題內(nèi)容演化兩種。
a.技術(shù)主題強(qiáng)度演化。
技術(shù)主題強(qiáng)度表達(dá)的是技術(shù)主題受關(guān)注的程度,某一時間段下相關(guān)技術(shù)的技術(shù)主題強(qiáng)度越大,則表示在該時間段中對于這些技術(shù)主題研究的熱度越高,專利文獻(xiàn)申請數(shù)量越多。對于技術(shù)主題強(qiáng)度演化的計算過程,首先需要識別出總數(shù)據(jù)集的技術(shù)主題,然后計算這些技術(shù)主題在技術(shù)生命周期中每一階段的強(qiáng)度,最后分析其演化趨勢。技術(shù)主題強(qiáng)度一般利用主題支持的文檔數(shù)量來表征,表示技術(shù)主題對于當(dāng)前時間段上文檔的貢獻(xiàn)程度,計算公式如公式(1)所示:
(1)
其中,St,k表示時間段t上第k個主題的主題強(qiáng)度,Pd,k為第d篇專利文獻(xiàn)中第k個主題的概率,Dt為時間段t上的文檔數(shù)量。
b.技術(shù)主題內(nèi)容演化。
技術(shù)主題內(nèi)容演化反映的是技術(shù)主題中主題詞的變化,主要有技術(shù)主題新生、技術(shù)主題消亡、技術(shù)主題繼承、技術(shù)主題分裂和技術(shù)主題融合5種演化類型。技術(shù)主題內(nèi)容演化分析首先需要識別出技術(shù)生命周期上各時間段的技術(shù)主題,然后衡量相鄰時間段上技術(shù)主題之間的關(guān)聯(lián)關(guān)系。目前相似度計算方法中,余弦相似度算法應(yīng)用較為廣泛。余弦相似度用兩個技術(shù)主題向量夾角的余弦值來衡量技術(shù)主題之間的關(guān)系,值越趨近于1,則表示兩個技術(shù)主題越相似,值越趨近于0,則表示兩個技術(shù)主題幾乎沒有相似性,計算方法如公式(2)所示。另外,還需根據(jù)實際設(shè)置相似度的閾值,若兩個技術(shù)主題的相似度大于閾值,則技術(shù)主題之間存在關(guān)聯(lián)關(guān)系;若兩個技術(shù)主題的相似度小于閾值,則技術(shù)主題之間不存在關(guān)聯(lián)關(guān)系。
(2)
其中,Tt、Tt+1為相鄰時間段上的主題向量,即該主題中所有詞語的概率分布所形成的主題向量。
本文以人工智能領(lǐng)域為例,在前期數(shù)據(jù)獲取與預(yù)處理、核心專利識別及技術(shù)生命周期劃分的基礎(chǔ)上,識別出201條核心專利[8],但201條核心專利的數(shù)據(jù)量過小,不適合進(jìn)行技術(shù)主題的演化分析,因此本文進(jìn)一步調(diào)整核心專利劃分的閾值,將大于等于78%maxBi的專利劃分為準(zhǔn)核心專利(有較大可能性成為核心專利),最終獲得3 262條準(zhǔn)核心專利。根據(jù)技術(shù)生命周期理論,結(jié)合專利申請量變化、申請人數(shù)量變化、專利申請量增長率變化,可以將1985—2019年人工智能領(lǐng)域的技術(shù)發(fā)展劃分為四個時間段[8],其中萌芽期(1985—1999年)有558條準(zhǔn)核心專利,緩慢發(fā)展期(2000—2009年)有1 342條準(zhǔn)核心專利,快速發(fā)展期階段(2010—2014年)有922條準(zhǔn)核心專利,騰飛期(2015—2019年)有440條準(zhǔn)核心專利。另外,本文使用Python中的Ntlk工具包完成分詞、去除無關(guān)詞語、詞性標(biāo)注預(yù)處理工作。
對準(zhǔn)核心專利數(shù)據(jù)進(jìn)行實際訓(xùn)練,對LDA主題模型和Word2vec詞向量模型的一些參數(shù)設(shè)置如表1所示,其他相關(guān)參數(shù)保持默認(rèn)值。
表1 LDA主題模型及Word2vec詞向量模型的主要參數(shù)設(shè)置
首先利用Word2vec詞向量模型對經(jīng)過預(yù)處理后的原始語料進(jìn)行訓(xùn)練,訓(xùn)練完成后,本文選擇模型輸出的與原始語料庫中詞語最相關(guān)的10個詞語,并且詞語之間的相似度大于0.7的詞語,將其擴(kuò)充至原始語料庫中,以此得到新的語料庫,然后基于LDA主題模型對新的語料庫進(jìn)行訓(xùn)練處理。LDA主題模型的訓(xùn)練需要確定主題個數(shù)K的值,這將直接影響對技術(shù)主題識別的效果,本文通過計算困惑度來獲取K的值,一般來說,困惑度值越低,對應(yīng)的技術(shù)主題個數(shù)最優(yōu),但困惑度值只能作為一個參考,具體情況還需考慮實驗運行情況及主觀需求。圖3為主題個數(shù)在1~100時困惑度的變化曲線,曲線的跨度設(shè)置為5,從圖中可以看到,在主題個數(shù)為0~10時,困惑度曲線呈現(xiàn)急速下降趨勢;主題個數(shù)為10~26時,困惑度曲線呈現(xiàn)緩慢下降趨勢;主題個數(shù)為26~100時,困惑度曲線呈現(xiàn)平穩(wěn)、輕微波動狀態(tài)。因此,本文綜合考慮困惑度值和本研究的實際需求,將主題個數(shù)設(shè)置為26。
圖3 不同主題個數(shù)下的困惑度曲線圖
根據(jù)各個技術(shù)主題所包含的主題詞對所識別出的26個技術(shù)主題進(jìn)行命名,分別為智能搜索(Topic#1)、通信(Topic#2)、人機(jī)交互(Topic#3)、智能醫(yī)療(Topic#4)、智能汽車(Topic#5)、語音識別(Topic#6)、問答系統(tǒng)(Topic#7)、圖像視頻識別(Topic#8)、機(jī)器翻譯(Topic#9)、數(shù)據(jù)存儲(Topic#10)、知識表示(Topic#11)、圖像處理(Topic#12)、神經(jīng)網(wǎng)絡(luò)(Topic#13)、虛擬現(xiàn)實(Topic#14)、自然語言處理(Topic#15)、信號處理(Topic#16)、算法模型(Topic#17)、計算機(jī)系統(tǒng)(Topic#18)、機(jī)器學(xué)習(xí)(Topic#19)、目標(biāo)檢測(Topic#20)、移動設(shè)備(Topic#21)、模式識別(Topic#22)、分析與挖掘(Topic#23)、過程控制(Topic#24)、生物特征識別(Topic#25)、智能金融(Topic#26),表2展示了所識別出的26個技術(shù)主題中的10個技術(shù)主題及主題詞。
表2 技術(shù)主題識別結(jié)果(其中10個)
3.2.1技術(shù)主題強(qiáng)度演化
由上已經(jīng)得到基于準(zhǔn)核心專利數(shù)據(jù)所識別出的26個技術(shù)主題,再根據(jù)技術(shù)主題強(qiáng)度計算公式(1),計算技術(shù)主題在技術(shù)生命周期中各個階段的主題強(qiáng)度值,如表3所示。
根據(jù)表3可以繪制技術(shù)主題強(qiáng)度變化圖譜,據(jù)此可以看出大部分技術(shù)主題的主題強(qiáng)度都呈現(xiàn)輕微波動的變化趨勢,說明人工智能領(lǐng)域絕大多數(shù)的技術(shù)主題不是保持一成不變的狀態(tài),而是隨著時間的發(fā)展,對相關(guān)技術(shù)的研究熱度有所調(diào)整,從而順應(yīng)時代的發(fā)展趨勢。另外,通信(T1)、語音識別(T15)、機(jī)器學(xué)習(xí)(T20)這三個技術(shù)主題的主題強(qiáng)度可以明顯看出其上升的變化趨勢,且技術(shù)主題強(qiáng)度都維持在較高的水平上,說明這三個技術(shù)主題作為人工智能領(lǐng)域重點關(guān)注的對象,相關(guān)技術(shù)的發(fā)展較為迅猛,由此產(chǎn)生了大量的相關(guān)專利;機(jī)器翻譯(T7)技術(shù)主題的主題強(qiáng)度在前三個階段中呈現(xiàn)較為平穩(wěn)的變化趨勢,在騰飛期主題強(qiáng)度迅速下降,說明該技術(shù)主題現(xiàn)階段的研究熱度在逐漸降低。
表3 技術(shù)主題各個階段的主題強(qiáng)度值
3.2.2技術(shù)主題內(nèi)容演化
首先,根據(jù)技術(shù)生命周期的劃分,識別每一階段的技術(shù)主題,結(jié)果如表4所示。
表4 技術(shù)生命周期各階段的技術(shù)主題識別結(jié)果
然后,計算技術(shù)生命周期相鄰時間段上技術(shù)主題之間的余弦相似度,根據(jù)人工智能領(lǐng)域技術(shù)主題之間相似度的計算結(jié)果,本研究設(shè)置相似度閾值為0.7,即技術(shù)主題之間的相似度大于0.7,則存在技術(shù)主題關(guān)聯(lián)關(guān)系。將所得結(jié)果可視化展示,如圖4所示。
從圖4可以看出,大部分技術(shù)主題在技術(shù)生命周期多個階段中都有出現(xiàn),呈現(xiàn)繼承、分裂或融合演化關(guān)系,如信號處理、傳感器、自然語言處理、目標(biāo)檢測、語音識別、圖像識別及處理、音視頻處理、通信、機(jī)器學(xué)習(xí)、數(shù)據(jù)存儲、問答系統(tǒng)等技術(shù)主題,這些技術(shù)主題一直是人工智能領(lǐng)域研究的重點內(nèi)容,人工智能的快速發(fā)展離不開這些技術(shù)主題的有效研究。另外,有少部分技術(shù)主題僅在技術(shù)生命周期一個階段或兩個階段中出現(xiàn),如萌芽期的過程控制及文件系統(tǒng)兩個技術(shù)主題在緩慢發(fā)展期階段消亡;緩慢發(fā)展期新增了分析與挖掘、機(jī)器翻譯、IT+金融及人機(jī)交互四個技術(shù)主題,同時分析與挖掘、專家系統(tǒng)這兩個技術(shù)主題在快速發(fā)展期階段消亡;快速發(fā)展期新增了大數(shù)據(jù)、智能汽車、云及機(jī)器人四個技術(shù)主題,同時機(jī)器翻譯技術(shù)主題在騰飛期階段消亡;騰飛期新增了生物特征識別技術(shù)主題。這表示隨著人工智能的發(fā)展,各個階段的技術(shù)主題基本保持不變,僅有少數(shù)技術(shù)主題會根據(jù)時代需要發(fā)生一定的變化,如目前智能汽車、機(jī)器人、生物特征識別等技術(shù)主題成為新興熱點,這也符合人工智能的發(fā)展現(xiàn)狀。
圖4 技術(shù)主題內(nèi)容演化
3.3.1基于定量的技術(shù)預(yù)測
通過上述對人工智能專利數(shù)據(jù)進(jìn)行技術(shù)生命周期劃分、核心專利識別、技術(shù)主題識別及演化等的定量分析后,可知目前人工智能的發(fā)展主要經(jīng)過了四個階段,分別為萌芽期(1985—1999年)、緩慢發(fā)展期(2000—2009年)、快速發(fā)展期(2010—2014年)以及騰飛期(2015—2019年),現(xiàn)在正處于人工智能的火熱發(fā)展時期。
從技術(shù)主題識別結(jié)果可知,人工智能領(lǐng)域準(zhǔn)核心專利現(xiàn)階段主要的技術(shù)研究熱點有語音識別、圖像處理/識別、生物特征識別、目標(biāo)檢測、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、自然語言處理、數(shù)字?jǐn)?shù)據(jù)處理/傳輸/存儲、問答系統(tǒng)、通信、信號處理、計算機(jī)系統(tǒng)、人機(jī)交互、智能醫(yī)療/汽車/金融等,從人工智能領(lǐng)域研究的內(nèi)容角度出發(fā),可以把這些技術(shù)研究熱點歸納為基礎(chǔ)層(包括硬件、算法模型及數(shù)據(jù))、技術(shù)層(語音識別、圖像識別及目標(biāo)檢測等人工智能相關(guān)技術(shù)的研發(fā))及應(yīng)用層(人工智能相關(guān)技術(shù)在各種領(lǐng)域上的應(yīng)用)三大類別[10]。
從技術(shù)主題演化結(jié)果可知,人工智能領(lǐng)域主要技術(shù)主題的發(fā)展呈現(xiàn)出動態(tài)變化的趨勢,絕大多數(shù)技術(shù)主題在人工智能技術(shù)生命周期各個階段中都存在且研究熱度基本保持穩(wěn)定,呈現(xiàn)出輕微波動的變化趨勢,只有少數(shù)技術(shù)主題在技術(shù)生命周期某個階段上呈現(xiàn)新生、消亡、快速發(fā)展或衰退的變化趨勢。從技術(shù)主題強(qiáng)度演化結(jié)果來看,通信(T1)、語音識別(T15)、機(jī)器學(xué)習(xí)(T20)等技術(shù)主題呈現(xiàn)上升的趨勢,未來需要大力支持與發(fā)展這些技術(shù)主題;從技術(shù)主題內(nèi)容演化結(jié)果來看,生物特征識別、云、大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)、智能醫(yī)療/金融/汽車、機(jī)器人等技術(shù)主題在快速發(fā)展期及騰飛期中呈現(xiàn)新生演化狀態(tài),表明這些技術(shù)主題在該階段中得到關(guān)注,未來這些技術(shù)主題的研究方向同樣需要引起重視。
3.3.2結(jié)合定量與定性的技術(shù)預(yù)測
在定量分析結(jié)果的基礎(chǔ)上,本研究舉辦了專家研討會,邀請領(lǐng)域相關(guān)專家重點討論人工智能關(guān)鍵技術(shù)的發(fā)展現(xiàn)狀及預(yù)測領(lǐng)域技術(shù)未來的發(fā)展趨勢。
首先,對人工智能關(guān)鍵技術(shù)的發(fā)展現(xiàn)狀進(jìn)行分析,上述對人工智能技術(shù)研究熱點的定量分析結(jié)果被歸納為基礎(chǔ)層、技術(shù)層及應(yīng)用層三大層面,根據(jù)專家們的意見,對人工智能發(fā)展現(xiàn)狀也從這三個層面進(jìn)行考慮。基礎(chǔ)層作為支撐人工智能發(fā)展的基石,主要包括數(shù)據(jù)、算法模型及硬件(硬件主要包括芯片、傳感器及操作系統(tǒng)等,芯片的主要代表有GPU、FPGA、ASIC等,傳感器主要提供數(shù)據(jù)輸入和人機(jī)交互等作用)三個方面,這三者也被稱為人工智能的數(shù)據(jù)、算法、算力,三者缺一不可,數(shù)據(jù)的規(guī)模與質(zhì)量決定了算法模型訓(xùn)練結(jié)果的好壞,目前處于大數(shù)據(jù)時代,產(chǎn)生了海量數(shù)據(jù)可供使用,但數(shù)據(jù)還需進(jìn)一步的清洗、標(biāo)注等處理工作,以保證數(shù)據(jù)的質(zhì)量,硬件基礎(chǔ)為算法模型訓(xùn)練數(shù)據(jù)提供較快的處理速度。技術(shù)層為相關(guān)技術(shù)的研發(fā),主要包括語音識別、機(jī)器學(xué)習(xí)、計算機(jī)視覺和自然語言處理,這幾項技術(shù)為目前人工智能領(lǐng)域最受關(guān)注的技術(shù),并衍生出一系列相關(guān)技術(shù),如深度學(xué)習(xí)、增強(qiáng)學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、隱馬爾科夫模型、人臉識別、圖像識別等。應(yīng)用層為相關(guān)技術(shù)在產(chǎn)業(yè)上的應(yīng)用,人工智能領(lǐng)域的相關(guān)技術(shù)目前正積極和各個行業(yè)交叉融合、相互促進(jìn),產(chǎn)生了很多應(yīng)用場景,主要包括智能駕駛、智能醫(yī)療、智能金融、智能教育、智能安防、智能家居、機(jī)器人、智能推薦、新零售、智能客服等,目前幾乎所有行業(yè)都在積極向智能化方向發(fā)展,期望借助人工智能帶來新一輪的發(fā)展與變革。
其次,對人工智能技術(shù)的未來發(fā)展趨勢進(jìn)行探討,綜合專家意見及技術(shù)主題演化結(jié)果,未來十年將會是人工智能發(fā)展的關(guān)鍵時期,預(yù)計到2030年人工智能相關(guān)技術(shù)已經(jīng)發(fā)展成熟,將被廣泛應(yīng)用到生活、生產(chǎn)制造、社會治理以及國防建設(shè)等,進(jìn)入大規(guī)模產(chǎn)業(yè)化階段。技術(shù)的未來發(fā)展趨勢主要有以下四點:一是新型的硬件基礎(chǔ)需要重點關(guān)注及研發(fā),尤其是人工智能芯片中的量子芯片,將引領(lǐng)新一輪芯片的發(fā)展與變革?,F(xiàn)存的計算架構(gòu)難以支撐大規(guī)模數(shù)據(jù)的并行計算需求,目前人工智能的一些主流企業(yè)已在加緊開發(fā)新型芯片,以加速對海量數(shù)據(jù)進(jìn)行深度學(xué)習(xí)等復(fù)雜算法模型進(jìn)行訓(xùn)練的計算過程。二是感知智能向認(rèn)知智能方向邁進(jìn),弱人工智能向強(qiáng)人工智能再到超人工智能方向邁進(jìn)。當(dāng)前人工智能所具備的只有快速計算、記憶存儲的運算能力以及視覺、聽覺等感知能力,但缺乏人類大腦所具有的理解與思考等認(rèn)知能力,也即表示當(dāng)前處于弱人工智能時期,距離強(qiáng)人工智能及超人工智能時期還有很長的一段路要走,為此,需要積極研發(fā)各種深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等智能算法,這也是未來需要攻克的技術(shù)難關(guān)。三是新一輪的數(shù)據(jù)革命已經(jīng)到來,需加強(qiáng)對數(shù)據(jù)的管理。當(dāng)前我們正處于大數(shù)據(jù)時代,各個領(lǐng)域都產(chǎn)生并記錄了大量可用的數(shù)據(jù),未來越來越多的事物將被數(shù)據(jù)化,基于數(shù)據(jù)挖掘帶來的價值將得到進(jìn)一步的體現(xiàn),未來需要積極搭建數(shù)據(jù)收集、處理、存儲等的一體化、可視化的平臺,另外,數(shù)據(jù)隱私及信息安全問題需要引起重視。四是人工智能將深度融入到產(chǎn)業(yè)的發(fā)展中,新一輪產(chǎn)業(yè)變革正在到來。目前人工智能已經(jīng)成功運用到多個領(lǐng)域中,但只能做些較為簡單的事情,遠(yuǎn)遠(yuǎn)沒有到達(dá)真正的智能化時代,未來人工智能將與多個產(chǎn)業(yè)深度融合,以發(fā)揮人工智能的最大價值。同時,根據(jù)人工智能專利數(shù)據(jù)技術(shù)主題識別與演化結(jié)果,專家進(jìn)一步預(yù)測未來10年的技術(shù)研發(fā)熱點,主要有語音識別、人臉識別、圖像識別、模式識別、文本識別、神經(jīng)認(rèn)知、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、自然語言處理、大數(shù)據(jù)、云計算、5G通信、物聯(lián)網(wǎng)、區(qū)塊鏈、集成電路、芯片、自動化、人機(jī)交互、虛擬現(xiàn)實、智能搜索、個性化推薦、智能金融/醫(yī)療/駕駛/家居等。將定量分析結(jié)果與專家評價相結(jié)合,對綜合研究結(jié)論進(jìn)行可視化,如圖5所示。
圖5 人工智能的未來發(fā)展
目前人工智能已經(jīng)上升為國家戰(zhàn)略,國家已經(jīng)先后制定了一系列政策并投入大量資金來發(fā)展人工智能,在行業(yè)的應(yīng)用方面也在積極開展,但是中國人工智能領(lǐng)域核心技術(shù)的實力還比較薄弱,在所識別的3 262條準(zhǔn)核心專利中,美國擁有準(zhǔn)核心專利數(shù)量排名第一,中國排名則較為靠后,而在全數(shù)據(jù)集中,中國專利申請數(shù)量排名第一,這說明中國專利的申請數(shù)量已經(jīng)居于前列,但位列核心的專利數(shù)量不多。為此,結(jié)合專家座談的意見,本文提出以下幾點建議:一是跟蹤國際發(fā)展態(tài)勢,大力發(fā)展人工智能產(chǎn)業(yè),加快促進(jìn)產(chǎn)業(yè)智能化發(fā)展;二是制定相關(guān)措施,鼓勵企業(yè)以核心技術(shù)為目標(biāo)進(jìn)行科技創(chuàng)新,并加大相關(guān)技術(shù)研發(fā)投入;三是加強(qiáng)高端人才建設(shè),倡導(dǎo)高校積極開設(shè)以基礎(chǔ)層與技術(shù)層相結(jié)合的人工智能相關(guān)課程;四是制定人工智能相關(guān)標(biāo)準(zhǔn)體系,開展核心技術(shù)創(chuàng)新應(yīng)用試點示范,推進(jìn)人工智能向高端發(fā)展;五是積極開展國際合作,彌補(bǔ)我國在核心技術(shù)上存在的薄弱環(huán)節(jié)。
本文以核心專利技術(shù)主題識別與演化分析為出發(fā)點,以技術(shù)預(yù)測為落腳點,研究熱點技術(shù)及技術(shù)的未來發(fā)展趨勢。以德溫特專利數(shù)據(jù)庫為數(shù)據(jù)源、以人工智能領(lǐng)域為研究對象,設(shè)計了研究框架與研究方法,并實證研究,以驗證本研究所提方法的可行性與可靠性。
本文一方面將核心專利識別、技術(shù)主題識別與演化分析相結(jié)合,以有效縮減海量專利文獻(xiàn)集挖掘與分析的難度及工作量,同時更加突出重點地跟蹤與預(yù)測技術(shù)發(fā)展態(tài)勢。研究結(jié)果較為準(zhǔn)確、快速,且對于設(shè)備環(huán)境要求不高,所以對于大規(guī)模數(shù)據(jù),可以首先識別出核心專利,然后基于核心專利數(shù)據(jù)集進(jìn)行技術(shù)主題識別與演化分析,這為現(xiàn)有相關(guān)研究提供一個新的思路。另一方面,以定性定量兩種方法的結(jié)合使用進(jìn)行技術(shù)預(yù)測,綜合考慮了兩種方法的優(yōu)點,能夠更為清晰、準(zhǔn)確地刻畫技術(shù)未來的發(fā)展方向,研究結(jié)論更具可靠性。
然而,在研究過程中仍然存在一定的局限性,未來可進(jìn)一步開展研究:一是本文在數(shù)據(jù)的獲取上,從具有代表性的專利數(shù)據(jù)源上收集相關(guān)專利數(shù)據(jù),技術(shù)相關(guān)信息不僅存在于專利數(shù)據(jù)源上,也存在于學(xué)術(shù)論文、科技輿情、基金及科技報告等數(shù)據(jù)源上,僅以專利數(shù)據(jù)進(jìn)行技術(shù)主題識別與演化分析,從而進(jìn)行技術(shù)預(yù)測,對于技術(shù)的發(fā)展?fàn)顩r難以全面掌握,研究結(jié)論的準(zhǔn)確性有待提高。未來可利用多種數(shù)據(jù)源多方面、多角度地對技術(shù)主題識別與演化進(jìn)行更全面的研究,如可以使用美國專利商標(biāo)局專利數(shù)據(jù)庫、中國專利全文數(shù)據(jù)庫等來進(jìn)行主題識別,或單獨分析某一技術(shù)主題,以期帶來更為準(zhǔn)確、可信的研究結(jié)論。二是從技術(shù)主題識別的結(jié)果來看,目前選擇的是輸出彼此之間相似度大于0.7的10個主題詞,主題詞包含的信息還比較單一,無法具體顯示主題詞之間的關(guān)聯(lián)性,在后期研究中可以選擇輸出短語或者關(guān)鍵詞,不斷豐富技術(shù)主題識別的結(jié)果。三是本文在技術(shù)主題的識別上,基于LDA主題模型、Word2vec詞向量模型兩種模型簡單的結(jié)合識別技術(shù)主題,識別結(jié)果基本能夠反映現(xiàn)實,但目前基于神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等技術(shù)的主題挖掘已經(jīng)得到大量的研究并取得較好的結(jié)果,如LSTM(Long Short Term Memory)模型、K-means聚類算法等的使用,未來可考慮利用這些模型或技術(shù)研究技術(shù)主題的識別。另外,將時間、機(jī)構(gòu)、IPC分類號等因素與主題模型融合進(jìn)行研究也是目前關(guān)注熱點,也可開展對比研究,如將基于技術(shù)模型的技術(shù)主題識別和基于IPC小類的技術(shù)主題識別進(jìn)行對比分析,將基于技術(shù)模型的技術(shù)主題演化與基于IPC小類的技術(shù)主題演化進(jìn)行對比分析。