□文/黃 鑫
(西安財經(jīng)大學(xué) 陜西·西安)
[提要]2018年11月,工業(yè)和信息化部發(fā)布《新一代人工智能產(chǎn)業(yè)創(chuàng)新重點任務(wù)揭榜工作方案》,征集并遴選一批掌握關(guān)鍵核心技術(shù)、具備較強創(chuàng)新能力的單位集中攻關(guān),重點突破一批技術(shù)先進、性能優(yōu)秀、應(yīng)用效果好的人工智能標(biāo)志性產(chǎn)品、平臺和服務(wù)。在現(xiàn)階段,我國人工智能產(chǎn)業(yè)加速發(fā)展,從基礎(chǔ)支撐、核心技術(shù)到行業(yè)應(yīng)用的產(chǎn)業(yè)鏈條正在形成,產(chǎn)業(yè)集群初步顯現(xiàn),一批創(chuàng)新活躍、特色鮮明的創(chuàng)新企業(yè)加速成長,新模式、新業(yè)態(tài)不斷涌現(xiàn),整體呈現(xiàn)蓬勃發(fā)展態(tài)勢。但產(chǎn)業(yè)發(fā)展也面臨核心基礎(chǔ)技術(shù)薄弱、與實體經(jīng)濟融合不夠深入等問題。產(chǎn)業(yè)主要集中在北京、上海、廣東、浙江等省份,我國在人工智能芯片領(lǐng)域、深度學(xué)習(xí)軟件架構(gòu)領(lǐng)域、中文自然語言處理領(lǐng)域進展顯著。本文基于文本挖掘的人工智能產(chǎn)業(yè)政策量化路徑進行研究與分析。
人工智能產(chǎn)業(yè)加速發(fā)展,正在顛覆性地改變著人們的生產(chǎn)生活方式,甚至人類的未來。作為全球聚焦的新興領(lǐng)域,人工智能不僅成為BAT等科技巨頭大舉進軍的焦點,也成為許多重要中心城市的產(chǎn)業(yè)新戰(zhàn)略之一。
(一)研究方案。在信息化時代,能夠深入利用文本挖掘的結(jié)果,如智能數(shù)據(jù)監(jiān)控系統(tǒng)等,也可以打造出具有針對性的行業(yè)文本數(shù)據(jù)產(chǎn)品,專門服務(wù)于不同領(lǐng)域?;诖?,對基于文本挖掘的人工智能產(chǎn)業(yè)政策量化路徑進行研究與分析。首先對我國國內(nèi)各省市發(fā)布的人工智能全自動規(guī)劃進行搜集整理。加強NLPIR大數(shù)據(jù)語義智能分析,并且針對大數(shù)據(jù)內(nèi)容采編挖搜的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的最新研究成果,使得各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows、Linux、Android、Maemo5、FreeBSD等不同操作系統(tǒng)平臺,可以供Java、Python等各類開發(fā)語言使用。通過對全自動人工智能的分析與研究和基于文本挖掘的人工智能產(chǎn)業(yè)政策量化路徑的研究與分析,一方面可以加速政策的落實;另一方面可以進行實時監(jiān)測,幫助人工智能產(chǎn)業(yè)開發(fā)者及時地把握政策制定情況。
(二)數(shù)據(jù)來源。在現(xiàn)階段我國人工智能產(chǎn)業(yè)加速發(fā)展,從基礎(chǔ)支撐、核心技術(shù)到行業(yè)應(yīng)用的產(chǎn)業(yè)鏈條正在形成,產(chǎn)業(yè)集群初步顯現(xiàn),一批創(chuàng)新活躍、特色鮮明的創(chuàng)新企業(yè)加速成長,新模式、新業(yè)態(tài)不斷涌現(xiàn),整體呈現(xiàn)蓬勃發(fā)展態(tài)勢。但產(chǎn)業(yè)發(fā)展也面臨核心基礎(chǔ)技術(shù)薄弱、與實體經(jīng)濟融合不夠深入等問題。產(chǎn)業(yè)主要集中在北京、上海、廣東、浙江等省份,我國在人工智能芯片領(lǐng)域、深度學(xué)習(xí)軟件架構(gòu)領(lǐng)域、中文自然語言處理領(lǐng)域進展顯著。截至2018年6月,上海、北京、廣州、江蘇等16省市發(fā)布并且積極響應(yīng)全自動人工智能產(chǎn)業(yè)規(guī)劃。并且在2020年人工智能產(chǎn)業(yè)的規(guī)模保持平穩(wěn)增長,產(chǎn)業(yè)規(guī)模達到了3,031億元,同比增長15%,增速略高于全球的平均增速。產(chǎn)業(yè)主要集中在北京、上海、廣東、浙江等省份,并且我國在人工智能芯片領(lǐng)域、深度學(xué)習(xí)軟件架構(gòu)領(lǐng)域、中文自然語言處理等相關(guān)的領(lǐng)域進展較為顯著。(表1)
表1 產(chǎn)業(yè)政策一覽表
(一)主題詞提取與統(tǒng)計。政策主題詞是一個由特定政策文本所組成的政策,其代表了特殊的政策文獻需要表達的核心內(nèi)容。為了能夠完全掌握各省人工智能政策,本研究針對19項人工智能政策文本進行分析,采用ROST Content Mining技術(shù)進行共詞處理,得到每個政策當(dāng)中的主要共詞表。再通過篩選的方式,進一步對共詞表進行分析。由于通過文本分析的詞表當(dāng)中很多詞匯都是生僻詞,運用次數(shù)較少,無法反映出人工智能政策的有效性,比如加強、重點、智能、人工智能等,再采用人工篩選的方式,最終獲得23個關(guān)鍵分析詞,從而衍生出對16項人工智能政策共詞主題表,如表2所示。最后,根據(jù)實際分析詞,按照一定的規(guī)則制作出共詞矩陣,在對政策文本實施統(tǒng)計和文本檢索過程當(dāng)中,嚴(yán)格按照同一政策文本,不管共詞出現(xiàn)次數(shù)有多少,都只能記一次的原則。(表2)
表2 省級政府人工智能政策共詞主題詞一覽表
(二)語義網(wǎng)絡(luò)分析。在信息化時代背景下,采用UCINET 6軟件繪制能夠提高共詞語義網(wǎng)絡(luò)。共詞語義網(wǎng)絡(luò)圖能夠?qū)⑷斯ぶ悄苷吆妙l詞匯以網(wǎng)絡(luò)的形式結(jié)合起來,從而形成一個整體,充分地體現(xiàn)出政策文本內(nèi)容之間的組織結(jié)構(gòu)。每個節(jié)點都代表著一個人工智能政策的主題詞,其中主題詞的強弱和節(jié)點大小有密切的聯(lián)系,節(jié)點之間的連線就代表兩個主題詞同時出現(xiàn)在同一政策當(dāng)中,線條粗細(xì)程度不同,就代表其在不同政策內(nèi)出現(xiàn)的次數(shù),次數(shù)越多,則線條就會越粗。中心性作為網(wǎng)絡(luò)結(jié)構(gòu)當(dāng)中的重要環(huán)節(jié),是指網(wǎng)絡(luò)行動者在社會網(wǎng)絡(luò)當(dāng)中擁有的地位和權(quán)利。從整體網(wǎng)絡(luò)角度而言,中心性主要是由中間中心性和度數(shù)中心性兩部分組成。度數(shù)中心性代表一個行動者需要連接其他行動者的數(shù)量,數(shù)量越多就表達此次行動越關(guān)鍵。中間中心性則是對行動者控制他們都行為能力。如果說度數(shù)中心性代表節(jié)點在網(wǎng)絡(luò)當(dāng)中的位置,那么中間中心性則代表節(jié)點在網(wǎng)絡(luò)控制當(dāng)中的能力和作用。對于政策文獻類型的主題詞而言,中心性是整個政策文本當(dāng)中的關(guān)鍵,通過控制中心性能夠更好控制主題詞的地位。企業(yè)度數(shù)和服務(wù)、應(yīng)用之間的中心性差距較大,代表這些主題詞和其他主題詞之間聯(lián)系非常頻繁,以上主題詞在不同政策文本當(dāng)中出現(xiàn)較多次數(shù)。換句話說,人工智能方面的政策將目光放在智能化服務(wù)領(lǐng)域和公共服務(wù)領(lǐng)域方面,以企業(yè)作為主體,以產(chǎn)業(yè)化作為導(dǎo)向。為進一步分析各主題詞的度數(shù)中心性和中間中心性,本研究基于UCINET計算得到數(shù)值,利用Stata軟件對23個主題詞的度數(shù)中心性和中間中心性繪制散點圖、趨勢線、均值線,其中主題詞處于第一象限意味著其在人工智能政策中十分重要。
(一)政策主體。在人工智能發(fā)展方面涉及到的政策主題十分廣泛,如市場、科研院、高校、企業(yè)等。其中,企業(yè)作為整個創(chuàng)新的關(guān)鍵,高校和科研院為其提供大量的技術(shù)人才,市場作為整個人工智能的發(fā)展途徑,政府在其中起到引導(dǎo)的作用。如圖1所示,企業(yè)在各省計劃當(dāng)中出現(xiàn)的頻率最高,約為615次,隨著運行人工智能的企業(yè)數(shù)量越來越多,該地區(qū)的人工智能發(fā)展水平得到翻天覆地的變化。根據(jù)有關(guān)調(diào)查發(fā)現(xiàn),早在2018年,我國人工智能企業(yè)就擁有4,000多家,其中北京人工智能企業(yè)就有1,000多家,已經(jīng)超過全國1/4的數(shù)量,其技術(shù)含量和能力也逐漸超過其他城市。這些企業(yè)的生產(chǎn)類型呈現(xiàn)多樣化,如軟件技術(shù)研發(fā)、硬件制造、終端產(chǎn)品應(yīng)用等,讓整個北京市的人工智能遠遠超過全國發(fā)展水平。(圖1)
圖1 政策主題詞頻量化分析圖
(二)政策布局。通過對現(xiàn)代規(guī)劃熱點詞頻進行研究,不難發(fā)現(xiàn)目前我國對于人工智能技術(shù)研究還處于初級階段,尤其是芯片研發(fā)技術(shù),是現(xiàn)階段最重要的任務(wù)之一,同時要將目光放在應(yīng)用場景和人工智能技術(shù)結(jié)合上面,最終實現(xiàn)人工智能產(chǎn)業(yè)化、應(yīng)用化,如圖2所示。人工智能產(chǎn)業(yè)的發(fā)展和技術(shù)創(chuàng)新有密切聯(lián)系。雖然近年來我國人工智能方面取得突破性發(fā)展,但距離成熟還有很長一段距離,技術(shù)永遠是整個人工智能產(chǎn)業(yè)規(guī)劃的核心部分。在整個人工智能產(chǎn)業(yè)發(fā)展過程當(dāng)中,曾經(jīng)多次提出人工智技術(shù)突破,由此可以看出人工智技術(shù)突破的重要性。比如,北京就將突破人工智能芯片和傳感器技術(shù)等作為人工智能產(chǎn)業(yè)發(fā)展的最終目的。(圖2)
圖2 政策布局詞頻量化分析圖
隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)技術(shù)在人們生產(chǎn)活動中得到廣泛使用,而且在人們的生活與生產(chǎn)中文本挖掘技術(shù)起著越來越重要的作用,文本挖掘的人工智能被廣泛地應(yīng)用于產(chǎn)業(yè)政策與其量化路徑等方面的研究?,F(xiàn)階段,文本挖掘已經(jīng)是一項相對成熟的技術(shù)。對企業(yè)而言,每天都在產(chǎn)生大量不同形式的數(shù)據(jù),通過用文本挖掘技術(shù)進行歸類、整理和分析,不但可以節(jié)省大量人力成本,還能幫助企業(yè)提升運營效率。