• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    文本挖掘在新能源汽車領(lǐng)域中的應(yīng)用

    2023-06-21 01:58:40黃潤才
    關(guān)鍵詞:分詞聚類新能源

    張 雨, 黃潤才

    (上海工程技術(shù)大學(xué)電子電氣工程學(xué)院, 上海 201620)

    0 引 言

    文本挖掘是一種整合信息的工具,能夠有效地提取文本中有用、創(chuàng)新、易懂和有價(jià)值的元素。 用戶可以自由訪問科學(xué)研究、新聞資訊、商業(yè)信息、娛樂報(bào)道等各種類型的信息。 這些信息構(gòu)成了一個(gè)被廣泛使用的異構(gòu)性和開放性數(shù)據(jù)庫,而在這個(gè)數(shù)據(jù)庫中存放的是非結(jié)構(gòu)化的文本數(shù)據(jù)。 在人工智能的發(fā)展過程中,自然語言處理和計(jì)算機(jī)科學(xué)被整合到一起,從此網(wǎng)絡(luò)挖掘和文本挖掘誕生了。

    網(wǎng)頁中包含很多類型的數(shù)據(jù),如文本、鏈接和用戶訪問等,因此網(wǎng)絡(luò)挖掘也有多種類型,例如文本挖掘、數(shù)據(jù)挖掘和圖像挖掘。 文本挖掘注重于把大量文本信息處理成可被人使用的信息。

    在新能源汽車領(lǐng)域中,文本挖掘被用于分析中國新能源汽車產(chǎn)業(yè)政策,消費(fèi)者評(píng)價(jià)新能源汽車時(shí)也使用了文本挖掘技術(shù),在新能源汽車故障診斷中也會(huì)使用文本挖掘技術(shù)。

    文本挖掘技術(shù)運(yùn)用在新能源汽車領(lǐng)域的同時(shí),也帶來了挑戰(zhàn):

    (1)數(shù)據(jù)來源多樣化。 新能源汽車領(lǐng)域數(shù)據(jù)發(fā)布主體主要有個(gè)人、企業(yè)、媒體、政府機(jī)構(gòu)等,具體表現(xiàn)形式也有很多,如社交平臺(tái)(推特、微博、論壇等)、研究論文、公司企業(yè)年報(bào)、季報(bào),政府機(jī)構(gòu)定期或不定期發(fā)布的各類信息等。

    (2)數(shù)據(jù)信息展示。 數(shù)據(jù)體量呈現(xiàn)了幾何式增長,使用文本挖掘技術(shù)從海量數(shù)據(jù)中挖掘信息,還需要將數(shù)據(jù)信息展現(xiàn)出來。

    本文采用文本挖掘技術(shù),如中文中的分詞、詞向量、降維、聚類、數(shù)據(jù)可視化等方法對CNKI 和Web Of Science 中的論文進(jìn)行分析,展示新能源汽車領(lǐng)域的研究趨勢及發(fā)展。

    本文主要進(jìn)行了以下幾個(gè)方面的研究:“數(shù)據(jù)與方法”部分描述了從中國知網(wǎng)(CNKI)獲得的16 293篇文章的數(shù)據(jù)源,和從Web Of Science 獲取的10 328篇文章,并介紹了本文所使用的文本挖掘方法;“結(jié)果與討論”部分通過主題河流圖展現(xiàn)了論文中關(guān)鍵詞隨年份的演變,展現(xiàn)了新能源汽車領(lǐng)域的研究熱點(diǎn)變化趨勢;通過中國地圖展示了研究新能源汽車的作者機(jī)構(gòu)空間分布圖,使用關(guān)系圖來揭示CNKI 中論文作者的關(guān)系;通過聚類算法和數(shù)據(jù)可視化揭示論文研究點(diǎn)的分布情況并給出相應(yīng)的預(yù)測;討論了本文所使用文本挖掘技術(shù)的局限性。 本研究的潛在貢獻(xiàn)體現(xiàn)在對新能源汽車領(lǐng)域的回顧和預(yù)測,有助于研究人員了解新能源汽車領(lǐng)域的研究趨勢和研究熱點(diǎn)。

    1 數(shù)據(jù)與方法

    1.1 數(shù)據(jù)獲取

    本文分析的所有數(shù)據(jù)均來自CNKI 及Web Of Science,搜索條件如下:

    (1)在CNKI 中以“new energy vehicle”為關(guān)鍵詞獲取相關(guān)碩博論文、以及發(fā)表在學(xué)術(shù)及行業(yè)期刊上的論文;

    (2)在Web Of Science 中同樣以“new energy vehicle”為關(guān)鍵詞,獲取相關(guān)的會(huì)議或期刊論文。

    1.2 數(shù)據(jù)構(gòu)成

    在CNKI 中,獲取的數(shù)據(jù)包含標(biāo)題、作者、摘要、關(guān)鍵詞、作者機(jī)構(gòu)等信息;在Web Of Science 中,獲取的數(shù)據(jù)包含標(biāo)題、作者、摘要等信息。 由于部分論文存在缺失信息的情況,本文對所收集的數(shù)據(jù)進(jìn)行了初步篩選,剔除了一部分不滿足條件的數(shù)據(jù),最終所獲得CNKI 論文16 293 篇,Web Of Science 論文10 328篇。

    1.3 中文分詞

    中文分詞(Chinese Word Segmentation)就是將一句通順的漢字序列根據(jù)特有規(guī)范分割為多個(gè)獨(dú)立的詞序列[1]。 目前的分詞方法可以歸納為3 個(gè)類別:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法[2]。

    基于統(tǒng)計(jì)的中文分詞方法已然占據(jù)了主流位置,該方法是在已有大量被分詞過的文本的基礎(chǔ)上,使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型來學(xué)習(xí)詞語切分的規(guī)律(稱為訓(xùn)練),以此實(shí)現(xiàn)對未知文本的切分。

    在實(shí)際的應(yīng)用中,基于統(tǒng)計(jì)的分詞系統(tǒng)都需要使用分詞詞典來進(jìn)行字符串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新詞,即將字符串頻率統(tǒng)計(jì)和字符串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。 在本文中使用的jieba(結(jié)巴)分詞方法。

    1.4 詞嵌入

    本文使用 GloVe ( Global Vectors for Word Representation)生成詞向量。 其是一個(gè)基于全局詞頻統(tǒng)計(jì)(Count-Based and Overall Statistics)的詞表征(Word Representation)工具[3]。

    GloVe 的構(gòu)建過程:

    (1)根據(jù)語料庫構(gòu)建一個(gè)共現(xiàn)矩陣,元素Zij表示在矩陣中任意單詞i和其上下文單詞j在規(guī)定范圍內(nèi)的上下文窗口中共同出現(xiàn)的次數(shù);

    (2)構(gòu)建詞向量(Word Vector)和共現(xiàn)矩陣之間的近似關(guān)系,其目標(biāo)函數(shù)為式(1):

    其中,和是最終要求解的詞向量,bi和分別是兩個(gè)詞向量的偏置項(xiàng)。

    這個(gè)損失函數(shù)的基本形式就是最簡單的均方誤差損失函數(shù),只不過在此基礎(chǔ)上加了一個(gè)分段權(quán)重函數(shù)f(Xij),式(2):

    其中,x為Xij,xmax達(dá)到最大值時(shí)x的取值,當(dāng)x小于xmax時(shí)為一個(gè)非遞減函數(shù),達(dá)到一定程度后取值不再增加。

    從損失函數(shù)出發(fā),只需要找到兩個(gè)值,其中一個(gè)代表詞向量,另外一個(gè)代表其真實(shí)標(biāo)簽,就可以借助平方誤差損失函數(shù)讓初始值與最終值越來越接近,最后得到詞向量。

    1.5 降維

    T - SNE (T - Distributed Stochastic Neighbor Embedding)是用于降維的一種機(jī)器學(xué)習(xí)算法,由Laurens van der Maaten 等在2012 年提出[4]。 TSNE 是一種非線性降維算法,常用于高維數(shù)據(jù)降維到2 維或者3 維,以便進(jìn)行可視化。 該算法具有有效性,越相似的數(shù)據(jù)點(diǎn),t分布在低維空間中聚合更緊密;而對于不相似的數(shù)據(jù)點(diǎn),t分布在低維空間中的距離則需要遠(yuǎn)一點(diǎn)。

    T-SNE 的梯度更新有兩大優(yōu)勢:

    (1)對于不同簇之間的點(diǎn),可以利用短距離帶來的大梯度使這些點(diǎn)互相疏遠(yuǎn);

    (2) 這種互相疏遠(yuǎn)不會(huì)變的無窮遠(yuǎn)(梯度中分母),以避免不同簇的點(diǎn)過分疏遠(yuǎn)。

    1.6 聚類

    K-Means 算法是一種常用的聚類算法,但其算法本身存在一定的問題,如在大數(shù)據(jù)量下的計(jì)算時(shí)間過長等[5]。 因此,一種基于K-Means 的變種聚類算法Mini Batch K-Means 應(yīng)運(yùn)而生。

    Mini Batch K-Means 既可以利用小批量的數(shù)據(jù)子集大幅度縮短計(jì)算時(shí)長,又可以優(yōu)化目標(biāo)函數(shù)。所謂的小批量是指每次訓(xùn)練算法時(shí)隨機(jī)抽取數(shù)據(jù)子集進(jìn)行訓(xùn)練,大大縮短了計(jì)算時(shí)長,與此同時(shí)還可以保持聚類的準(zhǔn)確性,此算法的優(yōu)勢是減少了K 均值的收斂時(shí)間。

    該算法的迭代步驟有兩步:

    (1)首先從數(shù)據(jù)集中隨機(jī)選取部分?jǐn)?shù)據(jù),分配給距離最近的聚簇中心點(diǎn);

    (2)通過計(jì)算平均值來更新聚簇的中心點(diǎn)值,并把數(shù)據(jù)分配給這個(gè)聚簇中心點(diǎn)值,迭代次數(shù)越多,聚簇中心點(diǎn)值變化越小,直到中心點(diǎn)趨于穩(wěn)定或者達(dá)到迭代次數(shù),才停止計(jì)算。

    2 結(jié)果與討論

    2.1 發(fā)文量分析

    將獲取到的論文數(shù)量信息做可視化處理,得到的結(jié)果如圖1、圖2 和表1 中所示。 無論是在WOS數(shù)據(jù)庫中還是在CNKI 中,對新能源汽車領(lǐng)域的研究都呈現(xiàn)了一個(gè)上升的趨勢。 從表2 的增速可以看出,最近五年與2011 ~2015 年相比,分別增長了105.65%和137.54%,且都在2019 年達(dá)到了各自的峰值,分別為1 570 條和3 496 條。 在WOS 數(shù)據(jù)庫中,2012 年出現(xiàn)了一個(gè)猛增的趨勢,接著就是逐年增長;而在CNKI 中,2017 年以前都是逐步增長,而到了2018 年反而下降,這說明在2018 年中國國內(nèi)汽車市場低迷,呈現(xiàn)出了負(fù)增長的趨勢,新能源汽車領(lǐng)域受到了影響。

    表1 在2011~2015 年的論文數(shù)量Tab. 1 Number of papers in 2011~2015

    表2 特征詞在論文中被提及的頻率(2011~2015)Tab. 2 The frequency of feature words mentioned in papers(2011~2015)

    圖1 WOS 中論文數(shù)量折線圖(2011~2020)Fig. 1 Line chart of the number of papers in WOS (2011~2020)

    圖2 CNKI 中論文數(shù)量折線圖(2011~2020)Fig. 2 Line chart of the number of papers in CNKI (2011~2020)

    2.2 研究熱點(diǎn)變化趨

    由于在CNKI 中,2015 ~2020 年間新能源汽車領(lǐng)域的論文數(shù)量波動(dòng)較大,本文選取了2015 ~2020年間CNKI 論文,提取論文的關(guān)鍵詞見表2,利用中文分詞的方法,根據(jù)詞頻進(jìn)行分析,得到研究熱點(diǎn)的變化趨勢如圖3 所示。

    圖3 CNKI 中關(guān)鍵詞主題河流圖(2015~2020)Fig. 3 River diagram of keyword theme in CNKI (2015~2020)

    從表2 和圖3 可以發(fā)現(xiàn),“新能源汽車”、“電動(dòng)汽車”作為新能源汽車領(lǐng)域的主要特征詞,在2015~2020 年間的每一年都保持了一個(gè)極高的出現(xiàn)頻率。 而“發(fā)展戰(zhàn)略”及“戰(zhàn)略性新興產(chǎn)業(yè)”則呈現(xiàn)了一個(gè)出現(xiàn)頻率遞減的趨勢,這與中國推廣新能源汽車政策有關(guān),2015 年中國正處于新能源汽車發(fā)展的第二階段。 關(guān)鍵詞“鋰離子電池”、“動(dòng)力電池”、“永磁同步電機(jī)”的出現(xiàn)頻率表現(xiàn)出了增長的趨勢,年均增長率分別達(dá)到25.55%、20.11%和16.72%,說明在CNKI 中與新能源汽車的動(dòng)力電池有關(guān)的研究中,永磁同步電機(jī)及鋰離子電池逐漸成為了研究熱點(diǎn)。

    2.3 作者空間分布及關(guān)系

    將CNKI 中的文章分為期刊論文和碩博論文。對于期刊論文,篩選出在新能源汽車領(lǐng)域文章數(shù)量前十的期刊,并以玫瑰圖的形式展現(xiàn)出來。 本文使用的英語處理工具(Kadriu 2013),在中文摘要中使用jieba 分詞,實(shí)驗(yàn)結(jié)果如圖4 所示,可以直觀的看出相關(guān)的期刊都是與汽車相關(guān)的,其次便是與電源有關(guān),這與大多新能源汽車是以電池作為動(dòng)力源有關(guān)。 對于碩博論文,則以作者所在的單位進(jìn)行研究,用同樣的實(shí)驗(yàn)方法根據(jù)其所在省份得到中國對新能源汽車領(lǐng)域研究的空間分布,顯示各個(gè)省份對新能源汽車都有研究,其中北京、上海、重慶、天津研究人數(shù)較多。

    圖4 CNKI 新能源汽車領(lǐng)域的文章數(shù)量top10 期刊Fig. 4 The top-10 journals in CNKI with most articles in the field of new energy vehicles

    為了得到WOS 數(shù)據(jù)庫和CNKI 中新能源汽車領(lǐng)域論文作者的關(guān)系圖,本文對所收集的數(shù)據(jù)進(jìn)行預(yù)處理,選取了2019 年兩大數(shù)據(jù)庫的作者信息,分別得到了各自的作者關(guān)系圖如圖5 和圖6 所示,可以得到在CNKI 中由于論文多數(shù)來自于碩博論文,作者關(guān)系相比WOS 數(shù)據(jù)庫中更為簡單。

    圖5 CNKI 新能源領(lǐng)域作者關(guān)系圖Fig. 5 Diagram of author relationship in CNKI in the field of new energy

    圖6 WOS 新能源領(lǐng)域作者關(guān)系圖Fig. 6 Diagram of author relationship in WOS in the field of new energy

    2.4 論文研究熱點(diǎn)聚類分析

    本文選取了CNKI 中獲取的數(shù)據(jù)進(jìn)行研究,對數(shù)據(jù)中的摘要部分進(jìn)行提取,使用jieba 算法進(jìn)行中文分詞,通過分詞和去除停用詞得到處理后的摘要數(shù)據(jù),使用glove 訓(xùn)練獲得詞向量。 訓(xùn)練后得到的詞向量為200 維,詞向量維度過高會(huì)導(dǎo)致維度爆炸,因此采用了T-SNE 算法進(jìn)行降維,將數(shù)據(jù)降維至2維,實(shí)驗(yàn)結(jié)果如圖7 所示,可以看出,這些詞分為4類。 并使用小批量K 均值聚類得到如圖8 所示的更詳細(xì)的信息。

    圖7 T-SNE 降維圖Fig. 7 T-SNE dimension reduction result

    圖8 CNKI 論文研究點(diǎn)分布圖Fig. 8 Distribution map of research topics in CNKI

    圖8 中顯示為綠色的這一大類主要分布的詞有“制造業(yè)”、“生產(chǎn)”、“營銷”、“產(chǎn)業(yè)結(jié)構(gòu)”、“資本”、“建設(shè)”等,說明在新能源汽車領(lǐng)域中,學(xué)者們很注重新能源汽車從制造到生產(chǎn)、銷售整個(gè)產(chǎn)業(yè)的結(jié)構(gòu)建設(shè)方面的研究;顯示為藍(lán)色的這一類別中,“汽車行業(yè)”、“環(huán)境污染”、“壓力”、“質(zhì)量”、“低碳”、“消費(fèi)者”、“新能源”、“價(jià)格”等詞作為主要關(guān)鍵詞,反映了新能源汽車由于使用新能源能夠緩解環(huán)境污染問題,使消費(fèi)者能夠低碳出行,同時(shí)價(jià)格也影響著新能源汽車行業(yè);顯示為粉色的這一類別中,分布的詞數(shù)較少,主要有“燃料電池”、 “成本”、 “電化學(xué)”、“材料” 、“電網(wǎng)負(fù)荷”等詞,這一類別代表了對新能源汽車領(lǐng)域的燃料及所需成本的研究;顯示為橙色的類別里,可以看到“新能源汽車”、 “simulink”、“開發(fā)”、“設(shè)計(jì)”、“方案”、“電動(dòng)汽車”、“車身”、“控制策略”、“發(fā)動(dòng)機(jī)”等關(guān)鍵詞,本文認(rèn)為這象征著對新能源汽車進(jìn)行開發(fā)設(shè)計(jì)時(shí)通常包含了車身、發(fā)動(dòng)機(jī)等汽車的主要部件的研究,同時(shí)新能源汽車研究較多的是電動(dòng)汽車,在設(shè)計(jì)方案時(shí)使用了simulink等仿真軟件確定最優(yōu)的策略。

    最后,由于新能源汽車領(lǐng)域關(guān)于燃料的研究較少,所以結(jié)合圖2 所示的主題河流圖,本文做出以下預(yù)測:

    (1)在未來關(guān)于新能源汽車領(lǐng)域的研究中,可以著重關(guān)注于純電動(dòng)汽車及各種電池及永磁同步機(jī)的研究;

    (2)由于各種電池如鋰離子電池等所需要的電化學(xué)反應(yīng)不同,所需材料的成本也不同,可以針對不同的燃料電池所需花費(fèi)的成本及大規(guī)模投放后對電網(wǎng)所產(chǎn)生的負(fù)荷影響進(jìn)行研究。

    2.5 文本挖掘技術(shù)的不足

    通過本文所介紹的文本挖掘算法及數(shù)據(jù)可視化方法,雖然已經(jīng)得到了2011 ~2020 十年間WOS 數(shù)據(jù)庫和CNKI 中的數(shù)據(jù)信息,但仍有不足:

    (1)T-SNE 傾向于保存局部特征,沒有唯一最優(yōu)解,而且在T-SNE 中距離本身沒有意義,都是概率分布問題;

    (2)Mini Batch K-Means 為了減少數(shù)據(jù)規(guī)模,隨機(jī)從整體選取出一小部分?jǐn)?shù)據(jù)代替整體,雖然算法收斂速度大大加快,但是代價(jià)是聚類的精確度相比標(biāo)準(zhǔn)算法會(huì)有一些降低。

    3 結(jié)束語

    本文使用文本挖掘算法,如jieba 分詞、glove 詞向量、T-SNE 降維、Mini Batch K-Means 聚類算法,研究了WOS 數(shù)據(jù)庫和CNKI 中以新能源汽車為主題的論文,通過主題河流圖、作者關(guān)系圖、作者空間分布圖、研究點(diǎn)分布圖直觀的展示了文本挖掘所得到的數(shù)據(jù)信息。 研究結(jié)果表明在國內(nèi)外對于新能源汽車領(lǐng)域都在持續(xù)關(guān)注,尤其是電動(dòng)汽車;預(yù)測了研究人員對于新能源汽車應(yīng)當(dāng)在燃料電池、成本及電網(wǎng)負(fù)荷方面進(jìn)行關(guān)注。

    猜你喜歡
    分詞聚類新能源
    結(jié)巴分詞在詞云中的應(yīng)用
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    值得重視的分詞的特殊用法
    買不買新能源汽車
    基于改進(jìn)的遺傳算法的模糊聚類算法
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    “新能源門”的背后
    風(fēng)能(2015年4期)2015-02-27 10:14:36
    順應(yīng)新能源發(fā)展趨勢
    風(fēng)能(2015年4期)2015-02-27 10:14:34
    自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    突泉县| 林甸县| 体育| 富顺县| 澎湖县| 蒲城县| 宁都县| 呼伦贝尔市| 鄂托克前旗| 嘉黎县| 那曲县| 分宜县| 望都县| 台湾省| 海南省| 塘沽区| 老河口市| 禹城市| 德格县| 靖西县| 甘谷县| 九寨沟县| 海南省| 鸡泽县| 环江| 长顺县| 德兴市| 新建县| 阳春市| 横峰县| 香港 | 四子王旗| 邢台市| 福贡县| 房产| 周至县| 蒙山县| 濮阳市| 南平市| 巨鹿县| 信阳市|