• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于雙通道卷積模型對(duì)人群的分類

    2020-12-23 03:17:14胡慧瑩張帆
    汽車實(shí)用技術(shù) 2020年23期
    關(guān)鍵詞:雙通道分詞卷積

    胡慧瑩,張帆

    (中國(guó)汽車技術(shù)研究中心有限公司,天津 300300)

    前言

    近年來(lái)中國(guó)新能源汽車市場(chǎng)飛速發(fā)展,無(wú)論是從企業(yè)推出的車型數(shù)量還是保有用戶的數(shù)量都在持續(xù)上漲。根據(jù)中國(guó)汽車技術(shù)研究中心有限公司CATARC調(diào)研2020年對(duì)中國(guó)新能源汽車用戶地調(diào)研,不同用戶的社會(huì)特征和購(gòu)車特征差異很大。在用戶特征具有較大差異的背景下,如果將市場(chǎng)上的所有用戶作為一個(gè)整理來(lái)研究,用戶的特征和需求會(huì)非常分散,不僅不能挖掘出用戶的共性,而且會(huì)忽略具有不同特性的用戶。因此進(jìn)行新能源汽車用戶的人群分類,將具有類似特征的用戶化為一個(gè)群體進(jìn)行研究是非常重要的[1-4]。

    目前新能源領(lǐng)域人群分類的方法主要是基于 kmeans聚類,該方法可以很好地對(duì)數(shù)值型數(shù)據(jù)進(jìn)行分類,但是對(duì)文本型數(shù)據(jù)的分類效果不明顯,準(zhǔn)確率不高。因此,本文提出一種“基于雙通道卷積模型”對(duì)人群的分類,該方法是以新能源汽車調(diào)研問(wèn)卷為數(shù)據(jù)源,利用雙通道卷積模型對(duì)問(wèn)卷的文本數(shù)據(jù)進(jìn)行人群分類[5-7],該方法可以提高自然語(yǔ)言文本的分類效果,非常有利于對(duì)問(wèn)卷的答案進(jìn)行有效地分析。

    1 實(shí)證研究

    1.1 數(shù)據(jù)準(zhǔn)備

    數(shù)據(jù)是本文的基礎(chǔ),本數(shù)據(jù)來(lái)自CATARC新能源汽車調(diào)研問(wèn)卷,通過(guò)近幾年的積累,積累了將近10000份樣本問(wèn)卷,樣本問(wèn)卷有關(guān)人群的問(wèn)題及答案如下表1所示,由于篇幅原因,在這里只給出3個(gè)示例。

    表1 樣本問(wèn)卷有關(guān)人群的問(wèn)題及答案

    1.2 樣本分句

    因?yàn)槊總€(gè)樣本的答案語(yǔ)句字?jǐn)?shù)長(zhǎng)度以及維度不一致,在這里利用正則表達(dá)式把每個(gè)樣本答案按照“,”,“?!钡葮?biāo)點(diǎn)符號(hào)分隔開(kāi),目的是“大化小、長(zhǎng)化短”,以便于后期計(jì)算方便,加快求解速度以及提高模型準(zhǔn)確率,分割后的樣本數(shù)據(jù)如下表2所示。

    表2 分割后的樣本數(shù)據(jù)

    1.3 語(yǔ)句分詞

    接下來(lái)對(duì)樣本答案進(jìn)行分詞,采用的方法是基于python語(yǔ)言和維特比算法來(lái)進(jìn)行分詞,下面介紹一下詞圖、節(jié)點(diǎn)間的距離計(jì)算以及維特比算法。

    1.3.1 詞圖

    對(duì)要分詞的語(yǔ)句利用有向無(wú)環(huán)圖進(jìn)行分詞,每一條分支都是可以分詞路徑,比如對(duì)第一個(gè)樣本答案“表示我已經(jīng)取得成功”這句話進(jìn)行分詞,那么這句話可以形成的詞圖可以用下面的圖1表示。

    圖1 樣本數(shù)據(jù)的詞圖

    由圖1可知,每一個(gè)分支都是從開(kāi)始到結(jié)束形成一個(gè)有向無(wú)環(huán)圖,每個(gè)有向無(wú)環(huán)圖[8]。

    1.3.2 計(jì)算節(jié)點(diǎn)之間的距離

    在這里以圖 1詞圖中每條邊以二元語(yǔ)法的概率作為距離,那么中文分詞任務(wù)轉(zhuǎn)換為有向無(wú)環(huán)圖上的最長(zhǎng)路徑問(wèn)題[9]。為了使理論更加貼近實(shí)際工程在文本中分詞使用公式1,將浮點(diǎn)數(shù)概率值連續(xù)相乘轉(zhuǎn)化為負(fù)對(duì)數(shù)之間的加法。

    圖1詞圖多個(gè)有向無(wú)環(huán)圖計(jì)算節(jié)點(diǎn)之間距離,添加計(jì)算節(jié)點(diǎn)之間距離的詞圖如下圖2所示。

    圖2 計(jì)算節(jié)點(diǎn)間距離后的示意圖

    1.3.3 詞圖的維特比算法

    因?yàn)槎Z(yǔ)法可以看作隱馬爾科夫模型的特例,只需要將此網(wǎng)中的詞語(yǔ)看作顯狀態(tài),只不過(guò)是隱狀態(tài)到顯狀態(tài)的發(fā)射概率為1。表1的樣本數(shù)據(jù)經(jīng)過(guò)維特比分詞得到的結(jié)果如表3所示。

    1.4 語(yǔ)句詞語(yǔ)打標(biāo)簽

    對(duì)表3樣本中的數(shù)據(jù)給出分類標(biāo)簽以及相對(duì)應(yīng)分詞結(jié)果的標(biāo)簽,在本文中分為6類人群,維特比分詞后加標(biāo)簽后的數(shù)據(jù)如下表3所示,由于篇幅原因,在這里只列舉出部分示例。

    表3 維特比分詞后加標(biāo)簽后的數(shù)據(jù)

    1.5 模型介紹及參數(shù)確定

    1.5.1 模型介紹

    雙通道中的一個(gè)通道指的是語(yǔ)句的輸入及相對(duì)應(yīng)的CNN模塊對(duì)句子進(jìn)行卷積、另一個(gè)通道是指分詞短語(yǔ)的輸入及相對(duì)應(yīng)的 CNN模塊對(duì)分詞短語(yǔ)進(jìn)行卷積,然后對(duì)二者的結(jié)果統(tǒng)一進(jìn)行 softmax多分類操作[10-13],因此而形成雙通道卷積模型。

    雙通道卷積模型是一種涉及 CNN的神經(jīng)網(wǎng)絡(luò)的模型,因此研究的內(nèi)容會(huì)包括卷積層、池化層和 softmax層等網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)CNN模塊由以下五部分組成。

    分句后的新句子包括標(biāo)點(diǎn)符號(hào)最長(zhǎng)有m個(gè)字?jǐn)?shù),大約有m//2+1個(gè)詞語(yǔ)。

    (1)原始數(shù)據(jù):因?yàn)樾戮渥幼铋L(zhǎng)有m//2+1個(gè)詞語(yǔ)m個(gè)字?jǐn)?shù),所以詞向量維度為m//2+1,字向量為m,那么整個(gè)句子矩陣大小為(m-1)×(m-1)(因?yàn)闃?biāo)點(diǎn)符號(hào)不參與計(jì)算);

    (2)第一步:卷積核的區(qū)域大小可以?。╩1,m2,,m3)3種(如圖8,每相似顏色的為一種),每種又有兩個(gè)不同的取值(因?yàn)槭请p通道模型,每個(gè)通道對(duì)應(yīng)一個(gè)取值),所以一共是有6個(gè)取值,即6個(gè)不同的卷積模板;

    (3)第二步:特征模板制作,即數(shù)學(xué)中的積計(jì)算;即(m+2-mk(k=1,2,3)),計(jì)算出來(lái)是特征模板的大小,一共有3類(因?yàn)槭请p通道,所以每類兩個(gè))共有6個(gè);

    (4)第三、四步:因?yàn)橛貌煌笮〉木矸e核獲取到的特征模板大小也不一樣,為了解決這個(gè)問(wèn)題,添加一層最大池化層,即選取一個(gè)最大值,然后相同大小的組合在一起形成特征向量;

    (5)第五步:基于特征向量利用邏輯回歸的多分類模型softmax進(jìn)行分類。

    注意:m的取值由分割后的語(yǔ)句決定,不需要利用模型來(lái)求出。

    1.5.2 確定最佳參數(shù)

    前文介紹模型以及模型的相關(guān)參數(shù),本小結(jié)來(lái)確定m1、m2、m3的參數(shù),在這里使用800樣本作為訓(xùn)練集,目的是訓(xùn)練出模型地最佳參數(shù);使用200樣本作為測(cè)試集,目的是測(cè)試模型的可靠性。利用控制變量法和損失函數(shù)在確定最佳參數(shù),模型經(jīng)過(guò)控制變量法訓(xùn)練之后,經(jīng)過(guò)10次迭代后確定最佳參數(shù):m1取值2、m2取值3、m3取值4。

    1.6 預(yù)測(cè)新數(shù)據(jù)

    經(jīng)過(guò)前文確定了模型及模型地最佳參數(shù),可以通過(guò)此模型對(duì)新的數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化分類,總體的正確率達(dá)到了80%左右,因?yàn)槠?,下?只給出了部分?jǐn)?shù)據(jù)的預(yù)測(cè)結(jié)果。

    表4 部分?jǐn)?shù)據(jù)的預(yù)測(cè)結(jié)果

    2 分析與結(jié)論

    本模型正確率達(dá)到80%左右,基本可以達(dá)到企業(yè)的要求和目的,為了精益求精,文本后期可以增加多個(gè)卷積層來(lái)優(yōu)化此模型,或者增加多個(gè)樣本量加大模型訓(xùn)練基數(shù),以此來(lái)提高模型的精度。

    猜你喜歡
    雙通道分詞卷積
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    近端胃切除雙通道重建及全胃切除術(shù)用于胃上部癌根治術(shù)的療效
    結(jié)巴分詞在詞云中的應(yīng)用
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    值得重視的分詞的特殊用法
    采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
    分類高考能否打通“雙通道”
    高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
    绥阳县| 名山县| 乐东| 富锦市| 潼南县| 伊金霍洛旗| 桦甸市| 宜宾县| 武城县| 丰原市| 江都市| 南澳县| 嘉禾县| 鄢陵县| 沅江市| 禹城市| 玉龙| 城步| 道真| 房山区| 晋城| 贵港市| 崇明县| 龙岩市| 景德镇市| 黄冈市| 五常市| 邵武市| 类乌齐县| 宜兰县| 札达县| 金川县| 桂东县| 翁源县| 沙河市| 台北县| 克拉玛依市| 克东县| 麦盖提县| 昌宁县| 龙岩市|