• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    智能商品分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    2022-08-09 08:43:02朱安東石文玉
    科技風(fēng) 2022年19期
    關(guān)鍵詞:查準(zhǔn)率分詞卷積

    朱安東 石文玉

    安徽新華學(xué)院大數(shù)據(jù)與人工智能學(xué)院 安徽合肥 230087

    隨著信息技術(shù)的飛速發(fā)展,移動(dòng)互聯(lián)網(wǎng)滲透到人們生活的方方面面,諸如京東等電商平臺(tái)蓬勃發(fā)展,商品的種類越來(lái)越豐富,數(shù)量也越來(lái)越多。隨著數(shù)字化時(shí)代的發(fā)展,各大電商平臺(tái)也處于日益激烈的競(jìng)爭(zhēng)中,如何在用戶瀏覽網(wǎng)絡(luò)頁(yè)面時(shí),提供一些有效信息,提升用戶使用感是各大電商平臺(tái)面對(duì)的一個(gè)重難點(diǎn)問題。面對(duì)大數(shù)據(jù)時(shí)代下大量的商品信息,如何對(duì)商品進(jìn)行有效的分類是研究的熱點(diǎn)問題之一。日益增長(zhǎng)的商品種類和數(shù)量使得商家進(jìn)行商品分類也越來(lái)越難,但若對(duì)商品進(jìn)行了錯(cuò)誤的分類或者未進(jìn)行分類,都會(huì)導(dǎo)致客戶無(wú)法快速查找到想要購(gòu)買的商品,降低成交量,久而久之商家平臺(tái)會(huì)被淘汰。傳統(tǒng)的人工分類方法成本高、效率低且易出錯(cuò)等問題已經(jīng)無(wú)法適應(yīng)當(dāng)下社會(huì)發(fā)展的趨勢(shì)。隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,依托于計(jì)算機(jī)數(shù)據(jù)處理及分類技術(shù)設(shè)計(jì)出一種快速、準(zhǔn)確的分類方法,將大量雜亂的文本信息利用算法進(jìn)行自動(dòng)分類,其方法可以有效地降低人工成本,提高效率和準(zhǔn)確率,從而滿足信息技術(shù)發(fā)展的各項(xiàng)需求。

    1 文本預(yù)處理

    從網(wǎng)絡(luò)中獲取的數(shù)據(jù)大多含有大量的噪聲、比較粗糙,不能夠直接用于計(jì)算機(jī)的文本分類使用,如直接使用將會(huì)耗費(fèi)大量的訓(xùn)練和預(yù)測(cè)時(shí)間,也會(huì)影響到分類模型的性能。因此需要通過數(shù)據(jù)預(yù)處理技術(shù),對(duì)相應(yīng)文本進(jìn)行清洗、分詞、去除停用詞等操作后才能使用。

    1.1 數(shù)據(jù)清洗

    對(duì)網(wǎng)絡(luò)上獲取的數(shù)據(jù)進(jìn)行清洗,是提高系統(tǒng)使用數(shù)據(jù)質(zhì)量的關(guān)鍵一步,需要較長(zhǎng)時(shí)間操作。對(duì)文本進(jìn)行數(shù)據(jù)清洗主要包括處理缺失值、冗余值和噪音[1],對(duì)于其兩者的操作可以通過條件判斷后直接刪除整條數(shù)據(jù)。網(wǎng)絡(luò)文本中的噪聲處理主要包括將文本中的HTML符號(hào)、數(shù)字、換行等用空白替代,對(duì)URL或一些與語(yǔ)義無(wú)關(guān)的解釋性語(yǔ)句用正則表達(dá)式將其過濾。常用的正則表達(dá)式匹配規(guī)則如表1所示。

    表1 常用的正則表達(dá)式匹配規(guī)則

    1.2 中文分詞預(yù)處理

    中文在書寫時(shí)沒有使用分隔符將詞進(jìn)行分割,但是語(yǔ)言中的最小文字單位是詞,因此為了便于對(duì)文本的語(yǔ)義進(jìn)行理解,算法模型需要進(jìn)行中文的分詞預(yù)處理。在深度學(xué)習(xí)算法中,通過神經(jīng)網(wǎng)絡(luò)對(duì)文本特征進(jìn)行自動(dòng)提取,近年來(lái)越來(lái)越多的神經(jīng)網(wǎng)絡(luò)模型,如卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)等被用于中文分詞中。目前,在中文分詞領(lǐng)域中開發(fā)出了一些性能較好的開源工具,如NIPIR分詞系統(tǒng)、Jieba分詞工具等。在本文中選用了Python的中文分詞組件Jieba進(jìn)行中文分詞處理,其分詞模式包括三種,如表2所示。

    表2 Jieba分詞模式

    2 循環(huán)卷積神經(jīng)網(wǎng)絡(luò)

    循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Convolutional Neural Networks,RCNN)結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)[2]和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[3]的優(yōu)點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)包括輸入層、卷積層、池化層與全連接層,如圖1所示。循環(huán)神經(jīng)網(wǎng)絡(luò)使用循環(huán)的操作把上一時(shí)刻的隱藏狀態(tài)與當(dāng)前時(shí)刻的序列輸入當(dāng)成此時(shí)的輸入,從而更好地表達(dá)文本的上下文語(yǔ)義信息,如圖2所示。而循環(huán)卷積神經(jīng)網(wǎng)絡(luò)中,循環(huán)卷積層代替了卷積層,從輸入層中提取目標(biāo)對(duì)象后使用變化的循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,從而進(jìn)行特征的抽象提取。圖3給出了以“新款女春裝長(zhǎng)針織衫”為例的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖。從模型結(jié)構(gòu)中來(lái)看,RCNN使用了CNN的最大池化層和RNN的循環(huán)結(jié)構(gòu)的優(yōu)點(diǎn),減少了噪聲并且提出了文本中的特征信息。

    圖3 循環(huán)卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

    3 模型介紹

    本文對(duì)商品標(biāo)題進(jìn)行特征提取時(shí)使用循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的方法,首先在學(xué)習(xí)文本特征時(shí)將循環(huán)結(jié)構(gòu)作為卷積層,得到詞表示后進(jìn)行最大池化處理,從而得到文本的向量表示,最后從輸出層獲得文本表示,如圖4表示。

    圖4 本文模型

    3.1 卷積層

    考慮到現(xiàn)在的網(wǎng)絡(luò)平臺(tái)為了能使商品被更多的用戶搜索到,商家會(huì)為商品添加較長(zhǎng)、較多的商品信息標(biāo)簽,用戶在搜索商品時(shí)也會(huì)將自己的詳細(xì)需求寫入商品信息中,而中文中的詞不是孤立的,詞和詞之間的關(guān)聯(lián)往往也會(huì)和詞的含義有關(guān),因此本模型中采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BLSTM)[4]來(lái)學(xué)習(xí)詞的上下文表示。其中包括左上下文信息和右上下文信息。

    3.2 池化層

    本模型中使用卷積神經(jīng)網(wǎng)絡(luò)模型的方法,將學(xué)習(xí)到的所有詞的表示統(tǒng)一進(jìn)行最大池化的方式進(jìn)行處理[5],該方法能夠充分利用詞的特征,減少文本噪聲,從而使得獲取的文本表示能夠更大程度地作為文本的重要特征。

    3.3 輸出層

    在獲得文檔表示后,像傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型一樣,本模型使用全連接作為模型的輸出層,最后通過概率函數(shù)來(lái)統(tǒng)計(jì)輸出的文檔屬于哪一類的概率,從而計(jì)算模型的性能。

    4 實(shí)驗(yàn)結(jié)果與分析

    4.1 實(shí)驗(yàn)環(huán)境

    本實(shí)驗(yàn)是在本地計(jì)算機(jī)上進(jìn)行的,具體的實(shí)驗(yàn)環(huán)境詳情如表3所示。

    表3 實(shí)驗(yàn)環(huán)境

    4.2 實(shí)驗(yàn)數(shù)據(jù)與統(tǒng)計(jì)分析

    本文使用的商品信息數(shù)據(jù)為網(wǎng)絡(luò)開源數(shù)據(jù),共有11369條,其中測(cè)試集有7639條,訓(xùn)練集有3730條。

    4.3 性能指標(biāo)

    針對(duì)文本分類算法的性能指標(biāo)有很多種,如查準(zhǔn)率P(Precision)、召回率R(Recall)以及F1-measure等。這些指標(biāo)都和預(yù)測(cè)結(jié)果有關(guān),以實(shí)際類別為A為例,預(yù)測(cè)結(jié)果有四種,如表4所示。其中TP為樣本被正確預(yù)測(cè)到A類的數(shù)量,F(xiàn)N指不屬于A類的樣本被錯(cuò)誤預(yù)測(cè)到A類的數(shù)量,TN為A類的樣本被錯(cuò)誤預(yù)測(cè)為其他類的數(shù)量,F(xiàn)P為不屬于A類的樣本被正確地預(yù)測(cè)為其他類的數(shù)量。

    表4 預(yù)測(cè)結(jié)果舉例

    查準(zhǔn)率、召回率及F-measure(F值)的計(jì)算公式如下:

    (1)

    (2)

    (3)

    其中,α為調(diào)和查準(zhǔn)率和召回率的平衡值,在文本分類技術(shù)中通常另α=1,即為F1-measure,如式(4)所示:

    (4)

    4.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

    本文選擇了深度學(xué)習(xí)模型中的CNN、RNN與RCNN對(duì)文本進(jìn)行分類,并對(duì)上述三種算法的查準(zhǔn)率、召回率及F1-measure進(jìn)行比較分析,實(shí)驗(yàn)結(jié)果如表5所示。

    表5 實(shí)驗(yàn)結(jié)果對(duì)比

    從實(shí)驗(yàn)結(jié)果對(duì)比中可以看出,RCNN相比較于其他算法在查準(zhǔn)率、召回率和F1值三方面都有著較好的結(jié)果,實(shí)驗(yàn)結(jié)果表明本文所采用的模型能夠更好地對(duì)文本進(jìn)行分類,從而提高文本分類的性能。

    5 智能商品分類系統(tǒng)的實(shí)現(xiàn)

    在前面工作的基礎(chǔ)上,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)商品分類的可視化系統(tǒng)。本文中將使用Eclipse軟件作為開發(fā)軟件來(lái)編寫代碼,系統(tǒng)采用B/S架構(gòu)、HTML、CSS等技術(shù)來(lái)編輯網(wǎng)頁(yè),把MySQL數(shù)據(jù)庫(kù)和動(dòng)態(tài)交互網(wǎng)頁(yè)相連。系統(tǒng)功能模塊如圖5所示。

    圖5 系統(tǒng)功能模塊

    結(jié)語(yǔ)

    本文采用RCNN模型對(duì)商品信息進(jìn)行分類,分類結(jié)果表明,相對(duì)于CNN和RNN,該模型具有較好的性能指標(biāo),此外通過相關(guān)技術(shù)實(shí)現(xiàn)了可視化系統(tǒng)界面設(shè)計(jì)。

    猜你喜歡
    查準(zhǔn)率分詞卷積
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    結(jié)巴分詞在詞云中的應(yīng)用
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計(jì)
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
    基于深度特征分析的雙線性圖像相似度匹配算法
    值得重視的分詞的特殊用法
    一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
    中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響
    浑源县| 乐清市| 丰镇市| 大城县| 湟源县| 福清市| 浮梁县| 会同县| 抚顺县| 西华县| 罗平县| 阳信县| 江津市| 吕梁市| 云霄县| 田阳县| 册亨县| 通渭县| 汉沽区| 海兴县| 沙雅县| 西宁市| 麟游县| 象山县| 微山县| 永安市| 隆化县| 乐山市| 南丹县| 博爱县| 彭州市| 临澧县| 余姚市| 石楼县| 山阳县| 湖口县| 衡南县| 隆回县| 集安市| 胶州市| 土默特右旗|