• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種針對中國移動客服文本的分詞方法

    2020-04-10 10:58:09鐘建高海洋
    現(xiàn)代信息科技 2020年1期
    關(guān)鍵詞:詞表用詞分詞

    鐘建 高海洋

    摘? 要:為提升客戶服務(wù)的效率,快速分析和解決客戶問題,并將客戶述求和投訴充分轉(zhuǎn)換為中國移動發(fā)展的動力和資源;提出了一種針對移動客服聊天記錄的數(shù)據(jù)分詞框架,針對客服聊天文本的特點,制定了結(jié)合文本糾錯、停用詞擴充、關(guān)鍵詞提取、詞性分析這幾個方面的數(shù)據(jù)預(yù)處理步驟。依靠這樣的框架,提升了文本數(shù)據(jù)分詞的質(zhì)量,使用字典映射的方式,糾正出文本數(shù)據(jù)中存在的共性的錯誤。

    關(guān)鍵詞:數(shù)據(jù)預(yù)處理;停用詞;關(guān)鍵詞;糾錯字典

    中圖分類號:TP391.1? ? ? ?文獻標(biāo)識碼:A 文章編號:2096-4706(2020)01-0007-03

    Abstract:In order to improve the efficiency of customer service,quickly analyze and solve customer problems,and fully convert customer complaints into the power and resources of China Mobiles development. We propose a data segmentation framework for mobile customer service chat record. According to the characteristics of customer service chat text,we develop the data preprocessing steps of text error correction,stop words expansion,keyword extraction,part of speech analysis. Relying on this framework,we improve the quality of text data segmentation. We use dictionary mapping to correct the common errors in the text data.

    Keywords:data preprocessing;stop words;keywords;error correction dictionary

    0? 引? 言

    近幾年來,隨著大數(shù)據(jù)概念以及人工智能的迅速發(fā)展,現(xiàn)在的各行各業(yè)都在向智能化的方法探索、發(fā)展,傳統(tǒng)的服務(wù)行業(yè)也不例外,如何有效地使用機器學(xué)習(xí)的方法來減輕人工的工作量、提升工作效率是服務(wù)行業(yè)較為關(guān)心的問題。情感極性分析是自然語言處理中常見的任務(wù)之一,在不同的中文語料上,已有很多人進行了不同的研究[1]。通過分詞工具以及人工篩選,筆者提取出了針對該文本的停用詞以及關(guān)鍵詞;通過對詞性的分析,進一步對分詞結(jié)果進行了篩選,得到了最終文本數(shù)據(jù)的分詞結(jié)果。實驗結(jié)果表明,使用上述分詞框架后,對中國移動客服文本數(shù)據(jù)情感分析的二分類任務(wù),在精確值上有2%的提升。

    1? 傳統(tǒng)數(shù)據(jù)預(yù)處理

    在機器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域,都有很多方法來進行情感極性的分析[1]。盡管它們在對數(shù)據(jù)的數(shù)量和質(zhì)量的要求上有所區(qū)別,但是在數(shù)據(jù)預(yù)處理方面,不論是傳統(tǒng)的機器學(xué)習(xí)方法,還是深度學(xué)習(xí)模型,分詞一般都是大家的首選步驟,雖然也有部分模型的研究粒度是基于字的[2],但是目前的主流方法還是基于詞的。而受限于我們的數(shù)據(jù)集數(shù)量,實驗中我們使用的是傳統(tǒng)的機器學(xué)習(xí)方法來進行情感分類任務(wù)。

    傳統(tǒng)的數(shù)據(jù)預(yù)處理步驟包括分詞,去除停用詞兩個操作。在中文語料分詞方面,Jieba分詞工具憑借其使用方便、分詞高效的特點,備受大家的青睞,是最常用的分詞工具。在將長文分?jǐn)?shù)據(jù)為多個詞之后,我們通常還會去除分詞結(jié)果中的停用詞。通常停用詞會單獨作為一個停用詞詞表,常用的中文詞表有“哈工大停用詞表”“百度停用詞表”等。通過去除分詞結(jié)果中的停用詞,我們可以去除結(jié)果中的噪聲詞,這樣做的好處是不僅可以降低分詞結(jié)果的長度,也可以去除停用詞對下游任務(wù)的影響。

    針對我們的數(shù)據(jù),在使用上述的分詞步驟后,我們發(fā)現(xiàn),由于我們領(lǐng)域的特定性,直接使用Jieba分詞得到的結(jié)果并沒有滿足我們的需要,會出現(xiàn)我們關(guān)注的一些關(guān)鍵詞被分為了多個詞或某些詞沒有被切分成功的情況,這就直接影響了后面的特征構(gòu)造以及文本表示。所以,在中國移動客服對話文本數(shù)據(jù)中,直接使用Jieba進行分詞顯然是不合理的。因為客服聊天內(nèi)容的有限性和重復(fù)性,我們關(guān)心的詞的數(shù)量也是有限的,所以,針對這個不足,我們提出了領(lǐng)域的關(guān)鍵詞表,這樣的好處是,所有我們關(guān)心的詞都可以被正確的切分,因此,文本中的關(guān)鍵特征得以保存。同時,我們也維護了一份領(lǐng)域的停用詞詞表。除了去除通用領(lǐng)域的停用詞之外,針對我們的數(shù)據(jù),我們除去了針對客服文本數(shù)據(jù)的一些停用詞。這些詞大多屬于客服代表的規(guī)范用語,如“客服代表”“網(wǎng)絡(luò)專席”“您好”一類的詞匯,這樣的詞匯廣泛的出現(xiàn)在客服聊天文本中,但是對我們的任務(wù)分析沒有作用,不需要作為我們的特征,因此需要去掉,然而在常用的停用詞表中,無法將這些詞有效地去除,因此我們更新了停用詞表,得到我們針對中國移動客服聊天記錄的停用詞表。

    由于我們數(shù)據(jù)的特殊性,在進行以上分詞過程前,我們還需要進行一項任務(wù),那就是文本糾錯。由于我們的文本數(shù)據(jù)是由客服聊天錄音通過翻譯軟件翻譯而來,而錄音本身并不是十分標(biāo)準(zhǔn)的普通話,導(dǎo)致聊天語音中有著大量的方言。受限于當(dāng)前機器翻譯軟件的翻譯質(zhì)量,我們得到的翻譯文本中,存在相當(dāng)一部分的翻譯錯誤文本。此類句子表現(xiàn)出無語法結(jié)構(gòu),無語序結(jié)構(gòu)等等問題,多數(shù)句子直接無法判斷其意思,屬于無效的句子。當(dāng)前的中文糾錯研究,主要都是針對某些公開數(shù)據(jù)集上的某種問題,如語法、錯別字等等[3]。對我們這樣綜合多種錯誤的文本來說,文本糾錯是一個很難的問題。為了減輕這樣的影響,針對我們的文本數(shù)據(jù),我們采用的字典映射的方式來處理一部分文本錯誤。在簡單處理后,使用我們的分詞方法,再進行分詞。

    下面筆者將從糾錯字典的構(gòu)造、停用詞表與關(guān)鍵詞表的構(gòu)造、實驗方法以及實驗結(jié)果及分析這幾個方面介紹我們的工作。分詞框架如圖1所示。

    2? 糾錯字典的構(gòu)造

    從上述的介紹中,我們已經(jīng)得知,我們的文本數(shù)據(jù)中存在著一部分由于語音翻譯帶來的錯誤,使得文本數(shù)據(jù)無法理解。一方面,混合錯誤的文本數(shù)據(jù)糾錯問題現(xiàn)在還缺乏一定的研究,我們嘗試過使用百度AILab的糾錯API,但是毫無效果;另一方面,我們沒有缺乏有效的訓(xùn)練數(shù)據(jù),即我們無法識別錯誤文本的真正意思是什么。以上原因使得我們無法使用機器學(xué)習(xí)的方法來糾正文本數(shù)據(jù)中的錯誤。由于我們的原始音頻數(shù)據(jù)都是來自于同一個地區(qū)的客服聊天記錄,即便是口音問題導(dǎo)致的翻譯出錯,它們的錯也具有一定的相似性,因此,我們采用字典映射的方式來處理那些普遍存在于翻譯文本中的具有一定共性的錯誤。通過人工識別的方式,我們總結(jié)出可以糾正的多音字或錯別字錯誤,將其與普通話的字進行一一對應(yīng),形成了糾錯字表。使用糾錯字表,我們將文本中的這些字一一修改成普通話中對應(yīng)的字,達到簡單的糾錯效果。

    3? 停用詞表與關(guān)鍵詞表構(gòu)造

    在進行簡單的文本糾錯后,我們需要構(gòu)造停用詞表以及關(guān)鍵詞表,這兩個詞表的構(gòu)造對我們的分詞以及文本篩選的準(zhǔn)確性有著很大的影響。因為這兩個詞表的功能具有一定的相反性,因此我們是同時構(gòu)造這兩個詞表的,下面是我們構(gòu)造這兩個詞表的過程。首先我們使用Jieba分詞工具,將糾錯后的文本進行直接的分詞,使用通用領(lǐng)域的停用詞表去除停用詞,得到分詞后的文本。這時候,每一條原始數(shù)據(jù)都由一系列的詞表示。接著,我們抽樣出部分原始文本與其分詞數(shù)據(jù),人工觀察識別分詞結(jié)果,對比原始的文本,提取出錯分的詞,構(gòu)造成我們的關(guān)鍵詞表。然后對分詞文本進行數(shù)值上的統(tǒng)計,由于我們的數(shù)據(jù)具有領(lǐng)域特性,所以對于高頻詞,我們需要額外的關(guān)注。對于出現(xiàn)次數(shù)高于100次或出現(xiàn)次數(shù)在前100~200的詞,直接人工判斷是否需要重點關(guān)注這些詞,如果需要,則將它們加入到關(guān)鍵詞表中,如果不需要,則把它們加入到停用詞表中。最后,在完成一次關(guān)鍵詞表與停用詞表的更新后,我們重新使用Jieba進行分詞,加入關(guān)鍵詞表,保證詞表中的詞都能被正確分類,加入停用詞詞表,保證詞表中的詞都被去除。迭代進行2~3次關(guān)鍵詞表與停用詞表的更新。由于我們數(shù)據(jù)的特點,一方面領(lǐng)域特點保證了我們關(guān)鍵詞和停用詞的有限性;另一方面,我們使用分詞工具去輔助人工發(fā)現(xiàn)關(guān)鍵詞與停用詞,這兩點保證了人工篩選詞匯的可行性和高效性。

    4? 實驗設(shè)計

    本次實驗采用了三個傳統(tǒng)的機器學(xué)習(xí)模型:支持向量機、XGBoost、logistics回歸[4]。在傳統(tǒng)的機器學(xué)習(xí)模型中,對于分類任務(wù),以上三種方法是最常使用的模型,之前很多的研究已經(jīng)證明了在分類任務(wù)上以上三種模型的優(yōu)秀表現(xiàn)。實驗文本特征的構(gòu)造使用自然語言處理中較為常見的one-hot表示以及TF-IDF表示,分別構(gòu)造文本數(shù)據(jù)的特征,使文本數(shù)據(jù)向量化。在文本向量化之后,我們將數(shù)據(jù)分別使用不同的模型進行分類,得到實驗結(jié)果。對比實驗,我們使用控制變量的方法,使用本文的分詞方法對數(shù)據(jù)進行預(yù)處理,對比不使用該方法的普通的分詞方法,使用同樣的實驗方法、實驗參數(shù),對比實驗的結(jié)果。實驗結(jié)果的衡量指標(biāo)為F1值。

    5? 實驗結(jié)果及分析

    各方法實驗的結(jié)果如表1所示,Before列代表未使用上述分詞方法的實驗結(jié)果,After列代表使用上述分詞方法的實驗結(jié)果。

    從實驗中我們可以看出,在不同的方法以及不同的特征構(gòu)造上,使用本文提出的分詞方法后,部分模型的表現(xiàn)都有了效果上的提升。主要原因一方面是我們減少了文本中的錯誤,減少了很多干擾詞,另一方面是因為我們使用了領(lǐng)域的停用詞表和關(guān)鍵詞表,更多重要的詞被保留,在構(gòu)造文本特征的時候,與直接分詞相比保留了更多的特征,因此在分類的結(jié)果上,使用本文的方法后,分類的效果有了提升。

    6? 結(jié)? 論

    本文提出的這種針對中國移動客服文本的分詞方法經(jīng)實驗驗證是有效的。針對中國移動客服文本的預(yù)處理問題,在經(jīng)過我們的文本糾錯,結(jié)合本領(lǐng)域的關(guān)鍵詞表和停用詞表的輔助分詞后,文本的特征得到了很好的保留,從而在下游的情感分析任務(wù)上,與單純的分詞相比,在不同模型上都有了效果上的提升,充分說明了本文提出的分詞方法的有效性。

    參考文獻:

    [1] WANG Y,ZHENG X,HOU D,et al. Short text sentiment classification of high dimensional hybrid feature based on SVM [J].Computer Technology and Development,2018,28(2):88-93.

    [2] DEVLIN J,CHANG M,LEE K,et al. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].[2019-11-20].https://arxiv.org/abs/1810.04805?context=cs.

    [3] YANG Y,XIE P,TAO J,et alAlibaba at IJCNLP-2017 Task 1:Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task [C]//Proceedings of the IJCNLP 2017,Shared Tasks,2017:41-46.

    [4] WRIGHT R E. Logistic regression [J].Reading & Unders-tanding Multivariate Statistics,1995,68(3):497-507.

    作者簡介:鐘建(1969-),男,漢族,四川成都人,高級工

    程師,碩士研究生,研究方向:移動網(wǎng)絡(luò)的建設(shè)維護和優(yōu)化。

    猜你喜歡
    詞表用詞分詞
    需注意的規(guī)范醫(yī)學(xué)用詞
    強化詩詞用詞的時代性
    中華詩詞(2022年2期)2022-12-31 05:57:58
    蒼涼又喧囂:《我與地壇》中的用詞
    A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
    英語世界(2021年13期)2021-01-12 05:47:51
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    寫話妙計之用詞準(zhǔn)確
    值得重視的分詞的特殊用法
    敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
    高考分詞作狀語考點歸納與疑難解析
    國外敘詞表的應(yīng)用與發(fā)展趨勢探討*
    乡城县| 台湾省| 噶尔县| 阿拉尔市| 赤城县| 封丘县| 岑巩县| 云安县| 青海省| 霞浦县| 阳朔县| 邵阳市| 习水县| 临夏县| 合川市| 家居| 沁源县| 南昌县| 鹿邑县| 启东市| 育儿| 万宁市| 普定县| 盘山县| 于田县| 嵊泗县| 义乌市| 石城县| 镇雄县| 凤翔县| 张家港市| 河西区| 胶南市| 江川县| 葵青区| 滨海县| 阜宁县| 福鼎市| 邮箱| 大城县| 青龙|