• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于二次排序Top-N算法的呼叫中心文本識(shí)別方法

    2020-02-05 02:19:44思永坤劉娟許婧
    電子技術(shù)與軟件工程 2020年7期
    關(guān)鍵詞:硬膜分詞錄音

    思永坤 劉娟 許婧

    (中移在線服務(wù)有限公司云南分公司 云南省昆明市 650221)

    近年來(lái),隨著互聯(lián)網(wǎng),特別是移動(dòng)互聯(lián)網(wǎng)的發(fā)展,引發(fā)了數(shù)據(jù)爆發(fā)式增長(zhǎng),大數(shù)據(jù)正日益對(duì)企業(yè)競(jìng)爭(zhēng)能力提升、產(chǎn)品創(chuàng)新、客戶市場(chǎng)發(fā)展等產(chǎn)生重要影響。而當(dāng)前大數(shù)據(jù)平臺(tái)中存貯的數(shù)據(jù)分為結(jié)構(gòu)化和非結(jié)構(gòu)化兩類組織形式。據(jù)統(tǒng)計(jì),企業(yè)中80%以上的業(yè)務(wù)相關(guān)的信息都來(lái)源于非結(jié)構(gòu)化數(shù)據(jù)文本[1]。

    1 中文分詞和語(yǔ)義分析

    1.1 中文分詞

    分詞技術(shù)是語(yǔ)義理解的首要環(huán)節(jié),是文本分類,信息檢索,機(jī)器翻譯,自動(dòng)標(biāo)引,文本的語(yǔ)音輸入輸出等領(lǐng)域的基礎(chǔ)。而由于中文本身的復(fù)雜性及其書寫習(xí)慣,使中文分詞成為分詞技術(shù)中的難點(diǎn)[2]。

    1.1.1 通信行業(yè)分詞難點(diǎn)

    首先,專業(yè)術(shù)語(yǔ)與自然表述方式矛盾,例如,“家庭套餐”4字術(shù)語(yǔ)在中文中由“家庭”、“套餐”兩個(gè)詞組成,“家庭”、“套餐”又分別有其自有的自然語(yǔ)言定義,將“家庭套餐”分割為特定專業(yè)術(shù)語(yǔ),就是中文分詞在特定行業(yè)應(yīng)用的一個(gè)難點(diǎn)。

    其次,詞的語(yǔ)義需要根據(jù)上下文關(guān)聯(lián)性判斷,例如,“還欠費(fèi)200 多元”,可分割為“還(huan)/欠費(fèi)/200 多元”和“還(hai)欠費(fèi)/200 多元”。

    1.1.2 常見(jiàn)分詞方式

    目前較為常見(jiàn)的分詞方法有:基于機(jī)械切分的分詞方法、基于統(tǒng)計(jì)的分詞方法和知識(shí)分詞方法。

    1.2 語(yǔ)義分析

    語(yǔ)義分析指運(yùn)用各種方法,學(xué)習(xí)與理解一段文本所表示的語(yǔ)義內(nèi)容。一般來(lái)說(shuō),詞匯級(jí)語(yǔ)義分析關(guān)注的是如何獲取或區(qū)別單詞的語(yǔ)義,句子級(jí)語(yǔ)義分析則試圖分析整個(gè)句子所表達(dá)的語(yǔ)義,而篇章語(yǔ)義分析旨在研究自然語(yǔ)言文本的內(nèi)在結(jié)構(gòu)并理解文本單元(可以是句子從句或段落)間的語(yǔ)義關(guān)系[3]。

    按照研究策略的不同,現(xiàn)有每層次語(yǔ)義分析研究都大概可分為基于知識(shí)或語(yǔ)義學(xué)規(guī)則的語(yǔ)義分析和基于統(tǒng)計(jì)學(xué)的語(yǔ)義分析[4]。

    2 呼叫中心文本識(shí)別面臨的問(wèn)題和解決思路

    2.1 呼叫中心文本的特點(diǎn)

    呼叫中心的文本數(shù)據(jù)大部分來(lái)源于錄音文件的語(yǔ)音識(shí)別轉(zhuǎn)寫。不同于書面語(yǔ)言,呼叫中心的文本內(nèi)容幾乎都是客戶與客戶代表之間的口述交互,其作為真實(shí)數(shù)據(jù)的記錄,數(shù)據(jù)可能不完整、有噪音,且不一致[5]。因此,呼叫中心的錄音文本在識(shí)別過(guò)程中會(huì)存在以下問(wèn)題:

    2.1.1 錄音文本準(zhǔn)確度問(wèn)題

    受限于錄音文件轉(zhuǎn)寫平臺(tái),錄音文本存在轉(zhuǎn)寫準(zhǔn)確性的問(wèn)題,導(dǎo)致標(biāo)準(zhǔn)化的字典分詞難于適用。例如,“4G”錄音轉(zhuǎn)寫過(guò)程轉(zhuǎn)譯為“四季”、“四區(qū)”、“四哥”;“移動(dòng)MM”錄音轉(zhuǎn)寫為“移動(dòng)妹妹”等。

    2.1.2 客戶表達(dá)存在個(gè)性化差異

    對(duì)于同一需求,由于客戶的個(gè)性化表達(dá)的差異,存在錄音文本關(guān)鍵信息的較大差異。例如,對(duì)于取消業(yè)務(wù)的訴求,客戶的表述會(huì)有“關(guān)一下”、“關(guān)掉”、“不要了”、“退掉”、“停止”等多種個(gè)性化表達(dá)。

    2.1.3 業(yè)務(wù)術(shù)語(yǔ)與自然語(yǔ)言差異

    部分業(yè)務(wù)的標(biāo)準(zhǔn)化業(yè)務(wù)名稱與客戶來(lái)電口頭表述有較大差異,甚至存在較大偏離。例如,“已開通收費(fèi)業(yè)務(wù)”這一標(biāo)準(zhǔn)業(yè)務(wù)術(shù)語(yǔ),客戶的表達(dá)為“收費(fèi)的業(yè)務(wù)”、“有些什么業(yè)務(wù)”、“開通了些什么”、“扣費(fèi)的業(yè)務(wù)”、“月租”等。

    2.1.4 區(qū)域性語(yǔ)言(方言)表達(dá)差異

    2.1.5 多訴求對(duì)話

    一通對(duì)話錄音文本中,客戶訴求可能會(huì)有多個(gè)。例如,客戶表述“查詢?cè)捹M(fèi)較高的原因”,從而衍生出“取消某些不需要的業(yè)務(wù)”;或者客戶分別需要“取消彩鈴”和“開通來(lái)電提醒”。

    2.1.6 業(yè)務(wù)范疇變動(dòng)頻繁

    通信行業(yè)面向客戶提供的業(yè)務(wù)、產(chǎn)品(含營(yíng)銷活動(dòng))、服務(wù)并不是一成不變的,對(duì)應(yīng)的業(yè)務(wù)標(biāo)簽每月、每周、每天都有可能出現(xiàn)新增或下線,所以客戶交互信息也會(huì)頻繁變化。

    2.2 呼叫中心文本識(shí)別算法解決思路

    基于錄音轉(zhuǎn)寫、客戶表達(dá)、區(qū)域方言、多訴求、業(yè)務(wù)變動(dòng)等原因,通信行業(yè)的客戶服務(wù)錄音文本分析,具有典型的行業(yè)特征。目前比較熱門的基于深度學(xué)習(xí)的文本識(shí)別算法,雖能夠在有效的訓(xùn)練后達(dá)到較高的準(zhǔn)確度,但由于其前期需投入大量訓(xùn)練數(shù)據(jù),且對(duì)于新增標(biāo)簽反應(yīng)滯后,不能完全滿足通信行業(yè)呼叫中心對(duì)于客戶錄音文本分析的需求。于是,依賴于經(jīng)驗(yàn)和語(yǔ)料庫(kù)的基于統(tǒng)計(jì)學(xué)和概率性的語(yǔ)義分析策略相較來(lái)說(shuō),更適合那些內(nèi)容范疇相對(duì)統(tǒng)一、模型迭代快速、業(yè)務(wù)術(shù)語(yǔ)較多的文本挖掘領(lǐng)域。算法需重點(diǎn)研究和解決:

    2.2.1 文本完整性校驗(yàn)

    錄音文件轉(zhuǎn)寫為語(yǔ)音文本,由于以下因素可導(dǎo)致文本可用信息缺失:

    5例硬膜下積液自行吸收,7例演變?yōu)槁杂材は卵[;前者的積液量少于后者[(26.4±14.6)mL vs(80.0±52.3)mL, P=0.002]。演變?yōu)槁杂材は卵[的7例患者中,5例因血腫厚度>1.5 cm、出現(xiàn)顱高壓或神經(jīng)功能障礙而進(jìn)一步行鉆孔引流術(shù);鉆孔手術(shù)平均于夾閉術(shù)后(9.1±3.8)個(gè)月(4~20個(gè)月)進(jìn)行。進(jìn)一步分析發(fā)現(xiàn),硬膜下積液量越大,其演變?yōu)槁杂材は卵[的比例越高,慢性硬膜下血腫后須行鉆孔引流手術(shù)治療的比例也越高(表2)。

    (1)通話錄音本身業(yè)務(wù)元素缺失。例如,交互過(guò)程中的異常掛機(jī)。

    (2)由于錄音轉(zhuǎn)寫文本準(zhǔn)確性問(wèn)題,導(dǎo)致文本業(yè)務(wù)元素缺失。

    2.2.2 分詞規(guī)則與業(yè)務(wù)對(duì)應(yīng)

    (1)專業(yè)術(shù)語(yǔ)的識(shí)別。例如,“和彩鈴”、“和多號(hào)”等業(yè)務(wù)名稱,在分詞過(guò)程不能分割為“和/彩鈴”、“和/多號(hào)”,而應(yīng)做為統(tǒng)一整體進(jìn)行分詞。

    (2)客戶化表述的識(shí)別。例如,客戶需要辦理“國(guó)際漫游”,但在交互過(guò)程的用語(yǔ)為:“出國(guó)上網(wǎng)”、“國(guó)際流量”、“港澳臺(tái)流量”、“外國(guó)漫游”等。

    (3)短語(yǔ)描述的識(shí)別。例如,“呼叫轉(zhuǎn)移”表述為“把電話轉(zhuǎn)接到別的手機(jī)上”。此類情況非字典字詞,也非標(biāo)準(zhǔn)業(yè)務(wù)名詞,但需在分詞規(guī)則中進(jìn)行詞組的定義。

    2.2.3 關(guān)鍵訴求判定

    (1)在整通來(lái)話錄音文本中,通常存在客戶多訴求表達(dá)。例如,一次來(lái)話有查話費(fèi)、查流量、辦套餐等訴求。

    表1:文本識(shí)別語(yǔ)料庫(kù)(樣例)

    (2)有客戶訴求與業(yè)務(wù)定義存在語(yǔ)義纏繞的問(wèn)題,例如,客戶表述中出現(xiàn)“上不了網(wǎng)”,有可能是指手機(jī)流量上網(wǎng)問(wèn)題、寬帶上網(wǎng)問(wèn)題、WLAN 上網(wǎng)問(wèn)題,其由此產(chǎn)生的需求,有可能是開通相關(guān)業(yè)務(wù),也有可能是投訴業(yè)務(wù)故障。

    3 呼叫中心文本識(shí)別算法實(shí)現(xiàn)

    3.1 建立文本識(shí)別語(yǔ)料庫(kù)

    如表1 所示。

    3.2 文本識(shí)別算法流程

    基于上述呼叫中心錄音文件文本還原準(zhǔn)確性、分詞規(guī)則、語(yǔ)義分析、關(guān)鍵訴求判定等現(xiàn)實(shí)問(wèn)題,本文提出“基于二次排序的Top-N 語(yǔ)義分析算法”,算法流程如圖1 所示。

    “基于二次排序的Top-N 語(yǔ)義分析算法”包括檢測(cè)模塊、獲取模塊和確定模塊。其中:

    檢測(cè)模塊,用于對(duì)錄音文本(非結(jié)構(gòu)化數(shù)據(jù))進(jìn)行完整性檢測(cè);

    獲取模塊,用于當(dāng)錄音文本確定為完整的非結(jié)構(gòu)化數(shù)據(jù)時(shí),將錄音文本與預(yù)存儲(chǔ)的關(guān)鍵詞進(jìn)行匹配,獲取與錄音文本相對(duì)應(yīng)的待確定標(biāo)簽;

    確定模塊,用于根據(jù)預(yù)設(shè)的匹配規(guī)則,在待確定的標(biāo)簽中確定與錄音文本最終匹配的標(biāo)簽。

    4 總結(jié)和展望

    通過(guò)對(duì)真實(shí)錄音文本的語(yǔ)義識(shí)別結(jié)果進(jìn)行全量測(cè)算檢驗(yàn),本算法文對(duì)于通話時(shí)長(zhǎng)低于60 秒的錄音文本,識(shí)別準(zhǔn)確率達(dá)到93.67%,識(shí)別準(zhǔn)確率達(dá)到業(yè)界較高水平。算法中涉及的報(bào)錯(cuò)閥值、排序TOP 值均為配置參數(shù),可根據(jù)實(shí)際情況進(jìn)行調(diào)整,算法的流程化設(shè)計(jì)思想,也可支持在遇突發(fā)事件、文本內(nèi)容較大變動(dòng)、表述習(xí)慣改變的情況下,調(diào)整特殊節(jié)點(diǎn),甚至快速優(yōu)化算法流程,增減篩選環(huán)節(jié),有效提高了算法對(duì)外部環(huán)境的適應(yīng)性。

    后續(xù),該算法的應(yīng)用和優(yōu)化仍有一定空間。除了單純文本內(nèi)容外,將靜音、音量、語(yǔ)速、聲道等錄音屬性也加入語(yǔ)義分析模型,可支持捕捉性格特征、語(yǔ)境、情緒等更具體明確的語(yǔ)義內(nèi)容。也可將本算法輸出結(jié)果作為訓(xùn)練集,將無(wú)規(guī)則的深度學(xué)習(xí)算法和有規(guī)則的本文所述算法結(jié)合起來(lái),開創(chuàng)探索新的算法迭代模式,實(shí)現(xiàn)語(yǔ)義判定內(nèi)在算法的自主學(xué)習(xí)和優(yōu)化。

    圖1:“基于二次排序的Top-N 語(yǔ)義分析算法”流程圖

    猜你喜歡
    硬膜分詞錄音
    Listen and Paint, etc.
    Funny Phonics
    結(jié)巴分詞在詞云中的應(yīng)用
    髓外硬膜內(nèi)軟骨母細(xì)胞瘤1例
    高壓氧在治療慢性硬膜下血腫中的臨床應(yīng)用效果
    Colorful Seasons多彩四季
    A New Term
    值得重視的分詞的特殊用法
    阿托伐他汀聯(lián)合中藥治療慢性硬膜下血腫的觀察
    慢性硬膜下血腫148例手術(shù)治療體會(huì)
    宁南县| 曲阳县| 克拉玛依市| 陇南市| 诏安县| 疏勒县| 大厂| 邯郸县| 巢湖市| 道孚县| 淮滨县| 射阳县| 五台县| 昌平区| 宜昌市| 平阳县| 元氏县| 广水市| 鹿邑县| 鞍山市| 东源县| 双柏县| 波密县| 双江| 济源市| 瑞昌市| 许昌县| 容城县| 岳阳县| 临湘市| 宣化县| 渝中区| 甘洛县| 哈巴河县| 桐梓县| 临颍县| 龙陵县| 财经| 商丘市| 商城县| 乐业县|