• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語音識(shí)別技術(shù)在智能審計(jì)中的運(yùn)用初探

      2020-02-14 07:40:02何若云楊天楊琦阮國蓓張玲
      中國內(nèi)部審計(jì) 2020年1期

      何若云 楊天 楊琦 阮國蓓 張玲

      [摘要]本文從人工智能領(lǐng)域及其中語音識(shí)別技術(shù)的發(fā)展背景與應(yīng)用情況入手,結(jié)合非結(jié)構(gòu)化數(shù)據(jù),分析闡述現(xiàn)有語音識(shí)別技術(shù)基礎(chǔ)模型及特點(diǎn),探析語音識(shí)別技術(shù)在商業(yè)銀行智能審計(jì)領(lǐng)域運(yùn)用的可能性。

      [關(guān)鍵詞]智能審計(jì)(SA)? ?非結(jié)構(gòu)化數(shù)據(jù)? ?語音識(shí)別技術(shù)

      一、緒論

      (一)人工智能發(fā)展背景

      誕生于20世紀(jì)中葉的人工智能(Artificial Intelligence, AI)技術(shù)是近幾年最熱門的科技詞匯,在類別上可分為強(qiáng)人工智能與弱人工智能。目前幾乎所有能接觸到的人工智能應(yīng)用,如圖像識(shí)別、語音識(shí)別、棋類博弈、自然語言理解、自動(dòng)駕駛等都屬于弱人工智能范疇,強(qiáng)人工智能至今仍未突破瓶頸。

      人工智能的發(fā)展經(jīng)歷了兩次高潮及兩次低谷,當(dāng)前隨著云計(jì)算的出現(xiàn)、計(jì)算機(jī)算力的飛躍、大數(shù)據(jù)的誕生以及神經(jīng)網(wǎng)絡(luò)算法進(jìn)一步深度發(fā)展,人工智能步入了第三次繁榮期,“AI+”概念出現(xiàn)在各行各業(yè)中,審計(jì)領(lǐng)域的“智能審計(jì)”技術(shù)也應(yīng)運(yùn)而生。

      (二)大數(shù)據(jù)時(shí)代的非結(jié)構(gòu)化數(shù)據(jù)

      1.結(jié)構(gòu)化數(shù)據(jù)。簡單來說即存儲(chǔ)于關(guān)系型數(shù)據(jù)庫的數(shù)據(jù),也稱為行數(shù)據(jù),數(shù)據(jù)以行為單位,每一行數(shù)據(jù)表示一個(gè)實(shí)體的信息,各個(gè)字段在每一行數(shù)據(jù)中的屬性是相同的,通過關(guān)系型數(shù)據(jù)庫二維表結(jié)構(gòu)來進(jìn)行存儲(chǔ)和管理。與此對(duì)應(yīng)的是不適合用關(guān)系型數(shù)據(jù)庫二維表來展現(xiàn)的半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)。

      2.半結(jié)構(gòu)化數(shù)據(jù)。即介于完全結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)之間的一種數(shù)據(jù)形式,一方面包含了我們需要了解的數(shù)據(jù)細(xì)節(jié),不能簡單地將數(shù)據(jù)組織成任意的文件按照非結(jié)構(gòu)化數(shù)據(jù)處理;另一方面由于結(jié)構(gòu)變化區(qū)別很大,又不能夠簡單地建立關(guān)系型數(shù)據(jù)庫表與之對(duì)應(yīng)。半結(jié)構(gòu)化數(shù)據(jù)通常使用半結(jié)構(gòu)化的XML文檔、JSON格式、文本文件等來描述。

      3.非結(jié)構(gòu)化數(shù)據(jù)。即數(shù)據(jù)本身沒有數(shù)據(jù)結(jié)構(gòu)模型進(jìn)行預(yù)先定義,通常包括各種格式的辦公文檔、報(bào)表、圖像、視頻及音頻等。因非結(jié)構(gòu)化數(shù)據(jù)異構(gòu)性程度高,目前還沒有簡便的非結(jié)構(gòu)化數(shù)據(jù)處理工具方法。

      (三)智能審計(jì)概念

      在智能審計(jì)(Smart Audit,SA)技術(shù)出現(xiàn)之前,已被廣泛使用的審計(jì)技術(shù)有兩種:計(jì)算機(jī)輔助審計(jì)技術(shù)(Computer-Assisted Audit Techniques,CAATs)與非現(xiàn)場審計(jì)(Off-Site Audit),兩種審計(jì)技術(shù)與審計(jì)信息化概念聯(lián)系最為緊密,二者既有聯(lián)系又有區(qū)別。

      1.計(jì)算機(jī)輔助審計(jì)技術(shù)。即審計(jì)人員在審計(jì)及相關(guān)管理過程中,使用計(jì)算機(jī)或者計(jì)算機(jī)軟件作為工具,以半自動(dòng)化或自動(dòng)化方式執(zhí)行一定的審計(jì)程序及審計(jì)工作的一種審計(jì)技術(shù)。

      2.非現(xiàn)場審計(jì)技術(shù)。即審計(jì)人員通過連續(xù)收集、整理審計(jì)對(duì)象業(yè)務(wù)經(jīng)營管理過程中的數(shù)據(jù)和資料,運(yùn)用適當(dāng)?shù)姆椒ɑ蛄鞒踢M(jìn)行分析的一種遠(yuǎn)程審計(jì)程序。

      計(jì)算機(jī)輔助審計(jì)技術(shù)是審計(jì)方法的集合,而非現(xiàn)場審計(jì)技術(shù)則是一種審計(jì)程序或者說是一種審計(jì)實(shí)施方式。計(jì)算機(jī)輔助審計(jì)技術(shù)并不是非現(xiàn)場審計(jì)所特有的,在現(xiàn)場審計(jì)活動(dòng)中也可使用該種審計(jì)方法;但非現(xiàn)場審計(jì)主要依賴計(jì)算機(jī)輔助審計(jì)技術(shù)。

      3.智能審計(jì)技術(shù)。近年來,隨著大數(shù)據(jù)技術(shù)的出現(xiàn)及人工智能技術(shù)的飛躍式發(fā)展,多種智能技術(shù)的出現(xiàn)打破了傳統(tǒng)審計(jì)在數(shù)據(jù)規(guī)模、范圍以及類型方面的限制,出現(xiàn)了智能審計(jì)的概念。智能審計(jì)相比于計(jì)算機(jī)輔助審計(jì)技術(shù),審計(jì)覆蓋的數(shù)據(jù)范圍更大,數(shù)據(jù)分析能力更全面,能夠?qū)Ω黝惤Y(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理分析,且智能審計(jì)具有更強(qiáng)的自動(dòng)化處理能力,最重要的是涵蓋機(jī)器學(xué)習(xí)技術(shù)的智能審計(jì)具備智慧的風(fēng)險(xiǎn)洞察能力。智能審計(jì)技術(shù)與早期的計(jì)算機(jī)輔助審計(jì)技術(shù)聯(lián)系密切,其本質(zhì)是計(jì)算機(jī)輔助審計(jì)技術(shù)的進(jìn)化,但青出于藍(lán)而勝于藍(lán),智能審計(jì)是人工智能與大數(shù)據(jù)時(shí)代的計(jì)算機(jī)輔助審計(jì),是審計(jì)數(shù)字化進(jìn)程中具備智慧的一種計(jì)算機(jī)輔助審計(jì)技術(shù)。

      (四)語音識(shí)別技術(shù)

      語音識(shí)別技術(shù)是人工智能技術(shù)的重要組成部分之一,其目標(biāo)是將自然語言的語音內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的字符序列,進(jìn)一步研究這些字符序列的含義,即讓機(jī)器聽懂自然語音。

      二、語音識(shí)別技術(shù)原理模型

      (一)語音識(shí)別原理簡介

      語音識(shí)別即把語音變成文字可以看成是廣義上的標(biāo)注問題。如給定一段語音信號(hào)作為輸入X,語音識(shí)別就是需要找出一個(gè)單詞序列W,使得W與X的匹配程度最高,這個(gè)匹配程度用概率W*表示。語音識(shí)別就是求解條件概率最大值:

      通常一段自然語言的語音產(chǎn)生是由人先想好想說的詞句即W,然后再把它說出來即X,故上述條件概率是反的??衫秘惾~斯公式,將上述條件概率反過來變成:

      其中P(W)表示單詞序列W本身的概率,也就是W這樣串成的單詞本身有多大可能性成為一句合理的句子。P(X|W)表示給定單詞序列W以后出現(xiàn)語音信號(hào)X的概率,即W這串單詞有多大可能性發(fā)成X這串音。語音識(shí)別即要找W使得這兩個(gè)概率乘積達(dá)到最大值,這是語音識(shí)別的核心內(nèi)容,而P(W)被稱為語言模型,P(X|W)被稱為聲學(xué)模型。

      (二)語言模型

      語言模型P(W)一般利用馬爾科夫鏈?zhǔn)椒▌t,把一個(gè)單詞序列的概率拆解成其中每個(gè)詞的概率之積,即設(shè)W是由組成的,則可以拆成:

      其中各項(xiàng)為在已知之前所有詞的條件下,當(dāng)前詞的條件概率。一般語言模型的處理方法是認(rèn)為每個(gè)詞的概率分布只依賴于之前若干個(gè)詞,這樣的語言模型就是常用的n-gram模型,即其中每個(gè)詞的概率分布僅僅依賴于之前的n-1個(gè)詞。

      (三)聲學(xué)模型

      聲學(xué)模型的任務(wù)是計(jì)算P(X|W),即給定單詞序列W,發(fā)出這段語音X的概率。首先通過詞典模塊把單詞串轉(zhuǎn)換成音素串,詞典一般認(rèn)為是與聲學(xué)模型、語言模型并列的模塊;然后通過動(dòng)態(tài)規(guī)劃算法進(jìn)行詞的音素分界點(diǎn)的計(jì)算;同時(shí),還需對(duì)語音信號(hào)進(jìn)行頻譜分析,即將語音信號(hào)分成一個(gè)個(gè)幀,對(duì)于每一幀通過傅里葉變換,將其轉(zhuǎn)換成一個(gè)特征向量,常用的特征向量有梅爾倒譜系數(shù)(MFCC)等。通過訓(xùn)練數(shù)據(jù)中特征向量與其對(duì)應(yīng)的音素就可以得到特征到音素的分類器,進(jìn)而得到聲學(xué)模型P(X|W)。此前廣泛使用在語音識(shí)別中的利用隱藏馬爾科夫鏈的高斯混合模型(GMM-HMM)就是一種音素分類器,而近年流行的基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型(DNN)就是一種新型音素分類器。GMM-HMM估計(jì)出每個(gè)音素的特征向量分布,然后計(jì)算每一幀特征向量xt在給出相應(yīng)音素si的條件概率P(xt|si),再將每一幀條件概率相乘,得到聲學(xué)模型P(X|W)。而DNN是直接給出P(si|xt),利用貝葉斯公式轉(zhuǎn)換成P(xt|si),再相乘得到聲學(xué)模型P(X|W)。使用GMM-HMM的語音識(shí)別可稱為傳統(tǒng)的語音識(shí)別,對(duì)小詞匯量及孤立詞識(shí)別很好,而在連續(xù)長語音識(shí)別中DNN可以進(jìn)一步提升識(shí)別精確度。

      三、商業(yè)銀行智能審計(jì)“FACP”過程方法論

      目前國內(nèi)對(duì)于商業(yè)銀行智能審計(jì)并未制定相關(guān)的準(zhǔn)則來使其標(biāo)準(zhǔn)化,筆者在深入分析人工智能技術(shù)可運(yùn)用在審計(jì)過程各階段的可能性上,將其有機(jī)結(jié)合,歸納總結(jié)出一套智能審計(jì)“FACP”過程方法論,將智能審計(jì)技術(shù)分為流程融合(Flow-fusion)、數(shù)據(jù)獲?。ˋcquisition)、結(jié)構(gòu)轉(zhuǎn)換(Conversion)、智能感知(Perception)四個(gè)階段,如圖1所示。

      (一)流程融合階段(Flow-fusion)

      原中國銀監(jiān)會(huì)于2005年10月提出“流程銀行”的概念后,構(gòu)建“流程銀行”的理念迅速被各家銀行所接受。商業(yè)銀行各項(xiàng)業(yè)務(wù)即是對(duì)不同業(yè)務(wù)流程相應(yīng)規(guī)定的集合,而風(fēng)險(xiǎn)疑點(diǎn)也往往根據(jù)業(yè)務(wù)的不同出現(xiàn)在特定流程的特定環(huán)節(jié)上。了解銀行業(yè)務(wù)的最好切入點(diǎn)是熟悉業(yè)務(wù)流程,商業(yè)銀行內(nèi)部審計(jì)最主要的價(jià)值是發(fā)現(xiàn)問題揭示風(fēng)險(xiǎn),這就要求審計(jì)對(duì)業(yè)務(wù)流程進(jìn)行把控。

      掌握業(yè)務(wù)流程,就有了審計(jì)框架。對(duì)于智能審計(jì)而言,首先要教會(huì)機(jī)器具體的業(yè)務(wù)流程,利用人工智能將審計(jì)需要把控的業(yè)務(wù)流程自動(dòng)化。對(duì)應(yīng)這項(xiàng)過程概念,目前已應(yīng)用的智能審計(jì)技術(shù)是機(jī)器人流程自動(dòng)化技術(shù)(Robotic Process Automation, RPA)。RPA是一種既定規(guī)則的軟件程序,目標(biāo)是替代人類執(zhí)行規(guī)定的高重復(fù)性信息系統(tǒng)操作步驟。重要的是RPA不受信息系統(tǒng)間接口和IT基礎(chǔ)架構(gòu)的限制,使用非侵入的方式,模仿人類操作行為對(duì)信息系統(tǒng)進(jìn)行訪問,如銀行職員在操作信息系統(tǒng)時(shí)常見的復(fù)制、粘貼、點(diǎn)擊等操作,或者是日常工作中收發(fā)郵件操作。RPA還可以根據(jù)預(yù)設(shè)的內(nèi)部審計(jì)規(guī)則,在非業(yè)務(wù)時(shí)段每天從信息系統(tǒng)中持續(xù)獲取審計(jì)證據(jù),使得開展持續(xù)性檢查變成可能。運(yùn)用智能審計(jì)RPA技術(shù)可以使內(nèi)部審計(jì)效率得以提升。流程融合階段就是要分析具體業(yè)務(wù)流程,將可自動(dòng)化的業(yè)務(wù)審計(jì)流程固定在RPA的既定規(guī)則里。

      (二)數(shù)據(jù)獲取階段(Acquisition)

      上述RPA技術(shù)主要是強(qiáng)調(diào)流程自動(dòng)化的實(shí)現(xiàn),同時(shí)也可獲取部分格式的業(yè)務(wù)數(shù)據(jù),但通常這些數(shù)據(jù)是固定的規(guī)范化格式的內(nèi)部數(shù)據(jù)。智能審計(jì)的另一項(xiàng)主要數(shù)據(jù)獲取技術(shù)是爬蟲技術(shù)(Spider),通常用于獲取互聯(lián)網(wǎng)外部數(shù)據(jù),它是一種瀏覽網(wǎng)頁的自動(dòng)化程序,即按照一定的規(guī)則模擬人工點(diǎn)擊,自動(dòng)地抓取互聯(lián)網(wǎng)信息,如網(wǎng)頁、文檔、圖片、音頻、視頻等信息。一般這種爬蟲程序的運(yùn)行可以實(shí)現(xiàn)自動(dòng)高效的讀取收集網(wǎng)絡(luò)數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)時(shí)代的爬蟲技術(shù),是大數(shù)據(jù)前端數(shù)據(jù)采集技術(shù),為內(nèi)部審計(jì)帶來了豐富的異構(gòu)化數(shù)據(jù),是智能審計(jì)的基礎(chǔ)性技術(shù)。

      (三)結(jié)構(gòu)轉(zhuǎn)換階段(Conversion)

      智能審計(jì)不同于傳統(tǒng)的計(jì)算機(jī)輔助審計(jì),它有能力對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理分析。目前,在圖像和語音非結(jié)構(gòu)化數(shù)據(jù)處理方面應(yīng)用的技術(shù)有文字識(shí)別技術(shù)(Optical Character Recognition,OCR)及語音識(shí)別技術(shù)(Automatic Speech Recognition,ASR)。文字識(shí)別技術(shù)是對(duì)掃描的圖像文件經(jīng)過預(yù)處理、圖像切分、特征提取、匹配及模型訓(xùn)練等步驟將圖片中的文字轉(zhuǎn)化為可編輯文本的圖像信息處理技術(shù),簡而言之就是研究怎么把圖像轉(zhuǎn)換成文字。而語音識(shí)別技術(shù)就是研究怎么把語音轉(zhuǎn)換成文字。此外還有視頻模式分析技術(shù),如可以對(duì)銀行監(jiān)控錄像進(jìn)行自動(dòng)視頻分析轉(zhuǎn)換成相應(yīng)的事件文字描述??傊?,在智能審計(jì)數(shù)據(jù)轉(zhuǎn)換實(shí)施過程中,主要的任務(wù)就是把圖片、語音、視頻等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。

      (四)智能感知階段(Perception)

      上述三個(gè)階段的目標(biāo)就是為智能感知階段服務(wù),雖然每個(gè)階段都或多或少地融入一些人工智能技術(shù),但智能感知階段才是智能審計(jì)的意義所在。對(duì)應(yīng)的人工智能技術(shù)包括自然語言處理技術(shù)(Natural Language Processing,NLP)、知識(shí)圖譜技術(shù)(Knowledge Graph,KG)等。自然語言處理技術(shù)是使計(jì)算機(jī)擁有處理自然語言的能力,讓計(jì)算機(jī)能夠理解自然語言。而知識(shí)圖譜技術(shù)是在語義識(shí)別的基礎(chǔ)上體現(xiàn)各個(gè)主體之間復(fù)雜的關(guān)聯(lián)關(guān)系。在智能審計(jì)的感知階段,其實(shí)已沒有固定的定式化技術(shù),而是針對(duì)具體問題用特殊的人工智能方法來處理。對(duì)內(nèi)部審計(jì)而言,就是如何讓機(jī)器理解已轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)的這些數(shù)據(jù)的含義,自動(dòng)地提取審計(jì)風(fēng)險(xiǎn)點(diǎn)。

      四、語音識(shí)別技術(shù)的智能審計(jì)實(shí)踐及實(shí)證分析

      傳統(tǒng)的人工檢查理財(cái)?shù)蠕N售錄音錄像(以下簡稱“雙錄”)方式,不僅成本高、工作量大,而且長時(shí)間觀看可能會(huì)產(chǎn)生疲勞而遺漏對(duì)具體問題的發(fā)現(xiàn)。筆者運(yùn)用語音識(shí)別技術(shù)針對(duì)某銀行理財(cái)?shù)蠕N售錄音錄像非結(jié)構(gòu)化數(shù)據(jù),使用自行研發(fā)的音視頻處理工具進(jìn)行語音識(shí)別及審計(jì)取證,同時(shí)結(jié)合“FACP”四階段過程方法論來進(jìn)行實(shí)證分析。

      (一)流程融合

      某銀行目前對(duì)理財(cái)?shù)却N業(yè)務(wù)“雙錄”的規(guī)程為2018年下發(fā)的《關(guān)于柜面及電子機(jī)具開展個(gè)人代銷業(yè)務(wù)“雙錄”工作的操作規(guī)程(試行第三版)》(以下簡稱“雙錄規(guī)程”),其中明確并細(xì)化了客戶通過同一或不同柜面(地點(diǎn))及客戶通過ITM自助機(jī)具購買產(chǎn)品“雙錄”流程及話術(shù)。經(jīng)過對(duì)“雙錄規(guī)程”總結(jié),風(fēng)險(xiǎn)把控點(diǎn)主要包括:(1)客戶通過同一或不同柜面(地點(diǎn))購買產(chǎn)品進(jìn)行“雙錄”前需要爭得客戶同意;(2)客戶通過ITM等自助機(jī)具購買產(chǎn)品時(shí)網(wǎng)點(diǎn)人員僅限給予口頭指導(dǎo),嚴(yán)禁代客戶操作;(3)需向客戶推介匹配其風(fēng)險(xiǎn)承受能力的產(chǎn)品,避免不當(dāng)營銷;(4)不得代替客戶填寫或簽字,不得誘導(dǎo)客戶填寫不真實(shí)的選項(xiàng);(5)銷售人員需按相應(yīng)話術(shù)進(jìn)行“雙錄”,不得違規(guī)承諾或夸大收益;(6)風(fēng)險(xiǎn)提示語句等內(nèi)容,應(yīng)在錄像中清晰可辨。

      經(jīng)過討論分析,風(fēng)險(xiǎn)把控點(diǎn)(1)因某銀行尚未規(guī)范化錄音錄像文件格式規(guī)格且在同一或不同柜面(地點(diǎn))即理財(cái)室內(nèi)進(jìn)行營銷操作的錄音為遠(yuǎn)場錄音,不在一般的語音識(shí)別技術(shù)處理能力范圍內(nèi)。把控點(diǎn)(2)(4)(6)需用到視頻模式識(shí)別技術(shù)。而把控點(diǎn)(3)(5)則可對(duì)ITM智能機(jī)具“雙錄”(為近場錄音)通過語音識(shí)別“風(fēng)險(xiǎn)”“承受”“收益”“保證”等關(guān)鍵詞進(jìn)行初步識(shí)別。

      (二)數(shù)據(jù)獲取

      通過科技提數(shù),隨機(jī)提取UIP系統(tǒng)(某銀行“雙錄”系統(tǒng),以下簡稱UIP)2019年以來發(fā)生的20筆ITM智能機(jī)具錄音錄像文件,語音普通話較為標(biāo)準(zhǔn),視頻格式為MP4。

      (三)結(jié)構(gòu)轉(zhuǎn)換

      運(yùn)用語音識(shí)別技術(shù)專門針對(duì)某銀行理財(cái)?shù)蠕N售錄音錄像非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語音轉(zhuǎn)換識(shí)別,并進(jìn)行審計(jì)實(shí)踐取證。識(shí)別工具的運(yùn)用及語音識(shí)別實(shí)踐的主要包括以下方面。

      1.運(yùn)用識(shí)別工具的視頻文件處理模塊對(duì)“雙錄”視頻文件進(jìn)行處理轉(zhuǎn)換。該模塊還支持對(duì)“雙錄”視頻文件的人工查看,以方便審計(jì)人員人工確認(rèn)“雙錄”內(nèi)容,如圖2所示。

      視頻處理模塊最主要的功能是用來截取視頻文件中的音頻流,并對(duì)截取的音頻流重新編碼轉(zhuǎn)換為PCM文件,具體轉(zhuǎn)換為單聲道16位編碼16K采樣率的小端PCM音頻文件,通常的語音識(shí)別底層引擎是在該技術(shù)規(guī)格的PCM音頻文件基礎(chǔ)上進(jìn)行語音識(shí)別。PCM文件保存的是未經(jīng)壓縮的音頻信息,其中16位編碼是指,每次采樣的音頻信息用2個(gè)字節(jié)保存(一個(gè)字節(jié)含有8個(gè)字位)。16K采樣率是指1秒內(nèi)采樣16,000次。單聲道是指只有一個(gè)聲道。視頻處理模塊同時(shí)支持單個(gè)“雙錄”視頻文件PCM轉(zhuǎn)換及批量化的PCM轉(zhuǎn)換,并將轉(zhuǎn)化結(jié)果保存在特定的目錄下供音頻識(shí)別模塊處理,如圖3所示。

      2.在識(shí)別工具的音頻識(shí)別模塊中對(duì)轉(zhuǎn)換好的PCM文件進(jìn)行語音活動(dòng)檢測(Voice Activity Detection,VAD)切分。在切分前因“雙錄”錄音含有客戶敏感信息故采用Audition軟件人工截去客戶敏感信息。由于語音識(shí)別底層引擎并非直接對(duì)任意時(shí)長的語音進(jìn)行識(shí)別,而是對(duì)數(shù)十秒內(nèi)的語音段進(jìn)行識(shí)別,所以需要對(duì)長段語音進(jìn)行切分。而語音活動(dòng)檢測就是對(duì)語音端點(diǎn)(語音邊界)進(jìn)行檢測的技術(shù),即在語音的靜音處進(jìn)行截?cái)?。筆者自研的識(shí)別工具語音活動(dòng)檢測模塊采用的是Google開源音視頻流項(xiàng)目WebRTC中的語音活動(dòng)檢測函數(shù)模塊,主要思路是對(duì)音頻的每一幀計(jì)算其高斯概率分布并以此判斷該幀是靜音還是有語音存在,進(jìn)而在連續(xù)靜音后遇到語音的幀之前或連續(xù)語音后遇到靜音的幀之后進(jìn)行切分,以此完成對(duì)長段語音的切分。語音活動(dòng)檢測模塊將切分好的小段語音音頻提供給音頻識(shí)別引擎進(jìn)行識(shí)別。

      3.識(shí)別工具的語音識(shí)別模塊采用百度人工智能開放平臺(tái)中的語音識(shí)別引擎進(jìn)行語音識(shí)別,該引擎在希爾貝殼中文普通話開源語音語料庫的基礎(chǔ)上訓(xùn)練并提供調(diào)用接口,在經(jīng)過了DNN等當(dāng)代流行的語音識(shí)別模型的數(shù)年迭代發(fā)展后,已達(dá)到很好的識(shí)別效果。在自研識(shí)別工具中選中需要識(shí)別的PCM文件,即可對(duì)單個(gè)語音音頻進(jìn)行識(shí)別,識(shí)別速度較快,識(shí)別率在可接受范圍內(nèi),并且可以對(duì)識(shí)別的結(jié)果進(jìn)行半結(jié)構(gòu)化的文本文件保存,如圖4所示。此外,識(shí)別工具支持批量PCM音頻文件的識(shí)別,并在批量識(shí)別完成后自動(dòng)將每個(gè)語音文件對(duì)應(yīng)的識(shí)別結(jié)果在特定的目錄中保存為相應(yīng)的半結(jié)構(gòu)化文本文件,以供后續(xù)分析處理,如圖5所示。

      (四)智能感知

      通過結(jié)構(gòu)轉(zhuǎn)換階段,已將“雙錄”的MP4視頻非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為語音所對(duì)應(yīng)的文本格式的半結(jié)構(gòu)化數(shù)據(jù)。在智能感知階段,選用Astro Grep工具軟件對(duì)半結(jié)構(gòu)化的文本進(jìn)行分析。匹配條件采用“風(fēng)險(xiǎn)|承諾|收益|保證|利率|利息”正則表達(dá)式,即通過正則表達(dá)式單詞搜索出現(xiàn)過風(fēng)險(xiǎn)、承諾、收益、保證、利率、利息等字樣的語音文本文件。對(duì)篩選出的含有相關(guān)字樣的文本文件進(jìn)行查看及進(jìn)一步分析,發(fā)現(xiàn)有兩類銷售話術(shù)運(yùn)用不當(dāng)。

      一是個(gè)別銷售人員明確答復(fù)客戶理財(cái)產(chǎn)品無風(fēng)險(xiǎn)。具體為一個(gè)ITM理財(cái)產(chǎn)品銷售錄音識(shí)別文本中含有“風(fēng)險(xiǎn)”字樣,完整話語為“沒有風(fēng)險(xiǎn)的啊”,看似一句疑問句,疑為客戶詢問某銀行營銷人員是否有風(fēng)險(xiǎn)。然后我們進(jìn)一步調(diào)取同文件名的“雙錄”視頻進(jìn)行確認(rèn),視頻中客戶確實(shí)向大堂經(jīng)理及理財(cái)經(jīng)理詢問、確認(rèn)產(chǎn)品有沒有風(fēng)險(xiǎn),都得到了肯定的回答,不符合某銀行“雙錄規(guī)程”規(guī)定。在這段視頻中時(shí)長總計(jì)116秒,相比整個(gè)語音識(shí)別的耗時(shí)僅為26秒,僅為視頻時(shí)長的20%左右。

      二是銷售人員話術(shù)中對(duì)收益的描述用詞不規(guī)范。具體為通過正則表達(dá)式搜索發(fā)現(xiàn)有4個(gè)銷售錄音識(shí)別文本中含有“利息”字樣,疑為銷售人員在描述理財(cái)?shù)犬a(chǎn)品收益時(shí)使用了存款產(chǎn)品中對(duì)應(yīng)的“利息”概念,而某銀行標(biāo)準(zhǔn)話術(shù)應(yīng)為“預(yù)期收益”。進(jìn)一步調(diào)取同文件名的“雙錄”視頻進(jìn)行確認(rèn),發(fā)現(xiàn)其中兩個(gè)視頻為客戶自己引用“利息”概念,而另兩個(gè)視頻為銷售人員在向客戶銷售時(shí)使用“利息”一詞。這兩個(gè)用詞不規(guī)范樣本語音識(shí)別耗時(shí)亦為視頻總時(shí)長的20%左右,并且此次全部處理的語音識(shí)別耗時(shí)平均固定在視頻總時(shí)長的20%上下,遠(yuǎn)少于人工查看“雙錄”視頻所需耗時(shí)。

      五、結(jié)論與展望

      (一)研究結(jié)論

      一是語音識(shí)別技術(shù)能將傳統(tǒng)計(jì)算機(jī)輔助審計(jì)技術(shù)無法涉及的語音資料納入審計(jì)范圍。二是語音識(shí)別技術(shù)相對(duì)于傳統(tǒng)由人力查看錄音錄像視頻可以極大縮短取證時(shí)間,提高審計(jì)效率。此外,筆者總結(jié)歸納的智能審計(jì)“FACP”四階段過程可以作為智能審計(jì)的方法論廣泛運(yùn)用于人工智能技術(shù)的審計(jì)過程中。

      (二)后續(xù)研究展望

      一是錄音錄像、包括采樣率在內(nèi)的規(guī)格格式尚未統(tǒng)一,利用語音識(shí)別技術(shù)進(jìn)行審計(jì)全覆蓋就必須先統(tǒng)一規(guī)格格式。二是語言識(shí)別模塊需要加入同時(shí)支持遠(yuǎn)場語音及近場語音識(shí)別的場景。三是語音識(shí)別模塊還應(yīng)具備說話人識(shí)別的功能,針對(duì)銀行案例中,應(yīng)能夠區(qū)分來自客戶和銀行工作人員的語音話語。四是某銀行業(yè)務(wù)體量絕大部分集中在S地區(qū),應(yīng)考慮在語音識(shí)別技術(shù)中加入當(dāng)?shù)胤窖缘闹С?。五是在最后智能感知階段可采用自然語言處理技術(shù),即讓機(jī)器直接理解語音識(shí)別對(duì)應(yīng)的文字,而不是使用工具對(duì)半結(jié)構(gòu)化文本進(jìn)行搜索。

      有鑒于此,未來商業(yè)銀行智能審計(jì)語音識(shí)別應(yīng)把握兩個(gè)方向:一是鑒于實(shí)時(shí)短語音識(shí)別在效率和準(zhǔn)確性上優(yōu)于事后全量長語音識(shí)別,可考慮在流程融合階段將風(fēng)險(xiǎn)把控觸角直接放在錄音錄像時(shí)進(jìn)行,使得風(fēng)險(xiǎn)控制更為及時(shí)。二是對(duì)于全國性大型商業(yè)銀行、有較多分行的股份制銀行或部分規(guī)模較大的城商行來說,應(yīng)考慮在語音識(shí)別前置入方言識(shí)別分類模塊,相關(guān)技術(shù)將涉及神經(jīng)網(wǎng)絡(luò)語言識(shí)別等。

      (作者單位:上海銀行,郵編:200120,電子郵箱:yangyt@bosc.cn)

      主要參考文獻(xiàn)

      陳燕等.非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)及應(yīng)用[M].北京:科學(xué)出版社, 2017

      柳若邊.深度學(xué)習(xí)語音識(shí)別技術(shù)實(shí)踐[M].北京:清華大學(xué)出版社, 2019

      呂赫.基于DNN的語言識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D].電子科技大學(xué), 2017

      汪莉,葉健彪.基于OCR的審計(jì)技術(shù)創(chuàng)新與實(shí)現(xiàn)[J].中國內(nèi)部審計(jì), 2019(4):44-47

      王小波.計(jì)算機(jī)輔助審計(jì)技術(shù)在商業(yè)銀行IT內(nèi)審中的應(yīng)用與實(shí)踐研究[Z].上海銀行, 2018

      阳谷县| 翼城县| 襄樊市| 东乌珠穆沁旗| 富源县| 台湾省| 隆化县| 遂平县| 江油市| 武宣县| 错那县| 化隆| 岳西县| 义乌市| 濮阳市| 白沙| 中宁县| 浙江省| 麻城市| 治县。| 成武县| 黑山县| 鸡东县| 通榆县| 瓦房店市| 辽中县| 历史| 贵定县| 湘乡市| 兰考县| 通河县| 元氏县| 绥阳县| 吴川市| 辽阳县| 丘北县| 上栗县| 南投市| 乐陵市| 贺兰县| 东兰县|