◆黃杰
自然語言處理在文本審核中的應用
◆黃杰
(中國石油西南油氣田公司天然氣凈化總廠 重慶 400021)
自然語言是人類智慧和文明的結晶,它是人與人自然交流的一種重要載體,讓機器理解人類的語言被認為是人工智能領域皇冠上的一顆明珠。利用先進的深度學習、自然語言理解、自然語言生成等技術,讓機器為人類提供文本自動審核、內容糾錯、實體搜索、智能推薦、文章編寫等有價值的服務,讓機器代替人工完成一些重復性的工作。搭建人類和機器之間溝通的橋梁,同時大幅提高企業(yè)的管理效率是自然語言處理的目標之一。
自然語言處理;深度學習;智能審核
語言是人類的獨創(chuàng),也只有人類才擁有真正的語言,其神奇之處在于只需要短短幾個符號,就可以讓你在腦海中浮現一幅圖畫,一個場景。語言是思維的載體,是人類交流思想、表達情感最自然、最直接和最重要的工具,據統計人類有超過八成的知識都是通過語言文字的形式記錄和傳播的。
文本是最常用的記錄和表達語言的方式,是結構化數據中的一種,文本智能審核就是讓機器能夠代替人做機械化、重復性的工作。機器可以自動閱讀文檔內容,并對關鍵的核心信息進行提取,把可能存在的錯誤內容標識出來。這樣審核人員就不需要檢查整個文檔,只要看標注出來的可能存在的錯誤信息便可,極大減少了人工處理的時間,提升了整個工作流程的效率。
自然語言的重點在自然二字,是我們平時在生活中慣用的表達和交流方式,我們平時說的“講人話”就是要求用自然的語言來表述內心的意圖。舉個例子:
自然語言:手機貼膜
非自然語言:智能數字通訊設備表面高分子化合物線性處理
世間萬物都有者各自的特性,如獵豹的速度三倍于人類短跑冠軍、鷹隼能看到5000米外的兔子,這些都是人類所不能及的,然而只有人類可以通過自然語言進行交流。讓機器能使用語言這種高級工具與人類進行有效交流的各種理論和方法就是自然語言處理所研究的內容,要實現這一目標目前最好的辦法是使用人工智能。人工智能所研究的方向眾多,典型的有機器視覺、機器學習、自然語言處理、機器人技術等,其中自然語言處理是人工智能中非常特別的一部分,但也是最為困難的問題之一,因為其本身就是一門融入了語言學、計算機科學、認知科學、信息論、數學等專業(yè)于一體的交叉學科。
圖1 NLP就是人類和機器之間溝通的橋梁
自然語言非常靈活、多變、復雜,而且充滿歧義,這些因素讓計算機很難對其進行量化解釋,就如程序語言是為計算機而生,人類也很難進行自然的理解一樣。并且自然語言所表達的含義都必須建立在使用場景、文化背景、地域分布等背景知識之上,而這些背景知識人類在交流過程中都進行了精簡,這給自然語言處理帶來的巨大的挑戰(zhàn)。得益于近年基礎理論、芯片制造以及深度學習等諸多技術的突破,強大的計算性能和海量的樣本數據支持,加速了人工智能發(fā)展,從而也實現了自然語言處理的應用。今天計算機已經可以實現對輸入文本自動進行信息提取、對不同語言進行機器翻譯等應用。
復雜或歧義結構比比皆是,例如:在微信圈里潛水;打鐵還要自身硬;帝國主義和一切反動派都是紙老虎;歡迎新老師生前來就餐。
對翻譯而言,不同語言之間的概念不對等
騙子:confidence man(字面意思:信任的人)
我們最終的目標是要讓計算機通過對自然語言進行處理,學習和了解人類在想什么、說什么,進而幫助我們完成一些有具體意義的工作,比如本文審核、智能客服、情感分析、專家系統、機器寫作等。然而計算機要準確理解我們所說的內容并能夠輸出符合自然語義的內容確是極其困難的,從某種意義上來說計算機能夠完美地理解語言也就等效于實現了人工智能。所以,自然語言理解和自然語言生成就成了自然語言處理的兩大核心內容。
圖2 NLP的核心內容
讓機器像人一樣,能識別輸入文本所表達的意圖即為自然語言理解,理解既要到點也要看面,而且還要準確。不僅僅是要提取出關鍵詞,而且在沒有關鍵詞時還能通過語義來推斷出關鍵詞,也就是能進行實體提取和意圖識別。
對話系統是近年比較熱門的自然語言理解方面的應用,主要是因為深度學習帶來的語音識別和自然語言理解可以對人講的話進行識別。
具體是什么意思呢?
在生活中,假如我們要去吃飯,人們會有多種自然的表達:
“去吃飯”
“明天幫我在解放路訂個館子”
“叫個外賣吧”
“打牙祭”
這都是自然語言的表達,確可以有無數種組合,并且人們都能準確理解這些表達都是“去吃飯”這個意圖。然而對機器來說要理解這么多種不同的表達確是極大的挑戰(zhàn)。
以前,計算機只能處理像關鍵詞這樣“結構化的數據”,也就是說要讓機器明白人在說什么,必須要輸入“去吃飯”這個精確的指令。所以,無論你說“訂館子”還是“打牙祭”,只要這些句子面沒有包含“去吃飯”這個關鍵詞,系統都無法理解。而且,只要出現了關鍵詞,比如“不去吃飯”里也有這三個字,也會被處理成用戶想要去吃飯。
自然語言理解出現后計算機便能從各種自然語言的表達中識別出真實意圖,不再需要緊盯著可憐的關鍵詞了。即便是說“上班時間不能去吃飯”機器也能夠識別出不是“去吃飯”這個意思。并且,機器還能在句子里自動提取出“解放碑”這個實體地名,并且知道“明天”是特指的哪一個具體日期。
自然語言生成是自然語言處理的重要組成部分,它的出現主要是為了掃清人類與機器之間溝通的障礙。前面說的自然語言理解是負責輸入內容,而自然語言生成則是負責輸出內容。
智能音箱悄然間成了非?;鸨漠a品,它可以聽懂你講的話,并進行自然的回答。例如你對它說“明天幾度?”智能音箱立即使用自然語言來對這句話的意圖進行識別,在明白你是問它“明天”的“天氣”后,再使用自然語言生成溫情地對你說“明天10度到16度”。自然語言生成提高了人類和機器之間的交流體驗,將非語言格式的數據轉換成人類能理解的內容。
自然語言生成可大致歸納為以下6個步驟:
確定內容:確定構建的文本中需要包含的信息;
文本結構:合理的組織文本的邏輯順序;
語義聚合:將多個信息合并成一個自然的句子;
語法運用:添加合理的連接詞形成完整的句子;
引用表達式生成:運用與內容相符合的專業(yè)詞匯;
語言實現:將以上內容組合成一個結構良好的句子。
我們可以將深度學習簡單理解為機器學習中重要的一個分支,而機器學習則又是人工智能的一個分支。傳統機器學習需要通過人工來進行特征提取,在簡單的任務中應用這種方法通常有效。而深度學習是通過模型匹配來實現人工的特征提取,更接近人類的思維,也就極大提高了機器效率。
深度學習在自然語言處理問題上與傳統機器學習方法相比有著顯而易見的巨大優(yōu)勢。通過簡單分析就能知道,要讓計算機準確提取文本特征難度極大,而且這些特征并不能很好地表示文本的語義、語法,會丟失很大一部分的有用信息,而深度學習就是將特征提取這個環(huán)節(jié)交給深度網絡去自動完成,通過更高的計算成本換取更全面更優(yōu)良的文本特征。
深度學習的優(yōu)點在于其學習能力非常強、可以解決很多復雜的問題,在人臉識別、自然語言處理等任務上甚至已經超越了人類。但深度學習對算力要求非常高,并不適合在移動設備上使用,并且模型設計也非常復雜,這也間接造成使用成本過高。
導入的文本先進行文本類型識別,通過對審核要素抽取,對文章內容進行理解,并與知識庫、標準庫中的內容進行比對,最后輸出審核結果。通過對報告進行人工審核,來判斷機器審核的準確率,并反饋給機器,以此循環(huán)進行模型的迭代優(yōu)化。中文深度神經網絡語言模型使用百度自然語言處理技術,該模型依托于百度全網海量優(yōu)質數據和深度神經網絡技術,通過設定閾值,將不符合語言表達習慣的語句高亮標注出來。
針對文本智能審核,結合目前流行的自然語言框架可以實現的關鍵技術包括:
(1)成熟的預訓練模型:利用最新的BERT預訓練模型,充分利用無標注數據進行無監(jiān)督學習,增強深度學習模型的特征表示能力,減緩對標注數據量的依賴;
(2)非模板化文本的關鍵要素抽?。夯跈C器學習實現上下文語義理解,實現要素智能提取,收集模型處理不符案例(badcase),實現反饋學習閉環(huán);
(3)超長文本智能處理:結合計算機視覺和自然語言處理相關技術,解析文本中復雜表格信息、目錄信息,以內容自動審核、長文本標注異常位置模塊,形成審核內容分多級展示,實現對百萬字級別的文本的準確解讀;
(5)多格式文本智能解讀:成熟的OCR技術配合文本自動糾錯功能,將AI模型與凈化行業(yè)領域知識融合,能夠實現多文檔、跨格式(掃描件、PDF、DOC等)的文本解讀。
(6)精準推薦相關知識文檔:根據用戶所查看的文檔內容和數據資料,通過分析文檔標題和內容的語義,為用戶提供與之相關的文檔資料,幫助用戶高效查閱并了解同一主題的文檔資料。
(7)審核規(guī)則管理:利用自然語言處理技術對文件內的密點進行快速識別,并實現高亮標記。
得益于科技的進步,近年來自然語言處理已經取得了突破性的進展,成為應用范圍最廣泛,也是最為成熟的人工智能技術之一,通過自然語言處理已經搭建起了機器與人類之間便捷溝通的橋梁。目前自然語言處理在行業(yè)中的應用已經非常廣泛,包括電商、翻譯、金融、智能硬件、醫(yī)療、旅行、住宿等各個行業(yè),應用場景涵蓋語音分析、文本分析、情感分析、意圖分析、圖形和圖像識別、互動語音回復、光符識別等?,F有技術實踐結合目前流行的自然語言框架,完全能夠解決目前文檔審核上存在的問題,實現文檔智能審核,提升企業(yè)效率。當前的深度學習技術,已經可以在具備大量有監(jiān)督數據的情況下,實現對數據的充分利用和學習,并解決具體的一個又一個問題。隨著技術的成熟,如何讓機器無師自通、自主學習,實現真正意義上的無監(jiān)督學習,才是下一步的關鍵。
[1]約阿夫·戈爾德貝格.基于深度學習的自然語言處理[M].機械工業(yè)出版社,2018.
[2]鄭捷.NLP漢語自然語言處理原理與實踐[M].電子工業(yè)出版社,2017.
[3]唐聃.自然語言處理理論與實戰(zhàn)[M].電子工業(yè)出版社,2018.
[4]黃錦輝.中文自然語言處理導論[M].科學出版社,2018