周明
人工智能最重要的分支就是自然語言的理解與處理,即語言智能,通過對詞、句子、篇章進行分析,對內容里面的人物、時間、地點等進行理解,然后在此基礎上,去支持一系列核心技術,比如跨語言的翻譯、問答系統(tǒng)、閱讀理解、知識圖譜等技術,基于這些技術,又可以把它應用到其它應用領域,比如說搜索引擎、客服、金融、新聞等等領域。
總之,就是通過對語言的理解,實現(xiàn)人跟電腦的直接交流,從而實現(xiàn)人跟人更加有效的交流。自然語言技術不是一個獨立的技術,其受云計算、大數(shù)據(jù)、機器學習、知識圖譜等等各個方面的支撐。
接下來,我將從四個方面介紹自然語言的進展,即神經(jīng)機器翻譯、聊天機器人、閱讀理解及機器創(chuàng)作。
神經(jīng)機器翻譯
神經(jīng)機器翻譯就是模擬人腦的翻譯過程,人在翻譯的時候,首先是理解這句話,然后在腦海里形成對這句話的語義表示,最后再把這個語義表示轉化到另一種語言。
神經(jīng)機器翻譯有兩個模塊,一個是編碼模塊,把輸入的源語言變成一個中間的語義表示,用一系列的機器的內部狀態(tài)來代表,另一個模塊是解碼模塊,根據(jù)語義分析的結果,逐詞生成目標語言。
神經(jīng)機器翻譯在這幾年發(fā)展非常迅速,2017 年的研究熱度更是一發(fā)不可收拾,現(xiàn)在神經(jīng)機器翻譯已經(jīng)取代了統(tǒng)計機器翻譯,成為機器翻譯的主流技術。目前有統(tǒng)計數(shù)據(jù)表明,在一些傳統(tǒng)的統(tǒng)計機器翻譯難以完成的任務上,神經(jīng)機器翻譯的性能遠遠超過了統(tǒng)計機器翻譯,而且跟人的標準答案非常接近,甚至說是相仿的水平。圍繞著神經(jīng)機器翻譯,研究者們已做了很多的工作,比如如何提升訓練的效率,如何提升編碼和解碼的能力。還有一個重要的研究問題就是數(shù)據(jù)問題,神經(jīng)機器翻譯依賴于雙語對照的大規(guī)模的數(shù)據(jù)集來訓練,端到端地訓練神經(jīng)網(wǎng)絡參數(shù),這涉及很多語音段和很多的垂直領域,但我們實際上并沒有那么多的數(shù)據(jù),我們只有小量的雙語數(shù)據(jù)和大量的單語數(shù)據(jù)。
所以,我們就提出了半監(jiān)督的聯(lián)合垂直模型,已知一個雙語推導語料,分別對之訓練,從而達到中英翻譯系統(tǒng)與英中翻譯系統(tǒng)的相互促進,比如拿中英翻譯系統(tǒng)去翻中文的語料,形成很多維的中英對照語料,然后把這個語料加到英中翻譯里面去。同樣,用英中翻譯系統(tǒng)去翻譯大量的英文語料,然后把這個語料加到中英翻譯里面,這樣經(jīng)過多次迭代之后,翻譯水平大幅度提升。
微軟現(xiàn)在已經(jīng)全面采用神經(jīng)機器翻譯,最近還跟華為的 Mate10 手機合作,得到了神經(jīng)機器翻譯類似于在云上的效果。
聊天機器人
第二個話題是聊天機器人。聊天機器人就是人和機器對聊,在聊天的時候機器要理解人的意圖,產(chǎn)生比較符合人的想法,以及符合當前上下文的回復,再根據(jù)人與機器各自的回復將話題進行下去。微軟小冰就是這樣的一個聊天機器人?;诋斍暗妮斎胄畔?,再加上對話的情感,以及用戶的畫像,經(jīng)過一個類似于神經(jīng)機器翻譯的解碼模型生成回復,可以達到上下文相關、領域相關、話題有關,而且是針對用戶特點的個性化的回復。
這樣的技術已經(jīng)應用到微軟的很多產(chǎn)品里,比如會 5 種語言、擁有 1 億以上用戶的微軟小冰,可以進行自然人機交互的 Cortana,可以在敦煌回答游客問題的敦煌小冰。
閱讀理解
下一個話題是閱讀理解,閱讀理解就是讓電腦看一遍文章,針對這些文章問一些問題,看電腦能不能回答出來。斯坦福大學曾做過一個比較有名的實驗,就是使用維基百科的文章提出 5 個問題,由人把答案做出來,然后把數(shù)據(jù)分成訓練集和測試集,訓練集是公開的,用來訓練閱讀理解系統(tǒng),而測試集不公開,個人把訓練結果上傳給斯坦福,斯坦福在其云端運行,再把結果報在網(wǎng)站上,這也避免了一些人對測試集做手腳。閱讀理解技術,自 2016 年 9 月前后發(fā)布,就引起了很多研究單位的關注,大概有二三十家單位都在做這樣的研究,一開始的水平都不是很高,以 100 分為例,人的水平是 82.3 左右,機器的水平只有 74 分,相差甚遠。后來通過類似于開源社區(qū)模式的不斷改進,它的性能就得以逐步地提高了。
最近在閱讀理解領域出現(xiàn)的一個備受關注的問題,就是如何才能做到超越人的標注水平?,F(xiàn)在微軟、阿里巴巴、科大訊飛和哈工大的系統(tǒng),都超越了人工的標注水平,這標志著閱讀理解技術進入了一個新的階段。這幾個系統(tǒng)都來自中國,也體現(xiàn)中國在自然語言處理的進步。
一個閱讀理解的框架首先要得到每個詞的語義表示,再得到每個句子的語義表示,這可以用循環(huán)神經(jīng)網(wǎng)絡 RNN 來實現(xiàn),然后用特定路徑來找出潛在答案,基于這個答案再篩選出最優(yōu)的答案,最后確定這個答案的邊界。在做閱讀理解的時候,是用到了外部的知識,可以用大規(guī)模的語料來訓練外部的知識,通過外部知識訓練的 RNN 模型,加入到原來端到端的訓練結果中,以此來大幅度地提高閱讀理解的能力。
機器創(chuàng)作
最后介紹機器創(chuàng)作,機器可以做很多理性的東西,那么它可以做一些創(chuàng)造性的東西嗎?10 年以前,我們就開始做微軟對聯(lián),在此基礎上,創(chuàng)作絕句、律詩、唐詩宋詞等等,現(xiàn)在進行寫歌譜曲。在微軟對聯(lián)里,用戶輸入上聯(lián),系統(tǒng)就可以對出下聯(lián),也可以給出橫批;在字謎游戲里,用戶給出謎面,讓系統(tǒng)猜出字;或系統(tǒng)給出謎面讓用戶猜出字。
我們的編碼解碼技術已經(jīng)成功用于神經(jīng)網(wǎng)絡機器翻譯、小冰機器人和詞曲創(chuàng)作中。中央電視臺《機智過人》節(jié)目就曾播過我們的小冰與人類選手進行詞曲創(chuàng)作比拼的環(huán)節(jié),結果是小冰險勝人類。這件事說明如果有大數(shù)據(jù),那么機器學習或者深度學習就可以模擬人類的創(chuàng)造智能,創(chuàng)造出一些作品來,也可以與專家合作,幫助專家產(chǎn)生更好的想法,然后兩者配合,產(chǎn)生出美妙的音樂。
這個在以前是難以想象的,做自然語言的人從來沒有想到自然語言還可以延伸到音樂上,其實音樂也是一種語言,自然語言的所有技術都可以應用到音樂上去。
我快速介紹了自然語言處理在神經(jīng)機器翻譯、閱讀理解、聊天機器人以及機器創(chuàng)作領域的進展。隨著未來大數(shù)據(jù)、云計算和深度學習的發(fā)展,模型還會進一步地提升,再加上合適的場景,技術就可以落地,就可以服務于成千上萬的用戶??梢灶A料,隨著自然語言處理技術的提高與普及,它將會與其他的人工智能技術一起提升人類的生活水平。
相關鏈接
近年來,人工智能由于大計算、大數(shù)據(jù)、算法模型以及落地場景四大要素的齊備,進入了一個高速發(fā)展的時期。其主要發(fā)展方向:感知智能和認知智能。
自然語言理解是處在認知智能最核心的地位。它的進步會引導知識圖譜的進步,會引導對用戶理解能力的增強,也會進一步推動整個推理能力。在此基礎上,聊天、解題、翻譯、對話等也都會得到進步。認知智能一旦進步,加上感知智能的進步,整體的人工智能就會進一步發(fā)展。