鞏周周
AI(人工智能)時代,語義處理會成為操作系統(tǒng)的核心,所有軟件技術都會基于語義處理技術的進展而確立上限。而GPT-4,又一次斂住了所有老牌科技企業(yè)的光彩。
在ChatGPT被譽為范式轉變之作的第3個月,谷歌推出PaLM-E(PathwaysLanguageModelwithEmbodied,直譯為具象化Pathways語言模型)視覺語言模型。功能上,除去讓AI獲得理解文字、圖片的能力,額外增添了輸出指令生成機器人行動計劃的控制回路。
——谷歌顯然急了,在OpenAI和微軟的左右夾擊下,直接甩出“大招”。
這場與過往相似的戲碼谷歌再熟悉不過——移動互聯(lián)網(wǎng)時代的手機系統(tǒng)之戰(zhàn),以操作系統(tǒng)起家的微軟沒能在智能手機發(fā)展初期抓住切入點,敗北后起新秀谷歌、安卓。如今,緊鑼密鼓研發(fā)大模型的谷歌被后浪OpenAI的突然成功打了個措手不及。即使谷歌發(fā)布參數(shù)量高達5620億(GPT-3模型的參數(shù)量為1750億)、目前世界上最大的視覺語言模型PaLM-E,也沒能擋住GPT-4收獲巨大勝利。
回溯2015年,埃隆·馬斯克和山姆·阿爾特曼大概都不會想到,OpenAI這家非營利組織能夠在10年內(nèi)追平谷歌的技術進展,打破AI核心技術巨頭的壟斷格局。GPT的先發(fā)公測和底層平臺開源也意味著更多、更廣的技術會以此為基礎進行開發(fā)。這是個漂亮的開端。
任何成功的背后都有著極為復雜的過程。自然語言處理技術跨越了3個階段,現(xiàn)在終于迎來變革。接下來,讓我們借由本文從當下回到過去,了解關于以下4個方面的內(nèi)容:
1.自然語言處理的兩次重要轉折;
2.BERT和GPT這兩種自然語言處理模型的應用差異及成因;
3.GPT為什么沒有出現(xiàn)在中國;
4.自然語言處理是通用人工智能最重要的基礎。
Word2vec:讓機器感知語義
我們把時間線拉到20年前——
2003年,約書亞·本吉奧正式提出神經(jīng)網(wǎng)絡語言模型(NeuralNetworkLanguageModel,以下簡稱NNLM),而NNLM依賴的核心概念就是詞向量(WordEmbedding,譯為單詞嵌入)。
如果說衛(wèi)星定位導航是物理世界中標記位置的符號,那么詞向量就是語言世界中標記距離的符號。
2010年,谷歌的托馬斯·米科洛夫團隊對NNLM進行改進,提出基于遞歸神經(jīng)網(wǎng)絡的語言模型(RecurrentNeuralNetworkbasedLanguageModel,以下簡稱RNNLM),目標是利用所有上文信息來預測下一個詞語。但RNNLM存在長距離梯度消失的問題,上下文記憶能力有限,很難追溯更遠時間的信息。而且,只通過孤立單詞或上文信息,不足以讓機器“感知”特定環(huán)境下的單詞含義。
于是,2013年,米克洛夫團隊提出Word2vec(單詞到向量)。Word2vec的目標不再專注于構建語言模型,而是利用語言模型學習每個單詞的語義化向量。
在1986年出版的《并行分布式處理》(ParallelDistributedProcessing)里有過這樣的觀點:“人類比當今的計算機更聰明,是因為人的大腦采用了一種更適合于人類完成他們所擅長的自然信息處理任務的基本計算架構,例如,‘感知自然場景中的物體并厘清它們之間的關系……理解語言,并從記憶中檢索上下文的恰當信息?!?/p>
研究人員想到,如果能夠把每個詞匯都標注為數(shù)字,以編碼形式輸入,那么編碼器網(wǎng)絡就可以通過反向傳播,在這些樣本上進行訓練。但是,一個非常重要的問題是,機器無法像人類一樣獲取單詞或短語之間的語義關系。語言學家約翰·費斯在1957年把這一思想表達為:你會通過與一個單詞一同出現(xiàn)的詞來認識它。比如“生氣”往往和“憤怒”出現(xiàn)在同一語境,“大笑”和“愉悅”也常被放在同一語境。
研究人員建立的“詞匯表”發(fā)現(xiàn),在使用大量英文語料訓練詞向量后,queen和king的詞向量之差得到的向量與woman與man之差得到的向量幾乎一樣,繼而可以得到一個等式:queen-king+man=woman。
這就是著名的“國王和女王”的例子,也是自然語言處理向理解語言更進一步的重要標志。
Word2vec,包含CBOW(連續(xù)詞袋模型)和Skipgram(跳字模型)兩組模型,分別根據(jù)上下文預測中心詞以及根據(jù)中心詞來預測上下文,簡化網(wǎng)格結構;使用HierarchicalSoftmax、NegativeSampling兩種算法提升訓練效率,優(yōu)化詞向量和語義方面的能力。
在對機器進行詞語、對話或是理念傳達時,不同的語言使用方式和其所處環(huán)境密不可分。因此,要消解機器對模糊詞、隱喻等產(chǎn)生的困惑,構建機器對世界的認知系統(tǒng),數(shù)據(jù)和模型就變得格外重要。
當單詞可以用坐標作為數(shù)字輸入時,就大大提高了神經(jīng)網(wǎng)絡在自然語言處理中的性能。RNNLM雖然也能獲得單詞的分布式表達,但為了更好應對詞匯量的增加,提高分布式表示的質(zhì)量,Word2vec很快成為主流。
Transformer架構和BERT:從理論走向?qū)嵺`的一次蛻變
再把時間線拉到近5年內(nèi)——
2017年,谷歌團隊在論文AttentionisAllYouNeed中首次提出的Transformer架構,造就了一場關乎自然語言處理研究的始發(fā)性變革。
深度學習時代,自然語言處理準確率的提升帶來模型對有標注數(shù)據(jù)的高度依賴。因為數(shù)據(jù)稀缺和人力成本高昂,大型自然語言處理模型的訓練進入瓶頸期。
Transformer預訓練模型主要分為兩段訓練:先在大規(guī)模未標注語料庫訓練一個初始模型,然后在下游任務中利用標注數(shù)據(jù)對初始模型進行精調(diào)。相對而言,預訓練模型效能更高,對標注數(shù)據(jù)的要求更低。
很快,預訓練模型成為自然語言理解任務中的基準模型。
GPT和BERT,這兩個代表現(xiàn)代自然語言處理技術發(fā)展的模型都建立在Transformer架構上。谷歌團隊把這個語言架構濃縮成一句話:“Attentionisallyouneed.(注意力機制就是你所需要的全部)”
2018年10月,谷歌團隊發(fā)布的BERT語言模型讓這項技術從理論走向?qū)嵱?。這是自然語言處理的一場全領域的狂歡,同時也預示著自然語言處理有史以來最強烈的一次進化即將開啟。
在過往許多研究AI、自然語言處理、通用人工智能技術的書籍中都提到過一個詞,叫“意義的障礙”。機器和人類間存在著阻礙交流的溝渠,所以創(chuàng)造出一種讓機器理解人類寫作、說話方式的能力,進而使其協(xié)助人類,這是自然語言處理的初衷。
人類擁有的能力之一,是感知并反思自己的思維方式,即透過現(xiàn)象,以某種本質(zhì)、深刻的方式來理解周圍情景,而機器并不具備這種理解能力。自然語言處理的目標就是讓機器在理解語言上像人類一樣智能,彌補人類交流(自然語言)和計算機理解(機器語言)之間的差距。
但語言這種具象表達方式,從標引符號演變?yōu)橄笳鞣枺傺葑優(yōu)檎Z法,是個漫長的過程。自然語言是一種“活著”的語言,它不斷演進、生長。從過去到現(xiàn)在,有許多俚語不斷被淘汰,又有許多詞語生成?;诖耍@種可以擇時生存的自然語言處理技術的研發(fā)變得相當困難。
在BERT發(fā)布前,大部分自然語言處理任務是基于Word2vec+RNNLM的基本架構的。由于數(shù)據(jù)匱乏,自然語言處理技術的進展一直不像計算機視覺開發(fā)那么順利,于是,有些學者就將基于計算機視覺的思想應用到預訓練+微調(diào)的架構上,ELMo(一種上下文詞嵌入模型)和GPT就是采用了這種方式。
BERT在兩個方向進行了創(chuàng)新。首先提出兩階段模型,第一階段雙向語言模型預訓練,第二階段具體任務Finetuning(微調(diào));其次,將特征提取器變?yōu)門ransformer。幾乎所有的自然語言處理任務都可以采用BERT兩階段的訓練思路,所以此后的幾年,幾乎所有企業(yè)都在以BERT為基礎進行改進,研發(fā)方向也就此發(fā)生轉變。
BERT和GPT模型的應用差異及成因
從自然語言角度出發(fā),自然語言處理大致可分為理解和生成兩個部分。
自然語言理解:讓計算機能夠理解文本的含意。具體來說,就是把語言以可分解的符號或語音進行表示,從中提取有用的信息用于下游任務。研究方向包含語言結構、信息抽取、信息檢索、詞性標注和句法分析。
自然語言生成:按照一定語法和語義規(guī)則生成自然語言文本、圖表、音視頻,即以人類可讀形式進行語義信息的表達。簡單來說,就是從文本規(guī)劃到語句規(guī)劃再到實現(xiàn)傳達。主體分為三大類:文本到文本(TexttoText)、文本到其他(TexttoOther)、其他到文本(OthertoText)。
以BERT和GPT為例,即使它們都屬于預訓練模型,但在技術研發(fā)方向上存在分流。
BERT(BidirectionalEncoderRepresentationsfromTransformers,直譯為來自Transformer的雙向編碼表示模型)
雙向語言模型,可以同時利用上下文信息進行預測,是自然語言理解任務中的基準模型。由Transformer的Encoder(編碼)模塊構成,采用預訓練+微調(diào)兩階段模型訓練,屬于半監(jiān)督學習模型:在預訓練時使用大量無標注數(shù)據(jù),屬于自監(jiān)督訓練;而微調(diào)時采用少量有標注數(shù)據(jù),屬于有監(jiān)督訓練。
BERT的預訓練包含掩碼語言模型(MaskedLanguageModel,簡稱MLM)和下一句預測(NextSentencePrediction,簡稱NSP)兩個任務,引入基于自編碼的預訓練任務進行訓練。這種訓練方式讓BERT可以有效捕捉文本中的語義信息,因此被廣泛用于文本分類任務,如機器翻譯、情感分析、垃圾郵件識別、新聞分類、問答系統(tǒng)、語義匹配等方向。
GPT(GenerativePre-trainedTransformer,直譯為生成式預訓練Transformer模型)
單向語言模型,采用自回歸語言建模方式,進行兩階段訓練:生成式預訓練(無監(jiān)督)+判別式任務精調(diào)(有監(jiān)督)。
第一階段,利用大規(guī)模數(shù)據(jù)訓練出基于深層Transformer的語言模型;第二階段,在通用語意表示的基礎上,根據(jù)下游任務特性進行領域適配。微調(diào)通常是在一個較小的數(shù)據(jù)集上進行的,因此可以使用較小的學習率和少量的訓練迭代次數(shù)進行訓練。
單向訓練方式只能利用之前的文本從前往后進行預測,因此適用于自然語言生成、問答系統(tǒng)、機器翻譯等任務。
BERTVS.GPT
在表征和表達能力上,相較單向語言模型(GPT),雙向語言模型(BERT)能力更強。因為在單向語言模型中,只能依賴于前詞,而無法獲取后詞信息,在處理復雜自然語言任務時,這可能會由于無法充分捕捉上下文信息,影響模型的性能。反之,雙向語言模型優(yōu)勢明顯。
BERT的雙向性增強了它的理解能力,但在一定程度上限制了生成能力,相較于單向模型僅通過上文即可進行續(xù)寫生成,雙向模型在缺乏下文語境時生成能力受限。對整個句子進行雙向處理,也意味著模型更大、訓練和推理時間更長,所需計算資源和存儲空間更多。GPT在簡化程度、訓練及推理速度上更快,更加適用于實時性要求高的場景。
相對于GPT這種單向語言模型,BERT等雙向語言模型雖然存在缺點,但在實際應用中更加靈活和更具有表達能力,也更容易遷移和擴展。在模型研發(fā)方面,BERT更注重模型的復用性和通用性,適用于多種自然語言處理任務的應用。
研發(fā)上,BERT引入了Transformer的Encoder(編碼)網(wǎng)絡結構,用于對輸入的序列進行編碼;GPT則采用Transformer的Decoder(解碼)的網(wǎng)絡結構,用于生成自然語言文本。
模型復雜度方面,BERT比GPT的模型架構更加復雜。訓練方式上,BERT需要在自定義數(shù)據(jù)上進一步微調(diào),與GPT比較,BERT也就更加復雜和煩瑣。
“梅須遜雪三分白,雪卻輸梅一段香?!笨偟膩碚f,BERT和GPT兩者各有千秋,設計和應用方向的差別,決定它們適用于不同的應用環(huán)境。
BERT提出后的一年內(nèi),涌現(xiàn)出許多對其進行擴展的模型,其中包含XLNet模型、RoBERTa模型等。并且,大多數(shù)自然語言處理子領域研發(fā)模式切換為:預訓練+應用微調(diào)/應用ZeroShotPrompt、FewShotPrompt模式。
XLNet模型:XLNet使用Transforner-XL(XL即extralong,表示更擅長處理較長上下文,能更有效建模長期記憶)代替Transformer作為基礎模型,提出了一個新的預訓練語言任務:PermutationLanguageModeling(排列語言模型)。模型將句子內(nèi)的詞語打亂順序,從而使得預測當前詞語時可以利用雙向信息。XLNet相對BERT也使用了更多語料。
RoBERTa模型:RoBERTa采用了與BERT相同的模型結構,同樣采用了MLM掩碼語言模型進行預訓練,但舍棄了BERT中的NSP下句預測模型。此外,RoBERTa采用了更大規(guī)模的數(shù)據(jù)和更棒的微調(diào)方法,從而取得了更好的表現(xiàn)。
GPT為什么沒有出現(xiàn)在中國
GPT目前已經(jīng)發(fā)布5代,從GPT-3起與BERT逐漸拉開差距。實際上,它不僅是一項具體的技術,更多的是關于大語言模型的不同發(fā)展理念。
ChatGPT是從生成式預訓練Transformer,即GPT-3.5在經(jīng)過文本和代碼的混合語料訓練后,再微調(diào)得到的,使用了利用人類反饋的強化學習技術,即帶有搜索啟發(fā)式的強化學習。它將兩種目的緊密結合,用以解決復雜的搜索問題,也是目前大語言模型與人類意圖較匹配的方法。
反觀自然語言處理的發(fā)展史,雖然谷歌的模型升級更迭貫穿始終,競爭力較強,但DeepMind一直以來的重心在強化學習和AI技術方面,在生成式模型研發(fā)上押注不夠。
以往,GPT的可商用場景不明確,BERT的商用趨勢卻十分明顯,因此語義理解精準度一直是領域發(fā)展重點,國內(nèi)外大部分企業(yè)也是沿著BERT模型路線進發(fā)。面對當前情形,盡管谷歌反應夠快,2022年4月便發(fā)布Pathways(谷歌提出的一種接近人腦的AI通用構架)和PaLM(基于Pathways系統(tǒng)訓練的一種語言模型),全力追趕大語言模型技術,但仍顯得入局尚晚。
經(jīng)不完全統(tǒng)計,我國自然語言處理領域目前布局有52家,大部分布局重心在前端,即應用端,虛擬人、智能語音、翻譯及基于自然語言處理技術的機器人流程自動化(RoboticProcessAutomation,以下簡稱RPA)這幾類,發(fā)展較為靠前??萍及l(fā)展中所重視的“技術在前,應用在后”,在我國似乎體現(xiàn)不明顯。
不過,谷歌尚且在大語言模型上落后一線,這只能說明在之前的研發(fā)理念上就存在分歧。目前來看,百度、阿里、華為、訊飛等企業(yè)的大語言模型研發(fā)能力存在潛力,數(shù)據(jù)、技術積淀方面國內(nèi)有相對優(yōu)勢。
國內(nèi)一些企業(yè)在發(fā)展新技術時往往會首先看重商用化可行性,包含醫(yī)藥研發(fā)在內(nèi),許多領域都會考慮短線收益,這種方式并不適合新技術的產(chǎn)生。
從整體走向局部,從應用走向基礎,著眼算力、芯片、框架邏輯、理念意識才是關鍵,決定技術進展的往往是基礎科研。
自然語言處理是通用人工智能最重要的基礎
GPT-4的出現(xiàn)讓自然語言處理社團分成兩股:相信通用人工智能的和不信通用人工智能的。
進入大模型時代,范式改變給自然語言處理帶來內(nèi)核上的轉變,許多獨立存在的子領域被納入大語言模型,不再獨立存在,大語言模型熱度空前。
2023年2月25日,OpenAI首席執(zhí)行官阿爾特曼在博客中分享其對通用人工智能的規(guī)劃,以及OpenAI駕馭AI的風險。
他的短期計劃是使用AI來幫助人類評估更復雜模型的輸出和復雜系統(tǒng)的監(jiān)控;長期計劃是使用AI來幫助人們提出新的想法,以實現(xiàn)更好的對齊技術。他認為,一個錯位的通用人工智能可能會對世界造成嚴重傷害。
微軟于2023年3月發(fā)布的長篇報告說:“考慮到GPT-4功能具有的廣度和深度,我們可以合理地認為它是通用人工智能系統(tǒng)的早期(但仍不完善的)版本。”
不過,他們也承認,“雖然GPT-4‘對處理許多任務而言達到或超過人類水平,但其整體‘智能模式顯然不像人類。所以,大致來講,即使它確實表現(xiàn)出色,但仍然不能完全像人類一樣思考”。
微軟提到了一個詞——思考。
許多哲學家認為,即使通過圖靈測試的機器實際上也不會真正進行思考,而只是對思考的模擬。
斯坦福大學教授克里斯托弗·曼寧在2017年提出,“到目前為止,深度學習已經(jīng)使得語音識別和物體識別的錯誤率大幅下降,但其在高級別的語言處理任務中并沒有產(chǎn)生同等效用”。
人類語言往往依賴于常識及對世界的理解,這也使得機器在處理更高級別的語言任務時,要完全理解人類語言,具備人類的常識和無意識行為。目前大語言模型還很難做到。
不過,20世紀90年代,發(fā)明家、未來學家雷·庫茲韋爾發(fā)現(xiàn)這樣一個規(guī)律:一旦技術變得數(shù)字化,或者被編程為以0和1表示的計算機代碼,它就能夠脫離摩爾定律的束縛,開始呈指數(shù)級加速發(fā)展。簡單來說,技術發(fā)展后的產(chǎn)物會被用來加速技術升級,這就創(chuàng)造了一個正反饋循環(huán)。根據(jù)該理論,技術改良以過去的成就為基礎,每10年革新步調(diào)就會成倍加速。
傳說西塔發(fā)明了國際象棋而使國王十分高興,國王決定要重賞西塔,西塔說:“我不要你的重賞,陛下,只要你在我的棋盤上賞一些麥子就行了。在棋盤的第一個格子里放1粒,在第二個格子里放2粒,在第三個格子里放4粒,在第四個格子里放8?!来祟愅?,以后的每一個格子里放的麥粒數(shù)都是前一個格子里的2倍,直到放滿64個格子就行了。”
區(qū)區(qū)幾粒麥子,這有何難,國王令人如數(shù)付給西塔。計數(shù)麥粒的工作開始了,第一格內(nèi)放1粒,第二格內(nèi)放2粒,第三格內(nèi)放4粒……還沒有到第二十格,一袋麥子已經(jīng)空了。一袋又一袋的麥子被扛到國王面前,而麥粒數(shù)一格接一格飛快增長,國王很快就發(fā)現(xiàn),即便拿出全國的糧食,也兌現(xiàn)不了他對西塔的承諾。
獨立指數(shù)技術加速浪潮,已經(jīng)開始呈現(xiàn)出與其他技術加速浪潮融合的趨勢。比如,自然語言處理技術的加速發(fā)展,不僅是因為自然語言處理或大語言模型的單項技術在加速發(fā)展,還因為AI、深度學習、神經(jīng)網(wǎng)絡等技術正加速發(fā)展,并且都在向這個范圍靠攏。
2000年,互聯(lián)網(wǎng)創(chuàng)始人提姆·伯納斯·李提出“語義網(wǎng)”概念。他希望建立一個以“本體”為基礎的、具有語義特征的智能互聯(lián)網(wǎng),不僅能夠理解語義概念,還能夠理解語義之間的邏輯。突破單句限制,根據(jù)整個動態(tài)交互過程中的語義和語境的變化情況,對用戶實時輸入的語句進行處理并生成結果,是實現(xiàn)“語義網(wǎng)”的基礎。
正常的發(fā)展邏輯是,首先通過解決語義表達,讓計算機利用對現(xiàn)有信息的經(jīng)驗積累和理解,上升到更高層次。這也意味著,AI時代,語義處理會成為操作系統(tǒng)的核心,所有軟件技術都會基于語義技術的發(fā)展而不斷確立上限。
自然語言處理的發(fā)展,目前主要通過大數(shù)據(jù)、模型框架及訓練模式的互補和變化來構建。數(shù)據(jù)存在歧義性。大語言模型時代,數(shù)據(jù)成為重要核心,機器在進行對話或理念傳達時,模型的使用環(huán)境和使用方式可以左右最終的結果。因此,要消解機器對模糊詞、隱喻等的困惑,構建機器對世界的認知系統(tǒng),人,在這種體系中格外重要。