林俊旸/LIN Junyang,周暢/ZHOU Chang,楊紅霞/YANG Hongxia
(阿里巴巴達摩院,中國杭州311100)
近年來,預訓練技術的誕生與迅速崛起成為人工智能(AI)發(fā)展史的一大標志?;跓o監(jiān)督學習和弱監(jiān)督學習的預訓練具備強大的遷移能力,可以充分利用海量無標注數(shù)據(jù),因此能夠應用于多種不同類型的下游任務中。此外,研究人員通過擴大模型容量、擴大訓練數(shù)據(jù)、降低人工標注的依賴等方式讓模型取得更好的效果及通用性。隨著模型規(guī)模和數(shù)據(jù)規(guī)模的不斷擴大,模型效果也會顯著提升。預訓練大模型的研究具有深遠的學術意義,并有著廣泛的應用前景。
傳統(tǒng)的預訓練多集中于單模態(tài)數(shù)據(jù),且多數(shù)的預訓練工作均在英文數(shù)據(jù)上實現(xiàn)。在很長一段時間里,中文數(shù)據(jù)都缺乏大規(guī)模預訓練模型和多模態(tài)預訓練模型。自2020年以來,阿里巴巴達摩院認識到這一問題的重要性,提出了超大規(guī)模中文多模態(tài)預訓練的課題?;诙嗄B(tài)表示學習以及超大規(guī)模預訓練模型的研究,達摩院掌握了基于超大規(guī)模多模態(tài)預訓練的核心技術,于2021年提出了超大規(guī)模中文多模態(tài)預訓練模型M6。在之后的一年內(nèi),達摩院陸續(xù)發(fā)布了百億、千億、萬億和十萬億參數(shù)規(guī)模的超大模型。這些工作推動了低碳AI的發(fā)展,同規(guī)模的M6耗電量不到GPT-3的1/100。達摩院還積極推進M6大模型的產(chǎn)業(yè)化落地,這包括手機淘寶推薦、支付寶搜索推薦等100余種算法場景。同時,M6利用其能力支持多個行業(yè)實現(xiàn)創(chuàng)新產(chǎn)品的孵化,如AI服飾設計能力可以支持服飾制造行業(yè)。同時,M6還推出了大規(guī)模預訓練平臺,使得大模型的應用以服務化的形式對外提供服務。該平臺也是當前下游任務覆蓋最廣的預訓練平臺。平臺化使得大模型同時服務于學界和產(chǎn)業(yè)界,大幅降低了大模型的門檻,并讓AI大模型簡單易用。
此前的研究指出,隨著數(shù)據(jù)規(guī)模、模型規(guī)模和計算資源的不斷增長,模型能力也會不斷提高。在過去的幾年里,學習了海量無監(jiān)督數(shù)據(jù)的預訓練模型的規(guī)模實現(xiàn)了指數(shù)級增長。2018年,最大規(guī)模的BERT和GPT參數(shù)規(guī)模僅約為3億。2019—2020年,具有15億參數(shù)規(guī)模的GPT-2、83億參數(shù)規(guī)模的Megatron、110億參數(shù)規(guī)模的T5、170億參數(shù)規(guī)模的圖靈自然語言生成(Turing-NLG),以及史無前例的1 750億參數(shù)規(guī)模的GPT-3陸續(xù)出現(xiàn)。隨著模型規(guī)模的增大,模型學習大規(guī)模數(shù)據(jù)的能力逐漸增強,并展現(xiàn)出強大的小樣本和零樣本學習的能力。
以上工作大多集中于純文本的預訓練,多模態(tài)預訓練的工作規(guī)模較小,且主要針對理解類的任務。另外,還缺少成熟的中文多模態(tài)預訓練模型。針對以上問題,達摩院聯(lián)合阿里云機器學習平臺及清華大學在2021年1月提出了首個中文領域的超大規(guī)模多模態(tài)預訓練模型M6,并在KDD2021(2021年數(shù)據(jù)挖掘頂會)發(fā)表了相應的論文。M6在超大規(guī)模的中文多模態(tài)數(shù)據(jù)上做預訓練,兼容多模態(tài)及單模態(tài)的理解與生成能力。M6的下游任務包括視覺問答、視覺描述、跨模態(tài)檢索、基于文本的圖像生成和圖像編輯、文本摘要、詩歌生成等,覆蓋領域廣。同時,針對超大模型訓練效率低的問題,達摩院聯(lián)合阿里云機器學習平臺實現(xiàn)了基于圖形處理器(GPU)的混合專家(MoE)機制的開發(fā),這不僅是中國首個基于MoE的超大規(guī)模預訓練的實踐,也是全球首個基于MoE的、最大規(guī)模的多模態(tài)預訓練模型。隨后,達摩院針對MoE機制做了細致的分析和優(yōu)化,提出專家分組機制,并通過一系列的優(yōu)化,提升了訓練效率,降低了資源消耗,在480個GPU上實現(xiàn)了萬億參數(shù)規(guī)模的M6預訓練。該MoE機制是多模態(tài)領域的首個萬億參數(shù)規(guī)模的預訓練模型。相比于同為萬億參數(shù)規(guī)模的MoE模型Switch Transformer(使用了2 048個TPU),M6-T更為低碳和高效(僅使用480個GPU)。考慮到不斷增長的參數(shù)規(guī)模,為了實現(xiàn)更為綠色環(huán)保的模型訓練,達摩院開始研究極限參數(shù)規(guī)模即十萬億參數(shù)的M6預訓練,提出共享解除的訓練機制,實現(xiàn)了512個GPU的十萬億參數(shù)規(guī)模M6模型的預訓練,助力綠色環(huán)保的人工智能的發(fā)展。
M6系列模型以自然語言預處理(NLP)和多模態(tài)領域中最為主流的Transformer架構(gòu)為主體,針對不同模態(tài)的數(shù)據(jù)設計了特定的模塊及預訓練任務(如圖1所示)。在多模態(tài)預訓練模型中,研究人員針對圖像數(shù)據(jù)和文本數(shù)據(jù)的差異,對圖像數(shù)據(jù)進行特征提取的預處理。不同于物體檢測提取特征的方式,M6采用了圖像切塊、backbone模型(如ResNet)等提取特征的方式,并根據(jù)塊的位置提供位置表示。在主體架構(gòu)上,M6依然采用Transformer block堆疊的方式,具體架構(gòu)如圖1所示。
圖1 M6模型及訓練任務示意圖
在預訓練任務上,為了讓模型兼具多模態(tài)及單模態(tài)的理解和生成能力,研究人員設計了有無圖像信息條件的文本去噪和語言模型的任務。這樣一來,模型通過學習便可根據(jù)上下文還原和續(xù)寫文本,從而掌握跨模態(tài)的理解和生成能力,并可以便捷地遷移到多種類型的下游任務中。
傳統(tǒng)的分布式訓練因其有限的顯存,無法支持百億參數(shù)規(guī)模的模型訓練。為了打破顯存的限制,研究人員在數(shù)據(jù)并行的基礎上,增加了重計算的機制,并采用優(yōu)化器狀態(tài)分片和梯度分片的策略,在單臺機器8個GPU的條件下即可訓練一個百億參數(shù)規(guī)模的M6模型。
結(jié)合上述模型架構(gòu)、訓練任務及大模型訓練機制,達摩院采集并處理了超過2 TB的中文圖像及接近300 GB的中文文本數(shù)據(jù),然后使用這份大規(guī)模數(shù)據(jù)對M6進行預訓練,并將這些數(shù)據(jù)遷移到多種類型的下游任務中(包括視覺問答、視覺描述、跨模態(tài)檢索、基于文本的圖像生成和圖像編輯、文本摘要、詩歌生成、故事生成、自然語言理解等)。實驗結(jié)果證明,M6大模型在中文視覺問答和視覺描述中均能取得最優(yōu)的效果。同時,M6大模型具備極強的小樣本學習能力,在多個小樣本任務評測上超出同期的中文預訓練大模型(CPM)。
在攻克了百億參數(shù)規(guī)模M6的難關后,研究人員使用阿里巴巴自研框架Whale,實現(xiàn)了專家并行機制,并將其和M6模型相結(jié)合,在GPU集群上訓練出首個千億參數(shù)規(guī)模的多模態(tài)預訓練模型。具體而言,研究人員使用Whale框架的算子拆分功能,將多個專家網(wǎng)絡分配到多個GPU上,并使用all-to-all通信機制實現(xiàn)輸入信息的分配和聚合。在此基礎上,研究人員添加了峰值顯存優(yōu)化、通信優(yōu)化和混合精度優(yōu)化的一系列策略,在128個A100上達到1 440個樣本/s的訓練效率。實驗結(jié)果表明,相較于百億參數(shù)規(guī)模M6,M6-MoE模型的參數(shù)規(guī)模雖然增長了10倍,但訓練效率依然高于M6。M6-MoE的語言模型困惑度評測具有較大優(yōu)勢。
研究人員在研究混合專家機制與大模型訓練的結(jié)合并分析其中的問題后發(fā)現(xiàn),輔助損失的必要性比較低,并且其中的top-k路由機制中k的大小對模型效果具有決定性的影響。隨著k的增大,模型性能逐漸提升,但同時也會出現(xiàn)邊際效應遞減及模型的訓練效率顯著下降的情況。針對以上問題,研究人員設計了專家分組機制(如圖2所示),將專家網(wǎng)絡分成多組后再以并行的方式對每組進行top-k路由。實驗表明,分組機制能夠顯著提升模型的訓練效率;當k值較大時,分組機制的模型表現(xiàn)也優(yōu)于傳統(tǒng)方法;在上下游的語言模型困惑度評測上,分組后的模型均顯著優(yōu)于傳統(tǒng)方法。
圖2 專家分組機制示意圖
研究人員將此方法應用于萬億參數(shù)規(guī)模的M6-T模型的訓練,并優(yōu)化了大模型中的顯存占用,即在480個V100-32G上僅用約3天的時間便實現(xiàn)了萬億參數(shù)規(guī)模M6-T模型的預訓練。實驗表明,相較于基線模型,結(jié)合了專家分組機制的M6-T收斂速度顯著加快,同時損失也更少。
經(jīng)過研究,達摩院提出了更加低碳的共享解除的訓練機制(具體如圖3),并且設計了粒度可控的CPU offload(中央處理器負載遷移),成功地用10天左右的時間在512個GPU上完成十萬億參數(shù)規(guī)模的M6-10T的預訓練。
圖3 共享解除機制示意圖
實驗證明,M6-10T方案在收斂和下游遷移的過程中具有有效性。同時,它在十萬億參數(shù)規(guī)模的M6-10T模型上做出了成功實踐,僅用10天左右的時間便取得了非常突出的收斂效果。十萬億模型達到相同預訓練損失所需的樣本量僅為萬億模型的40%,這充分顯示出該機制的優(yōu)勢。
超大規(guī)模多模態(tài)預訓練取得的成功也意味著它將成為社會發(fā)展的重要基建設施,為各類下游任務提供支持。目前,針對互聯(lián)網(wǎng)生態(tài)中各種復雜的業(yè)務場景,M6做出了相應的優(yōu)化,在服裝設計、自動文案、金融服務、搜索推薦等業(yè)務場景中實現(xiàn)商業(yè)落地,產(chǎn)生了巨大的商業(yè)價值以及社會價值。
此外,千億參數(shù)和萬億參數(shù)M6大模型的研發(fā),大力推動了低碳大模型的發(fā)展,并助力綠色環(huán)保AI的發(fā)展,響應了中國的碳中和戰(zhàn)略部署。相比于傳統(tǒng)方法,M6元生款數(shù)智制造結(jié)合犀牛環(huán)保面料的研發(fā)應用,能在全鏈路中減少30%以上的碳排放。每賣出一件元生款鏈路生產(chǎn)的服裝,就能減排0.35 kg二氧化碳。也就是說,賣出50件就相當于種下一棵樹。
M6具有的一項重要能力是基于文本的圖像生成和圖像編輯。為了充分利用Transformer架構(gòu)對大數(shù)據(jù)的高效處理和泛化能力,研究人員在文到圖的生成架構(gòu)上,選用了兩階段模型:第一階段,需要將圖像進行離散編碼;而在第二階段,則利用預訓練模型M6來建模文本和圖像離散編碼的關系。為了進一步提升圖像生成的清晰度和細節(jié)豐富度,研究人員將序列長度從1 024延長至4 096,并加入了稀疏注意力,成功將生成圖像分辨率提升至1 024×1 024。在服飾制造行業(yè),M6模型能夠生成具有高清晰度和豐富細節(jié)的圖片(如圖4),并利用AI服飾設計的能力在服裝制造行業(yè)實現(xiàn)落地。
圖4 羊羔絨毛衣生成示例
為了進一步提升M6在圖像生成過程中的可控性和效率,研究人員提出了基于M6的非自回歸的圖像生成模型,實現(xiàn)在不同控制條件下(包括文本、圖像、風格等)的圖像生成,使得模型具備了圖像編輯的能力。
基于以上能力,M6以AI設計師的身份參與到服飾制造等行業(yè)中。對該行業(yè)傳統(tǒng)企劃鏈路來說,從樣式規(guī)劃到最終的生產(chǎn)上架,往往需要耗時半年。例如,一件冬季的羽絨服,需要在初夏時就決定其款式并開始漫長的人工設計和反復的打樣修改。2021年,達摩院智能計算實驗室與阿里巴巴犀牛智造深度合作,借助數(shù)字化的能力,自動化地捕捉流行機會,并結(jié)合M6的生成能力,為商家提供敏捷高效的設計和豐富的體驗。
目前,M6生成的服裝圖片已通過質(zhì)檢并達到商家的質(zhì)量標準。首期文到圖生成的人工質(zhì)檢優(yōu)質(zhì)率約為10%,比人工設計師的效率高10~20倍。研究人員會根據(jù)人工反饋的結(jié)果不斷優(yōu)化模型的生成質(zhì)量,提升優(yōu)質(zhì)率。研究人員不斷優(yōu)化模特試衣算法,協(xié)助犀牛智造為商家提供更多的模特試穿效果圖。
為了進一步驗證并應用M6的超強圖像生成以及創(chuàng)新能力,達摩院和某車廠合作產(chǎn)出概念型車型以及未來型車型,以輔助汽車設計師進行車型設計,并和阿里云LOGO服務團隊合作產(chǎn)出種類豐富的LOGO配圖供客戶挑選(如圖5所示);另外,還和螞蟻花唄團隊合作生成寵物頭像圖作為寵物唯一身份認證,通過少樣本或者文本描述即可生成符合要求的圖像。
圖5 概念車LOGO配圖示例
M6的另一個重要能力便是文本生成。該能力能夠運用于視覺描述、視覺問答、文本摘要、問答、對話、文案創(chuàng)作等。目前M6的文本生成已經(jīng)達到工業(yè)級標準。在訓練語料較少的情況下,M6的優(yōu)勢更加明顯,僅以此前5%的數(shù)據(jù)再通過微調(diào)便可達到更優(yōu)的效果,人工審核通過率最高可達85%。目前M6的文本生成已經(jīng)成功應用于UC暢聊中臺、手機淘寶和支付寶Push文案、阿里小蜜智能客服、阿里小蜜虛擬直播、支付寶腰封文案中。在UC暢聊平臺中,算法團隊利用暢聊評論中臺沉淀的歷史用戶回復數(shù)據(jù)對M6模型進行微調(diào),批量構(gòu)造機器人自動回復,并通過M6模型每天的自動總結(jié)和生成推薦理由,覆蓋社會、娛樂、體育、汽車等10個內(nèi)容類目,引發(fā)用戶回復率顯著提升(約10%)。
虛擬直播中,在不足1 000條標注數(shù)據(jù)的條件下,M6結(jié)合非自回歸生成方法(SANA)實現(xiàn)了在雙語評估替換(BLEU)評測上超過10%的大幅提升,人工審核通過率超70%,大大提升了智能劇本的生成效率(如圖6所示)。
圖6 生成劇本示例
在支付寶的腰封文案場景中,M6利用其生成能力為該業(yè)務產(chǎn)出主副標題。相較于基線模型,M6產(chǎn)出的文案在線上實現(xiàn)了超5%的點擊率。
在支付寶搜索場景中,結(jié)合經(jīng)典的雙塔結(jié)構(gòu),M6在場景語料上進行微調(diào),然后應用于向量召回中。更加關注語義和知識信息的預訓練模型能夠有效提升檢索的準確率。超大規(guī)模模型強大的小樣本學習和理解能力則助力冷啟場景和長尾查詢詞的召回,從而實現(xiàn)了搜索頁點擊率(PVCTR)的顯著提升。
在更加依賴內(nèi)容表示的內(nèi)容導購輕應用中,M6的作用更加明顯。在家居場景中,相比于傳統(tǒng)的圖像單模態(tài)表示,M6的多模態(tài)表示包含更加豐富的信息,在召回和排序場景均能實現(xiàn)效果的提升,在風格一致性上的表現(xiàn)尤其突出。這體現(xiàn)了多模態(tài)表示學習的特點。
在搜索推薦以外的場景中,達摩院聯(lián)合斑馬汽車,使用M6來提升車輛檢索準確率。在該場景中,系統(tǒng)需要根據(jù)用戶指令檢索出最相關的車輛,而M6提供的用戶指令表示能夠更加準確地反映用戶意圖,幫助下游的車輛檢索模型指代最相關車輛。這能夠?qū)蚀_率提升5%。
超大規(guī)模多模態(tài)預訓練的應用意味著大模型開始實現(xiàn)對各行各業(yè)的支持。為了讓大模型更加簡便易用,達摩院推出了M6預訓練平臺,以服務化的形式將大模型的能力運用至各行各業(yè)中。憑借平臺的易用性、訓練高效低碳、下游任務覆蓋廣泛等特點,M6服務化平臺服務了阿里巴巴集團內(nèi)部各類業(yè)務。同時,M6預訓練平臺也已經(jīng)通過阿里云對外發(fā)布。
M6多模態(tài)預訓練服務化平臺具有3個核心能力點:
?任務形式覆蓋廣。該平臺是目前下游任務覆蓋最廣泛的預訓練平臺,覆蓋多模態(tài)輸入輸出的常見任務超20個。
?高性能&簡單易用。無須關注分布式訓練、數(shù)據(jù)輸入輸出、數(shù)據(jù)并行、底層實現(xiàn)以及訓練評估流程等細節(jié),準備好輸入數(shù)據(jù),再對參數(shù)進行簡單修改,即可實現(xiàn)多機多卡的訓練或推理任務。
?下游任務內(nèi)源+支持自定義模型改造。用戶可以在M6的上層實現(xiàn)自定義模型,無須關注過多大模型細節(jié)。
M6平臺集成了多種微調(diào)形式,并提供了高效&低碳的分布式訓練、低延遲的模型服務、統(tǒng)一的數(shù)據(jù)&模型管理、一鍵式模型部署方案。用戶可以根據(jù)自身數(shù)據(jù)情況,選擇使用軟件開發(fā)工具包(SDK)調(diào)用、微調(diào)、自定義模型等方式來靈活支持自身的下游任務。M6平臺的整體框架如圖7所示。
圖7 平臺整體架構(gòu)示意圖
相較于傳統(tǒng)小作坊式的AI服務,集中式的數(shù)據(jù)、算力開發(fā)模式有著更好的平臺粘性,因此我們希望能將內(nèi)部的成功經(jīng)驗以服務化平臺的方式讓更多外部用戶獲益。同時,基于阿里云強大的基礎設施,M6預訓練平臺能提供更完善的全鏈路服務,實現(xiàn)AI普惠化目標。
自2020年以來,達摩院深入研究超大規(guī)模多模態(tài)預訓練關鍵技術,在2021年陸續(xù)發(fā)布百億、千億、萬億、十萬億參數(shù)規(guī)模的M6模型。并且,達摩院持續(xù)發(fā)力,解決大模型應用落地難的問題,并專注于大模型的產(chǎn)業(yè)化落地,在服飾制造、工業(yè)級文案生產(chǎn)、搜索推薦等場景實現(xiàn)了應用。在此基礎上,達摩院將M6的能力以服務化的形式集成到M6預訓練平臺中并對外發(fā)布,幫助行業(yè)、企業(yè)和個體快速使用大模型,推動普惠AI發(fā)展。
未來,大模型在產(chǎn)業(yè)領域的應用將更加豐富。前景主要包括:推動傳統(tǒng)產(chǎn)業(yè)智能化轉(zhuǎn)型,催生基于智能模型的新產(chǎn)業(yè),以及改變?nèi)祟惿鐣纳a(chǎn)和管理模式等。預訓練大模型還有亟待突破的幾個難題:
(1)目前的主流實踐是先通過訓練大模型得到參數(shù)規(guī)模大、精度高的模型,再基于下游任務數(shù)據(jù),通過剪枝、微調(diào)的方法將模型的體積壓縮,在基本不損失精度的情況下減輕部署壓力。目前,業(yè)界還沒找到通用的、直接訓練小型模型就能得到較滿意精度的辦法。
(2)訓練千億、萬億模型動輒需要上千個GPU卡,這對大模型的推廣和普惠帶來了很大的挑戰(zhàn)。
(3)因為參數(shù)量大,目前預訓練模型主要針對大量非結(jié)構(gòu)化數(shù)據(jù)。如何與知識等結(jié)構(gòu)化數(shù)據(jù)進行結(jié)合,更加有效地進行認知推理,也是一個非常大的挑戰(zhàn)。
以上難題使得大模型參數(shù)競賽進入“冷靜期”,而大小模型在云邊端協(xié)同進化則帶來了新的突破可能性。云邊端協(xié)同使小模型更容易獲取通用的知識與能力。小模型專注于在特定場景做極致優(yōu)化,從而獲得性能與效率的提升。大小模型的協(xié)同進化可以更好地服務于更加復雜的新場景,例如元宇宙、數(shù)字人等。同時,該體系更有利于保護用戶數(shù)據(jù)隱私。