投石問路,果麥AI事業(yè)部率先在出版行業(yè)大模型上取得突破。
作為業(yè)內(nèi)最早進(jìn)軍AIGC(人工智能生成內(nèi)容)領(lǐng)域的企業(yè)之一,果麥文化(以下簡(jiǎn)稱“果麥”)AI(人工智能)事業(yè)部開發(fā)的大模型“金字塔”通過了上海市生成式人工智能服務(wù)備案,成為國(guó)內(nèi)第一個(gè)出版公司開發(fā)且成功備案的AI大模型。果麥文化AI事業(yè)部開發(fā)的人工智能校對(duì)工具“AI校對(duì)王”和AI動(dòng)漫智能創(chuàng)作平臺(tái)“愛漫閣”也于2024年投入商業(yè)化使用,奏響了出版行業(yè)向AIGC挺進(jìn)的號(hào)角。
果麥?zhǔn)且患矣谢ヂ?lián)網(wǎng)基因的公司,其創(chuàng)始團(tuán)隊(duì)核心成員大部分和互聯(lián)網(wǎng)行業(yè)有很深的淵源。自2022年AIGC應(yīng)用大爆發(fā)以來,果麥文化在出版行業(yè)應(yīng)用AI方面進(jìn)行了一系列有益探索。
隨著行業(yè)對(duì)AIGC認(rèn)識(shí)的深化,從業(yè)者對(duì)基礎(chǔ)大模型的需求也開始逐步被側(cè)重提供解決方案的行業(yè)大模型取代。果麥AI事業(yè)部抓住這一機(jī)會(huì),率先在出版行業(yè)大模型上投石問路。2024年12月2日,由果麥開發(fā)的核心大模型“金字塔”通過了網(wǎng)信辦“生成式人工智能服務(wù)”備案(備案號(hào):Shanghai-JinZiTa-202409230018)。截至目前,上海市完成備案的大模型僅60款,在AI校對(duì)領(lǐng)域通過備案的大模型,全國(guó)也僅有數(shù)款。
大模型“金字塔”是果麥在通用語言大模型開源框架的基礎(chǔ)上,結(jié)合自研算法調(diào)整和自采語料進(jìn)行了二次開發(fā),打造出的一款深度學(xué)習(xí)的自然語言處理(NLP)模型產(chǎn)品,廣泛應(yīng)用于中文批改、文章潤(rùn)色、文案生成等人工智能文字輔助處理任務(wù)。
開發(fā)大模型的機(jī)構(gòu)很多,果麥何以對(duì)自己的大模型如此自信?他們表示,“金字塔”擁有堪稱“壁壘級(jí)”的訓(xùn)練數(shù)據(jù)。為了搭建這一大模型,果麥在自身近20年出版事業(yè)所積累的海量校對(duì)文稿數(shù)據(jù)與編校經(jīng)驗(yàn)的基礎(chǔ)上,通過與30余家知名出版機(jī)構(gòu)的深度授權(quán)合作,采購了海量真實(shí)圖書編校人員對(duì)圖書文本所做的編校流程。迄今為止,“金字塔”已深度學(xué)習(xí)了超過百億字的中文出版物“三審三校”的校對(duì)數(shù)據(jù),涵蓋了各主流內(nèi)容領(lǐng)域,并且處于持續(xù)更新狀態(tài)。這些數(shù)據(jù)均經(jīng)過了專業(yè)的采集、清洗、標(biāo)準(zhǔn)化、規(guī)范化流程處理,在高精度的監(jiān)督訓(xùn)練下,大模型深度理解并更好地掌握了出版物校對(duì)的理念、技術(shù)、標(biāo)準(zhǔn)、范式,為實(shí)現(xiàn)高精度、低誤報(bào)、只校對(duì)、不亂改的“出版物質(zhì)檢級(jí)”人工智能校對(duì)提供了可能性。
在中文處理上,其架構(gòu)特別優(yōu)化了中文的語言特性。首先,模型對(duì)漢字和詞組分別進(jìn)行了嵌入標(biāo)識(shí),允許它在多義性高的中文環(huán)境中,更好地抓取上下文的細(xì)微差別。此外,模型還采用了多尺度的卷積層和自注意力層相結(jié)合的結(jié)構(gòu),使其在處理中文的復(fù)雜語法結(jié)構(gòu)時(shí)表現(xiàn)尤為突出。
果麥推出的人工智能校對(duì)工具“Al校對(duì)王”,能在復(fù)雜多義的中文語境里更好地聚焦上下文的差異,理解有文化背景和歷史典故的文本,解析長(zhǎng)句,分析復(fù)句,在字、詞、句的多層次上實(shí)現(xiàn)更精準(zhǔn)的語義理解,對(duì)自然語言文本做出符合語言規(guī)范要求的修訂建議,以專業(yè)文字校對(duì)人員和資深編輯的標(biāo)準(zhǔn)和方法進(jìn)行“語義級(jí)”內(nèi)容糾錯(cuò)。
與此同時(shí),果麥還深度投資并直接參與研發(fā)、運(yùn)營(yíng)了AI動(dòng)漫智能創(chuàng)作平臺(tái)“愛漫閣”。作為國(guó)內(nèi)AIGC領(lǐng)域早期通過網(wǎng)信辦算法備案的AI平臺(tái)之一,“愛漫閣”主要面向漫畫師、動(dòng)畫師、插畫師、設(shè)計(jì)師等專業(yè)用戶及動(dòng)漫愛好者,支持文生圖、圖生圖、參考生圖、AI模型訓(xùn)練等功能,重新定義漫畫創(chuàng)作流程,幫助所有人釋放創(chuàng)作超能力。
近期,“愛漫閣”已與上海電視臺(tái)東方衛(wèi)視正式達(dá)成深度合作伙伴關(guān)系。果麥基于“愛漫閣”策劃、制作的系列圖書也即將面市。