龍啟銘
[摘要]在人工智能時(shí)代,智能應(yīng)用發(fā)展得風(fēng)生水起,各行各業(yè)盡現(xiàn)智能風(fēng)采,出版業(yè)的各種智能出版審校軟件也應(yīng)運(yùn)而生。文章探討智能審校的釋義,深度剖析智能審校的內(nèi)涵及關(guān)鍵技術(shù),多維度、全方位地研究智能審校軟件的功能,分析其給出版業(yè)帶來的機(jī)遇和挑戰(zhàn),以實(shí)踐經(jīng)驗(yàn)解析和認(rèn)知智能審校軟件,以期為智能審校發(fā)展提供思考。
[關(guān)鍵詞]人工智能;審校;智能審校;智能審校軟件
近年來,人工智能正在悄然地改變整個(gè)世界,賦能新時(shí)代。在出版界,如何把握和應(yīng)用這一熱門技術(shù),使出版審校更有效地提高書稿的準(zhǔn)確性,減少審校差錯(cuò),讓智能審校賦能出版,打造業(yè)內(nèi)拳頭作品?這是一個(gè)亟須學(xué)界思考與業(yè)內(nèi)探索的重要課題。跳躍的文字是書稿的靈魂,是作者思想的體現(xiàn),也凝聚審校人員的心血。在稿件加工過程中,通過各類數(shù)據(jù)庫,智能審校系統(tǒng)能夠解決審校人員的通用問題,提高審校工作效率和準(zhǔn)確率,并借助云端對接,作者、編輯和審校人員三方可實(shí)現(xiàn)實(shí)時(shí)交互,高效溝通,從而加快出版進(jìn)程。
一、智能審校釋義
(一)人工智能(AI)釋義
人工智能(Artificial Intelligence)的英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)[1]。
人工智能一詞誕生于1956年,在由閔斯基、約翰·麥卡錫(John McCarthy)、克勞德·香農(nóng)(Claude Shannon)等人主持的達(dá)特茅斯會議上,人們提出,“學(xué)習(xí)和智能的每個(gè)方面都能被精確地描述,使人們可以制造一臺機(jī)器來模擬它,并將使用機(jī)器模擬人類認(rèn)知能力的技術(shù)命名為人工智能”[2]。
尼爾斯·約翰.尼爾森(Nils John Nilsson)教授對人工智能的定義為:“人工智能是關(guān)于知識的學(xué)科—怎樣表示知識以及怎樣獲得知識并使用知識的科學(xué)?!盵3]
美國麻省理工學(xué)院的溫斯頓(P.Winston)教授對人工智能的定義為:“人工智能就是研究如何使計(jì)算機(jī)去做過去只有人才能做的智能工作?!盵4]
上述定義說明,人工智能融入人類生活的方方面面,讓人類從部分勞作中解脫出來。
(二)審校釋義
“審?!鳖櫭剂x就是審查、校對并加以改正。“多出善本,不出錯(cuò)本”一直是出版人遵循的基本原則。中華文化博大精深,其依賴于不同專業(yè)領(lǐng)域的善本將信息保真,并一代又一代地傳承下去,如醫(yī)學(xué)領(lǐng)域的曠世之作《本草綱目》等,這些善本保存了璀璨的中華文明。在出版物的出版過程中,審校人員發(fā)揮著重要作用,其要對讀者負(fù)責(zé),要對作者作品負(fù)責(zé),通過校異同、校是非來保障作品出版質(zhì)量。“校異同”是將校樣與原稿逐字逐句一一比對,剔除并改正錄排方面的錯(cuò)漏;“校是非”是要改正校樣中政治、語法、邏輯等方面的錯(cuò)漏。審校則主要包括糾正修改錯(cuò)字、漏字等文字差錯(cuò)和詞語差錯(cuò)、語法差錯(cuò)、數(shù)字差錯(cuò),以及不符合國家規(guī)范標(biāo)準(zhǔn)的標(biāo)點(diǎn)符號差錯(cuò)、量和單位使用差錯(cuò)、版面格式差錯(cuò)等。審校人員還需要潤色作品文字,優(yōu)化作品結(jié)構(gòu),再次凝聚與升華作品內(nèi)容。以上這些都是審校人員對作品進(jìn)行的二次創(chuàng)作。實(shí)際上,對審校人員而言,其要嚴(yán)把出版作品質(zhì)量關(guān),精心雕琢字詞句,悉心梳理作品邏輯表達(dá)和結(jié)構(gòu)模式,不遺余力地進(jìn)行校對,讓作品成為善本,增強(qiáng)出版人再創(chuàng)作的自豪感和成就感。
二、智能審校的內(nèi)涵與自然語言處理
隨著人工智能技術(shù)介入各行各業(yè),出版行業(yè)進(jìn)入智能化的發(fā)展新階段。作為業(yè)內(nèi)人士,我們要理解和把握智能審校的內(nèi)涵,從中發(fā)現(xiàn)出版行業(yè)發(fā)展的新起點(diǎn),抓住智能審校的核心,結(jié)合審校實(shí)踐和經(jīng)驗(yàn),熟練運(yùn)用新技術(shù),全面地認(rèn)知智能審校,使審校工作更加高效、準(zhǔn)確。
(一)智能審校的內(nèi)涵
智能審校即“智能+審?!?,也就是傳統(tǒng)出版借助人工智能技術(shù)。實(shí)際上,人工智能涵蓋計(jì)算機(jī)視覺、知識表示、自然語言處理、數(shù)據(jù)分析、專家系統(tǒng)、推薦系統(tǒng)、通用智能等多個(gè)研究方向,其核心是根據(jù)給定的輸入做判斷或預(yù)測。“給定的輸入”即來自真實(shí)世界的數(shù)據(jù)。對審校而言,輸入的數(shù)據(jù)源就是出版行業(yè)的各類標(biāo)準(zhǔn)規(guī)范,如《大辭海》《作者編輯常用標(biāo)準(zhǔn)及規(guī)范》《標(biāo)點(diǎn)符號用法(GB/T 15834-2011)》《圖書編輯校對實(shí)用手冊》《通用規(guī)范漢字表(2013版)》等。智能審校要先整理這些真實(shí)的專業(yè)數(shù)據(jù)并形成審校專業(yè)數(shù)據(jù)庫,再利用智能(算法+算力)訓(xùn)練審校系統(tǒng),使其能靈活運(yùn)用審校專業(yè)知識,利用既定的判定邏輯,完成只有專業(yè)審校人員才能完成的審校工作。首先,審校專業(yè)數(shù)據(jù)庫既要內(nèi)容豐富,又要知識覆蓋面廣。也就是說,智能審校要以大數(shù)據(jù)為基礎(chǔ),利用專業(yè)知識儲備解決各種各樣的審校專業(yè)問題。其次,“算法”是智能審校系統(tǒng)的靈魂。機(jī)器學(xué)習(xí)(或深度學(xué)習(xí))已成為人工智能的一種服務(wù)支持,是人工智能的核心,也是使計(jì)算機(jī)具有智能的根本途徑。其要學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,根據(jù)用戶需求選用監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等訓(xùn)練學(xué)習(xí)方法,使計(jì)算機(jī)具有學(xué)習(xí)、分析和思考的能力。機(jī)器學(xué)習(xí)所選用的某種算法一定是針對用戶需求的最優(yōu)算法。算法的優(yōu)劣相當(dāng)于人類智力水平的高低,決定著智能系統(tǒng)最終判定的準(zhǔn)確性。智能審校面對的用戶需求是對各類自然語言進(jìn)行處理,而自然語言處理也是人工智能一個(gè)重要的研究方向,其是讓計(jì)算機(jī)理解(或假裝理解)人類的語言(如漢語、英語、法語等),并完成一系列與文字相關(guān)的任務(wù),如審校任務(wù)。最后,需要強(qiáng)調(diào)的是,“算力”是智能系統(tǒng)的基石,決定智能系統(tǒng)的最終輸出速度。如果沒有算力,智能系統(tǒng)就會無法輸出或輸出不及時(shí),導(dǎo)致前面所有的努力都功虧一簣。智能審校可借助成熟的“云”計(jì)算,提高審校速度。綜上所述,智能審校的內(nèi)涵就是“出版行業(yè)標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)+能滿足自然語言處理需求的機(jī)器學(xué)習(xí)(或深度學(xué)習(xí))算法+基于云計(jì)算的算力?!比鐖D1所示。
(二)智能審校關(guān)鍵技術(shù)分析:自然語言處理
不同國家有不同的自然語言,如中國人說漢語、外國人說各種不同的外語,如英語、法語、日語和韓語等。人們學(xué)習(xí)語言,形成自身的邏輯思維和認(rèn)知。自然語言是人類所特有的復(fù)雜的認(rèn)知心理活動,用于表達(dá)自身的喜怒哀樂、見識和見解,它是人類思維的明證,也是溝通與交流的載體與橋梁。
語言不是孤立的,是錯(cuò)綜復(fù)雜的,有時(shí)還是模棱兩可的。在學(xué)習(xí)任何語言時(shí),每個(gè)人都必先學(xué)習(xí)該語言的語法與語義,然后要理解復(fù)雜的語境與語用。以漢語為例,一個(gè)“我”就有多種表達(dá):吾、鄙人、敝人、小女子、在下等,這就是語言的多義性。此外,很多時(shí)候自然語言還存在歧義現(xiàn)象及模糊性,不同的人對同一句話的理解也可能是不同的。因此,自然語言處理的研究是復(fù)雜且高深的,像馬斯克要研發(fā)推廣的“腦機(jī)接口芯片”一樣,自然語言處理面對的挑戰(zhàn)是人類精密且神秘復(fù)雜的大腦,要模擬人類的思維和模式,形成準(zhǔn)確的判定。在人工智能的重要研究方向,自然語言處理被譽(yù)為“人工智能皇冠上的明珠”,是人工智能研究的巔峰與制高點(diǎn)。
自然語言處理是以自然語言為輸入,運(yùn)用內(nèi)部的語言模型和智能算法,模擬人類的智能,對自然語言進(jìn)行理解、分析和生成,并返回預(yù)測結(jié)果。其要通過機(jī)器學(xué)習(xí)或深度學(xué)習(xí)獲得語言知識,以真實(shí)語料庫實(shí)現(xiàn)真實(shí)文本的處理,即完成對字、詞、句、段落、篇章的輸入、理解、分析、識別、生成與輸出。自然語言處理包括自然語言理解和自然語言生成,自然語言理解側(cè)重于以自然語言為輸入,在處理后輸出機(jī)器可讀的語義表示;而自然語言生成則是將機(jī)器可讀的語義表示生成自然語言文本。
自然語言理解通常分為三個(gè)層次:詞法分析、句法分析、語義分析。詞法分析是自然語言處理的基石,主要包括分詞、詞性標(biāo)注、命名實(shí)體識別、新詞發(fā)現(xiàn)等。句法分析要自動推導(dǎo)句子的句法結(jié)構(gòu),主要包括短語結(jié)構(gòu)分析、依存句法分析和成分句法分析等。語義分析指分析文字的含義,也就是詞語、句子、段落的意義,包括詞義消歧、框架語義分析、詞匯、句子、段落等。智能審校針對的是自然語言生成機(jī)器可讀的語義,側(cè)重于自然語言理解層面,則圖2未展開自然語言生成分支表述。審校的對象是自然語言所形成的文字,因此,在本質(zhì)上,智能審校只是自然語言處理的一種基于文本處理的智能應(yīng)用。語義分析是智能審校的核心,智能審校只有在語義分析的基礎(chǔ)上才能實(shí)現(xiàn)智能識別。圖2詳細(xì)列示基于自然語言理解的自然語言處理的主要任務(wù)。
可見,自然語言處理最能體現(xiàn)人工智能研究人員的水平。智能審校就是借用這一技術(shù)來完成出版過程的審校工作,助力出版業(yè)進(jìn)入智能新時(shí)代。由此,理解自然語言處理就是理解智能審校,掌握自然語言處理的優(yōu)勢與劣勢,就是掌握智能審校的優(yōu)勢與劣勢,兩者相輔相成,相得益彰。
三、智能審校軟件
隨著智能技術(shù)的不斷演進(jìn)和更新,出版產(chǎn)業(yè)正在經(jīng)歷轉(zhuǎn)型和升級,進(jìn)入智能出版新時(shí)代。在各種智能審校軟件不斷推出的當(dāng)下,出版人不僅要保持對智能技術(shù)的敏銳性,還要了解并能運(yùn)用智能審校軟件的各種功能,借助新技術(shù)、新方法和新平臺,提高出版審校工作效率,提升出版質(zhì)量。
(一)智能審校軟件系統(tǒng)的通用功能
智能審校軟件是一種輔助工具,服務(wù)于出版,其能夠節(jié)省審校的人力、物力,減少人工分析、處理書稿的差錯(cuò),輔助審校人員高質(zhì)高效地完成作品的出版。而智能軟件的基石是智庫。智庫是強(qiáng)大且豐富的各類知識庫,包括通用智庫、專用智庫及各類自定義智庫等。智能審校軟件能夠形成屬于自己的專業(yè)智庫。例如,黑馬校對軟件[5]具有10000億文字的高質(zhì)量語料,包含800萬條錯(cuò)誤規(guī)則庫、8000萬條大規(guī)模專業(yè)庫和79個(gè)專業(yè)詞庫,涉及自定義用戶庫、錯(cuò)誤庫、重點(diǎn)詞監(jiān)控庫、敏感庫、建議庫、領(lǐng)導(dǎo)人職務(wù)庫和排序庫等詞庫。智庫要根據(jù)用戶需求和標(biāo)準(zhǔn)不斷更新和完善,是一個(gè)日積月累、日臻完善的過程。智能審校軟件需要智庫和智能算法來訓(xùn)練語言模型,形成其“智能”,最終完成預(yù)期的審校輸出。智能審校軟件的智庫越完美,其算法和算力越優(yōu)化,就越能產(chǎn)生最佳的審校智能,更快速地檢查和修改稿件的各類錯(cuò)誤,助力審校人員高質(zhì)量地完成書稿的審校工作。
智能審校軟件的通用功能一般包括字詞符號檢查、邏輯體例檢查、格式檢查、知識類檢查、敏感內(nèi)容檢查、政要信息檢查、內(nèi)容相似性檢查、上下文重復(fù)性檢查等(如圖3所示)。若智能審校軟件不同,其特色也會有所不同,即不同智能審校軟件具有自己的特色模塊,但本質(zhì)都是輔助審校工作,降低成本,增加產(chǎn)出。
(二)智能審校軟件給出版業(yè)帶來的機(jī)遇與挑戰(zhàn)
當(dāng)前,智能審校軟件能夠快速準(zhǔn)確地協(xié)助審校人員處理稿件,得到了業(yè)界的認(rèn)可,如方正智能輔助審校系統(tǒng)處理單篇10萬字左右的稿件平均用時(shí)不超過2分鐘。同時(shí),智能審校軟件在提高審校的精確率方面也表現(xiàn)出色,如鳳凰智能校對系統(tǒng)的敏感詞精確率可達(dá)到98%,其錯(cuò)別字精確率可達(dá)到92%,這些都是人工處理所無法企及的。智能
審校軟件還擅長校對常見的錄入錯(cuò)誤、錯(cuò)別字和非規(guī)范詞條、政治類內(nèi)容、口號/語錄的規(guī)范、敏感類內(nèi)容等。只要具有專業(yè)智庫,遵循準(zhǔn)確有效的規(guī)則,智能審校軟件就能毫無遺漏地找到并糾正這類稿件審校錯(cuò)誤。此外,智能審校軟件還能處理與語法相關(guān)的單字、重復(fù)字詞等錯(cuò)誤。與智能審校軟件相比,審校人員在處理書稿,尤其大型書稿時(shí),查找某類常見錯(cuò)誤會更費(fèi)時(shí)、費(fèi)力,審校效率低,如將某種標(biāo)點(diǎn)符號從半角全部轉(zhuǎn)成全角,人工審校就易出現(xiàn)遺漏情況。智能審校則能將審校人員從密集重復(fù)性的勞動中解脫出來,通過機(jī)器仿效完成這些重復(fù)性任務(wù),實(shí)現(xiàn)出版行業(yè)從人員密集型到智能密集型的轉(zhuǎn)變,加快作品出版的速度。
但智能審校系統(tǒng)能否完全替代審校人員?雖然AlphaGo的出現(xiàn)標(biāo)志著強(qiáng)人工智能時(shí)代的來臨,甚至人類有可能進(jìn)入超人工智能時(shí)代,但是在出版審校實(shí)際工作中,審校人員除了解決稿件常見的字詞、體例等方面的問題,還要審校和潤色內(nèi)容,保證書稿知識的嚴(yán)謹(jǐn)性和正確性,使出版作品成為善本。在這方面,目前的智能審校軟件還不能自行完成。
四、結(jié)語
在人工智能時(shí)代,人工智能使人類從通用的事務(wù)中解脫出來,但人工智能并不會取代人類的創(chuàng)造力。對出版人而言,我們要積極擁抱和利用智能技術(shù),使用智能審校系統(tǒng),融合技能與專業(yè)知識,引領(lǐng)智能出版的未來發(fā)展。
[參考文獻(xiàn)]
[1]“科普中國”科學(xué)百科詞條編寫與應(yīng)用工作項(xiàng)目.人工智能[EB/OL].[2022-03-14].https://baike.baidu.com/item/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/9180?fromtitle=AI&fromid=25417.
[2]Crevier,D.AI:The Tumultuous History of the Search for Artificial Intelligence[M].New York:Basic Books,1993.
[3]Nils J.Nilsson.人工智能Artificial Intelligence: A New Synthesis[M].鄭扣根,莊越挺,譯.北京:機(jī)械工業(yè)出版社,2003.
[4]P.H.Winston.Artificial intelligence[M].Addison-Wesley,Reading,MA,2nd ed,1984.
[5] 黑馬校對官網(wǎng)[EB/OL].[2022-03-14].https://www.bjhm.com.cn.