任海平
(浙江日?qǐng)?bào)報(bào)業(yè)集團(tuán)產(chǎn)品研發(fā)中心,浙江 杭州 310039)
隨著媒體大數(shù)據(jù)時(shí)代的到來(lái),媒體用戶獲取信息的渠道變得越來(lái)越豐富,也越來(lái)越便利,而日益快速增長(zhǎng)的新聞資源不僅給新聞出版行業(yè)發(fā)展帶來(lái)巨大的機(jī)遇,更帶來(lái)了前所未有的挑戰(zhàn)。這些挑戰(zhàn)是多層次、多方面的,本文聚焦其中的技術(shù)挑戰(zhàn)——如何高效利用海量新聞資源提升新聞制作水平,立足浙報(bào)集團(tuán)媒體出版特色,利用深度學(xué)習(xí)的模型設(shè)計(jì)并實(shí)現(xiàn)智能寫(xiě)稿輔助服務(wù)平臺(tái)。
要實(shí)現(xiàn)高質(zhì)量的智能寫(xiě)稿輔助功能,關(guān)鍵技術(shù)難點(diǎn)是如何快速有效地從海量新聞文本中把與當(dāng)前撰寫(xiě)稿件相關(guān)的新聞資料匯聚起來(lái),形成有價(jià)值的創(chuàng)作素材。由于這種匯聚要求在語(yǔ)義上是高度相關(guān)的,因此簡(jiǎn)單利用關(guān)鍵詞搜索不僅費(fèi)時(shí)費(fèi)力,也無(wú)法取得匯聚的良好效果。利用機(jī)器學(xué)習(xí)的方法,實(shí)現(xiàn)新聞文本資源的自動(dòng)聚類是一個(gè)較好的解決方案。傳統(tǒng)面向文本聚類的機(jī)器學(xué)習(xí)方法主要包括:基于決策樹(shù)、基于概率圖模型和基于向量空間等各類方法。然而,這些方法都屬于淺層模型,無(wú)法利用不斷增長(zhǎng)的文本數(shù)據(jù)來(lái)提高聚類效果,甚至?xí)陆怠R虼?,本文采用深度學(xué)習(xí)的模型,實(shí)現(xiàn)新聞文本資源的高質(zhì)量聚類。具體而言,我們利用深度學(xué)習(xí)模型對(duì)文本進(jìn)行層層特征提取并降維,最終獲得較為精練的文本特征代碼,使得在語(yǔ)義上相關(guān)度較高的文本代碼,在語(yǔ)義空間中的距離也是相近的,從而實(shí)現(xiàn)相關(guān)資料的匯聚。
在內(nèi)容創(chuàng)作過(guò)程中,利用訓(xùn)練好的深度模型,系統(tǒng)可以動(dòng)態(tài)提取當(dāng)前稿件內(nèi)容(甚至只是一個(gè)標(biāo)題),生成語(yǔ)義代碼,并快速?gòu)暮A棵劫Y庫(kù)中捕捉到與當(dāng)前最為相關(guān)的文本素材,第一時(shí)間推送至寫(xiě)稿平臺(tái),供內(nèi)容創(chuàng)作者參考使用,這便是本文闡述的智能寫(xiě)稿輔助服務(wù)。由此項(xiàng)技術(shù)衍生出“主題延展”“稿件背景”“自動(dòng)摘要”甚至機(jī)器寫(xiě)作等場(chǎng)景應(yīng)用,讓內(nèi)容創(chuàng)作者真正享受到人工智能時(shí)代的紅利。
寫(xiě)稿的智能內(nèi)容輔助的關(guān)鍵技術(shù)難點(diǎn)在于如何根據(jù)寫(xiě)稿人當(dāng)前錄入的部分內(nèi)容,在語(yǔ)義空間中生成相應(yīng)的語(yǔ)義代碼(向量),并快速在媒質(zhì)庫(kù)中獲取和該語(yǔ)義代碼距離最為接近的相關(guān)文本資料。因此,這在機(jī)器學(xué)習(xí)領(lǐng)域中是一個(gè)典型的文本聚類問(wèn)題,即利用高效的算法實(shí)現(xiàn)針對(duì)在人看來(lái)語(yǔ)義相近的文本在虛擬語(yǔ)義空間中也是距離相近的。
為此首先我們要對(duì)文本進(jìn)行建模,目前最為常用的建模方式是“文檔-詞”矩陣(簡(jiǎn)稱“D-T”矩陣):A=(aik),其中aik是矩陣中的元素,目前大多采用TF-IDF權(quán)重法。在此基礎(chǔ)上,本文利用深度學(xué)習(xí)模型從“D-T”矩陣中生成高質(zhì)量的語(yǔ)義特征代碼,利用這種代碼,可以高效地獲得和寫(xiě)稿內(nèi)容相關(guān)文本資料。在闡述新方法之前,我們首先回顧一下傳統(tǒng)文本聚類的主要方法。
為實(shí)現(xiàn)有效的文本聚類,機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)做了長(zhǎng)期的探索,并取得長(zhǎng)足進(jìn)展。從技術(shù)實(shí)現(xiàn)路線劃分,傳統(tǒng)文本聚類算法大致分為以下三種:
1.基于決策樹(shù)的模型
決策樹(shù)(Decision Tree)是一種利用樹(shù)狀結(jié)構(gòu)來(lái)描述一個(gè)決定和其產(chǎn)生結(jié)果的模型,并且在樹(shù)的結(jié)構(gòu)中,賦予每個(gè)結(jié)果一定的可能性。其中主要典型算法包括:ID5、C4.5、QUEST、PUBLIC等。決策樹(shù)的優(yōu)勢(shì)在于邏輯和規(guī)則的可解釋性,對(duì)于非大量的強(qiáng)數(shù)據(jù)集,結(jié)合領(lǐng)域?qū)<业慕?jīng)驗(yàn),決策樹(shù)可以取得較好的效果。
2.基于概率圖的模型
概率圖模型是文本挖掘中應(yīng)用最為廣泛的一種模型,它的基本假設(shè)是不同的文本擁有不同詞的聯(lián)合概率分布,換句話說(shuō),不同詞的概率組合將產(chǎn)生不同類型的文本,其中典型模型包括:樸素貝葉斯分類器(Na?ve Bayes Classifier),pLSA(Probabilistic Latent Semantic Analysis)和LDA(Latent Dirichlet Allocation)等。該類算法模型,能夠發(fā)展各種更加復(fù)雜的模型,并在新聞文本語(yǔ)義分析中做出很大的貢獻(xiàn)。
3.基于向量空間的模型
基于向量空間的模型立足“D-T”矩陣,每一行代表一個(gè)文檔,它在向量空間中為一個(gè)向量,每一個(gè)分量代表詞的權(quán)重。該類模型通過(guò)各種向量空間的變換來(lái)估算兩篇文本的相似度,其中典型模型包括:支持向量機(jī)(Support Vector Machine,SVM)、k個(gè)最鄰近(k-Nearest Neighbor,kNN)算法和支持向量聚類(Support Vector Clustering,SVC)模型等。
這三類算法模型均屬于淺層模型,其主要局限性體現(xiàn)在,它們無(wú)法充分利用不斷增長(zhǎng)的文本大數(shù)據(jù)來(lái)提升其性能(甚至?xí)陆担?,同時(shí)無(wú)法實(shí)現(xiàn)多層次隱含語(yǔ)義的高效分析。因此,本文采用深度學(xué)習(xí)的方法實(shí)現(xiàn)高效語(yǔ)義代碼的提取并聚類。
圖1
為充分利用媒資庫(kù)中海量的新聞文本數(shù)據(jù),提升聚類的效果,本文采用了深度學(xué)習(xí)模型,生成蘊(yùn)含有效語(yǔ)義的文本代碼的基礎(chǔ)上,實(shí)現(xiàn)高質(zhì)量文本聚類。目前深度學(xué)習(xí)比較主流的模型有CNNs(Convolutional Neural Networks)、DGMs(Deep Generative Models) 和 RNNs(Recurrent Neural Networks)。由于文本聚類是非監(jiān)督學(xué)習(xí),因此我們采用屬于DGMs中DBNs(Deep Belief Networks, DBNs),如圖1(b)所示。
圖1是基于DBN的文本聚類模型示意圖,(a)是RBM,用于逐層預(yù)訓(xùn)練;(b)是DBN,為本文主模型[2000,800, 800, 256];(c)是在DBN精調(diào)過(guò)程中,展開(kāi)的Deep Autoencoder。
DBNs是一種混合多層概率圖模型,它可以利用RBMs(Restricted Boltzmann Machines)實(shí)現(xiàn)層層預(yù)訓(xùn)練(pre-training)來(lái)獲得多層次特征的提取。而RBM是一種基于能量的模型,預(yù)訓(xùn)練的詳細(xì)過(guò)程可詳見(jiàn)Hinton的成果。
要提取文本的語(yǔ)義特征,并生成代碼,首先要利用首層RBM對(duì)文本進(jìn)行采樣和建模。首先,我們利用傳統(tǒng)方法獲得文本“D-T”矩陣。由于每篇文本的長(zhǎng)度不同,因此我們采用的方式是復(fù)制Softmax模型進(jìn)行首層采樣和預(yù)訓(xùn)練,具體采樣公式如下:
公式(1)(2)
其中vik,為第i篇文本的第k個(gè)分量,h(1)為第1隱藏層,{W(1),a(1),b(1),}為第1層RBM的參數(shù),g(x)=1/(1+exp(-x))為L(zhǎng)ogistic函數(shù)。在此基礎(chǔ)上,利用多層RBM分別對(duì){h(1),h(2),h(3),}進(jìn)行訓(xùn)練,并在h(3)上獲得文本的特征代碼。此時(shí)的特征代碼還不是最優(yōu)化的,需要將DBN展開(kāi)成為一個(gè)稱之為Deep Autoencoder的深度編碼器,并利用反向傳播(Backprogation)機(jī)制,獲得最優(yōu)化的代碼,如圖1(c)所示。這里反向出傳播的目標(biāo)函數(shù)選擇交叉熵的偏差(cross-entropy error)函數(shù):
公式(3)
其中,vi(input)為第篇文本,vi(output)為第i篇文本通過(guò)層層采樣后的輸出,M為文本的數(shù)目。
深度編碼器對(duì)DBN的參數(shù)做進(jìn)一步優(yōu)化之后,我們可以在深度模型的頂層h(3)獲得文本較高質(zhì)量的特征代碼,我們將該特征代碼存入媒資庫(kù)的每篇文稿的記錄中,并在智能寫(xiě)稿輔助服務(wù)中,用于語(yǔ)義相關(guān)性的聚類和搜索。
在確立了上述理論和技術(shù)模型后,接下來(lái)就是如何將其應(yīng)用于媒體內(nèi)容采編環(huán)節(jié),賦予更多的智能。為此,我們選擇了智能寫(xiě)稿輔助服務(wù)作為切入點(diǎn)。在傳統(tǒng)的寫(xiě)稿功能設(shè)計(jì)中往往只實(shí)現(xiàn)了一些常規(guī)性功能,如:發(fā)稿單欄設(shè)置、內(nèi)容編輯、文字修飾、字行統(tǒng)計(jì)、文章關(guān)聯(lián)、檢索等,這些功能只對(duì)成文方面提供了一定幫助。隨著媒體對(duì)內(nèi)容創(chuàng)作的數(shù)量、質(zhì)量、效率以及非同質(zhì)化要求越來(lái)越高,這些傳統(tǒng)功能早已無(wú)法滿足新的需求。創(chuàng)作者們渴望通過(guò)新技術(shù)手段來(lái)提升內(nèi)容策劃、內(nèi)容組織、背景資料查找以及關(guān)聯(lián)信息挖掘能力,為內(nèi)容“編碼”,實(shí)現(xiàn)知識(shí)增量,快速形成精品原創(chuàng)。
要形成有效的智能寫(xiě)稿輔助服務(wù),首先要構(gòu)建一套海量的、存放高質(zhì)量語(yǔ)義特征代碼的媒資庫(kù),這也是內(nèi)容基礎(chǔ)。目前能為媒體所用的數(shù)據(jù)源非常廣泛,就以浙報(bào)集團(tuán)“媒立方”項(xiàng)目而言,數(shù)據(jù)的采集分為了資源圈與分析圈,覆蓋了新聞、資訊、交互性內(nèi)容范疇,包括但不局限于集團(tuán)采編資源、歷史媒資數(shù)據(jù)、全網(wǎng)重點(diǎn)新聞(如:媒體網(wǎng)站、政府門(mén)戶、微博、微信、論壇、新聞爆料、數(shù)字報(bào)、APP)以及民眾互動(dòng)數(shù)據(jù)等,如圖2。
接下來(lái)就是對(duì)這些采集數(shù)據(jù)的清洗處理,包括脫敏(保留隱私性)、清理(保留有效數(shù)據(jù))、加標(biāo)簽(分類)等前序工作,形成初始數(shù)據(jù)源(圖2-[S1])。若計(jì)算資源充足,還可對(duì)初始數(shù)據(jù)源按信息階段(信息發(fā)現(xiàn)、信息跟蹤、信息挖掘、信息推薦、信息評(píng)估)和信息性質(zhì)(速度、廣度、準(zhǔn)度、深度、流行度)兩大需求方向進(jìn)行二次結(jié)構(gòu)化預(yù)處理,形成初始數(shù)據(jù)源(圖2-[S2])。最后,利用深度學(xué)習(xí)模型,將預(yù)處理結(jié)果數(shù)據(jù)進(jìn)行特征代碼計(jì)算、提取、存儲(chǔ),形成真正可利用的優(yōu)質(zhì)信息,供智能寫(xiě)稿服務(wù)使用。
根據(jù)實(shí)際應(yīng)用需要,我們?cè)O(shè)計(jì)了兩類智能寫(xiě)稿輔助服務(wù):主題延展和背景資料,并在浙報(bào)集團(tuán)“媒立方”項(xiàng)目的融合寫(xiě)稿編輯器中應(yīng)用,并取得了非常好的效果。
1.主題延展的實(shí)現(xiàn)與效果
主題延展可動(dòng)態(tài)獲取當(dāng)前稿件相似主題、相似內(nèi)容在其他媒體的報(bào)道文章。對(duì)于該場(chǎng)景設(shè)計(jì),需要將智能輔助服務(wù)掛鉤內(nèi)容編輯的全過(guò)程,隨著創(chuàng)作內(nèi)容篇幅的越來(lái)越長(zhǎng),其文章主題也逐漸清晰,當(dāng)完成整段內(nèi)容輸入,系統(tǒng)即可觸發(fā)機(jī)器深度學(xué)習(xí)算法服務(wù),對(duì)當(dāng)前已輸入內(nèi)容進(jìn)行分析并抽取語(yǔ)義特征代碼。與此同時(shí),該服務(wù)與后臺(tái)媒資庫(kù)海量語(yǔ)義特征碼進(jìn)行匹配,當(dāng)超過(guò)預(yù)設(shè)的匹配值后,系統(tǒng)便可獲取相似度最高的文章推送至用戶端。
對(duì)于相似主題文章的展示,我們?cè)谠O(shè)計(jì)上應(yīng)包括:標(biāo)題、摘要、來(lái)源、發(fā)布時(shí)間,具體控制如表1所示。
表1 各要素設(shè)計(jì)說(shuō)明
在“媒立方”項(xiàng)目融合編輯器設(shè)計(jì)中,我們?yōu)榫庉嬈鞯挠覀?cè)欄專門(mén)設(shè)計(jì)了智能輔助頁(yè)簽欄,可別小看這幾個(gè)頁(yè)簽,已經(jīng)成為記者編輯在內(nèi)容采編過(guò)程中不可或缺的助手。一旦創(chuàng)作者開(kāi)始內(nèi)容寫(xiě)作,“主題延展”服務(wù)便根據(jù)編輯器中的內(nèi)容進(jìn)行智能分析,并實(shí)時(shí)地將匹配到的信息推送至編輯窗右側(cè)頁(yè)簽內(nèi),設(shè)計(jì)界面如圖3:
圖3:主題延展界面展示
(1)查閱結(jié)果:“主題延展”結(jié)果內(nèi)容以瀑布流式顯示,并分布在稿件編輯器右側(cè),用戶點(diǎn)擊任意一篇內(nèi)容即可打開(kāi)查閱原文。對(duì)于長(zhǎng)標(biāo)題,只需將鼠標(biāo)放置標(biāo)題位置,便會(huì)彈出浮動(dòng)信息窗,完整顯示標(biāo)題內(nèi)容。當(dāng)結(jié)果文章數(shù)過(guò)多并超出本頁(yè),可單點(diǎn)擊“展開(kāi)更多”進(jìn)行全量查閱。
圖2:數(shù)據(jù)源采集與處理框架
(2)內(nèi)容選?。簝?nèi)容選用方式在設(shè)計(jì)上要突出方便、快速,因此在本設(shè)計(jì)中,我們約定了鼠標(biāo)拖拽方式,通過(guò)鼠標(biāo)拖動(dòng)即可將所選文章內(nèi)容、圖片、音視頻,插入至編輯器正文光標(biāo)位置。
(3)主題延展內(nèi)容更新:每次觸發(fā)“主題延展”功能,均會(huì)對(duì)當(dāng)前正文內(nèi)容進(jìn)行一次深度學(xué)習(xí),并同步更新“主題延展”結(jié)果內(nèi)容清單。內(nèi)容更新的觸發(fā)機(jī)制有很多種,可以在內(nèi)容增刪改查時(shí)觸發(fā),亦可在換行、換段以及保存時(shí)觸發(fā),為了最大程度避免影響寫(xiě)作體驗(yàn),同時(shí)又能達(dá)到主題延展效果,最終我們選定了“回車(chē)換行”作為主要觸發(fā)機(jī)制。
2.稿件背景的實(shí)現(xiàn)與效果
“稿件背景”是從當(dāng)前稿件內(nèi)容中抽取人名、地名、機(jī)構(gòu)名等關(guān)鍵詞,加以解釋,或列舉這些關(guān)鍵詞在歷史重要媒體報(bào)道中的描述,為內(nèi)容創(chuàng)作者提供稿件背景資料。同理,在該場(chǎng)景設(shè)計(jì)中,用戶在內(nèi)容創(chuàng)作到達(dá)一定篇幅后,系統(tǒng)會(huì)根據(jù)已輸入內(nèi)容觸發(fā)機(jī)器深度學(xué)習(xí)服務(wù),確立人名、地名、機(jī)構(gòu)名等關(guān)鍵詞以及語(yǔ)義特征代碼,并與媒資庫(kù)海量語(yǔ)義特征碼進(jìn)行匹配,獲取相似度最高的文章推送給用戶端,為內(nèi)容創(chuàng)作者提供文章相關(guān)的高價(jià)值信息。對(duì)于稿件背景結(jié)果的展示,在設(shè)計(jì)上包括:標(biāo)題、摘要、來(lái)源、發(fā)布時(shí)間,展示控制與“主題延展”相同。但不同的是,稿件背景的核心匹配目標(biāo)是文章關(guān)鍵詞,如:人名、地名、機(jī)構(gòu)名以及其他關(guān)鍵詞,通過(guò)不同組合的關(guān)鍵詞選擇,將會(huì)產(chǎn)生不同的背景資料呈現(xiàn)結(jié)果。
在“媒立方”項(xiàng)目融合編輯器設(shè)計(jì)中,我們同樣為編輯器的右側(cè)欄專門(mén)設(shè)計(jì)了“稿件背景”智能輔助頁(yè)簽。在內(nèi)容創(chuàng)作過(guò)程中,系統(tǒng)會(huì)自動(dòng)從當(dāng)前稿件中抽取人名、地名、機(jī)構(gòu)名等關(guān)鍵詞,并列舉這些關(guān)鍵詞在各類媒體報(bào)道中的詳細(xì)描述,為內(nèi)容創(chuàng)作者提供文章相關(guān)背景信息。例如:一篇稿件中引用了某一句詩(shī)歌、典故,通過(guò)背景資料就可以快速定位到這句詩(shī)歌、典故的完整原創(chuàng)內(nèi)容。設(shè)計(jì)界面如下:
圖4:稿件背景界面展示
“稿件背景”以瀑布流方式顯示關(guān)鍵詞所定位的原文內(nèi)容,用戶可在稿件編輯器右側(cè)“稿件背景”欄點(diǎn)擊查閱。各類關(guān)鍵詞間以“and”搜索關(guān)系約束,且同一類關(guān)鍵詞約束為單選,不同類關(guān)鍵詞允許多選。內(nèi)容選用方式、內(nèi)容更新與“主題延展”功能設(shè)計(jì)一致。
本文詳細(xì)闡述了基于深度學(xué)習(xí)的智能寫(xiě)稿輔助服務(wù)的關(guān)鍵技術(shù)和設(shè)計(jì)方案,其出發(fā)點(diǎn)是讓機(jī)器(服務(wù)器計(jì)算資源)充分進(jìn)入內(nèi)容信息源領(lǐng)域,幫助我們完成第一道最費(fèi)時(shí)費(fèi)力的數(shù)據(jù)收集和結(jié)構(gòu)化處理工作,讓海量的內(nèi)容資源庫(kù)成為真正有價(jià)值的知識(shí)庫(kù)。當(dāng)然對(duì)算法模型的優(yōu)化與實(shí)踐還需要一個(gè)過(guò)程,可以預(yù)見(jiàn),在不久的將來(lái),通過(guò)人工智能深度學(xué)習(xí),必然會(huì)帶來(lái)包含內(nèi)容生產(chǎn)要素在內(nèi)的衍生變化,甚至引發(fā)傳統(tǒng)信息流生產(chǎn)方式的顛覆。