基于篇章結(jié)構(gòu)的出版內(nèi)容重組

2019-05-08 03:38:00袁小群孫夢婷

出版科學(xué) 2019年2期

袁小群　孫夢婷

[摘要] 指出出版內(nèi)容重組是系統(tǒng)根據(jù)用戶信息需求，從已有的經(jīng)過碎片化處理的信息資源中選擇相關(guān)內(nèi)容組織成符合特定篇章結(jié)構(gòu)的內(nèi)容產(chǎn)品的過程;目前出版內(nèi)容動態(tài)重組工作尚停留在對碎片化內(nèi)容資源的關(guān)聯(lián)聚合上，未實(shí)現(xiàn)基于篇章結(jié)構(gòu)的重新組織，最終呈現(xiàn)的內(nèi)容產(chǎn)品缺乏可讀性，無法直接服務(wù)于用戶。因此設(shè)計出版內(nèi)容重組系統(tǒng)，將基于篇章結(jié)構(gòu)的內(nèi)容組織環(huán)節(jié)融入動態(tài)語義出版當(dāng)中，對出版內(nèi)容動態(tài)重組的整體工作框架進(jìn)行完善;設(shè)計內(nèi)容組織模塊的功能，通過挖掘更深層次的用戶需求和引入文本篇章結(jié)構(gòu)，實(shí)施以下內(nèi)容組織策略：根據(jù)深層次的用戶意圖構(gòu)建篇章意圖結(jié)構(gòu)，將其映射為篇章修辭結(jié)構(gòu)，以此作為出版內(nèi)容資源組織的框架。

[關(guān)鍵詞]出版內(nèi)容重組篇章結(jié)構(gòu) 修辭結(jié)構(gòu)理論篇章組織框架數(shù)字出版

[中圖分類號] G237[文獻(xiàn)標(biāo)識碼] A[文章編號] 1009-5853 （2019） 02-0098-08

1 引言

出版內(nèi)容重組是指系統(tǒng)根據(jù)用戶信息需求，從已有的經(jīng)過碎片化處理的信息資源中，選擇相關(guān)內(nèi)容并組織成具有特定篇章結(jié)構(gòu)的內(nèi)容產(chǎn)品的過程。與一般的數(shù)字出版相比，出版內(nèi)容動態(tài)重組屬于深層次和高級階段的數(shù)字出版：一般的數(shù)字出版強(qiáng)調(diào)數(shù)字化內(nèi)容加工，而出版內(nèi)容重組則是對一般數(shù)字出版產(chǎn)品進(jìn)行知識碎片化加工后的按需重組和復(fù)用。通過出版內(nèi)容重組，內(nèi)容服務(wù)提供商可以從已有的出版資源中選擇用戶需要的內(nèi)容進(jìn)行動態(tài)組織，如此不僅能實(shí)現(xiàn)數(shù)字出版物的實(shí)時生成，還能為用戶提供定制化的內(nèi)容服務(wù)。

出版內(nèi)容動態(tài)重組是對出版內(nèi)容資源“分解—重組”的復(fù)用過程，一般可分為以下幾個步驟：出版內(nèi)容資源的數(shù)字化和碎片化處理;碎片化內(nèi)容的結(jié)構(gòu)化加工;基于用戶需求的內(nèi)容聚合;基于篇章結(jié)構(gòu)的內(nèi)容重組;內(nèi)容產(chǎn)品的最終呈現(xiàn)。目前，出版內(nèi)容動態(tài)重組工作主要集中于前期出版內(nèi)容資源的碎片化加工以及對碎片化內(nèi)容的關(guān)聯(lián)聚合[1]，比較忽視對相關(guān)內(nèi)容基于篇章結(jié)構(gòu)的重新組織，即語義出版物內(nèi)容與傳統(tǒng)敘事性內(nèi)容的協(xié)同工作問題[2]。以英國廣播公司為例，其實(shí)現(xiàn)按需重組的機(jī)制是根據(jù)用戶的查詢式獲取語義相關(guān)內(nèi)容，包括利用SPARQL查詢調(diào)用RDF三元組形式存儲的內(nèi)容、利用推理功能對相關(guān)內(nèi)容進(jìn)行擴(kuò)展、調(diào)用關(guān)聯(lián)數(shù)據(jù)并返回相關(guān)聯(lián)內(nèi)容等[3]，但尚未實(shí)現(xiàn)對所聚合內(nèi)容基于篇章結(jié)構(gòu)的重新組織，而這一環(huán)節(jié)正是生成符合用戶閱讀習(xí)慣的內(nèi)容產(chǎn)品的重要一步。

內(nèi)容重組不只是重組內(nèi)容的簡單堆砌，而且需要將其以符合自然語言組織規(guī)則的方式呈現(xiàn)給用戶。內(nèi)容重組和內(nèi)容聚合的區(qū)別在于：（1）內(nèi)容聚合環(huán)節(jié)所生成的聚合內(nèi)容需要根據(jù)一定的篇章結(jié)構(gòu)進(jìn)行重新組織，才是內(nèi)容重組的結(jié)果;（2）內(nèi)容聚合環(huán)節(jié)基于主題關(guān)聯(lián)方式對用戶需求進(jìn)行表示和挖掘，缺少對更深層次用戶意圖的表示和追蹤，無法滿足根據(jù)用戶層級化的信息查詢意圖構(gòu)建長篇幅結(jié)構(gòu)文本的需要。因此，本文借鑒認(rèn)知科學(xué)對“用戶需求”這一概念的定義和內(nèi)涵描述，將用戶意圖進(jìn)行分類表示，并給出對應(yīng)于用戶意圖的系統(tǒng)任務(wù)，在此基礎(chǔ)上構(gòu)建由意圖結(jié)構(gòu)及修辭結(jié)構(gòu)組成的篇章結(jié)構(gòu)，作為出版內(nèi)容資源重組的指導(dǎo)框架。

2 出版內(nèi)容重組系統(tǒng)架構(gòu)

出版內(nèi)容重組本質(zhì)上需要解決兩方面問題：一是重組內(nèi)容的選擇，二是對所選擇內(nèi)容的重新組織。對于前者，一般采用的方案是利用數(shù)據(jù)關(guān)聯(lián)技術(shù)或聚類等方法，根據(jù)用戶的信息需求，從領(lǐng)域知識庫中匹配得到相關(guān)的主題知識網(wǎng)絡(luò)。后者則是目前數(shù)字出版和語義出版領(lǐng)域比較忽視的一點(diǎn)，也是本文論述的重點(diǎn)，即如何對上一步得到的相關(guān)內(nèi)容進(jìn)行基于篇章結(jié)構(gòu)的組織，以為用戶提供具有可讀性的長篇幅內(nèi)容產(chǎn)品。從這兩方面的功能需求出發(fā)，本文設(shè)計了如圖1所示的出版內(nèi)容重組系統(tǒng)。

該系統(tǒng)分為3個功能模塊：（1）用戶模型：通過對用戶數(shù)據(jù)的分析和挖掘，識別用戶所處的信息搜索階段及其對應(yīng)的用戶意圖;（2）內(nèi)容選?。焊鶕?jù)用戶模型模塊分析得到的用戶查詢主題和用戶已有的領(lǐng)域知識水平，通過相似度匹配或數(shù)據(jù)關(guān)聯(lián)等方法，從領(lǐng)域知識庫中匹配得到符合用戶需求的主題知識網(wǎng)絡(luò);（3）內(nèi)容組織：根據(jù)用戶模型模塊分析得到的用戶意圖類型，確定系統(tǒng)目標(biāo)，據(jù)此選擇對應(yīng)的篇章結(jié)構(gòu)框架，并利用所抽取的重組內(nèi)容對該框架進(jìn)行實(shí)例化，得到初步的文本規(guī)劃結(jié)果。最后，對該結(jié)果進(jìn)行語法、版式等方面的進(jìn)一步規(guī)范，得到最終的內(nèi)容產(chǎn)品。

2.1 用戶模型

閱讀是一個解碼過程：讀者通過識別字母和單詞，從底層的最小文本單位（字母和單詞）到頂層越來越大的單位（短語、從句、句間連接）進(jìn)行解析，重建作者的意圖和想要表達(dá)的意義[4]。出版內(nèi)容重組則是一個逆向過程，需要從用戶意圖入手，基于用戶意圖來抽取用戶感興趣的重組內(nèi)容、構(gòu)建對應(yīng)的內(nèi)容組織結(jié)構(gòu)，對兩者進(jìn)行融合才能生成最終的內(nèi)容產(chǎn)品。因此，本文從用戶所處的信息搜索階段和用戶意圖兩個維度對用戶需求進(jìn)行表示：首先通過用戶檢索式和用戶領(lǐng)域知識的挖掘，對用戶所處的信息搜索階段進(jìn)行分類表示，據(jù)此從領(lǐng)域知識庫中匹配得到符合用戶需求的重組內(nèi)容;其次，通過用戶所處的搜索階段判斷用戶意圖，將其分解為一系列系統(tǒng)任務(wù)，以此作為設(shè)計篇章結(jié)構(gòu)框架的依據(jù)。

2.2 內(nèi)容選取

內(nèi)容選取模塊的設(shè)計參考了目前發(fā)展較為成熟的內(nèi)容推薦方法[5][6]，采用基于語義相似度的知識網(wǎng)絡(luò)擴(kuò)展方法：首先，通過聚類、數(shù)據(jù)關(guān)聯(lián)等方法，將用戶查詢式所反映的用戶查詢需求和領(lǐng)域知識庫進(jìn)行匹配;其次，將匹配結(jié)果進(jìn)行排序去冗，得到與用戶需求高度相關(guān)的主題列表;最后，將用戶模型中的用戶領(lǐng)域知識水平作為約束條件，對相關(guān)主題知識網(wǎng)絡(luò)的邊界進(jìn)行進(jìn)一步約束，由此獲取符合用戶需求的主題知識網(wǎng)絡(luò)。需要指出的是，這一模塊獲得的主題知識網(wǎng)絡(luò)是依據(jù)領(lǐng)域知識邏輯組織的，并不符合自然語言組織規(guī)則，需要進(jìn)一步基于篇章結(jié)構(gòu)的重新組織。

2.3 內(nèi)容組織

在內(nèi)容組織模塊，本文引入修辭結(jié)構(gòu)理論（Rhetorical Structure Theory，RST）[7]這一經(jīng)典的篇章結(jié)構(gòu)理論。該理論通過描述文本各部分的修辭關(guān)系來分析篇章的結(jié)構(gòu)和功能：功能語句（span）是最基本的篇章單位（Elemental Discourse Units，EDU），篇章整體結(jié)構(gòu)可以通過EDU及連接EDU的修辭關(guān)系所組成的層級結(jié)構(gòu)進(jìn)行表示。EDU又可分為核心（nucleus）和衛(wèi)星（satellite）兩種，前者是表示中心信息的單元，具有相對完整的語義;后者則是次要內(nèi)容，作用于核心部分。本文采用RST理論的原因有3點(diǎn)：（1）RST是一個擁有豐富注釋的框架[8][9]，也是一個為數(shù)不多的對給定文本的意圖、修辭關(guān)系和層級關(guān)系進(jìn)行統(tǒng)一刻畫的篇章結(jié)構(gòu)理論;（2）已有的利用修辭結(jié)構(gòu)樹對篇章結(jié)構(gòu)進(jìn)行分析的研究以及基于RST理論構(gòu)建所得的結(jié)構(gòu)樹庫表明，不同主體在RST理論框架下進(jìn)行的注釋保持有較高的一致性;（3）基于RST理論的篇章結(jié)構(gòu)樹已經(jīng)在信息檢索[10]、文本摘要[11]、情感分析[12][13]等多個領(lǐng)域得到廣泛應(yīng)用。

本文沿用RST理論對篇章結(jié)構(gòu)的表示思路，即通過描述文本各部分的修辭關(guān)系來表示篇章結(jié)構(gòu)和功能。在此基礎(chǔ)上，通過兩方面的內(nèi)容來定義篇章結(jié)構(gòu)框架：篇章意圖結(jié)構(gòu)和修辭結(jié)構(gòu)。前者是對用戶意圖的層級化推導(dǎo)，用于增加篇章的連貫性以及篇章組織的可解釋性;后者則對應(yīng)于框架的實(shí)例化等操作層面的工作，修辭結(jié)構(gòu)中的最小組成和操作單元是RST理論所定義的修辭關(guān)系（Rhetorical Relation）。

雖然數(shù)字出版模式早已實(shí)現(xiàn)了對出版物內(nèi)容與形式的分離，語義出版進(jìn)一步推動了數(shù)字出版向內(nèi)容資源碎片化加工和關(guān)聯(lián)聚合服務(wù)模式的轉(zhuǎn)變。但從本質(zhì)上來看，出版內(nèi)容資源仍然被封裝在以本和篇為單位的文本載體中。受此局限，系統(tǒng)即便能夠準(zhǔn)確推斷出用戶需求，其所推薦的內(nèi)容產(chǎn)品也無法直接服務(wù)于用戶，用戶仍然需要對系統(tǒng)提供的結(jié)果進(jìn)行進(jìn)一步的篩選和組織。對此，本文提出將基于篇章結(jié)構(gòu)的內(nèi)容組織引入到語義出版當(dāng)中，進(jìn)一步推動個性化內(nèi)容產(chǎn)品的動態(tài)生成。具體來說，本文設(shè)計的出版內(nèi)容重組系統(tǒng)在接收用戶請求之前，并不存儲完整形態(tài)的出版物。只有在用戶發(fā)出請求后，系統(tǒng)才會根據(jù)用戶需求選擇相應(yīng)的碎片化內(nèi)容資源并對其進(jìn)行基于篇章結(jié)構(gòu)的重新組織，以此生成個性化定制的內(nèi)容產(chǎn)品。為實(shí)現(xiàn)上述功能，上文提及的內(nèi)容組織模塊擔(dān)負(fù)著關(guān)鍵作用，其功能的實(shí)現(xiàn)需要重點(diǎn)解決兩方面問題：一是對更深層次用戶需求的挖掘;二是對文本篇章結(jié)構(gòu)的設(shè)計和利用。以下將針對這兩方面的功能設(shè)計展開更加詳細(xì)的論述。

3 用戶查詢意圖的表示和識別

針對處于不同情境、面對不同問題、擁有不同目標(biāo)的用戶，識別其信息需求，是內(nèi)容重組工作的起點(diǎn)。然而在現(xiàn)實(shí)中，顯式的用戶需求信息是稀缺的，用戶通常不會也不能準(zhǔn)確傳達(dá)出個人的信息需求。因此，系統(tǒng)需要對隱式的用戶行為數(shù)據(jù)進(jìn)行挖掘。在此之前，首先需要確定如何對“用戶需求”這一泛化概念進(jìn)行形式化表征，為此本文引入“意圖”這一概念。

3.1 信息需求與查詢意圖

信息需求是指個人或群體定位和獲取信息以滿足有意識或無意識需求的期望[14]。這一概念最早由羅伯特·S·泰勒（Robert S. Taylor）于1962年[15]提出，他為了回答“一個具有信息需求的人是如何從信息系統(tǒng)中獲得答案的？”這一問題，將信息需求劃分為4個層次：（1）本能需求（Visceral Need）。對未知信息最高層次的需求，是用戶的真實(shí)需求，但是往往無法精確表達(dá)。（2）意識需求（Conscious Need）。在頭腦中對問題有意識的描述，是本能需求的具體化;（3）形式需求（Formalized Need）。對問題合理的、無歧義的、規(guī)范的描述。（4）妥協(xié)需求（Compromised Need）。提交給信息系統(tǒng)的問題，是用戶在與系統(tǒng)交互中受到多種限制而做出的對真實(shí)信息需求的簡化。這4個層次刻畫了用戶從本能信息需求出發(fā)到最終形成問題，并將查詢提交給系統(tǒng)的全過程。用戶最終提交的查詢并不能代表用戶的真實(shí)需要，而是用戶的妥協(xié)需求。因此，系統(tǒng)需要對查詢背后的用戶信息需求進(jìn)行推斷，即從用戶的妥協(xié)需求向更高層次需求的探究?！安樵円鈭D”就是近似表達(dá)用戶高層次信息需求的用于機(jī)器理解的明確形式，是介于本能需求與妥協(xié)需求的一種中間狀態(tài)，并不斷逼近本能需求[16]。

3.2 信息搜索過程階段模型

遵循泰勒對用戶信息需求4個層級的劃分，本文引入卡羅爾· C ·庫爾梭（Carol C. Kuhlthau）[17]信息搜索階段模型對“查詢意圖”進(jìn)行層級化遞進(jìn)的分類表示，并針對各階段的用戶意圖設(shè)計相應(yīng)的系統(tǒng)任務(wù)，作為篇章意圖結(jié)構(gòu)的頂層構(gòu)成。

庫爾梭將信息搜索過程分為6個階段：（1）啟蒙（Initiation）。認(rèn)識到對信息的需求：思考問題，理解任務(wù)，并將問題與先前的經(jīng)驗(yàn)和知識聯(lián)系起來。（2）選擇（Selection）。選擇和確定要調(diào)查的一般主題或要采取的方法：根據(jù)個人興趣、任務(wù)要求、可用信息和時間等標(biāo)準(zhǔn)來權(quán)衡各個主題，選擇最佳主題或方法。（3）探索（Exploration）。調(diào)查關(guān)于一般主題的信息：擴(kuò)展個人理解，對主題形成足夠的了解，以產(chǎn)生重點(diǎn)關(guān)注的焦點(diǎn)或個人觀點(diǎn)。需要指出的是，在這一階段，那些有助于提供新的知識結(jié)構(gòu)的策略（如羅列相關(guān)事實(shí)以擴(kuò)展思路）是最有幫助的，而一些急于求成的指示性策略（如針對某一個細(xì)節(jié)問題進(jìn)行詳細(xì)的記錄）可能會使信息搜索者產(chǎn)生挫敗感而阻礙進(jìn)程。（4）形式化（Formulation）。根據(jù)檢索信息形成一個重點(diǎn)關(guān)注的焦點(diǎn)主題：從信息中識別和選擇觀點(diǎn)，形成對主題的聚焦視角。（5）收集（Collection）。收集與關(guān)注的焦點(diǎn)主題相關(guān)的信息，以定義、擴(kuò)展和支持焦點(diǎn)主題。（6）呈現(xiàn)（Presentation）。通過對主題的個性化綜合來結(jié)束搜索，并對結(jié)果進(jìn)行呈現(xiàn)。

3.3 基于任務(wù)的用戶意圖表示

信息搜索階段模型為識別用戶意圖提供了初步的分析框架，針對不同階段任務(wù)的特征，本文將各階段用戶意圖進(jìn)一步分解為一系列系統(tǒng)子任務(wù)，并將其對應(yīng)關(guān)系羅列如表1所示。

在不同的信息搜索階段，對應(yīng)于知識儲備不一、信息需求各異的用戶（？c），系統(tǒng)需要實(shí)現(xiàn)不同的任務(wù)，如：讓用戶知曉（KNOW/KNOW-ABOUT）關(guān)于某一主題（？topic）不同層次的信息，包括典型描述方式（？description）、涉及的學(xué)科領(lǐng)域（？DISCIPLINARY）、典型研究視角（PERSPECTIVE-OF）、研究方法（METHODS-OF）、關(guān)鍵概念（KEY-CONCEPT-OF）、主要概念（？concept）或命題（？proposition）之間的區(qū)別或聯(lián)系（DIFF/RELA）等。以（KNOW ？c? （REF? ？topic? ？description））為例，該語句表示以下系統(tǒng)任務(wù)：讓用戶知曉（KNOW）關(guān)于某一主題（？topic）的典型描述方式（？description）。

3.4 用戶意圖識別

大量研究表明，通過挖掘用戶行為數(shù)據(jù)可以對用戶所處的信息搜索階段、用戶的領(lǐng)域知識水平進(jìn)行判斷。如佩爾蒂·瓦克里（Pertti Vakkari）[18]、佩爾蒂·瓦克里和南納·哈卡拉（Nanna Hakala）[19]的研究表明，用戶行為在檢索的不同階段不同：檢索開始時，用戶更多地只使用單詞片段;隨著檢索深入，用戶會使用更多同義詞和平行概念。賴恩·W·懷特（Ryen W. White）等人[20]指出，用戶隱性反饋更可能出現(xiàn)在檢索中期，而顯性反饋則更可能出現(xiàn)在檢索后期。張向敏等人[21]利用多元回歸分析方法建立了用戶領(lǐng)域知識的預(yù)測模型，通過比較發(fā)現(xiàn)利用到保存的文檔數(shù)、檢索式平均長度和所打開文檔的平均排位這3種變量的模型效果最佳。

總結(jié)來說，目前對用戶信息搜索狀態(tài)的預(yù)測模型在輸入特征項(xiàng)的選擇上，最常使用的是時間、檢索式、收藏點(diǎn)擊保存等行為數(shù)據(jù);在預(yù)測方法上，普遍采用回歸分析方法、貝葉斯模型、決策樹模型等。在用戶意圖識別過程中，本文系統(tǒng)采用類似的預(yù)測方法，通過對用戶行為數(shù)據(jù)的挖掘，對用戶所處的信息搜索階段進(jìn)行識別，以此判定用戶信息搜索的意圖。

4 篇章結(jié)構(gòu)框架

篇章結(jié)構(gòu)是文本宏觀結(jié)構(gòu)的一部分，用于表示包含有作者預(yù)期表達(dá)意義的文本的邏輯組織形式[22]。當(dāng)前領(lǐng)域知識庫通常采用學(xué)科知識邏輯來組織碎片化的內(nèi)容資源，但系統(tǒng)呈現(xiàn)給用戶的內(nèi)容產(chǎn)品并不符合自然語言的組織邏輯。隨著聚合內(nèi)容體量的增加，缺乏可讀性的內(nèi)容產(chǎn)品不能被用戶有效地理解吸收。為此，本文引入“篇章結(jié)構(gòu)”這一概念，對主題知識網(wǎng)絡(luò)進(jìn)行重新組織。在上文對用戶意圖進(jìn)行形式化表示的基礎(chǔ)上，本文設(shè)計了用于內(nèi)容組織的篇章結(jié)構(gòu)框架，包括意圖結(jié)構(gòu)和修辭結(jié)構(gòu)兩個部分。前者用于增加篇章的連貫性和篇章組織過程的可解釋性，后者用于對接框架的實(shí)例化等操作層面的工作，由RST關(guān)系作為最小單位組成。

針對6個信息搜索階段，本文設(shè)計了相對應(yīng)的篇章結(jié)構(gòu)框架。如表2所示，該結(jié)構(gòu)包含6個部分：框架名稱，框架信息，用戶意圖，系統(tǒng)目標(biāo)，由系統(tǒng)目標(biāo)分解得到的篇章意圖結(jié)構(gòu)，由意圖結(jié)構(gòu)映射所得、由RST關(guān)系組成的篇章修辭結(jié)構(gòu)。以“啟蒙”階段為例，其篇章結(jié)構(gòu)框架如表2所示。

4.1 篇章意圖結(jié)構(gòu)

凱瑟琳· R ·麥克考恩（Kathleen R. Mckeown）[23]指出，自然語言在實(shí)現(xiàn)某一交流目的時往往遵循特定模式，如說話者在描述一個對象時通常采用以下策略：（1）將該對象歸為某一類別，提供該類別成員典型的屬性和功能信息;（2）提供該對象的類比、成分、屬性等額外信息;（3）通過舉例進(jìn)行說明。本文對該種策略進(jìn)行形式化表征，將其定義為篇章的意圖結(jié)構(gòu)。在具體操作層面上，本文將系統(tǒng)目標(biāo)分解為對篇章核心和衛(wèi)星片段的任務(wù)要求，并引入目標(biāo)增長點(diǎn)（growth point）[24]對其進(jìn)行任務(wù)的層級分解，將最終形成的整體層級結(jié)構(gòu)作為語義約束條件來增加所組織篇章的連貫性，該整體層級結(jié)構(gòu)即為篇章意圖結(jié)構(gòu)。

以表2的“啟蒙”框架為例，為了實(shí)現(xiàn)“明確信息需求”這一用戶意圖，系統(tǒng)需要實(shí)現(xiàn)“給出不同學(xué)科領(lǐng)域（？DISCIPLINARY）對該主題（？topic）的概念化表述（CONCEPTUALIZATION）”這一系統(tǒng)目標(biāo)。該系統(tǒng)目標(biāo)可進(jìn)一步分解為“對該問題的形式化表達(dá)：（KNOW ？c? （REF? ？topic? ？description））”“該問題涉及的學(xué)科領(lǐng)域：（KNOW ？c? （DISCIPLINARY-OF? ？topic））”“某一個領(lǐng)域?qū)υ搯栴}進(jìn)行概念化的操作方法：（KNOW? ？user? （OPERATIONALIZATION-OF（CONCEPTUALIZATION ？topic? ？DISCIPLINARY）））”這三個核心片段的子目標(biāo)。子目標(biāo)進(jìn)一步衍生出更為細(xì)節(jié)的目標(biāo)增長點(diǎn)，包括：該領(lǐng)域?qū)υ搯栴}操作化方法的情況說明、成分、屬性、目的等任務(wù)。最終形成“用戶意圖—系統(tǒng)目標(biāo)—目標(biāo)增長點(diǎn)”這一層級樹狀結(jié)構(gòu)，即為對應(yīng)于該信息搜索階段的篇章意圖結(jié)構(gòu)。該結(jié)構(gòu)中的節(jié)點(diǎn)表示子目標(biāo)或目標(biāo)增長點(diǎn)，節(jié)點(diǎn)間的連接表示目標(biāo)間的層級關(guān)系。

4.2 篇章修辭結(jié)構(gòu)

篇章意圖結(jié)構(gòu)各層級的系統(tǒng)任務(wù)體現(xiàn)了系統(tǒng)和用戶交互過程中的交流目的，不同交流目的又可映射為不同的修辭模式。篇章的修辭結(jié)構(gòu)由RST關(guān)系組合而成，是篇章結(jié)構(gòu)框架的操作化接口。RST關(guān)系作為連接篇章核心和衛(wèi)星片段的連貫關(guān)系，可從4個方面進(jìn)行表示：（1）對核心片段的約束（constraint）;（2）對衛(wèi)星片段的約束;（3）對核心片段和衛(wèi)星片段聯(lián)結(jié)（combination）的約束;（4）效果。以“總結(jié)關(guān)系（Summary）”為例，它的定義如下：（1）核心（N）受到約束：N的單位必須大于1;（2）衛(wèi)星（S）無約束;（3）核心+衛(wèi)星的約束：S復(fù)現(xiàn)N的內(nèi)容，但更簡短;（4）效果：讀者識別出S是對N的簡要重述。

通過篇章意圖結(jié)構(gòu)節(jié)點(diǎn)與RST關(guān)系“效果”部分的匹配，可將篇章意圖結(jié)構(gòu)映射為修辭結(jié)構(gòu)。同樣以表2的“啟蒙”框架為例，其篇章意圖結(jié)構(gòu)中的核心片段目標(biāo)增長點(diǎn)可映射為Circumstance、Elaboration、Purpose、Antithesis、Cause等RST關(guān)系，即通過調(diào)用Circumstance、Elaboration、Purpose、Antithesis、Cause等RST關(guān)系，對某一領(lǐng)域某一問題的操作化方法展開環(huán)境及情況說明，屬性、成分等子信息補(bǔ)充，目的闡述，帶有情感偏向的案例對照說明，原因闡釋等。

5 基于篇章結(jié)構(gòu)框架的文本規(guī)劃

本文設(shè)計的內(nèi)容組織策略是根據(jù)深層次用戶意圖構(gòu)建篇章意圖結(jié)構(gòu)，將其映射為篇章修辭結(jié)構(gòu)，以此作為框架對出版內(nèi)容資源進(jìn)行重新組織。在上文對篇章的意圖結(jié)構(gòu)和修辭結(jié)構(gòu)進(jìn)行定義的基礎(chǔ)上，本節(jié)將對基于框架的內(nèi)容資源組織環(huán)節(jié)的具體步驟進(jìn)行說明，即圖1內(nèi)容組織功能模塊中文本規(guī)劃器的具體工作機(jī)制。

文本規(guī)劃器擔(dān)負(fù)著將重組內(nèi)容和篇章修辭結(jié)構(gòu)進(jìn)行融合，以生成初步成型的內(nèi)容產(chǎn)品的功能。這一過程首先需要對篇章結(jié)構(gòu)框架進(jìn)行選擇，通過不同框架和用戶所處信息搜索階段之間的匹配來實(shí)現(xiàn)。其次，需要對這一篇章結(jié)構(gòu)框架進(jìn)行實(shí)例化，即從相關(guān)主題知識網(wǎng)絡(luò)中搜尋符合條件的輸入元素，對篇章修辭結(jié)構(gòu)的信息槽（slot）進(jìn)行填充。文本規(guī)劃器的工作機(jī)制可表述為如圖2所示的步驟：（1）根據(jù)篇章意圖結(jié)構(gòu)各層級的子目標(biāo)節(jié)點(diǎn)，利用SPARQL查詢從相關(guān)的主題知識網(wǎng)絡(luò)中調(diào)用以RDF三元組形式存儲的內(nèi)容作為文本規(guī)劃器的輸入元素;（2）根據(jù)RST關(guān)系和篇章意圖結(jié)構(gòu)之間的映射關(guān)系，將篇章意圖結(jié)構(gòu)轉(zhuǎn)化為篇章修辭結(jié)構(gòu);（3）文本規(guī)劃器檢查輸入元素和篇章修辭結(jié)構(gòu)中各層RST關(guān)系的核心約束及衛(wèi)星約束的匹配情況，以深度優(yōu)先或?qū)挾葍?yōu)先的方式對修辭結(jié)構(gòu)樹的節(jié)點(diǎn)進(jìn)行擴(kuò)展;（4）重復(fù)第3步，實(shí)現(xiàn)每個新激活的增長點(diǎn)目標(biāo)，并將實(shí)例化的RST關(guān)系添加到目標(biāo)篇章樹結(jié)構(gòu)當(dāng)中;（5）在所有輸入元素都被使用，或所有系統(tǒng)目標(biāo)都得到滿足的情況下，目標(biāo)篇章樹的結(jié)構(gòu)化過程結(jié)束;（6）以深度優(yōu)先、從左到右的方式遍歷樹，將關(guān)系的特征線索詞或短語添加到適當(dāng)?shù)男畔⒉壑?，并將結(jié)果傳遞給語法規(guī)范器和版式規(guī)范器進(jìn)行進(jìn)一步優(yōu)化。

綜上，在本文第4部分所定義篇章結(jié)構(gòu)框架的基礎(chǔ)上，系統(tǒng)根據(jù)篇章意圖結(jié)構(gòu)從相關(guān)主題知識網(wǎng)絡(luò)中匹配得到文本規(guī)劃器的重組內(nèi)容輸入量，通過將篇章意圖結(jié)構(gòu)映射為篇章修辭結(jié)構(gòu)得到文本規(guī)劃器的篇章組織結(jié)構(gòu)輸入量。文本規(guī)劃器在得到輸入量后，基于RST關(guān)系的約束條件將兩者進(jìn)行匹配，對RST關(guān)系進(jìn)行實(shí)例化并添加到目標(biāo)篇章樹中。滿足終止條件所得到的目標(biāo)篇章樹結(jié)構(gòu)即為符合特定篇章結(jié)構(gòu)的內(nèi)容重組形態(tài)，對其進(jìn)行語法和版式優(yōu)化，即可得到重組后的內(nèi)容產(chǎn)品。

6 總結(jié)

出版內(nèi)容動態(tài)重組不僅是對相關(guān)內(nèi)容的簡單聚合，而且需要將重組內(nèi)容以符合自然語言組織規(guī)則的方式呈現(xiàn)給用戶。本文提出的出版內(nèi)容重組系統(tǒng)，旨在實(shí)現(xiàn)對一般數(shù)字出版產(chǎn)品知識碎片化后的按需重組和復(fù)用，將目前數(shù)字出版和語義出版領(lǐng)域?qū)?nèi)容資源的碎片化加工及聚合工作，進(jìn)一步拓展至基于篇章結(jié)構(gòu)的內(nèi)容組織，實(shí)現(xiàn)出版內(nèi)容動態(tài)重組整體工作框架的進(jìn)一步完善。文本重點(diǎn)論述兩個關(guān)鍵的系統(tǒng)功能設(shè)計：一是對更深層次用戶需求的挖掘;二是對長篇幅篇章結(jié)構(gòu)的表示和操作設(shè)計。對于前者，本文借鑒認(rèn)知科學(xué)對用戶需求的內(nèi)涵描述，將用戶需求、用戶意圖和系統(tǒng)目標(biāo)進(jìn)行關(guān)聯(lián)，實(shí)現(xiàn)對用戶意圖的形式化表示;對于后者，本文引入計算語言學(xué)領(lǐng)域面向文本自動生成系統(tǒng)的篇章結(jié)構(gòu)理論，從意圖結(jié)構(gòu)和修辭結(jié)構(gòu)兩個方面對篇章結(jié)構(gòu)框架進(jìn)行定義，并在此基礎(chǔ)上對文本規(guī)劃的工作機(jī)制進(jìn)行說明。

注釋

[1]李楠，孫濟(jì)慶，馬卓.面向?qū)W術(shù)文獻(xiàn)的語義出版技術(shù)研究[J].出版科學(xué)，2015，23（6）：85-92

[2]王曉光，宋寧遠(yuǎn).語義出版物的內(nèi)容組織架構(gòu)研究：基于納米出版物和微型出版物的比較分析[J].出版科學(xué)，2017，25（4）：20-27

[3]王莉莉，欒冠楠.英國廣播公司（BBC）動態(tài)語義出版模式研究[J].圖書情報工作，2017，61（8）：126-132

[4]Zhang X Y. The Effects of Formal Schema on Reading Comprehension：An Experiment with Chinese EFL Readers[J]. Computational Linguistics and Chinese Language Processing， 2008， 13（2）：197-214

[5]李吉，黃微，郭蘇琳.一種基于相似度和信任度融合的微博內(nèi)容推薦方法[J].圖書情報工作，2018，62（11）：112-119

[6]梁婷婷，李春青，李海生.基于內(nèi)容過濾PageRank的Top-k學(xué)習(xí)資源匹配推薦[J].計算機(jī)工程，2017，43（2）：220-226

[7]Mann W C， Thompson S A. Rhetorical Structure Theory： Toward a functional theory of text organization[J]. Text & Talk， 1988， 8（3）：243-281

[8]Prasad R， Dinesh N， Lee A， et al. The Penn Discourse TreeBank 2.0[C]// International Conference on Language Resources and Evaluation， Lrec 2008， 26 May - 1 June 2008， Marrakech， Morocco. DBLP， 2008：2961-2968

[9]Zhou Y， Xue N. The Chinese Discourse TreeBank： a Chinese corpus annotated with discourse relations[J]. Language Resources & Evaluation， 2015， 49（2）：397-431

[10]Kuyten P， Bollegala D， Hollerit B， et al. A Discourse Search Engine Based on Rhetorical Structure Theory[C]// European Conference on Ir Research， ECIR 2015， Vienna， Austria. 2015：80-91

[11]Ibrahim A， Elghazaly T. Improve the Automatic Summarization of Arabic Text Depending on Rhetorical Structure Theory[C]// Mexican International Conference on Artificial Intelligence. IEEE， 2014：223-227

[12]Chenlo J M， Hogenboom A， Losada D E. Rhetorical Structure Theory for Polarity Estimation： an Experimental Study[J]. Data & Knowledge Engineering， 2014， 94（PB）：135-147

[13]Fu X， Liu W， Xu Y，Yu C，Wang T. Long Short-term Memory Network over Rhetorical Structure Theory for Sentence-level Sentiment Analysis[C].JMLR： Workshop and Conference Proceedings，2016， 63：17-32

[14]Baeza-Yates R. The intention behind web queries[C]// International Conference on String Processing and Information Retrieval. Springer-Verlag， 2006：98-109

[15]Taylor R S. The process of asking questions[J]. Journal of the Association for Information Science & Technology， 1962， 13（4）：391-396

[16]宋巍. 基于主題的查詢意圖識別研究[D]. 哈爾濱：哈爾濱工業(yè)大學(xué)，2013：4-7

[17]Kuhlthau C C.Inside the search process： Information seeking from the user[J]. Journal of the American Society for Information Science & Technology， 1991， 42（5）：361-371

[18] Vakkari P. A theory of the task‐based information retrieval process： a summary and generalisation of a longitudinal study[J]. Journal of Documentation，2001，57（1）：44-60（17）

[19] Vakkari P， Hakala N. Changes in relevance criteria and problem stages in task performance[J]. Journal of Documentation， 2000，56（5）：540-562

[20]White R W， Ruthven I， Jose J M. A study of factors affecting the utility of implicit relevance feedback[C]// ACM， 2005：35-42

[21]Zhang X， Liu J， Cole M， et al. Predicting users' domain knowledge in information retrieval using multiple regression analysis of search behaviors[J]. Journal of the Association for Information Science & Technology， 2015， 66（5）：980–1000

[22]Sharp A. Chinese L1 Schoolchildren Reading in English： The Effects of Rhetorical Patterns[J]. Reading in A Foreign Language， 2002， 14（2）：111-135

[23]Mckeown K R. The TEXT system for natural language generation： an overview [C]// The Proc. of the Meeting of the Association for Computational Linguistics. 1982：497-511

[24]Hovy E H. Automated discourse generation using discourse structure relations[M]// Natural language processing. MIT Press， 1994：341-385

（收稿日期： 2018-11-15）