李強(qiáng) 劉思得 張鎮(zhèn)波 鮑玉來(lái)
關(guān)鍵詞:語(yǔ)義關(guān)聯(lián):多源自媒體資源:知識(shí)組織:元數(shù)據(jù)
多源自媒體資源包含了大量的數(shù)字內(nèi)容,例如博客、微博、微信公眾號(hào)、短視頻等,這些內(nèi)容能夠豐富圖書館的館藏,為用戶提供多元化的信息資源。多源自媒體資源的數(shù)量龐大,用戶往往無(wú)法通過(guò)傳統(tǒng)的檢索方式找到所需的信息。構(gòu)建多源自媒體資源的知識(shí)組織模型,可以通過(guò)對(duì)多源自媒體資源進(jìn)行分類、標(biāo)注等方式,提高用戶獲取信息的效率。多源自媒體資源的特點(diǎn)是用戶可以自由發(fā)布和共享自己的知識(shí)和經(jīng)驗(yàn)。通過(guò)構(gòu)建多源自媒體資源的知識(shí)組織模型,可以促進(jìn)用戶之間的知識(shí)交流與分享,打破傳統(tǒng)知識(shí)傳播的壁壘。多源自媒體資源中蘊(yùn)含了大量的學(xué)術(shù)研究成果和專業(yè)知識(shí),構(gòu)建多源自媒體資源的知識(shí)組織模型可以將這些資源整合起來(lái),為學(xué)術(shù)研究和學(xué)習(xí)提供支持。多源自媒體資源的知識(shí)組織模型能夠?qū)⒂脩舻男枨笈c資源進(jìn)行匹配,提供個(gè)性化的推薦和服務(wù),從而提升用戶的使用體驗(yàn)。
1多源自媒體資源知識(shí)組織目標(biāo)與原則
多源自媒體是指來(lái)自多個(gè)不同平臺(tái)和渠道的多源自媒體資源。多源自媒體,也稱為個(gè)人媒體或公民媒體,是指?jìng)€(gè)人或團(tuán)體通過(guò)互聯(lián)網(wǎng)等數(shù)字化技術(shù)手段發(fā)布、傳播信息的新型媒體形式。在當(dāng)前的信息時(shí)代,多源自媒體已成為人們獲取信息、表達(dá)觀點(diǎn)的重要途徑。
1.1多源自媒體的特點(diǎn)
多源自媒體的特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:
1)多樣性:多源自媒體包括各種類型的網(wǎng)絡(luò)平臺(tái),如社交媒體(微博、微信)、短視頻平臺(tái)(抖音、快手)、問(wèn)答社區(qū)(知乎)、直播平臺(tái)(斗魚、虎牙)等。
2)開放性:多源自媒體門檻低,任何人都可以成為信息的生產(chǎn)者和傳播者,內(nèi)容涵蓋廣泛,從生活瑣事到專業(yè)知識(shí),無(wú)所不包。
3)實(shí)時(shí)性:多源自媒體信息發(fā)布迅速,能夠?qū)崟r(shí)反映社會(huì)熱點(diǎn)事件和個(gè)人即時(shí)感受。
4)互動(dòng)性:多源自媒體具有強(qiáng)烈的社交屬性,用戶之間可以進(jìn)行評(píng)論、點(diǎn)贊、分享等多種形式的互動(dòng)。
5)多元化:多源自媒體內(nèi)容多樣,不僅有文字,還有圖片、音頻、視頻等多種形式。
因此,多源自媒體的研究對(duì)于了解公眾意見(jiàn)、挖掘社會(huì)熱點(diǎn)、提升信息服務(wù)質(zhì)量等方面具有重要意義。同時(shí),由于多源自媒體資源的多源異構(gòu)特點(diǎn),如阿有效地組織和管理這些資源也是一項(xiàng)重要的挑戰(zhàn)。
1.2多源自媒體資源知識(shí)組織目標(biāo)
多源自媒體資源知識(shí)組織的目標(biāo)是發(fā)掘館藏與多源自媒體資源在知識(shí)上的聯(lián)系,實(shí)現(xiàn)多源自媒體資源的有序化組織和高效利用,并為用戶進(jìn)行信息檢索提供便利,減少其在精細(xì)化檢索上耗費(fèi)的時(shí)間,具體內(nèi)容如下:
1)推動(dòng)多源自媒體資源有序化組織。知識(shí)組織被定義為揭示知識(shí)單元,挖掘知識(shí)關(guān)聯(lián)的過(guò)程或行為,最為快捷地為用戶提供有效知識(shí)或信息。通過(guò)引入知識(shí)元和語(yǔ)義關(guān)聯(lián)等方法,將較為雜亂的多源自媒體資源信息整理為結(jié)構(gòu)化的有序知識(shí)來(lái)源,挖掘內(nèi)部知識(shí)結(jié)構(gòu)和特征規(guī)律,方便圖書館的引用。
2)實(shí)現(xiàn)館藏到多源自媒體資源的一對(duì)多映射。通過(guò)對(duì)多源自媒體資源和虛擬館藏資源進(jìn)行知識(shí)元瞄述、抽取、關(guān)聯(lián)和應(yīng)用,采用深度學(xué)習(xí)、主題建模等多種技術(shù)方法對(duì)知識(shí)內(nèi)容單元進(jìn)行序化重組,旨在通過(guò)尋找館藏與多源自媒體資源在知識(shí)結(jié)構(gòu)上的映射關(guān)系,使圖書館實(shí)現(xiàn)由多源自媒體資源到館藏的利用。
1.3多源自媒體資源知識(shí)組織原則
對(duì)多源自媒體資源進(jìn)行知識(shí)組織需要遵循一定的原則。①科學(xué)性原則,科學(xué)性原則是科學(xué)研究的首要原則,也是知識(shí)組織的首要原則;②有序性原則,當(dāng)今時(shí)代信息量的爆發(fā)式增長(zhǎng),海量信息和虛假信息導(dǎo)致了檢索和甄別困難,因此,實(shí)現(xiàn)知識(shí)的有序化是知識(shí)組織工作的重要目標(biāo)之一:③實(shí)用性原則,實(shí)用性原則發(fā)源于實(shí)用主義,主要體現(xiàn)為強(qiáng)調(diào)行動(dòng)和效果,將經(jīng)驗(yàn)和實(shí)踐歸結(jié)為行動(dòng)的效果,將知識(shí)歸結(jié)為行動(dòng)的工具,將真理歸結(jié)為有用、效用或行動(dòng)的成功,盡力立足于事實(shí),腳踏實(shí)地地進(jìn)行科學(xué)研究;④多維性原則,多維性原則指要從多個(gè)維度進(jìn)行多源自媒體資源的知識(shí)組織,其一指從語(yǔ)義方面對(duì)館藏資源進(jìn)行知識(shí)元分析:其二是對(duì)多源自媒體資源進(jìn)行知識(shí)結(jié)構(gòu)的解析:其三是揭示在上述二者之間的內(nèi)在聯(lián)系。需要借助人工智能技術(shù),有針對(duì)性地多角度、多途徑、全方位進(jìn)行知識(shí)組織研究,滿足用戶的多維知識(shí)需求。
2多源自媒體資源知識(shí)組織模型邏輯框架構(gòu)建
2.1多源自媒體資源知識(shí)組織方式和單一來(lái)源自媒體資源知識(shí)組織方式的區(qū)別
單一來(lái)源自媒體資源知識(shí)組織方式是指只從一個(gè)特定平臺(tái)或渠道收集多源自媒體資源進(jìn)行知識(shí)組織。這種方式的優(yōu)點(diǎn)是數(shù)據(jù)來(lái)源相對(duì)穩(wěn)定,數(shù)據(jù)格式和內(nèi)容類型較為一致,便于管理和處理。例如,如果僅從知乎平臺(tái)收集問(wèn)答信息,那么數(shù)據(jù)主要以文本形式存在,且結(jié)構(gòu)清晰,可以按照問(wèn)題、回答、評(píng)論等維度進(jìn)行分類和索引。然而,多源自媒體資源知識(shí)組織方式則需要面對(duì)來(lái)自多個(gè)不同平臺(tái)和渠道的數(shù)據(jù),這些數(shù)據(jù)不僅在格式上可能存在差異(如文字、圖片、視頻等),而且在內(nèi)容和主題上也可能各不相同。這就需要更為復(fù)雜的知識(shí)組織策略和技術(shù)手段。
1)多源自媒體資源的知識(shí)組織需要解決數(shù)據(jù)整合的問(wèn)題。由于各個(gè)平臺(tái)的數(shù)據(jù)格式和標(biāo)準(zhǔn)可能不同,因此需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換和標(biāo)準(zhǔn)化,以便于后續(xù)的處理和分析。
2)多源自媒體資源的知識(shí)組織需要考慮如何有效地提取和利用信息。這包括對(duì)數(shù)據(jù)的內(nèi)容進(jìn)行深入理解和解析,例如識(shí)別關(guān)鍵詞、命名實(shí)體、情感傾向等,并建立它們之間的語(yǔ)義關(guān)聯(lián)。
3)多源自媒體資源的知識(shí)組織還需要應(yīng)對(duì)數(shù)據(jù)更新和變化的問(wèn)題。由于多源自媒體的實(shí)時(shí)性和動(dòng)態(tài)性,數(shù)據(jù)可能會(huì)快速地產(chǎn)生和消失,因此需要設(shè)計(jì)合理的數(shù)據(jù)采集和更新策略。
多源自媒體資源知識(shí)組織方式相比單一來(lái)源自媒體資源知識(shí)組織方式,需要更強(qiáng)大的數(shù)據(jù)處理和分析能力,以及更為靈活和適應(yīng)性的知識(shí)組織策略。
2.2多源自媒體資源知識(shí)組織邏輯框架
多源自媒體資源知識(shí)組織是數(shù)字資源知識(shí)組織領(lǐng)域下,基于多源自媒體資源知識(shí)內(nèi)涵及與館藏資源的關(guān)聯(lián)關(guān)系開展的知識(shí)組織新模式,旨在從多源自媒體資源中尋求與館藏資源的語(yǔ)義關(guān)聯(lián)與映射,并嘗試實(shí)現(xiàn)與虛擬館藏資源之間的語(yǔ)義關(guān)聯(lián),從而為虛擬館藏提供延伸服務(wù)。
將多源自媒體資源知識(shí)組織劃分為多源自媒體資源特征知識(shí)組織和多源自媒體資源內(nèi)容知識(shí)組織兩個(gè)維度。在上述兩個(gè)維度的知識(shí)組織基礎(chǔ)上,再加以對(duì)虛擬館藏資源的知識(shí)抽取結(jié)果,將三者進(jìn)行語(yǔ)義關(guān)聯(lián),挖掘館藏資源和多源自媒體資源在知識(shí)結(jié)構(gòu)、知識(shí)內(nèi)涵上的聯(lián)系,并以此思路構(gòu)建了多源自媒體資源知識(shí)組織邏輯框架,如圖1所示。
3多源自媒體資源特征信息組織
多源自媒體資源特征信息組織是以知識(shí)元為核心要素,對(duì)多源自媒體資源的特征,即結(jié)構(gòu)化信息的內(nèi)容和特征進(jìn)行抽象表示和概括,以促進(jìn)知識(shí)的管理和利用,是知識(shí)元抽取、知識(shí)關(guān)聯(lián)等知識(shí)組織工作的基礎(chǔ)。多源自媒體資源特征信息組織結(jié)構(gòu)整體劃分為語(yǔ)義與全局兩個(gè)維度,由表及里,由形式到內(nèi)容進(jìn)行知識(shí)元描述。首先從多源自媒體資源結(jié)構(gòu)化信息出發(fā),對(duì)結(jié)構(gòu)化信息進(jìn)行元數(shù)據(jù)描述,構(gòu)建多源自媒體資源特征元數(shù)據(jù)描述框架,并采用形式語(yǔ)言進(jìn)行規(guī)范化表示。其次通過(guò)引入本體,構(gòu)建多源自媒體資源特征元數(shù)據(jù)描述模型。最后,從全局維度人手,為多源自媒體資源特征之間的語(yǔ)義關(guān)系構(gòu)建一個(gè)系統(tǒng)性的元數(shù)據(jù)體系結(jié)構(gòu),以此全面地對(duì)多源自媒體資源特征信息進(jìn)行抽象化表示,為后續(xù)的語(yǔ)義關(guān)聯(lián)做好鋪墊工作。
多源自媒體資源特征元數(shù)據(jù)描述框架構(gòu)建包括4個(gè)步驟,分別為多源自媒體資源特征信息分析、多源自媒體資源特征核心要素提取、元數(shù)據(jù)標(biāo)準(zhǔn)復(fù)用、元數(shù)據(jù)描述框架構(gòu)建。
3.1多源自媒體資源特征信息分析
多源自媒體資源特征信息的結(jié)構(gòu)和布局較為簡(jiǎn)單,根據(jù)多源自媒體平臺(tái)常見(jiàn)的作者一作品一觀眾/讀者三元體系,將多源自媒體資源特征信息中作者相關(guān)信息定義為作者要素,將資源客觀上存在的、一般不會(huì)改變的信息定義為客觀要素,將因觀眾交互產(chǎn)生的、通常用于衡量資源質(zhì)量的信息定義為質(zhì)量要素。此外分別以B站、抖音.知乎3個(gè)平臺(tái)的自媒體資源為例,分析這些多源自媒體平臺(tái)的資源相關(guān)特征,從而為多源自媒體資源特征元數(shù)據(jù)描述框架構(gòu)建提供參考依據(jù)。
B站多源自媒體資源特征信息基本分布于詳情頁(yè),包括資源標(biāo)題、播放量、彈幕量、作者、作者認(rèn)證信息、作者粉絲量、資源獲認(rèn)可量(點(diǎn)贊、投幣、收藏)、資源標(biāo)簽、資源關(guān)聯(lián)等。其中作者、作者認(rèn)證信息、作者粉絲量可歸納為作者要素,資源標(biāo)題、資源標(biāo)簽可歸納為客觀要素,播放量、彈幕量、資源獲認(rèn)可(點(diǎn)贊、投幣、收藏)、資源關(guān)聯(lián)可歸納為質(zhì)量要素。
抖音多源自媒體資源特征信息與資源詳情頁(yè)的體現(xiàn)不夠完整,需要借助作者主頁(yè)來(lái)補(bǔ)充信息,包括作者、資源標(biāo)題、資源標(biāo)簽、資源獲認(rèn)可量(點(diǎn)贊、收藏)、作者認(rèn)證信息、作者粉絲量、總獲贊量等。其中作者、作者認(rèn)證信息、作者粉絲量、總獲贊量可歸納為作者要素,資源標(biāo)題、資源標(biāo)簽、播放量和訪問(wèn)地址可歸納為客觀要素,播放量、資源獲認(rèn)可量(點(diǎn)贊、收藏)可歸納為質(zhì)量要素。
知乎多源自媒體資源特征信息與資源詳情頁(yè)的體現(xiàn)同樣不夠完整,同樣需要借助作者主頁(yè)來(lái)補(bǔ)充信息,包括作者、發(fā)布日期、資源標(biāo)題、資源標(biāo)簽、資源獲認(rèn)可量(點(diǎn)贊、評(píng)論)、作者從事行業(yè)、作者粉絲量、總獲贊量等。其中作者、作者從事行業(yè)、作者粉絲量、總獲贊量可歸納為作者要素,資源標(biāo)題、發(fā)布日期、資源標(biāo)簽可歸納為客觀要素,資源獲認(rèn)可量(點(diǎn)贊、評(píng)論)可歸納為質(zhì)量要素。
3.2提取多源自媒體資源知識(shí)元核心要素
結(jié)合上文中所分析和歸納的多源自媒體資源特征信息,并參考現(xiàn)有的成熟元數(shù)據(jù)標(biāo)準(zhǔn),提煉多源自媒體資源特征要素(如表1所示),為多源自媒體資源知識(shí)元元數(shù)據(jù)框架構(gòu)建奠定基礎(chǔ)。
3.3元數(shù)據(jù)標(biāo)準(zhǔn)復(fù)用
由于多源自媒體資源方面目前并沒(méi)有專業(yè)的元數(shù)據(jù)標(biāo)準(zhǔn),因此考慮從較為廣泛的網(wǎng)絡(luò)資源領(lǐng)域選取了DC元數(shù)據(jù)進(jìn)行復(fù)用。
DC(Dublin Core)元數(shù)據(jù)又稱“都柏林核心元數(shù)據(jù)”,是當(dāng)前圖書館界應(yīng)用最廣、影響最大的標(biāo)準(zhǔn)化元數(shù)據(jù),其主要元素構(gòu)成如表2所示。
3.4構(gòu)建多源自媒體報(bào)紙資源知識(shí)元元數(shù)據(jù)描述框架
參考DC元數(shù)據(jù)標(biāo)準(zhǔn)后,本文復(fù)用了其中5個(gè)元素(題名、日期、創(chuàng)建者、主題、來(lái)源),關(guān)于已定義的其余多源自媒體知識(shí)元要素,目前尚未找到近似的元數(shù)據(jù)標(biāo)準(zhǔn),因此,本文進(jìn)行自定義一個(gè)元數(shù)據(jù)標(biāo)準(zhǔn)(wemedia,簡(jiǎn)寫為wm)說(shuō)明,元數(shù)據(jù)元素共計(jì)17個(gè),具體信息如表3所示。
4多源自媒體資源內(nèi)容信息組織
多源自媒體資源內(nèi)容信息組織是基于互聯(lián)網(wǎng)環(huán)境下用戶進(jìn)行信息檢索的主要方式中的視頻檢索,即到視頻中找答案的檢索行為而構(gòu)建的。主要以人工智能技術(shù)對(duì)多源自媒體資源的內(nèi)容進(jìn)行知識(shí)抽取工作,主要分為實(shí)體抽取、事件知識(shí)元抽取和主題知識(shí)元抽取3部分,對(duì)資源中包含的知識(shí)元進(jìn)行具象化概括和標(biāo)注,以對(duì)多源自媒體資源特征信息組織進(jìn)行補(bǔ)充,為后續(xù)的語(yǔ)義關(guān)聯(lián)提供支持。
4.1多源自媒體資源內(nèi)容文本化
在知識(shí)組織工作中,組織的對(duì)象均為各種形式的文本信息,而非文本類多源自媒體資源中同樣包含著許多有價(jià)值的信息,卻由于載體的限制從未成為知識(shí)組織的對(duì)象。因此,本文嘗試提出一個(gè)研究思路,通過(guò)若干步驟對(duì)非文本類多源自媒體資源進(jìn)行文本化,提取出資源中的內(nèi)容,使其可以適用于當(dāng)下常用的知識(shí)組織方法,為知識(shí)抽取工作提供數(shù)據(jù)支持。當(dāng)前,非文本類資源包括視頻資源、音頻資源和圖片資源,由于圖片資源內(nèi)容特征涉及非文字性的圖形、色彩、色調(diào)、紋理、內(nèi)容對(duì)象、物理制作等要素信息,現(xiàn)有技術(shù)對(duì)于圖像提取信息的手段缺乏而無(wú)法獲得有效信息,因此本文對(duì)多源自媒體資源內(nèi)容文本化的設(shè)計(jì)將忽略圖片資源信息,僅考慮視頻資源和音頻資源。下面將以B站視頻類多源自媒體資源“【羅翔】正當(dāng)防衛(wèi)的尺度”為例,展示多源自媒體資源內(nèi)容文本化的主要流程。
1)工具選擇與項(xiàng)目搭建
本文選擇的多源自媒體資源文本化工具為深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)、連接時(shí)序分類(CTC)方法及語(yǔ)言模型Language Model等,使用語(yǔ)音識(shí)別專用數(shù)據(jù)集進(jìn)行訓(xùn)練。
首先通過(guò)特征提取將音頻文件中普通的語(yǔ)音信號(hào)通過(guò)分幀加窗等操作轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)需要的二維頻譜圖像信號(hào),即語(yǔ)譜圖。然后通過(guò)DCNN(深度卷積神經(jīng)網(wǎng)絡(luò)),將聲學(xué)信號(hào)轉(zhuǎn)換為拼音標(biāo)簽序列。
在語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)模型的輸出中,往往包含了大量連續(xù)重復(fù)的符號(hào),因此還需要使用CTC(連接時(shí)序分類)方法將連續(xù)相同的符合合并為同一個(gè)符號(hào),然后再去除靜音分隔標(biāo)記符,得到最終實(shí)際的語(yǔ)音拼音符號(hào)序列。
拼音轉(zhuǎn)漢字的原理參照動(dòng)態(tài)規(guī)劃算法,與計(jì)算機(jī)學(xué)中的最短路徑的算法基本相同。可將拼音到漢字的轉(zhuǎn)化看成對(duì)最短路徑問(wèn)題的求解,每個(gè)漢字有且僅有1個(gè)音,但每一組拼音可以對(duì)應(yīng)多個(gè)漢字,將拼音符號(hào)序列對(duì)應(yīng)的字自左向右相連即構(gòu)成1張有向圖,如圖2所示。
Y1是輸入的拼音符號(hào)序列,W11、W12、W13分別為Y1的第一、二、三個(gè)候選字,有向箭頭表示該候選字與下一個(gè)候選字組成的字段符合原本語(yǔ)義表達(dá)的概率,后續(xù)以此類推直到Y(jié)。與最短路徑問(wèn)題略有不同的是,在語(yǔ)音轉(zhuǎn)化中期望得到的結(jié)果是到終點(diǎn)概率最大的路徑,因此本文使用了最短路徑算法中的貪心算法來(lái)進(jìn)行語(yǔ)音到文本的解碼。
貪心算法(又稱貪婪算法),指在對(duì)問(wèn)題求解時(shí),總是做出在當(dāng)前看來(lái)是最好的選擇。也就是說(shuō),不從整體最優(yōu)上加以考慮,他所做出的是在某種意義上的局部最優(yōu)解。貪心算法不是對(duì)所有問(wèn)題都能得到整體最優(yōu)解,關(guān)鍵是貪心策略的選擇,選擇的貪心策略必須具備無(wú)后效性,即某個(gè)狀態(tài)以前的過(guò)程不會(huì)影響以后的狀態(tài),只與當(dāng)前狀態(tài)有關(guān)。
2)多源自媒體資源下載與音頻提取
由于本文使用的多源自媒體資源文本化工具的輸人格式為音頻文件,因此需要對(duì)非音頻資源(即視頻資源)進(jìn)行預(yù)處理,提取出音頻部分。多源自媒體資源的下載渠道為各自媒體資源平臺(tái)網(wǎng)站、APP或公眾號(hào)等,大多數(shù)多源自媒體平臺(tái)的音頻緩存格式為.mp3,視頻緩存格式則為.mp4或.flv,通過(guò)一些視頻處理軟件即可實(shí)現(xiàn)音頻提取。
B站的視頻緩存格式較為特殊,為.m4s格式,因此不能通過(guò)常規(guī)視頻處理軟件,需要用.m4s專用的軟件進(jìn)行提取,否則會(huì)造成文件損壞。B站多源自媒體資源文件緩存index.json為頁(yè)面配置文件,audio. m4s和video. m4s分別為該資源的影像部分和音像部分,我們僅需要其中的音像部分即可,即audio.m4s文件,再將該文件使用.m4s專用軟件(如秒轉(zhuǎn)m4s等)將audio. m4s文件轉(zhuǎn)為.mp3的音頻文件即可。
3)格式轉(zhuǎn)化
在音頻識(shí)別項(xiàng)目中為了減少環(huán)境的負(fù)荷,通常要求音頻文件的shape[list]≤1600。而.mp3文件的shape[list]為42605,遠(yuǎn)遠(yuǎn)超出臨界值,因此需要對(duì).mp3文件進(jìn)行輕量級(jí)化,轉(zhuǎn)化為更接近原聲的.wav文件,減少對(duì)環(huán)境的依賴程度。
由.mp3文件到.wav文件的格式轉(zhuǎn)化可使用Audacity軟件完成,只需使用Audacity打開.mp3文件,重新錄制后再導(dǎo)出為.wav文件即可。
4)語(yǔ)音識(shí)別
將處理后的音頻文件路徑輸入語(yǔ)音識(shí)別項(xiàng)目后即可輸出識(shí)別后的中文文本。
4.2多源自媒體資源內(nèi)容關(guān)鍵詞與知識(shí)摘要抽取
多源白媒體資源內(nèi)容知識(shí)摘要與關(guān)鍵詞抽取分別使用了TextRank算法中的Summarize函數(shù)與Key-words函數(shù)。
TextRank算法是由頁(yè)面重要性排序算法Pag-eRank算法遷移出來(lái)而生成的新算法,PageRank算法依據(jù)頁(yè)面間的鏈接性聯(lián)系構(gòu)建網(wǎng)絡(luò),而TextRank算法則依據(jù)字詞間的共現(xiàn)性聯(lián)系構(gòu)建網(wǎng)絡(luò)。
PageRank算法所建立的網(wǎng)絡(luò)上的邊為有向無(wú)權(quán)邊,而TextRank算法把單詞當(dāng)作萬(wàn)維網(wǎng)中的節(jié)點(diǎn),并通過(guò)單詞間的共現(xiàn)性關(guān)系判斷一個(gè)單詞的價(jià)值,從而把PageRank中的有向無(wú)權(quán)邊轉(zhuǎn)換為無(wú)向有權(quán)邊。
首先需要將給定的文本進(jìn)行分詞和詞性標(biāo)注,詞性標(biāo)注與命名實(shí)體識(shí)別相似但不完全相同,詞性標(biāo)注指根據(jù)詞性標(biāo)記所有詞語(yǔ),而命名實(shí)體識(shí)別僅選出已被定義的的實(shí)體。本文分詞及詞性標(biāo)注同樣采用Jiagu自然語(yǔ)言處理工具構(gòu)建完成。多源自媒體資源內(nèi)容詞性標(biāo)注標(biāo)準(zhǔn)如表4所示,以B站視頻類多源自媒體資源“【羅翔】正當(dāng)防衛(wèi)的尺度”為例,展示分詞及詞性標(biāo)注結(jié)果,如圖3所示。
在所有詞性標(biāo)注的結(jié)果中剔除停用詞,只保留名詞、動(dòng)詞、形容詞等,而后即可構(gòu)建詞圖G=(V,E)。其中V為節(jié)點(diǎn)集合,由經(jīng)過(guò)上一步所產(chǎn)生的詞匯構(gòu)成,然后通過(guò)共現(xiàn)關(guān)系構(gòu)造任何兩個(gè)節(jié)點(diǎn)相互之間的邊:在窗口尺寸為K的視窗中(即最多共現(xiàn)K個(gè)單詞,通常K取2),兩個(gè)節(jié)點(diǎn)相互之間具有邊當(dāng)且僅當(dāng)它們所相應(yīng)的詞匯在尺寸為K的視窗中共現(xiàn)。
根據(jù)式(1).可以迭代求解各節(jié)點(diǎn)占據(jù)的權(quán)重,直到收斂。對(duì)節(jié)點(diǎn)的權(quán)重實(shí)行倒序排序,由此得出了最關(guān)鍵的t個(gè)詞,命名為top-t詞。對(duì)新獲得的top-t詞,在原始文本上加以標(biāo)注,如果在它們的中間產(chǎn)生了任意相鄰短語(yǔ),就當(dāng)作關(guān)鍵詞抽取出來(lái),即最終輸出的結(jié)果。
在給定文本中抽取關(guān)鍵句時(shí),把文本中的各個(gè)語(yǔ)句單獨(dú)視為一個(gè)節(jié)點(diǎn),假設(shè)兩個(gè)語(yǔ)句具有相似之處,即認(rèn)為在這兩個(gè)語(yǔ)句對(duì)應(yīng)的節(jié)點(diǎn)間具有一條無(wú)向有權(quán)邊,判斷語(yǔ)句間相似性的公式見(jiàn)式(2):
其中S1、S2為兩個(gè)獨(dú)立的句子,w為句子中的詞匯集。式(2)右側(cè)分子部分意為是同一個(gè)詞重復(fù)出現(xiàn)在兩個(gè)句子中的次數(shù),分母則是對(duì)句子中詞的個(gè)數(shù)求對(duì)數(shù)后再求和,如此方可控制較長(zhǎng)文本在相似度計(jì)算上的誤差。
按照上述相似度計(jì)算公式循環(huán)計(jì)算出任何兩個(gè)節(jié)點(diǎn)間的相似度,并設(shè)定閾值以去除兩個(gè)節(jié)點(diǎn)中間相似度較低的一邊,進(jìn)而建立出節(jié)點(diǎn)連接圖,隨后迭代計(jì)算各個(gè)節(jié)點(diǎn)的TextRank值,在排序后選出TextRank值最大的n個(gè)節(jié)點(diǎn),將其對(duì)應(yīng)的語(yǔ)句作為關(guān)鍵句,并作為結(jié)果輸出。
以B站視頻類多源自媒體資源“【羅翔】正當(dāng)防衛(wèi)的尺度”為例,關(guān)鍵詞及知識(shí)摘要抽取結(jié)果如圖4所示。
4.3多源自媒體資源內(nèi)容知識(shí)組織信息整合
按照多源自媒體資源知識(shí)元模型邏輯框架,多源自媒體資源內(nèi)容知識(shí)組織所得結(jié)果將會(huì)與多源自媒體資源特征知識(shí)組織的所得結(jié)果一同進(jìn)行語(yǔ)義關(guān)聯(lián),為方便語(yǔ)義關(guān)聯(lián)工作的進(jìn)行,需要將多源自媒體資源內(nèi)容知識(shí)組織的結(jié)果集成到已構(gòu)建的多源自媒體資源特征信息本體中,合并為多源自媒體資源信息本體,如圖5所示。
4.4多源自媒體資源語(yǔ)義網(wǎng)絡(luò)構(gòu)建
1)語(yǔ)義網(wǎng)絡(luò)
語(yǔ)義網(wǎng)絡(luò)(Semantic Network)是奎林(Quillian JR)于1968年提出的一種以網(wǎng)狀脈絡(luò)表達(dá)數(shù)據(jù)關(guān)聯(lián)的形式,是人工智能程序運(yùn)用的表示方式之一,是一種直觀的知識(shí)表示方法。語(yǔ)義網(wǎng)絡(luò)本質(zhì)上是多組三聯(lián)組的組合與擴(kuò)展,其構(gòu)建方法主要是半自動(dòng)法或自動(dòng)法,包括概念抽取和關(guān)系抽取兩個(gè)步驟。
2)多源自媒體資源特征知識(shí)元語(yǔ)義網(wǎng)絡(luò)
通過(guò)Protege內(nèi)的OntoGraf模塊,可對(duì)構(gòu)建好的本體模型進(jìn)行結(jié)構(gòu)脈絡(luò)可視化,如圖6所示。
由于語(yǔ)義網(wǎng)絡(luò)的表達(dá)范圍有限,一旦節(jié)點(diǎn)個(gè)數(shù)太多,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,推理就難以進(jìn)行,因此在語(yǔ)義網(wǎng)絡(luò)的構(gòu)建過(guò)程中需要有意控制節(jié)點(diǎn)的數(shù)量。
根據(jù)圖6中的結(jié)構(gòu)脈絡(luò),在多源自媒體資源特征信息分類層次的基礎(chǔ)上,將從事行業(yè)、職業(yè)經(jīng)歷、教育經(jīng)歷概括為履歷知識(shí)元。由于日期在語(yǔ)義網(wǎng)絡(luò)構(gòu)建中具有格式特殊性,因此將其從客觀信息類中分出,獨(dú)立概括為時(shí)間知識(shí)元,概括后的整體知識(shí)元語(yǔ)義網(wǎng)絡(luò)如圖7所示。
多源自媒體資源特征語(yǔ)義網(wǎng)絡(luò)將多源自媒體資源的屬性以及屬性間的語(yǔ)義聯(lián)系顯示地表現(xiàn)出來(lái),下層結(jié)點(diǎn)可以繼承、新增和變異上層結(jié)點(diǎn)的屬性,從而便于實(shí)現(xiàn)信息共享和知識(shí)挖掘。
5多源自媒體資源語(yǔ)義關(guān)聯(lián)實(shí)驗(yàn)
為對(duì)多源自媒體資源知識(shí)組織結(jié)果進(jìn)行延伸和應(yīng)用,以實(shí)現(xiàn)研究目標(biāo)中的館藏到多源自媒體資源的一對(duì)多映射,基于語(yǔ)義學(xué)理論,通過(guò)計(jì)算機(jī)領(lǐng)域的關(guān)聯(lián)算法對(duì)多源自媒體資源知識(shí)組織結(jié)果和館藏資源進(jìn)行語(yǔ)義關(guān)聯(lián)研究,設(shè)計(jì)多個(gè)方案進(jìn)行關(guān)聯(lián)并通過(guò)實(shí)驗(yàn)比對(duì)它們的效果。
5.1語(yǔ)義關(guān)聯(lián)實(shí)驗(yàn)設(shè)計(jì)
對(duì)語(yǔ)義關(guān)聯(lián)實(shí)驗(yàn)進(jìn)行設(shè)計(jì),實(shí)驗(yàn)的設(shè)計(jì)將分為4個(gè)部分,分別是需求分析、語(yǔ)義關(guān)聯(lián)算法選取、語(yǔ)義關(guān)聯(lián)方案設(shè)計(jì)和實(shí)驗(yàn)流程設(shè)計(jì)。
5.1.1實(shí)驗(yàn)需求分析
算法需要對(duì)知識(shí)組織的結(jié)果預(yù)處理后的數(shù)據(jù)同關(guān)聯(lián)對(duì)象進(jìn)行語(yǔ)義關(guān)聯(lián)計(jì)算,輸出與給定的每個(gè)多源自媒體資源知識(shí)組織結(jié)果的語(yǔ)義關(guān)聯(lián)度,并按語(yǔ)義關(guān)聯(lián)度高低進(jìn)行排序。排序后的各多源自媒體資源知識(shí)組織語(yǔ)義關(guān)聯(lián)度,關(guān)聯(lián)度最高和最低之差應(yīng)不小于0.01,確保語(yǔ)義關(guān)聯(lián)結(jié)果能表現(xiàn)出明顯的高低之分。
5.1.2語(yǔ)義關(guān)聯(lián)算法選取
1)語(yǔ)義關(guān)聯(lián)算法。語(yǔ)義學(xué)理論中認(rèn)為,任何兩個(gè)詞語(yǔ)的相似度取決于它們的共性(Commonality)和個(gè)性(Differences),語(yǔ)義關(guān)聯(lián)度一般為一個(gè)0~1之間的實(shí)數(shù)。
目前較為常見(jiàn)的語(yǔ)義關(guān)聯(lián)算法主要有:詞向量關(guān)聯(lián)法、特征關(guān)聯(lián)法、Bert概率關(guān)聯(lián)法和詞典關(guān)聯(lián)法。由于詞向量關(guān)聯(lián)法相較于其他關(guān)聯(lián)法較為直接和簡(jiǎn)便,因此在目前語(yǔ)義關(guān)聯(lián)方面的算法更多會(huì)選擇詞向量關(guān)聯(lián)法。
2)算法評(píng)價(jià)指標(biāo)。衡量機(jī)器學(xué)習(xí)算法的三大指標(biāo)為:查全率、查準(zhǔn)率和F1。
3)語(yǔ)義關(guān)聯(lián)算法對(duì)比分析。本實(shí)驗(yàn)中選擇了詞向量關(guān)聯(lián)法中使用較多的幾種算法,并通過(guò)上述評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比,如表5所示。
通過(guò)表5中的數(shù)據(jù)可見(jiàn),算法text_similar-matching-tool-master在3項(xiàng)指標(biāo)上都明顯優(yōu)于其他算法,因止匕選擇text_similar-matching-tool-master來(lái)進(jìn)行語(yǔ)義關(guān)聯(lián)實(shí)驗(yàn)。
5.1.3語(yǔ)義關(guān)聯(lián)方案設(shè)計(jì)
通過(guò)結(jié)合多源自媒體資源知識(shí)組織中的多源自媒體資源語(yǔ)義網(wǎng)絡(luò)脈絡(luò),已確定的語(yǔ)義關(guān)聯(lián)方案有兩種:整體關(guān)聯(lián)法和加權(quán)關(guān)聯(lián)法。在本實(shí)驗(yàn)中根據(jù)語(yǔ)義網(wǎng)絡(luò)中各節(jié)點(diǎn)之間的距離為多源自媒體資源知識(shí)組織結(jié)果中的各個(gè)部分賦予權(quán)重,將各部分單獨(dú)作為算法的輸入結(jié)果進(jìn)行語(yǔ)義關(guān)聯(lián),再對(duì)輸出的結(jié)果進(jìn)行加權(quán)運(yùn)算,得出最終的加權(quán)語(yǔ)義關(guān)聯(lián)度。
在對(duì)算法的測(cè)試過(guò)程中發(fā)現(xiàn),實(shí)驗(yàn)算法對(duì)長(zhǎng)文本的語(yǔ)義關(guān)聯(lián)度輸入結(jié)果浮動(dòng)較大且整體偏低,而對(duì)短文本的語(yǔ)義關(guān)聯(lián)度則較為穩(wěn)定,因此需要進(jìn)行預(yù)實(shí)驗(yàn)加以確定。
如圖8所示,將一段100字的文本分為5段20字的文本,再將它們分別與另一段關(guān)聯(lián)文本進(jìn)行語(yǔ)義關(guān)聯(lián),關(guān)聯(lián)文本為該100字文本經(jīng)翻譯成英語(yǔ)、德語(yǔ)后再翻譯回中文的結(jié)果,語(yǔ)義關(guān)聯(lián)結(jié)果如圖9所示。
圖9中的similarity為100字文本同關(guān)聯(lián)文本間的語(yǔ)義關(guān)聯(lián)度,而similarity1~5則為分段后的5段文本各自與關(guān)聯(lián)文本間的語(yǔ)義關(guān)聯(lián)度。
通過(guò)預(yù)實(shí)驗(yàn)可發(fā)現(xiàn),similarity1~5均高于simi-larity,且對(duì)similarity1~5計(jì)算平均值后依然遠(yuǎn)高于similarity。由此可見(jiàn)同一段文本內(nèi)容,將其整體進(jìn)行關(guān)聯(lián)和分段進(jìn)行關(guān)聯(lián)的結(jié)果存在較大偏差。
多源自媒體資源知識(shí)組織結(jié)果由組成結(jié)構(gòu)化信息、命名實(shí)體、關(guān)鍵詞、知識(shí)摘要等組成,因此考慮對(duì)多源自媒體資源知識(shí)組織結(jié)果進(jìn)行分段,其中知識(shí)摘要字?jǐn)?shù)相對(duì)較多可根據(jù)文段長(zhǎng)度適當(dāng)分為2~3段,再將它們分別與關(guān)聯(lián)對(duì)象進(jìn)行語(yǔ)義關(guān)聯(lián),以此構(gòu)建分段關(guān)聯(lián)法。因?yàn)榉侄涡枰M(jìn)行數(shù)倍于整體關(guān)聯(lián)法的工作量,因此在保證輸出語(yǔ)義關(guān)聯(lián)度最高的5個(gè)結(jié)果能夠達(dá)成的基礎(chǔ)上,分段關(guān)聯(lián)法將僅在整體關(guān)聯(lián)法結(jié)果中的語(yǔ)義關(guān)聯(lián)度最高的10個(gè)結(jié)果中進(jìn)行。
分段關(guān)聯(lián)法對(duì)多源自媒體資源知識(shí)組織結(jié)果的分割恰好符合加權(quán)關(guān)聯(lián)法的數(shù)據(jù)需求,因此加權(quán)關(guān)聯(lián)法可在分段關(guān)聯(lián)法的基礎(chǔ)上進(jìn)行。
至此,本實(shí)驗(yàn)的語(yǔ)義關(guān)聯(lián)方案全部確定,分別為整體關(guān)聯(lián)法、詞句關(guān)聯(lián)法和加權(quán)關(guān)聯(lián)法,實(shí)驗(yàn)語(yǔ)義關(guān)聯(lián)方案設(shè)計(jì)流程圖如圖10所示。
整體關(guān)聯(lián)法為語(yǔ)義關(guān)聯(lián)算法的直接調(diào)用,計(jì)算出關(guān)聯(lián)對(duì)象與多源自媒體資源信息的語(yǔ)義關(guān)聯(lián)度。
分段關(guān)聯(lián)法在整體關(guān)聯(lián)法的基礎(chǔ)上,對(duì)結(jié)果中語(yǔ)義關(guān)聯(lián)度前十的多源自媒體資源進(jìn)行分段,以所有文段對(duì)于關(guān)聯(lián)對(duì)象信息的平均語(yǔ)義關(guān)聯(lián)度,作為該多源自媒體資源信息整體對(duì)于關(guān)聯(lián)對(duì)象信息的語(yǔ)義關(guān)聯(lián)度輸出。
加權(quán)關(guān)聯(lián)法在詞句關(guān)聯(lián)法的基礎(chǔ)上,對(duì)分段后的語(yǔ)義關(guān)聯(lián)度進(jìn)行加權(quán)計(jì)算后得出加權(quán)語(yǔ)義關(guān)聯(lián)度。權(quán)重分配參照多源自媒體資源本體及知識(shí)元語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu),以節(jié)點(diǎn)的級(jí)別進(jìn)行分配。
其中內(nèi)容知識(shí)元、作者知識(shí)元和客觀信息知識(shí)元與上一級(jí)節(jié)點(diǎn)之間的距離比約為1:1.5:2.5,因此3個(gè)知識(shí)元與上一級(jí)節(jié)點(diǎn)的關(guān)聯(lián)程度比為1:111.5:1/2.5,化簡(jiǎn)后約為5:3. 33:2,為方便加權(quán)計(jì)算,應(yīng)盡量使比例總和為10個(gè)倍數(shù),因此此處將關(guān)聯(lián)程度比例近似視為為5:3:20
通過(guò)上述比例可對(duì)一級(jí)節(jié)點(diǎn)進(jìn)行權(quán)重分配,其中內(nèi)容信息占0.5,作者信息占0.3,客觀信息占0.2,后續(xù)節(jié)點(diǎn)因距離差不夠明顯,計(jì)算比例較為困難,因此采用依次平分的形式,具體如表6所示。
5.1.4實(shí)驗(yàn)流程設(shè)計(jì)
1)數(shù)據(jù)準(zhǔn)備,將實(shí)驗(yàn)所需的多源自媒體資源信息數(shù)據(jù)與關(guān)聯(lián)對(duì)象數(shù)據(jù)分別進(jìn)行整理。
2)語(yǔ)義關(guān)聯(lián)計(jì)算,將整理的數(shù)據(jù)集通過(guò)3種算法進(jìn)行語(yǔ)義關(guān)聯(lián)度計(jì)算,分別得出與之關(guān)聯(lián)度最高的5個(gè)結(jié)果及其語(yǔ)義關(guān)聯(lián)度。
3)結(jié)果檢驗(yàn),結(jié)果檢驗(yàn)分為兩個(gè)部分。第一部分為對(duì)3種算法的整體關(guān)聯(lián)正確率進(jìn)行人為判斷相關(guān)性,第二部分為對(duì)比詞句關(guān)聯(lián)法和加權(quán)關(guān)聯(lián)法下各個(gè)結(jié)果所計(jì)算出的語(yǔ)義關(guān)聯(lián)度。
4)實(shí)驗(yàn)分析及總結(jié)。
5.2實(shí)驗(yàn)數(shù)據(jù)收集及預(yù)處理
對(duì)實(shí)驗(yàn)所需要的數(shù)據(jù)進(jìn)行需求分析,確定數(shù)據(jù)的來(lái)源、類型和內(nèi)容構(gòu)成。然后通過(guò)技術(shù)手段對(duì)實(shí)驗(yàn)數(shù)據(jù)按需求分類、分結(jié)構(gòu)進(jìn)行收集。最后對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理,以方便后續(xù)實(shí)驗(yàn)流程進(jìn)行。
5.2.1實(shí)驗(yàn)數(shù)據(jù)說(shuō)明
實(shí)驗(yàn)的數(shù)據(jù)主要分為兩個(gè)部分:多源自媒體資源知識(shí)組織結(jié)果和關(guān)聯(lián)對(duì)象數(shù)據(jù),數(shù)據(jù)類型均為txt文本文件。
多源自媒體資源數(shù)據(jù)知識(shí)組織結(jié)果通過(guò)上文構(gòu)建的多源自媒體資源知識(shí)組織方法獲得,分別從B站、抖音、知乎3個(gè)社交媒體平臺(tái)選取若干多源自媒體資源數(shù)據(jù),進(jìn)行知識(shí)組織后將結(jié)果分別存入本地。出于工作量的考慮,將3個(gè)平臺(tái)的多源自媒體資源數(shù)量均定位50個(gè)。
為驗(yàn)證語(yǔ)義關(guān)聯(lián)效果是否準(zhǔn)確,應(yīng)該在語(yǔ)義關(guān)聯(lián)數(shù)據(jù)集中適當(dāng)加入干擾信息,因此在實(shí)驗(yàn)中設(shè)置了20%的干擾信息,即與關(guān)聯(lián)對(duì)象不相關(guān)的多源自媒體資源數(shù)量占總多源自媒體資源數(shù)量的1/5。
5.2.2多源自媒體資源知識(shí)組織結(jié)果獲取
1)數(shù)據(jù)來(lái)源及類型。多源自媒體資源知識(shí)組織的結(jié)果,來(lái)源于多源自媒體資源經(jīng)過(guò)第二部分多源自媒體資源知識(shí)組織的結(jié)果輸出。而知識(shí)組織對(duì)象的多源自媒體資源從B站、抖音、知乎3個(gè)平臺(tái)選取主要法律相關(guān)的知識(shí)性多源自媒體資源,其中200-/0的干擾性信息選取金融相關(guān)知識(shí)性多源自媒體資源。
2)數(shù)據(jù)采集。以B站為例,通過(guò)在網(wǎng)頁(yè)中查看源碼可知,B站的分區(qū)及關(guān)鍵詞等信息均包含在
在通過(guò)上一步的篩查后,即可對(duì)多源自媒體資源進(jìn)行數(shù)據(jù)采集,采集的對(duì)象包括標(biāo)題、作者、標(biāo)簽等結(jié)構(gòu)化信息,還包括多源自媒體資源本身,需要將其下載到本地并進(jìn)行音頻提取等操作。
3)知識(shí)組織。對(duì)多源自媒體資源數(shù)據(jù)按多源自媒體資源知識(shí)組織模型進(jìn)行知識(shí)組織后,將數(shù)據(jù)分別寫入txt文本文件,如圖11所示。
5.2.3關(guān)聯(lián)對(duì)象數(shù)據(jù)獲取
1)關(guān)聯(lián)對(duì)象選取。多源自媒體資源知識(shí)組織目標(biāo)之一是實(shí)現(xiàn)館藏到多源自媒體資源的一對(duì)多映射,尋找館藏與多源自媒體資源在知識(shí)結(jié)構(gòu)上的映射關(guān)系,以滿足用戶日益增長(zhǎng)的知識(shí)需求,使圖書館實(shí)現(xiàn)由多源自媒體資源到館藏的利用,因此,本實(shí)驗(yàn)中的關(guān)聯(lián)對(duì)象選擇了圖書館虛擬館藏資源。而由于需要保證語(yǔ)義關(guān)聯(lián)的效果,因此關(guān)聯(lián)對(duì)象與待關(guān)聯(lián)的文本之間應(yīng)該具有相關(guān)性,即虛擬館藏的選取應(yīng)該選用法律相關(guān)的館藏資源。本實(shí)驗(yàn)關(guān)聯(lián)對(duì)象資源選擇了虛擬館藏資源《法律基礎(chǔ)》,如圖12所示。
2)關(guān)聯(lián)對(duì)象信息抽取目標(biāo)分析。對(duì)關(guān)聯(lián)對(duì)象做信息抽取的主要目的是提供與多源自媒體資源信息進(jìn)行語(yǔ)義關(guān)聯(lián)工作的數(shù)據(jù)。而本文的研究主體為對(duì)多源自媒體資源信息進(jìn)行的知識(shí)組織,關(guān)聯(lián)對(duì)象是作為語(yǔ)義關(guān)聯(lián)的參照而存在的,因此對(duì)關(guān)聯(lián)對(duì)象的知識(shí)抽取,只需對(duì)在虛擬館藏所在頁(yè)面上能表示該虛擬館藏的信息進(jìn)行收集和組織即可,不需要對(duì)關(guān)聯(lián)對(duì)象信息抽取的結(jié)果構(gòu)建本體。
在語(yǔ)義關(guān)聯(lián)中,對(duì)文本的分段不是必要的,進(jìn)行語(yǔ)義關(guān)聯(lián)的兩段文本在長(zhǎng)度相差較大時(shí)誤差甚至可以忽略不計(jì),因此不需要對(duì)關(guān)聯(lián)對(duì)象信息抽取的結(jié)果分段,保留其內(nèi)容寫入txt文本中即可。
3)關(guān)聯(lián)對(duì)象信息抽取框架構(gòu)建。根據(jù)虛擬館藏資源知識(shí)信息目標(biāo)分析的結(jié)果構(gòu)建了虛擬館藏資源信息抽取框架,如表7所示,抽取結(jié)果如圖13所示。
5.2.4數(shù)據(jù)預(yù)處理
為方便實(shí)驗(yàn)進(jìn)行,對(duì)知識(shí)組織所得結(jié)果的txt文本進(jìn)行分類整理,文件以【數(shù)據(jù)來(lái)源平臺(tái)+序號(hào)】命名,通過(guò)對(duì)txt文本進(jìn)行命名,在后續(xù)試驗(yàn)中即可通過(guò)循環(huán)算法對(duì)同一來(lái)源的多個(gè)文本進(jìn)行語(yǔ)義關(guān)聯(lián),大大減少實(shí)驗(yàn)工作量。
5.3運(yùn)行結(jié)果及分析
5.3.1算法運(yùn)行結(jié)果
本實(shí)驗(yàn)采用的3種方案分別為整體關(guān)聯(lián)法、分段關(guān)聯(lián)法和加權(quán)關(guān)聯(lián)法的運(yùn)行結(jié)果,根據(jù)實(shí)驗(yàn)需求設(shè)計(jì),對(duì)各個(gè)實(shí)驗(yàn)方案輸出結(jié)果中的語(yǔ)義關(guān)聯(lián)度最高的5個(gè)結(jié)果及其語(yǔ)義關(guān)聯(lián)度進(jìn)行展示,如表8~表10所示。
5.3.2實(shí)驗(yàn)結(jié)果分析
本實(shí)驗(yàn)的研究目標(biāo)是實(shí)現(xiàn)虛擬館藏資源到多源自媒體資源的一對(duì)多映射,主要的衡量指標(biāo)應(yīng)為輸出的結(jié)果具體是否與虛擬館藏資源相關(guān),因此本實(shí)驗(yàn)的運(yùn)行結(jié)果分析主要通過(guò)觀察分析來(lái)完成。
算法的運(yùn)行結(jié)果顯示,整體關(guān)聯(lián)法同其他兩種算法所得的語(yǔ)義關(guān)聯(lián)度相差甚遠(yuǎn),詞句關(guān)聯(lián)法和加權(quán)關(guān)聯(lián)法所得語(yǔ)義關(guān)聯(lián)度在0.4~0.5之間,而整體關(guān)聯(lián)法所得語(yǔ)義關(guān)聯(lián)度均在0.3以下。3種算法均能關(guān)聯(lián)出共計(jì)150個(gè)資源中在標(biāo)題上與關(guān)聯(lián)對(duì)象《法律基礎(chǔ)》有直接相關(guān)的,也是內(nèi)容上最為相關(guān)的一個(gè),即《法律基礎(chǔ)一民事訴訟(一)》這一資源。證明3種算法對(duì)高度相關(guān)資源的關(guān)聯(lián)能力符合預(yù)期結(jié)果。
從整體關(guān)聯(lián)正確率來(lái)看,詞句關(guān)聯(lián)法和加權(quán)關(guān)聯(lián)法均能關(guān)聯(lián)出5個(gè)法律相關(guān)多源自媒體資源,符合預(yù)期結(jié)果。
而對(duì)比詞句關(guān)聯(lián)法和權(quán)重關(guān)聯(lián)法可見(jiàn),加權(quán)關(guān)聯(lián)法所得5個(gè)結(jié)果的語(yǔ)義關(guān)聯(lián)度較為相近,而詞句關(guān)聯(lián)法所得5個(gè)結(jié)果的語(yǔ)義關(guān)聯(lián)度則較為分散。
以語(yǔ)義關(guān)聯(lián)為基礎(chǔ),綜合運(yùn)用了語(yǔ)音文本化、語(yǔ)義識(shí)別和語(yǔ)義關(guān)聯(lián)等人工智能技術(shù),以收集一組織一關(guān)聯(lián)一發(fā)現(xiàn)為主要流程對(duì)多源自媒體資源進(jìn)行了知識(shí)組織研究,實(shí)現(xiàn)了虛擬館藏資源到多源自媒體資源間的一對(duì)多映射。
6總結(jié)
本文分析了多源自媒體資源特征信息,構(gòu)建了多源自媒體資源元數(shù)據(jù)描述框架。在元數(shù)據(jù)描述框架的基礎(chǔ)上,構(gòu)建了多源自媒體資源本體,對(duì)構(gòu)建本體所需的概念分類、層次結(jié)構(gòu)、屬性和關(guān)系進(jìn)行定義,為語(yǔ)義關(guān)聯(lián)提供支持。通過(guò)融合語(yǔ)音識(shí)別、語(yǔ)義識(shí)別等技術(shù),將知識(shí)組織研究拓展到非文本類資源領(lǐng)域,為知識(shí)組織研究提供了新的思路。本文通過(guò)分詞和加權(quán)計(jì)算,設(shè)計(jì)了圖書館館藏資源和多源自媒體資源間的語(yǔ)義關(guān)聯(lián)算法并進(jìn)行了檢驗(yàn),對(duì)比了不同算法下語(yǔ)義關(guān)聯(lián)的結(jié)果。達(dá)成了虛擬館藏資源到多源自媒體資源之間一對(duì)多映射關(guān)系的研究目標(biāo),且關(guān)聯(lián)關(guān)系較為準(zhǔn)確,在一定程度上對(duì)虛擬館藏延伸有參考性。