劉 爽,孟佳娜,于玉海,楊 輝,李佳宜
(大連民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 大連 116650)
黨的十八大以來,習(xí)近平總書記對(duì)鑄牢中華民族共同體意識(shí)做出了一系列重要論述。在2019年9月召開的全國民族團(tuán)結(jié)進(jìn)步表彰大會(huì)上[1],習(xí)近平總書記要求“以鑄牢中華民族共同體意識(shí)為主線,把民族團(tuán)結(jié)進(jìn)步事業(yè)作為基礎(chǔ)性事業(yè)抓緊抓好”。隨著互聯(lián)網(wǎng)的蓬勃發(fā)展以及知識(shí)的爆炸式增長,虛擬空間與現(xiàn)實(shí)世界深度融合,網(wǎng)絡(luò)空間已成為廣大人民群眾生活的一個(gè)重要組成部分。面對(duì)數(shù)字化、互動(dòng)性、個(gè)性化的新媒體時(shí)代,鑄牢中華民族共同體意識(shí)不僅應(yīng)該涵蓋物理空間,還應(yīng)涵蓋虛擬化的網(wǎng)絡(luò)空間。要鑄牢網(wǎng)絡(luò)空間的中華民族共同體意識(shí),必須發(fā)揮大數(shù)據(jù)挖掘、云計(jì)算、知識(shí)圖譜技術(shù)的優(yōu)勢(shì),整合網(wǎng)絡(luò)資源,豐富中華民族文化互聯(lián)網(wǎng)傳播內(nèi)涵,滿足公眾文化需求,實(shí)現(xiàn)價(jià)值引領(lǐng)、文化傳承,繁榮社會(huì)主義文化建設(shè)事業(yè),培育中華民族認(rèn)同感,為鑄牢網(wǎng)絡(luò)空間的中華民族共同體意識(shí)提供支持。
網(wǎng)絡(luò)空間作為廣大人民群眾賴以生存的第五空間,其在鑄牢中華民族共同體意識(shí)中發(fā)揮著不可替代的重要作用,現(xiàn)從以下三點(diǎn)加以闡述。
中國自古以來就是一個(gè)多民族國家,各族人民密切交往、相互依存、休戚與共,形成了中華民族“多元一體”的格局,共同推動(dòng)了國家發(fā)展和社會(huì)進(jìn)步。在網(wǎng)民規(guī)模達(dá)8.54億,互聯(lián)網(wǎng)普及率達(dá)61.2%,手機(jī)網(wǎng)民規(guī)模達(dá)8.47億,移動(dòng)互聯(lián)網(wǎng)接入流量達(dá)553.9億GB的新情況[2]下,必須鞏固和強(qiáng)化網(wǎng)絡(luò)空間的中華民族共同體意識(shí)教育。特別是青年一代不僅是國家的未來,也是網(wǎng)民的主力軍,必須加強(qiáng)青少年獲取的網(wǎng)絡(luò)信息的導(dǎo)向性教育作用,加大價(jià)值認(rèn)同、文化認(rèn)同、網(wǎng)絡(luò)引領(lǐng)、國家認(rèn)同、政治認(rèn)同、民族認(rèn)同、文化自信的互聯(lián)網(wǎng)資源供給,貫穿網(wǎng)絡(luò)空間中華民族共同體意識(shí)教育全過程,實(shí)現(xiàn)網(wǎng)絡(luò)空間的中華民族共同體意識(shí)培育的引領(lǐng)作用。依托統(tǒng)一的開放式、交互式、多層級(jí)的大數(shù)據(jù)采集處理云平臺(tái),采用“云+端”的解決方案,全方位監(jiān)測網(wǎng)絡(luò)傳播大數(shù)據(jù),滿足民眾個(gè)性化、碎片化文化需求,實(shí)現(xiàn)網(wǎng)絡(luò)文化傳播的價(jià)值引領(lǐng)、文化傳承、實(shí)踐教育等多重功效。
2016年7月1日,習(xí)近平總書記在慶祝中國共產(chǎn)黨成立95周年大會(huì)上的講話[3]時(shí)指出:“文化自信,是更基礎(chǔ)、更廣泛、更深厚的自信。在5000多年文明發(fā)展中孕育的中華優(yōu)秀傳統(tǒng)文化,在黨和人民偉大斗爭中孕育的革命文化和社會(huì)主義先進(jìn)文化,積淀著中華民族最深層的精神追求,代表著中華民族獨(dú)特的精神標(biāo)識(shí)。我們要弘揚(yáng)社會(huì)主義核心價(jià)值觀,弘揚(yáng)以愛國主義為核心的民族精神和以改革創(chuàng)新為核心的時(shí)代精神,不斷增強(qiáng)全黨全國各族人民的精神力量。”網(wǎng)絡(luò)空間是意識(shí)形態(tài)斗爭的重要陣地[4],要在對(duì)中華民族共同體意識(shí)科學(xué)分析和智慧傳播的基礎(chǔ)上建設(shè)和鑄牢意識(shí)形態(tài)的網(wǎng)絡(luò)陣地,強(qiáng)化廣大民眾的民族歸屬感,培育政治認(rèn)同感,強(qiáng)化黨的領(lǐng)導(dǎo)和政治引領(lǐng)功效,增強(qiáng)社會(huì)主義主流意識(shí)形態(tài)的網(wǎng)絡(luò)凝聚力。在網(wǎng)絡(luò)文化傳播過程中要牢固樹立以中華文化為底蘊(yùn)的網(wǎng)絡(luò)文化意識(shí),提升中國網(wǎng)絡(luò)文化的影響力,豐富網(wǎng)絡(luò)文化傳播內(nèi)涵,增強(qiáng)文化創(chuàng)新力,增強(qiáng)文化傳播吸引力,增強(qiáng)社會(huì)主義核心價(jià)值觀、中華民族認(rèn)同感、歸屬感的凝聚力,為我國網(wǎng)絡(luò)文化傳播提供強(qiáng)有力的智力支持,實(shí)現(xiàn)當(dāng)代中國更加堅(jiān)定的文化自信。
關(guān)于網(wǎng)絡(luò)空間,習(xí)近平總書記強(qiáng)調(diào)網(wǎng)絡(luò)治理要交流、合作、共贏[5],他指出:“網(wǎng)絡(luò)空間是億萬民眾共同的精神家園。網(wǎng)絡(luò)空間天朗氣清、生態(tài)良好,符合人民利益。網(wǎng)絡(luò)空間烏煙瘴氣、生態(tài)惡化,不符合人民利益?!痹诰W(wǎng)絡(luò)空間、互聯(lián)網(wǎng)信息傳播過程中引發(fā)的反動(dòng)思潮影響、民族分裂言論、危害國家、民族安全、國家利益的言論、行為必須采取有效的治理措施,確保網(wǎng)絡(luò)輿論的正確性、導(dǎo)向性,打造綠色網(wǎng)絡(luò)空間??梢圆捎枚鄬W(xué)科融合的思路[6],引入大數(shù)據(jù)、深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的最新技術(shù)進(jìn)行網(wǎng)絡(luò)文化傳播大數(shù)據(jù)分析,實(shí)現(xiàn)分析的精準(zhǔn)性、實(shí)時(shí)性,分析識(shí)別涉及分裂活動(dòng)、恐怖主義、反華、散布謠言、攻擊政府等非正常文化傳播文字、圖片、視頻信息,及時(shí)發(fā)現(xiàn)及時(shí)預(yù)警,采取有效治理措施,保證網(wǎng)絡(luò)輿論的正確引導(dǎo)。構(gòu)建以社會(huì)主義核心價(jià)值觀、文化自信、國家認(rèn)同、政治認(rèn)同、民族認(rèn)同為主流的中國特色社會(huì)主義網(wǎng)絡(luò)文化,鞏固和強(qiáng)化民族認(rèn)同感,深入挖掘鑄牢中華民族共同體意識(shí)的時(shí)代內(nèi)涵和發(fā)展空間,鑄牢網(wǎng)絡(luò)空間的中華民族共同體意識(shí)。
建立在社會(huì)主義文化基礎(chǔ)上的文化自信與中華民族共同體意識(shí),是中國各民族共同創(chuàng)造的精神財(cái)富。中國民族地區(qū)和少數(shù)民族的文化資源,不僅是中華文化的瑰寶,也是世界文化藝術(shù)的瑰寶。借助互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù),充分利用互聯(lián)網(wǎng)中優(yōu)秀的民族文化、民族團(tuán)結(jié)等數(shù)字化資源,建立基于互聯(lián)網(wǎng)傳播的中華民族文化數(shù)字化資源知識(shí)圖譜,在此基礎(chǔ)上采用融合語義相似度的協(xié)同過濾推薦算法實(shí)現(xiàn)數(shù)字化資源的智能搜索和精準(zhǔn)推送,強(qiáng)化民族歸屬感、文化認(rèn)同感、政治認(rèn)同感、共筑網(wǎng)絡(luò)智慧家園。
為了傳播和弘揚(yáng)中華少數(shù)民族文化,本文采用如下流程構(gòu)建了中華民族文化知識(shí)圖譜。
(1) 基于Hadoop的互聯(lián)網(wǎng)大數(shù)據(jù)采集。基于Hadoop集群環(huán)境的數(shù)據(jù)采集系統(tǒng),利用分布式網(wǎng)絡(luò)爬蟲進(jìn)行數(shù)據(jù)抓取,以HDFS作為底層存儲(chǔ)系統(tǒng),在其上構(gòu)建基于HBase的分布式數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)管理。然后根據(jù)采集的數(shù)據(jù),通過檢索的形式分類數(shù)據(jù),進(jìn)行一個(gè)深層次的數(shù)據(jù)分析工作。總體分為底層、中層、上層三個(gè)層次,其中底層計(jì)算引擎提供海量數(shù)據(jù)存儲(chǔ)和高速計(jì)算能力;中層大數(shù)據(jù)工作臺(tái)為數(shù)據(jù)資產(chǎn)的開發(fā)、管理、挖掘、服務(wù)化提供工具;上層應(yīng)用通過各種形式發(fā)揮數(shù)據(jù)的價(jià)值。采用Hadoop實(shí)現(xiàn)對(duì)BMO域數(shù)據(jù)的全面接入、融合、處理及統(tǒng)一建模,并引入爬蟲、流計(jì)算等技術(shù)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)數(shù)據(jù)的處理和實(shí)時(shí)業(yè)務(wù)支撐。該系統(tǒng)分為五層架構(gòu),分別是數(shù)據(jù)源層、數(shù)據(jù)獲取域、數(shù)據(jù)域、數(shù)據(jù)應(yīng)用域、數(shù)據(jù)管理域。
(2) 中華民族文化數(shù)字化大數(shù)據(jù)知識(shí)圖譜搭建。根據(jù)民族領(lǐng)域的規(guī)則和定義對(duì)要構(gòu)建的知識(shí)圖譜進(jìn)行設(shè)計(jì)。再經(jīng)過數(shù)據(jù)獲取、數(shù)據(jù)處理后,使用基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法將部分結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識(shí)抽取,刪除重復(fù)數(shù)據(jù)后獲得實(shí)體和關(guān)系。經(jīng)過知識(shí)融合,將數(shù)據(jù)導(dǎo)入Neo4j圖數(shù)據(jù)庫中,構(gòu)建出包含多個(gè)實(shí)體的少數(shù)民族藝術(shù)資源數(shù)字化知識(shí)圖譜。
知識(shí)圖譜構(gòu)建主要包括知識(shí)建模,知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)四部分[7]。其中知識(shí)建模指少數(shù)民族藝術(shù)資源數(shù)字化知識(shí)圖譜的結(jié)構(gòu)設(shè)計(jì),包括實(shí)體定義、關(guān)系定義、屬性定義及事件定義等等。知識(shí)抽取指原始數(shù)據(jù)的獲取和數(shù)據(jù)處理。其數(shù)據(jù)類型主要包括結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)。對(duì)半結(jié)構(gòu)化數(shù)據(jù)采用爬蟲技術(shù)+包裝器+正則表達(dá)式。對(duì)非結(jié)構(gòu)化數(shù)據(jù)采用命名實(shí)體識(shí)別、關(guān)系抽取等方法。知識(shí)融合分為模式層的融合以及數(shù)據(jù)層的融合,模式層的融合指概念、概念的上下位、概念的屬性這些統(tǒng)一;數(shù)據(jù)層的融合是將不同數(shù)據(jù)來源的相同實(shí)體的不同表達(dá)形式進(jìn)行融合,采用實(shí)體對(duì)齊、指代消解等實(shí)現(xiàn)實(shí)體的合并、實(shí)體屬性與關(guān)系的合并等。知識(shí)存儲(chǔ)中使用Neo4j圖數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲(chǔ)。
具體實(shí)現(xiàn)細(xì)節(jié)為:經(jīng)上一步大數(shù)據(jù)采集的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。針對(duì)不同的數(shù)據(jù)采取不用的方式進(jìn)行處理,針對(duì)結(jié)構(gòu)化數(shù)據(jù),通常是關(guān)系型數(shù)據(jù)庫的數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)清晰,把關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換為RDF數(shù)據(jù);針對(duì)半結(jié)構(gòu)化數(shù)據(jù),主要是指那些具有一定的數(shù)據(jù)結(jié)構(gòu),但需要進(jìn)一步提取整理的數(shù)據(jù)。比如百科的數(shù)據(jù),網(wǎng)頁中的數(shù)據(jù)等,可以使用正則表達(dá)式的方式寫出XPath和CSS選擇器表達(dá)式來提取網(wǎng)頁中的元素;針對(duì)非結(jié)構(gòu)化的數(shù)據(jù)(例如網(wǎng)頁中的文本數(shù)據(jù)),需要抽取的知識(shí)包括實(shí)體、關(guān)系、屬性。對(duì)獲取的數(shù)據(jù)進(jìn)行處理。數(shù)據(jù)清洗主要包括去停用詞、去網(wǎng)頁標(biāo)簽、清理無效值和缺失值以及分詞等操作。對(duì)于非結(jié)構(gòu)化數(shù)據(jù),清洗完成后需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)注以方便下一步中進(jìn)行實(shí)體識(shí)別和關(guān)系抽取操作。將爬取的網(wǎng)頁中信息框內(nèi)格式為“屬性-屬性值”的半結(jié)構(gòu)化數(shù)據(jù)處理成構(gòu)建知識(shí)圖譜所需要的“實(shí)體-關(guān)系-實(shí)體”或“實(shí)體-屬性-屬性值”這樣的三元組形式。將得到的實(shí)體關(guān)系三元組數(shù)據(jù)進(jìn)行存儲(chǔ),這里采用Neo4j圖數(shù)據(jù)庫存儲(chǔ)中華民族文化數(shù)據(jù)三元組。采用前端技術(shù)HTML/CSS/JavaScript和 Django web框架將知識(shí)圖譜進(jìn)行可視化展示,并結(jié)合圖查詢語言實(shí)現(xiàn)智能搜索功能。
(3) 智能問答系統(tǒng)構(gòu)建。在問答系統(tǒng)中融合基于雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)+條件隨機(jī)場的命名實(shí)體識(shí)別技術(shù)、關(guān)系檢測技術(shù)、短文本分類技術(shù),并采用基于字-詞編碼的問句實(shí)體識(shí)別方法,提高實(shí)體邊界的預(yù)測率,提高實(shí)體檢測率;在問句分類中,選用TextCNN與注意力機(jī)制Attention相結(jié)合算法來提高分類的準(zhǔn)確率。這里采用一種在問句分類模型中融入知識(shí)圖譜中實(shí)體和關(guān)系的三元組信息的分類方法,分為四個(gè)模塊。第一個(gè)模塊是問句實(shí)體識(shí)別,采用基于字詞編碼的Bi-LSTM+CRF神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn);第二個(gè)模塊是圖譜映射與相似度計(jì)算,包括將問句中識(shí)別的實(shí)體映射到知識(shí)圖譜中,再利用余弦相似度和DP編輯距離兩個(gè)指標(biāo)來篩選與問句匹配較高的三元組;第三個(gè)模塊是問句分類,使用TextCNN將問句意圖與知識(shí)庫關(guān)系進(jìn)行映射,同時(shí)在輸入層和卷積層之間加入attention層有效解決提取信息時(shí)忽略非連續(xù)詞間的相關(guān)性問題;第四個(gè)模塊是構(gòu)建答案,根據(jù)模塊三得到的問句類型結(jié)合模塊一識(shí)別出的實(shí)體,生成Cypher語句在圖數(shù)據(jù)庫中查詢答案。
本文根據(jù)民族知識(shí)的特點(diǎn)、已構(gòu)建的中華文化民族知識(shí)圖譜內(nèi)容和用戶習(xí)慣提問的問題,自定義了29類問題模板,并且根據(jù)不同的提問方式和不同的查詢目標(biāo)構(gòu)造了一個(gè)含有5 000條樣本數(shù)據(jù)的自然語言問句數(shù)據(jù)集。其中70%數(shù)據(jù)作為為訓(xùn)練集,30%數(shù)據(jù)作為測試集。實(shí)驗(yàn)過程中為了證明本文采用的TextCNN-Attention分類器的有效性,將其與MultinomialNB和textcnn兩種方法進(jìn)行了實(shí)驗(yàn)結(jié)果對(duì)比。評(píng)價(jià)指標(biāo)采用查準(zhǔn)率、查全率和F1值,結(jié)果分析見表1。
表1 模型結(jié)果分析 /%
從實(shí)驗(yàn)結(jié)果數(shù)據(jù)可知,采用TextCNN-Attention分類器的問答結(jié)果查準(zhǔn)率、查全率和F1值均高于其它兩種方法。
Hadoop平臺(tái)采集的大數(shù)據(jù)經(jīng)分析、處理之后,把復(fù)雜的多模態(tài)信息通過計(jì)算處理成計(jì)算機(jī)能夠結(jié)構(gòu)化表示的知識(shí),所表示的知識(shí)采用Neo4j圖數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲(chǔ),可以通過編程繪制展現(xiàn)給用戶,為網(wǎng)絡(luò)空間海量知識(shí)提供有效組織、管理和理解的技術(shù)手段,為快速信息檢索提供便利。實(shí)驗(yàn)中使用的數(shù)據(jù)來源于百度百科和民族網(wǎng),經(jīng)過大數(shù)據(jù)采集處理后,得到19類實(shí)體,分別是:民族名稱、別稱、人口數(shù)、分布地區(qū)、民族屬性、語言、語族、語系、文字、信仰、節(jié)日、建筑、文學(xué)、醫(yī)學(xué)、音樂、舞蹈、工藝美術(shù)、飲食、圖騰、民族人物、民族風(fēng)景、民族禁忌、民族簡介?;陔p向長短時(shí)記憶網(wǎng)絡(luò)-條件隨機(jī)概率的命名實(shí)體識(shí)別方法識(shí)別出實(shí)體節(jié)點(diǎn)6 712個(gè),關(guān)系10 740個(gè)。
已搭建的中華民族文化知識(shí)圖譜部分節(jié)點(diǎn)可視化效果如圖1。
利用知識(shí)圖譜可視化結(jié)果可以進(jìn)行民族文化互聯(lián)網(wǎng)傳播大數(shù)據(jù)分析。檢索系統(tǒng)主要包括實(shí)體查詢、實(shí)體可視化展示、實(shí)體百科類檢索查詢等功能。讓用戶能更加便捷、輕松的獲得到所需數(shù)據(jù),并采用圖文并茂、音頻、圖像、視頻、影像多種方式的直觀可視化結(jié)果返回給用戶?;谥R(shí)圖譜的智能搜索結(jié)果如圖2。
創(chuàng)新實(shí)踐路徑,采用多學(xué)科融合的方式,多學(xué)科聯(lián)動(dòng),協(xié)同推進(jìn),協(xié)同創(chuàng)新,多學(xué)科聚力網(wǎng)絡(luò)空間鑄牢中華民族共同意識(shí)。以網(wǎng)絡(luò)空間的鑄牢中華民族共同意識(shí)為核心,實(shí)現(xiàn)思想政治教育、計(jì)算機(jī)學(xué)科、新興交叉學(xué)科多學(xué)科融合,兼具學(xué)理性和實(shí)踐性,各學(xué)科在加強(qiáng)、深化鑄牢中華民族共同體意識(shí)建設(shè)中相互借鑒,在交叉融合中守正創(chuàng)新;深入挖掘鑄牢中華民族共同體意識(shí)的時(shí)代內(nèi)涵和發(fā)展空間,避免單一學(xué)科的局限性。
從網(wǎng)絡(luò)空間的中華民族共同體意識(shí)多模態(tài)數(shù)據(jù)出發(fā),充分利用大數(shù)據(jù)深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)海量數(shù)據(jù)的分析和處理,較好地解決數(shù)據(jù)稀疏問題,建立跨模態(tài)的中華民族共同體意識(shí)分析模型,構(gòu)建中華民族共同體意識(shí)垂直領(lǐng)域知識(shí)圖譜,發(fā)揮示范性引領(lǐng)作用,實(shí)現(xiàn)靶向聚焦精準(zhǔn),按需提供資源,堅(jiān)定文化自信,建設(shè)和鞏固意識(shí)形態(tài)斗爭的網(wǎng)絡(luò)陣地,營造健康的網(wǎng)絡(luò)空間,強(qiáng)化網(wǎng)絡(luò)空間的中華民族共同體意識(shí),共筑網(wǎng)絡(luò)智慧家園,為鑄牢中華民族共同體意識(shí)提供支持。