• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      互聯(lián)網(wǎng)科普音頻內(nèi)容數(shù)據(jù)采集處理系統(tǒng)

      2020-05-29 06:39:38陳利軍劉婉婉
      關(guān)鍵詞:脫敏音頻科普

      陳利軍,劉婉婉

      (河南經(jīng)貿(mào)職業(yè)學(xué)院 計算機工程學(xué)院,河南 鄭州 450018)

      一、背景

      新媒體技術(shù)作為新科普資源的要素主要包括科普數(shù)字電視、科普網(wǎng)站或頻道、科普動漫、科普短信、科普博客等[1](19)。在網(wǎng)絡(luò)科普不斷活躍的基礎(chǔ)上,極大地拓展科普渠道,從而引起科普工作思維模式和科普理念的變化[2](168)[3](87)[4](10)。 而互聯(lián)網(wǎng)科普音 頻主要是將科技資訊、科普知識和科普讀物音頻化來滿足公眾的需求[5](3)。目前,科普音頻傳播還處在成長階段,如何引入傳播學(xué)理論和方法來實現(xiàn)互聯(lián)網(wǎng)科普音頻內(nèi)容的匯集及所傳播數(shù)據(jù)的采集勢必成為未來的研究重點。

      眾所周知,近年來大數(shù)據(jù)技術(shù)在各個領(lǐng)域所取得的成功和相關(guān)理論研究的不斷深入,尤其面對音頻這類數(shù)據(jù)量巨大、類型多樣、內(nèi)容廣泛的數(shù)據(jù)時,大數(shù)據(jù)技術(shù)均能夠合理有效地進(jìn)行分析并提供可靠的預(yù)測精度和可信度[6](12)。因此,針對互聯(lián)網(wǎng)科普音頻,最實用的知識匯總手段就是采用大數(shù)據(jù)技術(shù)中數(shù)據(jù)分析、數(shù)據(jù)挖掘等方式,評測海量音頻數(shù)據(jù)中內(nèi)部知識和知識之間的關(guān)聯(lián)程度,進(jìn)而達(dá)到音頻內(nèi)容的匯聚目的。在音頻數(shù)據(jù)的采集方面,采用的主流技術(shù)主要包括實時音頻采集技術(shù)[7](2017)、大數(shù)據(jù)平臺下的音頻數(shù)據(jù)采集技術(shù)[8](48)等。以大數(shù)據(jù)平臺數(shù)據(jù)采集技術(shù)為例,傳統(tǒng)的搜索引擎采集互聯(lián)網(wǎng)數(shù)據(jù)時由于人工介入較多且效率低下,因此提出了網(wǎng)頁采集調(diào)度概念。采集調(diào)度器(Scheduler)就是通過PageRank方法觀察互聯(lián)網(wǎng)頁面拓?fù)滏溄咏Y(jié)構(gòu)關(guān)系來衡量網(wǎng)頁重要程度,以此確定采集隊列中待采集隊列的優(yōu)先級,優(yōu)先采集重要程度較高的鏈接所指向的頁面[9](171)。而實時音視頻的數(shù)據(jù)采集和傳輸技術(shù)應(yīng)用十分廣泛,因為在不同的場合對于實時音視頻數(shù)據(jù)采集和傳輸技術(shù)的要求也有所不同,所以根據(jù)實際問題選擇合適的技術(shù)設(shè)計是非常重要的。

      歸根結(jié)底,所有上述介紹都是為滿足互聯(lián)網(wǎng)科普音頻對公眾的傳播而言。因此對于互聯(lián)網(wǎng)科普音頻來說,由于手機移動電臺的種種特性,依托音頻進(jìn)行科普具有碎片化時間的利用、解放雙手和雙眼、技術(shù)簡單且成本較低以及能夠與聽眾實現(xiàn)實時互動等優(yōu)勢[10](74)。目前科普類音頻節(jié)目主要有三大類:一類是資訊整理型,讓用戶了解最新的科學(xué)技術(shù)領(lǐng)域的消息;二類是原創(chuàng)科普節(jié)目,每期或每個專輯確定一個主題,然后進(jìn)行深入詳細(xì)的科普講解;三類是有圖書音頻化節(jié)目,將文字形式的科普讀物以聲音的形式播放。而對于平臺和節(jié)目制作者來說,其潛在優(yōu)勢是用戶習(xí)慣的養(yǎng)成和用戶黏性的提高。對于科普效果來說,用戶養(yǎng)成收聽的習(xí)慣更有利于培養(yǎng)其科學(xué)素養(yǎng)。因此,對互聯(lián)網(wǎng)科普音頻內(nèi)容匯聚及傳播數(shù)據(jù)采集分析研究較為重要,可為提升互聯(lián)網(wǎng)科普數(shù)據(jù)的多樣性,精準(zhǔn)地掌握科普領(lǐng)域媒介融合的發(fā)展態(tài)勢以及用戶科普需求行為規(guī)律提出對策建議。

      二、方法

      針對互聯(lián)網(wǎng)科普音頻信息量大、內(nèi)容和來源復(fù)雜、數(shù)據(jù)非結(jié)構(gòu)化等問題,一般的音頻數(shù)據(jù)采集過程主要采用數(shù)據(jù)清洗、多協(xié)議方式、分布式數(shù)據(jù)庫等技術(shù)構(gòu)建科普音頻數(shù)據(jù)采集、融合、脫敏系統(tǒng),具體可見圖1。

      其中圖1左圖為采集分析的整體構(gòu)建過程,以C/S架構(gòu)為基礎(chǔ)創(chuàng)建音頻子系統(tǒng)。首先通過AudioRecord類并初始化相關(guān)化相關(guān)參數(shù),進(jìn)行音頻的采集,然后進(jìn)行音頻數(shù)據(jù)的編碼,最后釋放AudioRecord類。圖1右圖為脫敏子系統(tǒng),即敏感詞脫離。具體的流程是獲取用戶的賬號及權(quán)限,然后進(jìn)入脫敏系統(tǒng),對需要進(jìn)行脫敏的數(shù)據(jù)進(jìn)行源數(shù)據(jù)注冊,進(jìn)而進(jìn)行目標(biāo)地址的注冊,對一些敏感數(shù)據(jù)進(jìn)行脫敏處理。而對于傳統(tǒng)的音頻處理技術(shù)來說,最常見的方式是“預(yù)處理-處理”解決范式。在預(yù)處理階段,待檢測音頻數(shù)據(jù)導(dǎo)入音頻數(shù)據(jù)庫,對其特征進(jìn)行分析進(jìn)而提取源碼,并將這些源碼添加到數(shù)據(jù)庫中。在處理階段,主要通過提取的音頻數(shù)據(jù)的特征將檢索分為粗搜索和精搜索兩個階段。當(dāng)查詢音頻具有特征時得到精搜索結(jié)構(gòu),當(dāng)只包含源碼時,對照碼本獲取粗搜索結(jié)果,具體如圖2所示。

      因此,本文綜合使用多種技術(shù)采集符合要求的音頻數(shù)據(jù),同時分析科普音頻數(shù)據(jù)并進(jìn)行內(nèi)容匯聚。其中,所采用的數(shù)據(jù)分析方法包括描述統(tǒng)計、信度分析、相關(guān)分析、聚類分析、時間序列分析等。此外,本文利用大數(shù)據(jù)技術(shù)進(jìn)行音頻采集、音頻處理以及內(nèi)容匯聚等。

      (一)音頻采集

      針對互聯(lián)網(wǎng)科普音頻信息量大、內(nèi)容龐雜、來源復(fù)雜、數(shù)據(jù)非結(jié)構(gòu)化等問題,通過清洗、多協(xié)議方式、分布式數(shù)據(jù)庫等多種技術(shù),構(gòu)建科普音頻數(shù)據(jù)采集、融合、脫敏系統(tǒng)。其中,音頻采集分析系統(tǒng)以大數(shù)據(jù)技術(shù)為基礎(chǔ),通過音頻搜索技術(shù)、音頻數(shù)據(jù)采集與解析技術(shù)、音頻試聽節(jié)目采集下載技術(shù)、音頻自動判別與歸類技術(shù)、音頻信息綜合檢索技術(shù)、數(shù)據(jù)庫技術(shù)等多方面的信息技術(shù),對有社會影響力、用戶數(shù)量多的音頻平臺的科普資源和用戶數(shù)據(jù)進(jìn)行發(fā)現(xiàn)、下載、分析、定位,從而實現(xiàn)對音頻網(wǎng)站采集分析。本文的音頻數(shù)據(jù)采集如圖3所示,分為兩個路線,即工作線程和監(jiān)控線程。采集科普認(rèn)證機構(gòu)、監(jiān)督機構(gòu)和行政機關(guān)公開信息的鏈接,通常是根據(jù)一個父鏈接,通過訪問父鏈接來尋找頁面上的子鏈接,然后判斷這些子鏈接是否為公開需要找的資料,然后定位到多個子鏈接上,繼而完成整個鏈接庫的建立,下載科普音頻數(shù)據(jù),通過大數(shù)據(jù)平臺實時分析得到數(shù)據(jù)的分析結(jié)果,存入數(shù)據(jù)倉庫。

      (二)音頻處理

      處理科普音頻數(shù)據(jù)時,根據(jù)采集的科普音頻數(shù)據(jù),配置分布式數(shù)據(jù)庫,利用深度神經(jīng)網(wǎng)絡(luò)DNN技術(shù)對數(shù)據(jù)進(jìn)行場景的分類和提取,對于有敏感信息的科普音頻數(shù)據(jù),進(jìn)行脫敏化處理,最終通過大數(shù)據(jù)技術(shù),獲取所需要的有社會影響力、用戶數(shù)量多的音頻平臺的科普資源和用戶數(shù)據(jù)采集。具體過程如圖4所示。

      下面對基于DNN的科普音頻數(shù)據(jù)的分類和提取以及分布式數(shù)據(jù)庫的設(shè)計和構(gòu)建進(jìn)行說明。

      1.DNN科普音頻數(shù)據(jù)的處理。本項目擬采用深度神經(jīng)網(wǎng)絡(luò)技術(shù)(DNN)進(jìn)行科普音頻數(shù)據(jù)的采集、分類和提取。在數(shù)據(jù)處理的訓(xùn)練階段,將采集到的場景訓(xùn)練數(shù)據(jù)集先計算語譜圖,得到語譜圖相關(guān)信息,然后將所得到的信息作為輸入導(dǎo)入解卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行模型訓(xùn)練,待模型收斂時停止。對于待場景測試的樣本集,首要過程如訓(xùn)練階段一致,同樣計算語譜圖,然后將得到的信息作為輸入導(dǎo)入網(wǎng)絡(luò)模型中獲取測試樣本集的特征向量。最后將得到的特征向量通過訓(xùn)練得到的最優(yōu)KNN分類模型來獲取音頻場景的分類結(jié)果。具體如圖5所示。

      2.分布式數(shù)據(jù)庫設(shè)計。對于分布式數(shù)據(jù)庫的設(shè)計,采用分布式數(shù)據(jù)庫對科普音頻數(shù)據(jù)進(jìn)行大數(shù)據(jù)的處理和管理。圖6提供了一種比較高效的解決方案,通過Hbase處理實時數(shù)據(jù),因為Hbase的讀寫和并發(fā)速度可以進(jìn)行實時查詢,通過Hive存儲處理后的大量數(shù)據(jù),實現(xiàn)數(shù)據(jù)統(tǒng)計。

      3.音頻數(shù)據(jù)的檢索和分析。對采集的科普音頻進(jìn)行數(shù)據(jù)分析時,對存在的異構(gòu)、多源問題展開多種分析方式,同時在已集成好的系統(tǒng)中進(jìn)行音頻檢索時也采用不同的檢索方式來觀察系統(tǒng)的性能。具體如圖7所示。

      (三)數(shù)據(jù)調(diào)研

      目前,我們的音頻科普數(shù)據(jù)主要從喜馬拉雅FM中提取獲得,通過聽眾人數(shù)來篩選最廣泛播放的音頻數(shù)據(jù),我們主要抽取聽眾人數(shù)大于10萬的前15條科普音頻。通過調(diào)查,具體結(jié)果如圖8所示。

      通過圖8可以看出,在前15條相對廣泛被收聽的科普音頻中,新聞類科普、文學(xué)類科普以及圖書類科普居于榜首,分別達(dá)到158.4萬、118.4萬以及48.8萬,充分體現(xiàn)了現(xiàn)代科普音頻數(shù)據(jù)的方向趨勢。我們在未來會進(jìn)一步關(guān)注相關(guān)的科普音頻數(shù)據(jù)內(nèi)容的相關(guān)信息。

      三、結(jié)論

      本文構(gòu)建了科普音頻的評價體系。首先,分析音頻數(shù)據(jù)相關(guān)信息,通過機器學(xué)習(xí)、深度學(xué)習(xí)等方向方法,分析科普音頻信息的關(guān)鍵影響因素,確立科普音頻信息的評價指標(biāo),研究科普音頻內(nèi)容評價方法,形成科普音頻的評價體系。同時,面向多平臺的用戶行為一致性分析,針對差異化的多媒體平臺,通過對不同平臺的用戶行為分析,消除差異化影響,提取共性特征,基于時間維度、訪問頻次等方面建立多平臺統(tǒng)一的用戶行為模型。其次,形成用戶畫像的系列性研究。運用多學(xué)科交叉的方法,對以音頻為代表的復(fù)雜社會網(wǎng)絡(luò)上的科學(xué)傳播行為模式、傳播路徑進(jìn)行深入研究,揭示傳播者、傳播內(nèi)容、用戶行為的機理與規(guī)律,同時借助音頻研究、大數(shù)據(jù)分析,聚焦科普音頻科學(xué)傳播現(xiàn)實問題,構(gòu)建互聯(lián)網(wǎng)科普音頻傳播機制。

      猜你喜歡
      脫敏音頻科普
      激光聯(lián)合脫敏劑治療牙本質(zhì)過敏癥
      科普達(dá)人養(yǎng)成記
      過敏體質(zhì)與脫敏治療
      必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      讓青春脫敏
      幸福(2017年18期)2018-01-03 06:34:42
      音頻分析儀中低失真音頻信號的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      科普連連看
      科普連連看
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      开鲁县| 沧源| 封丘县| 衡南县| 高雄县| 长沙市| 江阴市| 洛阳市| 互助| 苏尼特右旗| 白朗县| 临漳县| 绥滨县| 嘉定区| 济南市| 定南县| 新蔡县| 大新县| 仪陇县| 商洛市| 明溪县| 蕲春县| 万年县| 东辽县| 鹤庆县| 梓潼县| 丰顺县| 兴山县| 霍邱县| 涞源县| 合川市| 当涂县| 霸州市| 永善县| 上杭县| 若羌县| 惠东县| 文昌市| 晋宁县| 新竹市| 临海市|