• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)技術(shù)的新聞采集和事件分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      2018-02-14 12:49:08馬旭王淑麗
      關(guān)鍵詞:數(shù)據(jù)采集大數(shù)據(jù)技術(shù)系統(tǒng)設(shè)計(jì)

      馬旭 王淑麗

      摘要:為了解決獲取互聯(lián)網(wǎng)新聞時(shí)查找慢、數(shù)據(jù)雜、閱讀效率低的問題,本文提出了一種基于大數(shù)據(jù)技術(shù)的新聞采集和事件分析系統(tǒng)。該系統(tǒng)首先采集互聯(lián)網(wǎng)新聞數(shù)據(jù),運(yùn)用數(shù)據(jù)清洗、分布式存儲(chǔ)等技術(shù)存到數(shù)據(jù)庫(kù);接著對(duì)數(shù)據(jù)進(jìn)行分析,運(yùn)用機(jī)器學(xué)習(xí)等技術(shù),進(jìn)而得到新聞主主題;然后新聞進(jìn)行聚合,獲取到事件主題;最后根據(jù)事件主體對(duì)所有時(shí)間進(jìn)行展示,實(shí)現(xiàn)了對(duì)于互聯(lián)網(wǎng)新聞的采集與事件分析的全過(guò)程。該系統(tǒng)提高了獲取互聯(lián)網(wǎng)新聞的效率,并解決了數(shù)據(jù)雜亂和閱讀效率低的問題。

      關(guān)鍵詞:大數(shù)據(jù)技術(shù);數(shù)據(jù)采集;事件分析;新聞分析;系統(tǒng)設(shè)計(jì)

      中圖分類號(hào):TP311? ?文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1007-9416(2018)10-0000-00

      1 前言

      隨著社會(huì)的快速發(fā)展,現(xiàn)代科技的進(jìn)步,使得互聯(lián)網(wǎng)以一種迅猛的速度快速增長(zhǎng),影響著人們的生活和工作方式。特別是近些年來(lái),移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等新興技術(shù)的出現(xiàn)和其迅猛的發(fā)展,使人們?cè)诰W(wǎng)絡(luò)空間的活動(dòng)范圍不斷擴(kuò)大,這也使得網(wǎng)絡(luò)上的信息與日俱增。新聞報(bào)道一般具有多維的特征,但是一篇新聞可能僅僅包含其中一維或幾維特征,通過(guò)一篇新聞往往不能夠更加深入的了解某個(gè)事件。

      在信息化技術(shù)高速發(fā)展的時(shí)代,網(wǎng)民人數(shù)不斷增多,互聯(lián)網(wǎng)信息呈指數(shù)增長(zhǎng),網(wǎng)絡(luò)輿情的表達(dá)方式多種多樣,新聞、微博、貼吧等是其中重要的信息傳播渠道。例如,閱讀移動(dòng)新聞客戶端推送新聞是網(wǎng)民獲取第一手信息最為常見的方式,而微博和貼吧等平臺(tái)則為網(wǎng)民提供了充分表達(dá)意見分享觀點(diǎn)的平臺(tái)。多個(gè)平臺(tái)形成了一個(gè)相互關(guān)聯(lián)的互聯(lián)網(wǎng)信息網(wǎng)絡(luò)?;ヂ?lián)網(wǎng)信息傳播中,同一事件在不同平臺(tái)上有不同的表現(xiàn)形式,同一參與者在不同平臺(tái)上也有不同的虛擬身份和行為特征。正因?yàn)槿绱耍浨樾畔⒖裳杆倏缙脚_(tái)傳播,其傳播機(jī)理更為復(fù)雜,人為分析很難獲取到準(zhǔn)確的信息,給相關(guān)企業(yè)、部門造成巨大的影響。

      隨著人們的物質(zhì)需求的逐漸滿足,人們逐漸將注意力轉(zhuǎn)移到了效率上,但是由于互聯(lián)網(wǎng)新聞的爆炸式增長(zhǎng)以及組織方式雜亂無(wú)章,嚴(yán)重降低民眾獲取信息的效率。傳統(tǒng)新聞事件的處理是由工作人員人工確定新聞的主題,并將相同主題的新聞關(guān)聯(lián)在一起,供用戶閱讀,但是這樣的處理方式效率較低,并占用了大量的人工成本。

      2 平臺(tái)簡(jiǎn)介

      針對(duì)上述提到的一些問題,本文提出了基于大數(shù)據(jù)技術(shù)的新聞采集和時(shí)間分析系統(tǒng)。該平臺(tái)基于大數(shù)據(jù)技術(shù),能夠滿足民眾對(duì)于獲取新聞的有關(guān)需求,提高了用戶獲取信息的效率。平臺(tái)具體包括采集數(shù)據(jù)、清洗數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)、分析數(shù)據(jù)和展示數(shù)據(jù)等功能。用戶通過(guò)這個(gè)平臺(tái)可以獲取關(guān)于某個(gè)主題相關(guān)的信息或者獲取事件相關(guān)的信息,免去了用戶手動(dòng)去辨別新聞的時(shí)間,在一定程度上增加了獲取信息的效率該平臺(tái)在一定程度上能夠解決傳統(tǒng)新聞行業(yè)中信息雜、效率低等缺點(diǎn)。

      3 系統(tǒng)設(shè)計(jì)流程

      該平臺(tái)的整體分為三個(gè)部分,分別為數(shù)據(jù)獲取、數(shù)據(jù)分析、數(shù)據(jù)展示。其中數(shù)據(jù)獲取的詳細(xì)過(guò)程為:首先使用Python的bs4和requests等庫(kù)對(duì)當(dāng)天的新聞進(jìn)行獲取,同時(shí)對(duì)獲取到的數(shù)據(jù)進(jìn)行處,去除無(wú)用的標(biāo)簽、圖片新聞和視頻新聞等,以獲取正常的文本信息,方便后續(xù)的處理;數(shù)據(jù)分析的詳細(xì)過(guò)程如下:在Hadoop平臺(tái)使用Map和Redece程序?qū)⒚織l新聞進(jìn)行分詞處理,其中的分詞工具為Python的jieba分詞模塊,在分詞的過(guò)程中去除停用詞和其他沒有實(shí)際應(yīng)用價(jià)值的副詞等;然后分別計(jì)算每一個(gè)詞的TF-IDF值,通過(guò)TF-IDF間的相互計(jì)算,得出每條新聞的關(guān)鍵詞,然后通過(guò)訓(xùn)練好的LDA主題模型,對(duì)這個(gè)新聞的主題進(jìn)行確定該條新聞的主題,這樣就獲得了每條新聞的一個(gè)在二維展開的向量;獲得每條新聞的向量之后計(jì)算向量之間的距離,其中距離大于設(shè)定的閾值的,系統(tǒng)判定為話題相同。其中數(shù)據(jù)展示的詳細(xì)過(guò)程為:用戶在前端操作后,后臺(tái)返回相應(yīng)數(shù)據(jù),由前端進(jìn)行展示。新聞的采集和事件分析系統(tǒng)過(guò)程如圖1所示。

      前端的交互界面流程如圖2所示。

      4 平臺(tái)的實(shí)現(xiàn)方案

      4.1 數(shù)據(jù)采集

      平臺(tái)在每天凌晨自動(dòng)運(yùn)行數(shù)據(jù)爬取程序,將新聞的題目、正文、來(lái)源、發(fā)布時(shí)間和作者的等信息清洗出來(lái),并將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中。

      4.2新聞來(lái)源統(tǒng)計(jì)

      在前端,系統(tǒng)的默認(rèn)展示界面是新聞來(lái)源統(tǒng)計(jì)界面。當(dāng)該界面被打開的時(shí)候,前端向后端發(fā)送請(qǐng)求,后端獲取到請(qǐng)求之后,從數(shù)據(jù)庫(kù)中取全部的數(shù)據(jù),獲取它們的來(lái)源字段并統(tǒng)計(jì),統(tǒng)計(jì)完成之后將數(shù)據(jù)打包成json格式并返回到前端,前端通過(guò)Echarts框架將數(shù)據(jù)解析,并生成美觀的圖表,用戶就可以看到效果了。

      4.3 智能搜索

      在前端,系統(tǒng)的第二個(gè)界面是智能搜索界面。用戶將想要搜索的新聞主題填入搜索框,用戶點(diǎn)擊按鈕之后,前端將該新聞主題發(fā)送到后端,后端接收到數(shù)據(jù)之后,將數(shù)據(jù)通過(guò)提前訓(xùn)練好的模型進(jìn)行計(jì)算,獲取到與該主題詞距離相近的若干新聞之間的距離,然后根據(jù)距離排序?qū)?shù)據(jù)打包成json格式并返回到前端。前端接收數(shù)據(jù)之后,根據(jù)距離的大小通過(guò)列表的形式將數(shù)據(jù)展示出來(lái)。

      4.4 事件展示

      在前端,系統(tǒng)的第三個(gè)界面是智能搜索界面。每次爬蟲工作做完之后,系統(tǒng)將獲取到的數(shù)據(jù)分別進(jìn)行分詞并導(dǎo)入模型進(jìn)行計(jì)算,然后分別統(tǒng)計(jì)每?jī)蓷l新聞之間的距離,然后統(tǒng)計(jì)距離,將距離小于閾值的形成一簇,這個(gè)距離需要多次運(yùn)算得出結(jié)果,這一簇就是一個(gè)新聞事件,在完成整個(gè)程序的運(yùn)算之后,就得到了許多簇這樣的數(shù)據(jù),這樣就得到了許多這樣的事件。然后將這些事件與之對(duì)應(yīng)的新聞建立索引。前端在獲取到之前建立的索引之后,根據(jù)索引給出的事件和新聞將數(shù)據(jù)通過(guò)列表的形式展示出來(lái)。

      4.5 新聞?wù)故?/p>

      在前端,系統(tǒng)的第四個(gè)界面是智能搜索界面。用戶在進(jìn)入這個(gè)界面之后前端向后端申請(qǐng)數(shù)據(jù),后臺(tái)接收到請(qǐng)求之后將數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)根據(jù)頁(yè)數(shù)返回,前端接收到數(shù)據(jù)之后,將數(shù)據(jù)進(jìn)行解析,通過(guò)列表的方式進(jìn)行展示。

      5 結(jié)語(yǔ)

      本文通過(guò)對(duì)基于大數(shù)據(jù)的新聞采集和事件分析系統(tǒng)的研究,提出了一個(gè)方便、節(jié)約時(shí)間的新聞處理方案。相比傳統(tǒng)的新聞處理方式,本文提出的基于大數(shù)據(jù)技術(shù)的新聞采集和事件分析系統(tǒng)的設(shè)計(jì)方式,能夠很大程度上節(jié)約處理新聞的時(shí)間,在一定程度上能夠節(jié)約用戶獲取信息的時(shí)間,增加用戶獲取信息的效率。采用機(jī)器學(xué)習(xí)與大數(shù)據(jù)的相關(guān)技術(shù),能夠保證信息處理的準(zhǔn)確性。通過(guò)前后臺(tái)分離、數(shù)據(jù)庫(kù)與數(shù)據(jù)處理分離的方案,在一定程度上保證數(shù)據(jù)傳輸?shù)姆€(wěn)定性與安全性。系統(tǒng)在實(shí)驗(yàn)環(huán)境下基本實(shí)現(xiàn)所示功能,可通過(guò)蘋果電腦完成上述新聞采集與事件分析的基本過(guò)程,實(shí)現(xiàn)預(yù)期功能。

      參考文獻(xiàn)

      [1]喻國(guó)明.大數(shù)據(jù)方法與新聞傳播創(chuàng)新:從理論定義到操作路線[J].江淮論壇,2014,(04):5-7+2.

      [2]張建林.智能新聞采集處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].山東大學(xué),2017.

      [3]王博,劉盛博,丁堃,劉則淵.基于LDA主題模型的專利內(nèi)容分析方法[J].科研管理,2015,36(03):111-117.

      Design and Implementation of News Acquisition and Event

      Analysis System Based on Big Data Technology

      MA Xu,WANG Shu-li

      (Beijing Information Science And Technology University Computer School, Chaoyang District,Beijing 100101)

      Absrtact: In order to solve the problems of slow search, miscellaneous data and low reading efficiency in obtaining Internet news, this paper proposes a news acquisition and event analysis system based on big data technology. The system first collects Internet news data and stores it in the database by using data cleaning and distributed storage technology; then it analyses the data and uses machine learning technology to get the main theme of news; then it aggregates the news to get the event theme; finally, it exhibits all the time according to the subject of the event. It implements the whole process of collecting and analyzing Internet news. The system improves the efficiency of obtaining Internet news, and solves the problems of data clutter and low reading efficiency.

      Key words: big data technology; data acquisition; event analysis; news analysis; system design

      猜你喜歡
      數(shù)據(jù)采集大數(shù)據(jù)技術(shù)系統(tǒng)設(shè)計(jì)
      論大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用
      高校檔案管理信息服務(wù)中大數(shù)據(jù)技術(shù)的應(yīng)用
      一種基于SATA硬盤陣列的數(shù)據(jù)存儲(chǔ)與控制系統(tǒng)設(shè)計(jì)研究
      鐵路客流時(shí)空分布研究綜述
      工業(yè)熱電偶計(jì)量檢定系統(tǒng)設(shè)計(jì)
      基于廣播模式的數(shù)據(jù)實(shí)時(shí)采集與處理系統(tǒng)
      軟件工程(2016年8期)2016-10-25 15:54:18
      通用Web表單數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:52:53
      基于物聯(lián)網(wǎng)的煤礦智能倉(cāng)儲(chǔ)與物流運(yùn)輸管理系統(tǒng)設(shè)計(jì)與應(yīng)用
      大數(shù)據(jù)技術(shù)在電氣工程中的應(yīng)用探討
      大數(shù)據(jù)技術(shù)在商業(yè)銀行中的應(yīng)用分析
      辉南县| 石首市| 灌南县| 金沙县| 宜宾市| 肇庆市| 教育| 清丰县| 天全县| 济宁市| 四平市| 友谊县| 张家港市| 罗源县| 公主岭市| 成安县| 长寿区| 井陉县| 滕州市| 监利县| 尖扎县| 甘南县| 岐山县| 连南| 当雄县| 乡宁县| 保德县| 景东| 武安市| 本溪市| 蕲春县| 怀仁县| 蛟河市| 郓城县| 浦东新区| 江陵县| 横峰县| 溆浦县| 驻马店市| 鹤庆县| 响水县|