• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于海量數(shù)據(jù)的信息云系統(tǒng)及其關鍵技術研究

    2012-06-27 05:59:42屠要峰錢煜明
    電信科學 2012年12期
    關鍵詞:爬蟲文本智能

    屠要峰,錢煜明

    (中興通訊股份有限公司南京研發(fā)中心 南京 210012)

    1 引言

    互聯(lián)網(wǎng)的迅速發(fā)展為當代信息傳播提供了一條全新的途徑,對傳統(tǒng)的信息傳播方式(報紙、電視等)產(chǎn)生了強大的沖擊。尤其是Web2.0技術的出現(xiàn)和不斷發(fā)展,使得互聯(lián)網(wǎng)信息傳播方式在時間、空間、效率方面漸漸確立了明顯的優(yōu)勢地位。Web已經(jīng)成為現(xiàn)代社會各種信息的載體,而且此載體的信息量是海量的,IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)數(shù)據(jù)顯示,如今全網(wǎng)數(shù)據(jù)已達 180萬 PB(1P=250),而且 90%是非結構化的數(shù)據(jù),2015年將達到800萬PB[1],這些數(shù)據(jù)涉及新聞、招聘、廣告、會議、技術信息、社交網(wǎng)絡、論壇等各方面。

    互聯(lián)網(wǎng)在快捷、方便地傳播海量信息的同時,也帶來了相應的問題,如信息超載、信息不完整、信息形式不一致等。因此,通用的信息檢索技術得到了迅速發(fā)展,如Google、百度,其采用關鍵詞為基礎,幫助用戶獲取相應的信息。搜索引擎只是部分緩解了信息檢索的問題,并沒有解決信息分析、信息處理的問題。同時,信息檢索需要用戶實時參與,對于信息的聚合、自動發(fā)現(xiàn)等不能實現(xiàn)自動化、智能化處理[2]。如何實現(xiàn)互聯(lián)網(wǎng)海量數(shù)據(jù)自動采集、聚合、智能分析、自動推送等是業(yè)界主要的研究方向。如:蘋果公司Siri智能機器人實現(xiàn)了根據(jù)用戶需求進行智能分析和處理,但是并未實現(xiàn)信息的自動推送,僅應用在移動終端領域。RSS信息訂閱解決了部分信息聚合的問題,但存在信息源缺乏、單一、信息源需要人工處理等問題。

    目前,Web信息采集技術廣泛應用在Web數(shù)據(jù)挖掘、搜索引擎、電子商務、頁面有效性分析等領域,所應用到的領域不同,其信息采集技術也各有不同[2]。隨著文本挖掘、情感分析、個性化推薦、云計算技術的發(fā)展,使得Web海量信息采集、智能分析等有了新的解決方案。本文提出了基于云計算技術構建海量數(shù)據(jù)的信息云系統(tǒng),此系統(tǒng)采用信息自動聚合、智能分析、智能預測、自動推送技術完成整個信息處理的自動化和智能化,根據(jù)用戶的標簽自動挖掘出對用戶有價值的信息并主動推送給用戶。

    2 智能信息云的架構及功能

    如前面所述,智能信息云系統(tǒng)是為用戶提供信息的自動聚合、智能分析、智能預測、自動推送結果給用戶的系統(tǒng),其主要通過采集互聯(lián)網(wǎng)信息,并對信息進行聚合、分析,最終根據(jù)用戶的需求完成個性化的信息推送和呈現(xiàn),為用戶或企業(yè)提供決策支持,使得散亂、公開的信息管理更加智能化、標準化、精細化和可視化。

    2.1 智能信息云系統(tǒng)的核心服務

    智能信息云系統(tǒng)是離線的非實時系統(tǒng),其核心業(yè)務過程包含信息獲取、信息訓練和信息博弈3個部分。

    (1)信息獲取

    信息獲取主要是識別出用戶輸入的信息,并根據(jù)用戶在本系統(tǒng)的歷史行為,將用戶輸入信息轉(zhuǎn)換為對信息源的訂閱指令,系統(tǒng)根據(jù)獲取的訂閱指令自動到互聯(lián)網(wǎng)上定向爬取相關的內(nèi)容。

    (2)信息訓練

    信息訓練的過程就是對信息進行聚合和加工的過程,涉及數(shù)據(jù)凈化、數(shù)據(jù)去重、主題發(fā)現(xiàn)等,經(jīng)過系統(tǒng)處理后的數(shù)據(jù)基本是符合用戶要求的結構化和可視化的數(shù)據(jù),但是這些信息不一定能完全符合用戶的期望,為了校正訓練信息的期望度,系統(tǒng)自動監(jiān)測用戶對信息的使用行為,并根據(jù)用戶的使用行為對信息進行回歸處理。整個過程是一個自學習的過程,通過大量的數(shù)據(jù)構建自反饋的訓練集,就能識別出用戶關心的、期望度最高的信息。

    (3)信息博弈

    系統(tǒng)根據(jù)用戶訂閱策略會爬取海量的數(shù)據(jù),希望將有價值的信息提供給用戶,并不是將海量的信息充斥用戶的屏幕,讓用戶自己再花大量的時間進行處理。系統(tǒng)需要提供多層次的信息過濾手段,信息與信息之間是需要博弈的,通過不停的訓練,會對信息進行打分,將高價值的信息推送給相應的用戶。

    2.2 智能信息云系統(tǒng)的總體架構

    智能信息云系統(tǒng)采用分層、分系統(tǒng)的設計思路和組件化的設計理念,總體架構如圖1所示,智能信息云系統(tǒng)主要由信息分析引擎、智能處理引擎、人機交互3部分組成。

    (1)信息分析引擎

    信息分析引擎是本系統(tǒng)的主要功能子系統(tǒng),提供數(shù)據(jù)采集、智能分析等功能,是本系統(tǒng)信息處理的工具箱,為智能處理引擎提供相應的分析能力,包含數(shù)據(jù)采集層、海量數(shù)據(jù)存儲層、智能分析層。

    其中,數(shù)據(jù)采集層完成從互聯(lián)網(wǎng)采集非結構化數(shù)據(jù)。接入Web1.0靜態(tài)的網(wǎng)絡數(shù)據(jù),如招聘網(wǎng)站、文檔共享網(wǎng)站、新聞網(wǎng)站、論壇等;接入社交網(wǎng)絡數(shù)據(jù)主要是微博、社交網(wǎng)等;接入企業(yè)內(nèi)部的結構化數(shù)據(jù),如用戶數(shù)據(jù)等。數(shù)據(jù)采集層根據(jù)用戶的訂閱信息進行定向采集,并將采集到的數(shù)據(jù)上傳到分布式文件系統(tǒng)。

    智能分析層主要完成對采集的數(shù)據(jù)的處理、分析、挖掘等數(shù)據(jù)分析功能,包含數(shù)據(jù)加工、文本挖掘、社交網(wǎng)絡分析、個性化推薦4個模塊。智能分析層根據(jù)采集的數(shù)據(jù)以及用戶的訂閱需求對數(shù)據(jù)進行加工處理,完成數(shù)據(jù)到知識的處理過程。

    (2)智能處理引擎

    智能處理引擎提供語義分析、圖分析、邏輯推理、專家知識庫等功能,采用人工智能相關算法完成。根據(jù)用戶輸入的信息,結合專家知識庫、用戶畫像庫,完成對用戶以及用戶需要的信息的準確定位。

    (3)人機交互

    人機交互主要完成用戶和信息之間的友好交互過程,本系統(tǒng)提供自動化的推送服務,對于一次訂閱進行增量推送,只要存在用戶感興趣的信息即推送,推送方式支持郵件、微博、頁面查詢等方式。同時,對于企業(yè)用戶,本系統(tǒng)提供統(tǒng)計報表、KPI分析、趨勢預測等可視化功能,能很好地完成支撐企業(yè)對信息的掌控。

    3 智能信息云的關鍵技術

    3.1 網(wǎng)絡爬蟲

    網(wǎng)絡爬蟲是一種按照一定規(guī)則,將分布在不同服務器和數(shù)據(jù)中心的網(wǎng)頁爬取下來,存儲在本地供本地程序使用。目前,主流的搜索引擎會采用網(wǎng)絡爬蟲的模式,擴展自己的網(wǎng)頁庫和索引庫。網(wǎng)絡爬蟲的工作原理:從一個初始的種子URL集合出發(fā),從中獲取一個URL,下載網(wǎng)頁,從此網(wǎng)頁中抽取所有的URL,并將新的URL添加到URL集合中;然后,爬蟲從URL集中獲取另一個URL重復以上的過程,直到爬蟲達到某種停止標準為止[3]。

    網(wǎng)絡爬蟲的原理是如此簡單,然而設計一個高性能的網(wǎng)絡爬蟲是一個挑戰(zhàn)性的工作,一個高性能、可靠的網(wǎng)絡爬蟲需要考慮以下幾方面。

    (1)可伸縮性

    隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)頁資源會成倍增長,網(wǎng)絡爬蟲要能適應海量數(shù)據(jù)的爬取,并且可以通過增加硬件資源使得爬取性能得以線性提高,并且對爬蟲的程序是透明的。

    (2)分布式

    集中式單機架構已經(jīng)不能滿足當前互聯(lián)網(wǎng)的規(guī)模,目前百度、Google等均采用了并行分布式的技術來解決目前海量數(shù)據(jù)的爬取問題。因此,支持分布式的爬行是當前網(wǎng)絡爬蟲首要解決的問題。

    (3)可擴展

    爬取的網(wǎng)頁對象千差萬別,尤其是隨著移動互聯(lián)網(wǎng)的發(fā)展,一些社交網(wǎng)站、微博等Web2.0網(wǎng)站的出現(xiàn),需要新的爬取方法才可以獲取網(wǎng)站內(nèi)容,因此在設計網(wǎng)絡爬蟲時要考慮通用網(wǎng)頁、垂直網(wǎng)站、特殊網(wǎng)站等多樣性的問題。

    (4)爬行策略

    海量信息的爬取要有一定的爬取策略,需要考慮重新爬取策略、爬取調(diào)度策略、更新爬取策略、爬取平衡策略等,設計的網(wǎng)絡爬蟲要根據(jù)系統(tǒng)的需求和目標權衡選擇相應的策略,要保證信息爬取成功以及爬取符合要求的信息。

    本文根據(jù)系統(tǒng)需求對網(wǎng)絡爬蟲進行了個性化的設計,由調(diào)度控制器、通用網(wǎng)絡爬取、社交網(wǎng)絡爬蟲3大子系統(tǒng)組成,整個系統(tǒng)基于云計算平臺Hadoop完成,實現(xiàn)了分布式和并行化,如圖2所示。其中,調(diào)度控制器由智能處理引擎調(diào)度,根據(jù)用戶的訂閱指令,調(diào)度相應的爬取策略等。社交網(wǎng)絡是比較特殊的一類網(wǎng)站,其內(nèi)容的爬取需要采用相應網(wǎng)站提供的API進行信息的獲取。

    3.2 智能處理引擎

    智能處理引擎可以認為是本系統(tǒng)的大腦,它的功能如下:

    ·分析輸入的用戶請求;

    ·構建任務,并調(diào)度任務的執(zhí)行;

    ·對輸出結果反饋分析,發(fā)現(xiàn)用戶隱含的分析條件,對任務進行修正;

    ·記住特定用戶的搜索和分析習慣,提供個性化的默認分析。

    智能處理引擎的基本工作模型如圖3所示。

    本系統(tǒng)的使用者為普通的用戶而非專業(yè)技術人員,因此通過智能處理引擎實現(xiàn)了用戶友好的自然語言接口,如一位HR招聘負責人提出:“幫我找出最近嵌入式開發(fā)人員的招聘情況?!笔紫仁沁M行自然語言語義分析,找出本句話中的關鍵詞,分別是“嵌入式開發(fā)人員”和“招聘”。在預先定義好的Web分類元數(shù)據(jù)中,招聘是一個key?!罢衅浮闭f明了數(shù)據(jù)來源,“嵌入式開發(fā)人員”說明了數(shù)據(jù)范圍。之后,系統(tǒng)會下達3個任務:一個是給定向網(wǎng)絡爬蟲,爬取所有“招聘”網(wǎng)站包含“嵌入式”關鍵詞的信息;一個給搜索引擎,在已獲取的數(shù)據(jù)集內(nèi),搜索“招聘”和“嵌入式”關鍵詞;另外一個是數(shù)據(jù)分析任務,待爬蟲將相關數(shù)據(jù)爬取回來以后,將數(shù)據(jù)按照“嵌入式”以及“嵌入式”的同義詞如embedded、Android、uclinux等進行過濾分析。得到列表向用戶進行推送。用戶訪問系統(tǒng)獲取到任務執(zhí)行結果后,可以進一步反饋,如“按地理位置做統(tǒng)計”、“按公司做統(tǒng)計”等,結果會修正原有的統(tǒng)計任務,生成新的統(tǒng)計任務,并將這個關鍵詞“地理位置”添加到使用者的畫像庫,用戶使用這個偏好達到一定閾值后,用戶提交類似的新任務時就會自動增加這一偏好統(tǒng)計。

    信息結果的評分將從多個緯度對查詢或數(shù)據(jù)分析的結果進行分析。

    (1)單詞相關性評分(S)

    指維護一個詞庫以及根據(jù)之前大量的網(wǎng)頁內(nèi)容對詞庫進行分析,構建出一個單詞關系網(wǎng)絡。計算每兩個單詞在同一句話中出現(xiàn)的概率。根據(jù)關鍵詞,查詢出與該關鍵詞相關的單詞列表,并計算文本中是否存在各關聯(lián)詞。單詞關聯(lián)評分標準如圖4所示。

    (2)完全匹配度評分(V)

    任務中的各個關鍵詞,在文章中均有引用,則評分最高。

    (3)噪聲信息罰分 (E)

    文章中如果大量出現(xiàn)與核心關聯(lián)次無關的廣告詞等將被罰分。

    每篇文章按照3種評分規(guī)則進行統(tǒng)一積分,并按積分多少進行排序。

    除了文章本身的因素,還引入人為反饋機制,監(jiān)控每位使用者閱讀每個詳情頁的時間,來判斷該信息的價值。來源網(wǎng)站價值=Σ(網(wǎng)頁價值)。網(wǎng)站價值越高,則來源于該網(wǎng)站的網(wǎng)頁價值也越高。

    設u=噪音罰分權重,α=相關匹配度權重,β=完全匹配度權重,γ=來源網(wǎng)站價值,則信任度 f=α×Stotal+β×Vtotal-u×Etotal+γ× Mtotal。

    3.3 文本挖掘

    文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知的、可理解的、最終可用的知識過程,同時運用這些知識更好地組織信息以便用于決策參考。文本挖掘主要是處理大量非結構化、半機構化的文本數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)挖掘技術無法處理這些模糊、無固定形式、缺乏機器可理解的含義的文本數(shù)據(jù)。

    文本挖掘有不同于傳統(tǒng)數(shù)據(jù)挖掘的處理流程,其主要的處理過程是對大量文檔集合的內(nèi)容進行預處理、特征提取、分詞、文本摘要、主題發(fā)現(xiàn)、文本聚類、文本分類等。圖5給出了文本挖掘的一般處理過程[4]。

    (1)文本預處理

    目前,對文本挖掘的一般處理途徑就是把非結構化的數(shù)據(jù)結構化,再利用現(xiàn)有的挖掘技術進行挖掘,而文本預處理就是把文本數(shù)據(jù)進行結構化的過程,包含的技術有中文分詞、實體識別、詞頻統(tǒng)計、特征提取等技術。

    ·中文分詞

    中文分詞是文本挖掘的基礎,屬于自然語言處理技術的范疇。目前,中文分詞算法有:基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計的分詞方法[5]。在目前階段基于字符串的匹配的機械式分詞方法在業(yè)界被廣泛使用,有 ICTCLAS、IK、Paoding等分詞項目。

    ·實體識別

    實體識別主要是識別出文本中的人名、地名等專有名稱和有意義的時間、日期等數(shù)量短語并加以歸類。實體識別技術是信息抽取、信息檢索、機器翻譯、問答系統(tǒng)等多種自然語言處理技術必不可少的組成部分。實體識別的主要技術方法有:基于規(guī)則和詞典的方法、基于統(tǒng)計的方法、二者結合的方法等。本系統(tǒng)采用基于統(tǒng)計的方法,模型采用隱馬爾科夫模型進行訓練和識別。

    ·特征提取

    特征提取是文本分類、文本聚類等文本式挖掘算法高效應用的前提,文本的高維特征向量對于文本挖掘算法未必全是重要、有意義的,因此特征提取就需要對文本的高維特征進行降維,一般采用的方法有文檔頻率法、信息增益法、互信息法、卡方校驗法等方法。

    (2)挖掘分析

    文檔轉(zhuǎn)換為向量形式并經(jīng)過特征選擇以后,就可以進行挖掘分析了,一般的挖掘分析技術包含文本分類、文本聚類、文本摘要提取、文本關聯(lián)分析和趨勢預測等技術。

    本系統(tǒng)在設計文本挖掘的功能中,對以下方面進行了重點考慮:分布式并行,基于云計算平臺Hadoop;結合用戶使用效果,對挖掘模型進行評價;對整個文本挖掘模塊采用了可插拔的組件化設計思路,保證系統(tǒng)能方便地接入新的挖掘算法。

    3.4 情感分析

    文本情感分析是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。按照處理文本的粒度情感分析分為詞語級、短語級、句子級、篇章級或文章集合級;按照處理文本的類別分為基于新聞評論的情感分析和基于產(chǎn)品平臺的情感分析[6]。

    圖6是本系統(tǒng)對評論進行情感分析的流程。

    整個情感分析包含兩個情感分析算法:基于Hownet算法的情感分析算法和基于PageRank算法的情感分析算法。

    (1)基于Hownet算法的情感分析算法

    基于Hownet算法的情感分析算法主要思想:假設有k對基準詞,每對基準詞包含一個褒義詞和一個貶義詞。褒義基準詞表示為key_p,貶義基準詞表示key_n,單詞w的語義傾向值orientation(w)表示,以0作為默認閾值,最終傾向值大于閾值為褒義,小于閾值為貶義。orientation(w)數(shù)值大小代表用戶對w的褒貶程度。單詞w的褒貶程度定義計算式為:

    最后根據(jù)計算后的褒貶程度和閾值進行比較,得到詞匯的極性判斷。

    (2)基于PageRank算法的情感分析算法

    基于PageRank算法的情感分析算法的主要思想:定義圖G=,|N|=|S|+|W|,其中N為G的節(jié)點組合(節(jié)點全部由情感詞組成),|S|為種子情感詞數(shù),|W|為待分類情感詞數(shù),|W|×|N|連接矩陣描述節(jié)點間的無向圖連接關系,Mij表示節(jié)點i和節(jié)點j之間的語義相似度,M可分解為|W|×|S|的子矩陣U和|W|×|W|的子矩陣V共2部分,Uij表示待測情感詞i與種子情感詞j之間的語義相似度,Vij表示待測情感詞i與待測情感詞j之間的語義相似度,引入PageRank模型后,情感詞極性判算法的迭代計算式為:

    3.5 個性化推薦

    個性化推薦是根據(jù)用戶的興趣特點、行為向用戶推薦用戶感興趣的信息或產(chǎn)品。個性化推薦解決的問題就是如何在海量信息中發(fā)現(xiàn)用戶感興趣的信息。其形式化的描述為:假設U是系統(tǒng)中所有用戶(user)的集合,I是系統(tǒng)中所有可以推薦給用戶的對象(item)的集合,如電影、書籍、視頻等。在實際的應用之中,U和I的規(guī)模通常都很大,如電子商務網(wǎng)站Amazon之中的圖書多達200萬本。定義f(u,i)為衡量某推薦對象i對于目標用戶u的效用大小的函數(shù)。則個性化推薦系統(tǒng)要解決的問題就是在對象集合I中找到對任意一目標用戶u效用最大的對象 i,即:

    為了實現(xiàn)個性化推薦的目的,如何選取合適的推薦算法來設計效用函數(shù)f是推薦系統(tǒng)的核心問題。

    常用的推薦算法一般被分為以下3種類別:基于內(nèi)容的推薦(content based)、協(xié)同過濾推薦(collaborative filtering)和組合推薦。基于內(nèi)容的推薦是以項的基本特征和對用戶興趣的描述作為推薦的基礎,通過一種比較項之間相似性的方法來給用戶做推薦[4]。協(xié)同過濾推薦,主要是依據(jù)這樣一個前提假設:有著相似歷史記錄的用戶,可以認為他們有著相似的愛好,從而可以把與目標用戶相似的用戶喜愛的項推薦給目標用戶[3]。而組合推薦框架是為了綜合以上兩種方法的優(yōu)點。

    本系統(tǒng)采用的個性化推薦采用組合推薦的方式實現(xiàn)的,同時結合文本挖掘的結果,作為推薦公式的因子。

    4 智能信息云的應用場景

    本文從以下3個方面來分析智能信息云的應用特點,應用并不局限以下3個場景。

    (1)政府部門

    隨著信息網(wǎng)絡技術的快速發(fā)展,Web2.0時代和媒體社會來臨了,借助互聯(lián)網(wǎng)得以反映和體現(xiàn)的輿情也越來越豐富,借助本系統(tǒng)對互聯(lián)網(wǎng)海量信息自動爬取、自動分類聚類、主題檢測、專題聚焦、話題發(fā)現(xiàn)追蹤、傾向性分析,實現(xiàn)對網(wǎng)絡輿情的感知、輿情態(tài)勢分析、輿情關聯(lián)主題發(fā)現(xiàn)和分析等,形成簡報、報告、圖表等各種可視化結果,為客戶全面掌握群眾思想動態(tài),做出正確輿論引導,提供分析依據(jù)。

    (2)企業(yè)

    對于企業(yè)來說,情報已經(jīng)成為繼資金、技術、人才之后的第4種生產(chǎn)要素,在這個充滿競爭和挑戰(zhàn)的時代,誰擁有了充分的、準確的情報,誰就能夠在決策中立于不敗之地。據(jù)可靠統(tǒng)計,互聯(lián)網(wǎng)上公開的信息占據(jù)了行業(yè)信息的90%以上,如何利用好這些信息,也是企業(yè)亟需解決的問題。本系統(tǒng)能有效地提升企業(yè)的競情能力,幫助企業(yè)采集、分析其所需要的信息。如可以在第一時間收集并自動反饋微博上對該企業(yè)產(chǎn)品的批評或負面評價等信息,能夠幫助企業(yè)完成業(yè)界新產(chǎn)品發(fā)布的統(tǒng)計分析等。

    (3)個人用戶

    目前個人用戶在互聯(lián)網(wǎng)上尋找自己感興趣的信息,一般都是采用關鍵字的搜索方式獲取,但是這種方式對個人用戶有以下要求:很準確地用關鍵詞描述出自己想要的信息;對于搜索引擎返回的大量、繁瑣的信息網(wǎng)站進行查看、分析、過濾等;必須要自己手工觸發(fā)搜索引擎。本系統(tǒng)可以只需要用戶采用自然語言的方式就可以自動獲取其關注的高價值信息,并可以實時地郵件或者短信推送信息,達到一次訂閱多次使用的效果。如用戶關注招聘信息,本系統(tǒng)會實時推送互聯(lián)網(wǎng)上符合用戶期望條件的最新招聘信息。

    5 結束語

    隨著計算機技術和互聯(lián)網(wǎng)的快速發(fā)展,個人和企業(yè)都陷入了浩瀚的信息海洋,如何從海量的數(shù)據(jù)中挖掘出有價值的信息,一直是業(yè)界亟需解決的難題。本文提出了一種基于云計算技術構建海量數(shù)據(jù)的信息云系統(tǒng)方法,并對所采用的關鍵技術進行了闡述,本系統(tǒng)在人工智能和文本挖掘等技術知識基礎上,創(chuàng)新性地提出了文本挖掘與自然語言、邏輯推理相結合的方法實現(xiàn)信息的智能處理,并利用現(xiàn)有通信技術完成用戶個性化的信息推送。本系統(tǒng)可以擴展應用到個人、企業(yè)、政府機構等多種場景進行信息分析和決策支持。

    1 社交網(wǎng)絡對大數(shù)據(jù)的解構.http://www.ciotimes.com/infrastructure/sjk/62379.html

    2 何恒昌.Web挖掘中信息采集技術研究與實現(xiàn).北京物資學院碩士學位畢業(yè)論文,2010

    3 劉金紅,陸余良.主題網(wǎng)絡爬蟲研究綜述.計算機應用研究,2007,24(10):26~29

    4 袁金鵬,朱東華,李毅等.文本挖掘技術研究進展.計算機應用研究,2006,23(2):1~4

    5 許高建,胡學鋼,王慶人.文本挖掘中的中文分詞算法研究及實現(xiàn).計算機技術與發(fā)展,2007,17(12):122~124

    猜你喜歡
    爬蟲文本智能
    利用網(wǎng)絡爬蟲技術驗證房地產(chǎn)灰犀牛之說
    基于Python的網(wǎng)絡爬蟲和反爬蟲技術研究
    在808DA上文本顯示的改善
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    基于doc2vec和TF-IDF的相似文本識別
    電子制作(2018年18期)2018-11-14 01:48:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    利用爬蟲技術的Geo-Gnutel la VANET流量采集
    電子測試(2018年1期)2018-04-18 11:53:04
    大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術
    電子制作(2017年9期)2017-04-17 03:00:46
    北流市| 饶河县| 南丹县| 侯马市| 洮南市| 微山县| 元阳县| 同江市| 唐山市| 赣榆县| 井冈山市| 登封市| 横山县| 长武县| 普兰县| 罗定市| 岳普湖县| 开江县| 湘阴县| 元江| 望谟县| 白朗县| 友谊县| 九寨沟县| 沾化县| 西华县| 江陵县| 黄梅县| 濮阳市| 孝昌县| 封丘县| 金坛市| 安康市| 无极县| 贵港市| 通州区| 安顺市| 晋州市| 昌乐县| 霍邱县| 鄯善县|