• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)環(huán)境下的文本挖掘教學(xué)內(nèi)容探討

    2018-05-09 02:54:48
    無線互聯(lián)科技 2018年9期
    關(guān)鍵詞:分詞文檔數(shù)據(jù)挖掘

    白 楊

    (遼東學(xué)院 信息工程學(xué)院,遼寧 丹東 118003)

    近年來,人工智能、云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)通信等技術(shù)與應(yīng)用的快速發(fā)展及其與社會(huì)經(jīng)濟(jì)活動(dòng)的廣泛融合,把人類社會(huì)帶入一個(gè)全新的大數(shù)據(jù)時(shí)代。大數(shù)據(jù)成為國際競(jìng)爭(zhēng)、國家發(fā)展的重要領(lǐng)域,給人們的生活、學(xué)習(xí)和工作帶來新的模式,采用合理的方法針對(duì)大數(shù)據(jù)進(jìn)行挖掘和利用,將有助于獲取有價(jià)值的信息。高校的發(fā)展也應(yīng)迎合大數(shù)據(jù)新環(huán)境的要求,在教學(xué)理念上做出適合學(xué)生能力發(fā)展的調(diào)整,并切實(shí)在教學(xué)實(shí)踐中付諸行動(dòng),增強(qiáng)學(xué)生的就業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)。

    目前,面向大數(shù)據(jù)相關(guān)人才的迫切需求,我國各大高校的計(jì)算機(jī)科學(xué)、信息管理等專業(yè)開設(shè)了“數(shù)據(jù)挖掘”課程。大數(shù)據(jù)環(huán)境下的互聯(lián)網(wǎng)約95%的數(shù)據(jù)以文本數(shù)據(jù)形式存在,文本挖掘技術(shù)及其應(yīng)用已經(jīng)成為新的研究熱點(diǎn),是數(shù)據(jù)挖掘技術(shù)發(fā)展的重要方向[1]。在各類相關(guān)教材中,也只將文本挖掘作為Web挖掘的一個(gè)小知識(shí)點(diǎn),并沒對(duì)其知識(shí)構(gòu)成和主要技術(shù)做全面介紹。針對(duì)這一現(xiàn)象,本文將對(duì)文本挖掘這一知識(shí)點(diǎn)進(jìn)行系統(tǒng)概述,對(duì)其區(qū)別于其他形式數(shù)據(jù)的挖掘技術(shù)特點(diǎn)進(jìn)行闡述。

    1 文本挖掘概述

    文本挖掘一詞最早出現(xiàn)于1998年第十屆歐洲機(jī)器學(xué)習(xí)會(huì)議上,它是一個(gè)從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識(shí)的過程[2]。文本挖掘的目的是從文本集合中,試圖在一定的理解水平上盡可能多地提取知識(shí),其本質(zhì)是自然語言處理(Natural Language Processing,NLP)過程,NLP是將無結(jié)構(gòu)的自然語言轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)自然語言,便于計(jì)算機(jī)的理解、存儲(chǔ)和管理。

    1.1 文本挖掘的應(yīng)用場(chǎng)景

    文本挖掘的應(yīng)用場(chǎng)景豐富,主要包括以下幾個(gè)方面:新聞檢索歸類,如谷歌新聞;社交網(wǎng)絡(luò)分析,如微博、推特?zé)狳c(diǎn)發(fā)現(xiàn)、謠言識(shí)別等;輿情監(jiān)測(cè)分析,如股票分析、房產(chǎn)分析等;顧客反饋評(píng)價(jià),如電子商務(wù)評(píng)價(jià)情感分析;用戶畫像,如用戶興趣偏好分析。

    1.2 文本挖掘與數(shù)據(jù)挖掘的聯(lián)系和區(qū)別

    廣義上,文本挖掘是數(shù)據(jù)挖掘的一個(gè)分支領(lǐng)域,挖掘目標(biāo)也分為預(yù)測(cè)和描述兩種。預(yù)測(cè)是利用數(shù)據(jù)庫中已有的變量預(yù)測(cè)未知或?qū)淼臄?shù)值;描述是用于探索已有數(shù)據(jù)的性質(zhì),對(duì)數(shù)據(jù)中的模式或關(guān)系進(jìn)行辨別,注重發(fā)現(xiàn)描述數(shù)據(jù)的模式,提供給用戶解釋和表述。狹義上,如果將文本挖掘作為一個(gè)單獨(dú)的研究領(lǐng)域,其研究對(duì)象是無結(jié)構(gòu)或半結(jié)構(gòu)的文本,而非結(jié)構(gòu)化數(shù)據(jù);以提取概念和知識(shí)以及做出描述和預(yù)測(cè)為目標(biāo),而非預(yù)測(cè)未來的狀態(tài);挖掘方法以提取短語、形成概念為主,與數(shù)據(jù)挖掘的傳統(tǒng)方法類似,也包括聚類、分類、關(guān)聯(lián)分析等。另外,由于文本數(shù)據(jù)是各類網(wǎng)站的主要數(shù)據(jù)形式,它廣泛應(yīng)用于社交網(wǎng)站、電子商務(wù)平臺(tái)、文獻(xiàn)集合、知識(shí)庫、電子郵件等媒介。

    2 文本挖掘過程

    如何使得文本數(shù)據(jù)可被計(jì)算機(jī)理解?如何利用計(jì)算機(jī)幫助解讀文本數(shù)據(jù)?要解決這些問題,皆要求文本挖掘具備數(shù)據(jù)獲取、數(shù)據(jù)分析和數(shù)據(jù)建模3方面的能力,以下5個(gè)步驟闡述了文本挖掘過程。

    2.1 文本數(shù)據(jù)獲取

    通常通過爬蟲程序?qū)崿F(xiàn)網(wǎng)絡(luò)海量文本數(shù)據(jù)的抓取,具體過程是根據(jù)挖掘目的設(shè)計(jì)爬蟲程序,爬取相關(guān)的數(shù)據(jù),以形成文本數(shù)據(jù)挖掘的初始數(shù)據(jù)。

    2.2 文本挖掘的預(yù)處理

    預(yù)處理過程是對(duì)編碼、缺失值、分布分析等問題進(jìn)行處理,是能否獲得有效挖掘結(jié)果的關(guān)鍵。由于文本數(shù)據(jù)的特征,文本數(shù)據(jù)的預(yù)處理方法區(qū)別于其他類型數(shù)據(jù)的預(yù)處理方法,具有其特殊性,因此這部分知識(shí)點(diǎn)是文本挖掘教學(xué)內(nèi)容的重點(diǎn),預(yù)處理過程一般劃分為以下幾個(gè)環(huán)節(jié)。

    2.2.1 編碼處理

    首先需要對(duì)文本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,因?yàn)椴煌幋a格式,有些軟件可能會(huì)不識(shí)別導(dǎo)致出錯(cuò),統(tǒng)一編碼(如將編碼轉(zhuǎn)化成“UTF-8”)將方便進(jìn)一步的主題特征抽取。

    2.2.2 分詞處理

    分詞處理將確定語句的詞(words)或詞項(xiàng)(terms),即文檔粒度。不同于英文語句中的詞與詞之間自帶空格的構(gòu)句特點(diǎn),中文句子往往因?yàn)閿嗑涞牟煌鹌缌x,因此,中文分詞方法顯得額外重要。中文分析方法分為詞典分詞和無詞典分詞兩種,前者是利用詞典中包括的領(lǐng)域術(shù)語,根據(jù)設(shè)定好的切詞字?jǐn)?shù),通過最大正向匹配將語句從左至右進(jìn)行切分。后者是利用統(tǒng)計(jì)思想來分詞,如最大概率法公式為:一個(gè)詞的概率=其出現(xiàn)的次數(shù)/語料中總的詞數(shù),以此區(qū)分詞在一個(gè)文檔中的重要程度。另外,還有一些常用的切詞工具如StandardAnalyzer,ChineseAnalyzer等都各具優(yōu)勢(shì)。

    2.2.3 文本數(shù)據(jù)的表示—DTM矩陣生成

    分詞處理之后需要進(jìn)行數(shù)據(jù)的表示,通過文檔—詞項(xiàng)矩陣(Document-Term Matrix,DTM)矩陣實(shí)現(xiàn)對(duì)本文數(shù)據(jù)的結(jié)構(gòu)化處理,它由文檔為樣本(行)、詞項(xiàng)為變量(列)、詞頻為觀測(cè)值(元素)構(gòu)成,如表1所示3個(gè)文檔(Doc1,Doc2,Doc3)的各個(gè)詞項(xiàng)(“歡迎”“來到”等)的詞頻值為1或0,1表示該詞項(xiàng)在文檔中出現(xiàn),0表示該詞項(xiàng)在文檔中未出現(xiàn)。

    2.2.4 文本信息過濾—停用詞及常用詞處理

    詞項(xiàng)中有些停用詞(如表1中的“的”“與”)無法給予我們有價(jià)值的信息,因此,需要借助詞典對(duì)停用詞進(jìn)行處理。需要注意的是,在分析具體行業(yè)時(shí),一些常用詞也可以處理掉,如只分析房地產(chǎn)行業(yè)時(shí),“房地產(chǎn)”一詞本身的意義就不大了。

    2.2.5 文本特征篩選TF-DIF處理

    詞頻—逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)的思想是一個(gè)詞在A文檔中出現(xiàn)頻率高(對(duì)A重要),而在其他文檔中出現(xiàn)次數(shù)相對(duì)低(對(duì)全局具有個(gè)性化),那么認(rèn)為該詞對(duì)于A文檔是重要的,它對(duì)A文檔有信息代表性,這將有利于進(jìn)行文本分類,從而方便提取規(guī)律和進(jìn)行檢索。

    表1 數(shù)據(jù)挖掘與文本挖掘的區(qū)別

    2.2.6 文本特征抽取—LDA主題模型

    與TF-IDF不同,文檔主題生成模型(Latent Dirichlet Allocation,LDA)則將分析粒度從詞映射為詞的組合(構(gòu)成主題),從而使得分析粒度變大,分析維度降低。

    2.3 文本數(shù)據(jù)分析與挖掘

    根據(jù)挖掘目的和任務(wù)的不同,將文本挖掘分析與挖掘劃分為以下幾個(gè)功能。(1)關(guān)鍵詞檢索:與傳統(tǒng)的信息檢索使用的技術(shù)類似,關(guān)鍵詞檢索功能通過建立倒排文件索引實(shí)現(xiàn)。(2)相似檢索:找到相似內(nèi)容的文本,通常利用向量空間模型、余弦相似度模型進(jìn)行相似度計(jì)算。(3)詞語關(guān)聯(lián)分析:聚焦在詞語(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息分析上。(4)文本分類和聚類:文本分類是有監(jiān)督地將文檔分為指定類;文本聚類是無監(jiān)督地將文檔分為若干類。實(shí)際上,多種分析方法經(jīng)常混合運(yùn)用,如進(jìn)行數(shù)據(jù)特征化處理使數(shù)據(jù)降維,從文檔中抽取能反映研究主題的一些特征后,再使用分類器進(jìn)行訓(xùn)練,而分類設(shè)置包括很多方法,如聚類、關(guān)聯(lián)、信息檢索、鏈接分析等方法。(5)自然語言處理:揭示自然語言的涵義,實(shí)現(xiàn)文本語義挖掘,如運(yùn)用LDA模型生成文本主題。

    2.4 文本數(shù)據(jù)可視化

    數(shù)據(jù)可視化就是把復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為直觀的圖形,有利于進(jìn)行數(shù)據(jù)分析以及方便人們洞悉數(shù)據(jù)規(guī)律。目前研究領(lǐng)域和Web上最受歡迎的文本內(nèi)容可視化方法是標(biāo)簽云和Wordle,它們都是基于關(guān)鍵詞的方法。另外還有文本特征可視化、情感分析可視化、文本關(guān)系可視化等。

    2.5 挖掘結(jié)果和策略

    為輔助決策,文本挖掘的結(jié)果必須被用戶所理解,因此,需要對(duì)挖掘結(jié)果進(jìn)行評(píng)估。評(píng)估標(biāo)準(zhǔn)一般分為客觀標(biāo)準(zhǔn)和主觀標(biāo)準(zhǔn),其出發(fā)點(diǎn)均是判斷挖掘結(jié)果是否具有新穎的、有趣的、有價(jià)值的性質(zhì)。

    3 結(jié)語

    本文對(duì)文本挖掘的教學(xué)內(nèi)容做了系統(tǒng)、全面的設(shè)置,梳理了此知識(shí)點(diǎn)的基本概念,著重介紹區(qū)別于其他數(shù)據(jù)挖掘預(yù)處理的分詞技術(shù)及矩陣表示方法,并闡述了主要挖掘和分析方法及其應(yīng)用場(chǎng)景。實(shí)踐教學(xué)中,將利用開放的互聯(lián)網(wǎng)數(shù)據(jù)庫資源,使課堂教學(xué)、上機(jī)實(shí)驗(yàn)案例相結(jié)合,引導(dǎo)學(xué)生掌握文本數(shù)據(jù)挖掘技術(shù)的知識(shí)結(jié)構(gòu),調(diào)動(dòng)學(xué)生的學(xué)習(xí)積極性和興趣。未來工作中,將進(jìn)一步引入前沿的文本挖掘問題應(yīng)用于“數(shù)據(jù)挖掘”課程的教學(xué)中,豐富教學(xué)案例,提高教學(xué)效果。

    [參考文獻(xiàn)]

    [1]袁軍鵬,朱東華,李毅,等.文本挖掘技術(shù)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2006(2):1-4.

    [2]JIAWEI H,MICHELINE K,JIAN P,等.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2012.

    猜你喜歡
    分詞文檔數(shù)據(jù)挖掘
    有人一聲不吭向你扔了個(gè)文檔
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
    結(jié)巴分詞在詞云中的應(yīng)用
    基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    值得重視的分詞的特殊用法
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    基于GPGPU的離散數(shù)據(jù)挖掘研究
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    抚州市| 濮阳县| 精河县| 通化市| 滨海县| 泰宁县| 仪陇县| 那坡县| 临高县| 新平| 都安| 卢龙县| 河西区| 泊头市| 沂南县| 于都县| 临海市| 云浮市| 汝城县| 都昌县| 北安市| 马龙县| 林甸县| 金溪县| 八宿县| 西平县| 江阴市| 红安县| 浏阳市| 卓资县| 丽水市| 崇礼县| 达尔| 隆回县| 张家川| 台山市| 顺义区| 治多县| 田林县| 乐陵市| 鄢陵县|