• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Web文本挖掘研究

    2013-06-08 03:05:44王安
    中國信息化·學術(shù)版 2013年2期
    關(guān)鍵詞:詞條分詞權(quán)值

    王安

    1.引言

    如今,隨著Internet的飛速發(fā)展,數(shù)以萬計Web應用走進人們的日常生活,網(wǎng)絡中信息類型日漸龐雜。為了從海量Web信息中獲取知識模式,就亟需將Web技術(shù)與文本挖掘技術(shù)相結(jié)合,對Internet進行Web挖掘。

    2.Web挖掘分類

    Web信息的多樣性決定了Web 挖掘任務的多樣性。Web挖掘的信息可分為以下幾類:(1)網(wǎng)頁本身的內(nèi)容; (2)網(wǎng)頁內(nèi)部結(jié)構(gòu),包括HTML或XML;(3)網(wǎng)頁之間的鏈接結(jié)構(gòu); (4)描述網(wǎng)頁被如何訪問的使用數(shù)據(jù);(5)用戶簡檔,包括人數(shù)統(tǒng)計、用戶注冊信息、cookie中的信息。根據(jù)以上信息類別,將Web挖掘任務分為三類:Web內(nèi)容挖掘(Web content mining),Web結(jié)構(gòu)挖掘(Web structure mining)和Web使用記錄挖掘(Web usage mining)。

    3. Web文本挖掘流程

    Web中的信息多樣化,其中最主要的信息資源是文本, 因此Web文本挖掘成為Web挖掘的一個重要研究領(lǐng)域。由于Web文本挖掘涉及的領(lǐng)域廣泛, 挖掘的內(nèi)容豐富、復雜,目前對Web文本挖掘國內(nèi)外還沒有統(tǒng)一、準確的定義。

    Web文本挖掘的流程一般包括:Web文本收集與預處理、特征的表示和提取、Web 文本挖掘、挖掘結(jié)果評價、信息表示與信息導航。

    4.Web文本挖掘關(guān)鍵技術(shù)

    Web文本挖掘過程中, 文本特征值的提取是挖掘工作的基礎(chǔ),而文本分類、聚類是挖掘工作最重要的部分。

    4.1 文本信息預處理

    文本預處理主要包括WEB文本文檔的分詞處理。在中文文檔的詞頻統(tǒng)計前, 需先對中文文檔進行分詞處理,即在詞條間加入分隔符, 使之轉(zhuǎn)換為分散的詞流形式。分詞的基本算法有: (1)標志法。如切分標志法、統(tǒng)計標引法。 (2)基于詞典與規(guī)則匹配法。(3)語義語用法。如后綴分詞法。(4)詞頻統(tǒng)計法。

    4.2 文本特征表示

    文本特征值的提取是對從WEB 文檔中抽取出來的代表其主題內(nèi)容的元數(shù)據(jù)( 特征項) 形成特征矢量來表示W(wǎng)EB文本。描述性特征包括文本的名稱、日期、大小、類型等, 而語義性特征包括文本的作者、標題、內(nèi)容、關(guān)鍵詞等。特征值的提取現(xiàn)在已有多種方法, 如: 文檔頻次閾值方法、信息增益方法(IG)、x2統(tǒng)計方法(CHI) 、互信息熵方法和基于奇異值分解的潛在語義索引方法等。

    WEB文檔特征表示的模型有多種, 其中矢量空間模型(VSM) 是應用較多且效果較好的特征表示方法之一, 即將WEB文本文檔看成是一組詞條( t1,t2,…tn)構(gòu)成,對于每一詞條ti,都根據(jù)其在文檔中重要程度賦予一定的權(quán)值Wi,可以將其看成是一個n 維坐標系,W1,W2,…,Wn為對應的坐標值, 因此每一篇文檔都可以映射為由一組詞條矢量構(gòu)成的向量空間中的一點, 對于所有WEB文檔都用詞條特征矢量:

    V(doc)=(t1,w1(doc);t2,w2(doc);…tn,wn(doc))

    來表示文檔doc??梢詫⑽臋ndoc中出現(xiàn)的所有單詞作為ti,也可以要求ti是doc中出現(xiàn)的所有短語, 從而提高內(nèi)容特征表示的準確性。wi(doc)是第i詞條在文檔doc中的權(quán)值。wi(doc)的計算方法有很多種, 在VSM中的TF-IDF是一種常見的權(quán)值確定方法,即: ??

    log/

    猜你喜歡
    詞條分詞權(quán)值
    一種融合時間權(quán)值和用戶行為序列的電影推薦模型
    CONTENTS
    結(jié)巴分詞在詞云中的應用
    智富時代(2019年6期)2019-07-24 10:33:16
    基于權(quán)值動量的RBM加速學習算法研究
    自動化學報(2017年7期)2017-04-18 13:41:02
    值得重視的分詞的特殊用法
    2016年4月中國直銷網(wǎng)絡熱門詞條榜
    2016年3月中國直銷網(wǎng)絡熱門詞條榜
    2016年9月中國直銷網(wǎng)絡熱門詞條榜
    大數(shù)據(jù)相關(guān)詞條
    高考分詞作狀語考點歸納與疑難解析
    高台县| 汶上县| 嘉兴市| 台中市| 基隆市| 新兴县| 民县| 绵竹市| 南乐县| 孝义市| 乐都县| 张家界市| 瑞丽市| 余干县| 湾仔区| 济南市| 嘉黎县| 慈溪市| 威信县| 寻乌县| 遂宁市| 广水市| 分宜县| 灌南县| 涞水县| 安西县| 清丰县| 汤原县| 疏勒县| 固始县| 鄂尔多斯市| 安吉县| 白河县| 兴安盟| 米易县| 金华市| 通江县| 武安市| 秭归县| 略阳县| 渑池县|