• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    知識鏈知識獲取:技術實現(xiàn)與應用舉例

    2012-04-29 18:26:25張省顧新
    圖書與情報 2012年6期
    關鍵詞:數(shù)據(jù)挖掘文本分析

    張省 顧新

    摘要:知識獲取是知識鏈組建的首要目標。文章從技術角度定義了知識鏈知識獲取,介紹了新興的知識獲取技術:數(shù)據(jù)挖掘、Web挖掘、文本挖掘,并分別結合銀行業(yè)、電子商務、網(wǎng)絡新聞的知識獲取案例探討了三種挖掘技術的應用。

    關鍵詞:知識鏈知識獲取數(shù)據(jù)挖掘Web挖掘文本挖掘

    中圖分類號:G250.7 文獻標識碼:A 文章編號:1003-6938(2012)06-0073-04

    1引言

    知識經(jīng)濟和全球化是21世紀的兩大特征。企業(yè)之間的競爭將主要依靠其聚集、整合和開發(fā)各類資源的能力。企業(yè)與大學、科研機構、上下游企業(yè)甚至競爭對手之間通過知識流動,以實現(xiàn)知識共享和知識創(chuàng)造,這種組織之間的知識流動形成了知識鏈(KnowledgeChain)[1]。知識鏈是知識經(jīng)濟時代組織之間合作競爭的新形式,未來的競爭將不再是企業(yè)與企業(yè)之間的競爭,而是知識鏈與知識鏈之間的競爭。

    知識鏈在競爭中取勝的關鍵在于形成知識優(yōu)勢[2]。一般而言,知識優(yōu)勢的形成路徑是從知識獲取到知識共享,最后是知識創(chuàng)造??梢姡R獲取是知識鏈知識優(yōu)勢形成的邏輯起點,它使知識鏈與外部知識網(wǎng)絡形成動態(tài)溝通,是知識管理活動的基礎和前提。通過對近十年知識獲取相關文獻的梳理后發(fā)現(xiàn),學者對知識獲取的研究主要集中在知識管理行為和人工智能技術兩個領域。本文從技術角度定義知識鏈知識獲取,集中介紹新興的知識獲取技術:數(shù)據(jù)挖掘、Web挖掘和文本挖掘,并結合具體的知識獲取案例探討了知識挖掘技術的應用,嘗試打通知識管理領域的技術障礙,為我國的知識管理實踐提供一個技術解決框架。

    2知識鏈知識獲取技術

    知識鏈知識獲取是指將用于問題求解的知識從知識源中抽取出來,并轉換成計算機可執(zhí)行的程序,最終儲存到知識鏈內部的過程。知識鏈組建的目標就是從外部知識源中獲取有用的知識,知識源具有多樣性,包括數(shù)據(jù)庫、人類專家、文本文獻等。目前尚無通用的知識獲取方法,互聯(lián)網(wǎng)時代的知識獲取技術主要是數(shù)據(jù)挖掘、Web挖掘和文本挖掘。

    2.1數(shù)據(jù)挖掘技術

    數(shù)據(jù)挖掘(DataMining)是指從大量隨機的、模糊的、未知的數(shù)據(jù)中提取潛在有用的信息和知識的過程。數(shù)據(jù)挖掘的目的是從復雜數(shù)據(jù)中發(fā)現(xiàn)相互聯(lián)系和內在規(guī)律,從無知中找出真知,從無序中找出有序,以用于商業(yè)分析和科學研究。例如,醫(yī)學研究成員嘗試從成千上萬病歷中找出某種疾病患者的共同特征,從而為治愈這種疾病提供一些幫助。數(shù)據(jù)挖掘有一些同名詞,如數(shù)據(jù)開發(fā)、知識挖掘、數(shù)據(jù)采掘等。

    相對于傳統(tǒng)的數(shù)據(jù)庫查詢系統(tǒng),數(shù)據(jù)挖掘技術擁有自身明顯的優(yōu)勢。首先,數(shù)據(jù)挖掘不是利用嚴格的SQL語言來描述,因此可以隨機、即時、靈活地使用;其次,數(shù)據(jù)挖掘過程一般基于統(tǒng)計規(guī)律,不一定生成嚴格的結果集,因此能夠對決策提供更優(yōu)質的信息;最后,數(shù)據(jù)挖掘不僅可以對數(shù)據(jù)庫原始字段進行查詢,還可以在數(shù)據(jù)的不同層次上進行挖掘。目前正在研制的第四代數(shù)據(jù)挖掘軟件主要特點是將數(shù)據(jù)挖掘和移動計算相結合,能夠挖掘移動系統(tǒng)、嵌入式系統(tǒng)和各類計算設備產(chǎn)生的數(shù)據(jù)。

    數(shù)據(jù)挖掘質量取決于算法的設計。比較通用的算法包括:主成分分析法、粗糙集法和決策樹法。主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數(shù)幾個綜合指標。它的任務是使數(shù)據(jù)陣簡化,用較少的變量去解釋原來數(shù)據(jù)中的大部分變異。主成分分析法適用于大樣本的量化評估分析。粗糙集法的優(yōu)勢是無需提供任何與問題無關的數(shù)據(jù),適合發(fā)現(xiàn)數(shù)據(jù)中隱含的有用規(guī)律。粗糙集先通過對條件屬性的約簡,即從決策表中消去某些列,然后消去重復的行和屬性的冗余值,將不精確或不確定的知識用已知的知識庫中的知識來(近似)刻畫。決策樹法則利用一種樹形圖作為分析工具,用決策點代表決策問題,用方案分枝代表可供選擇的方案,用概率分枝代表方案可能出現(xiàn)的各種結果。該方法計算損益值,因此常用于風險分析決策。

    2.2Web挖掘技術

    Web挖掘是數(shù)據(jù)挖掘技術在Web技術中的應用,它是指利用數(shù)據(jù)挖掘技術在Internet上的資源中發(fā)現(xiàn)潛在的、有用的信息或模式。與傳統(tǒng)數(shù)據(jù)挖掘不同,Web挖掘的數(shù)據(jù)以TB數(shù)量計算,既有數(shù)位型(整型、實型)、布爾型,又有性質描述數(shù)據(jù)、分類數(shù)據(jù)還有Web特有的數(shù)據(jù)類型,如url(網(wǎng)頁)地址、E-mail地址等,因此很難直接對Web網(wǎng)頁上的數(shù)據(jù)進行挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型的Web挖掘處理流程如下[3]:

    (1)查找資源:從目標Web文檔中尋找數(shù)據(jù);(2)信息選擇和預處理:從取得的Web資源中剔除無用信息,進行必要的分類整理;(3)模式發(fā)現(xiàn):在同一個站點內部或在多個站點之間自動進行模式發(fā)現(xiàn);(4)模式分析:驗證、解釋上一步驟產(chǎn)生的模式,該任務可由機器單獨自動完成,也可與程序人員交互完成。

    根據(jù)用戶對Web數(shù)據(jù)的需求程度不同,Web挖掘一般可分為三類,即內容挖掘、結構挖掘和用法挖掘。Web內容挖掘是指從Internet文件(文檔、圖像、音頻、視頻等)獲取有價值的信息和模式。Web結構挖掘是指從Web站點組織結構和鏈接關系中推導模式和知識,Google等搜索引擎就是結構挖掘。Web用法挖掘是指登錄用戶使用記錄挖掘,也稱訪問信息挖掘。

    按照自動化程度標準,Leander等人[4](2002)將Web挖掘技術分為人工方式、半自動化和全自動化三種。采用人工挖掘方式的系統(tǒng)主要有:W4F、Informaia、ANDES等,采用自動、半自動化挖掘方式的系統(tǒng)主要有:XWRAP、WIEN、Softmealy、Stalker等。當前Web挖掘技術在商業(yè)領域的應用主要是:(1)獲取競爭對手和客戶信息;(2)發(fā)現(xiàn)用戶訪問模式;(3)反競爭情報活動。

    2.3文本挖掘技術

    隨著電腦使用的普及與互聯(lián)網(wǎng)的發(fā)展,非結構化的電子文本文檔(如學術論文、新聞文章、電子郵件、公司通告等)數(shù)量急劇增長,為了從這些知識源中挖掘有價值的知識,需要用到文本挖掘技術。文本挖掘是數(shù)據(jù)挖掘的一個新領域,它利用智能算法,并結合文字處理技術,從文本文檔中發(fā)現(xiàn)和提取隱含的、事先未知的知識。

    根據(jù)文本挖掘知識對象的種類不同,文本挖掘可以分為關聯(lián)規(guī)則抽取、語義關系挖掘、文本聚類與主題分析、趨勢分析四大類。文本挖掘研究中最成熟、應用最廣泛的領域是文本聚類,它是指在沒有預先定義類別的情況下,自動產(chǎn)生文本分類的過程。文本聚類可以作為發(fā)現(xiàn)最近鄰文檔的有效手段,也可被用于瀏覽文檔集合或組織從搜索引擎返回的文檔。

    文本挖掘的過程與特定領域中的信息表達模型密切相關,一個典型的文本挖掘過程包括文本集合的預處理(文本數(shù)據(jù)的選擇、清洗、分類、特征提取等)、索引與存儲、中間表示分析(聚類、趨勢分析、關聯(lián)規(guī)則發(fā)現(xiàn)等)、后處理(知識的評價與取舍、知識的解釋與知識的可視化表達)等步驟[5]。

    目前,中文文本挖掘研究還處在起步階段。中文文本挖掘主要采用“詞袋”法,即提取文本高頻詞構成特征向量來表達文本特征?!霸~袋”法沒有考慮詞在文本(句子)中擔當?shù)恼Z法和語義角色,也沒有考慮詞與詞之間的順序,丟失了大量有用信息,加之漢語中同義詞與多義詞的普遍存在,更加減弱了高頻詞向量表達文本特征的可信度[6]。因此,中文文本挖掘研究的重點是中文文本的構成特點與特征提取機制,只有中文文本的分析技術得到突破,才能實現(xiàn)中文文本的深度挖掘。

    3知識鏈知識獲取應用

    3.1數(shù)據(jù)挖掘技術在銀行業(yè)的應用

    銀行信息化發(fā)展迅速,信息系統(tǒng)成為銀行業(yè)業(yè)務開展的主要支撐平臺。從海量金融數(shù)據(jù)中抽取有價值的信息,為銀行高管正確決策提供依據(jù),是數(shù)據(jù)挖掘的重要應用領域。國際知名銀行如匯豐銀行、富士銀行和花旗銀行都是數(shù)據(jù)挖掘技術應用的先行者。具體應用主要在以下兩個方面:

    (1)客戶管理。數(shù)據(jù)挖掘技術可以在客戶尋找、客戶保留和客戶服務優(yōu)化等銀行客戶管理周期各階段提供支持。如銀行可以通過分析客戶的交易習慣、交易頻率和交易額度等數(shù)據(jù)來判明客戶的忠誠度,也可以在客戶信息中進行聚類分析找到可盈利目標群。

    (2)風險管理。數(shù)據(jù)挖掘可以應用在信用風險評估上,方式一是構建信用評級模型,對信用卡申請人和貸款申請人的風險進行量化評分;方式二是檢測信用卡的異常使用,預防商業(yè)欺詐造成的損失。

    3.2Web挖掘技術在電子商務中的應用

    知識經(jīng)濟時代,網(wǎng)上交易正改變著人們的商務習慣和商務理念。顧客在Web站點上的注冊信息、瀏覽信息、購物信息都隱藏著自己的商務行為模式,也蘊藏著巨大的商機。合理運用Web挖掘技術,有助于電子商務企業(yè)及時獲得零售商、合作商、中間商以及競爭對手的信息,有助于發(fā)現(xiàn)潛在客戶、用戶和市場,以實現(xiàn)個性化的市場服務,提高市場競爭力。

    Web挖掘在電子商務中的主要方法有統(tǒng)計分析、知識發(fā)現(xiàn)、預測模型三種。統(tǒng)計分析是利用大數(shù)法則,發(fā)現(xiàn)Web數(shù)據(jù)的規(guī)律,并進一步解釋這些規(guī)律,為管理戰(zhàn)略提供依據(jù)。通常使用的方法有線性分析和非線性分析、連續(xù)回歸分析和邏輯回歸分析、單變量和多變量分析以及時間序列分析等[8]。知識發(fā)現(xiàn)是數(shù)據(jù)挖掘的高級過程,用于確定數(shù)據(jù)中有效、新穎、潛在有用、基本可理解的模式的特定過程,例如賓館酒店通過對消費特別高和特別低的顧客進行偏離模式分析,可以發(fā)現(xiàn)一些有趣的消費模式。預測模型假設消費者行為具有重復性和規(guī)律性,通過建立模型預測下一個時點消費數(shù)量或消費選擇。

    3.3文本挖掘技術在網(wǎng)絡新聞中的應用

    網(wǎng)絡新聞具有海量性、即時性、交互性和超文本等特征。網(wǎng)絡新聞的文本挖掘,可以實現(xiàn)對新聞資料的自動組織、生成專題,以滿足網(wǎng)絡用戶檢索新聞信息的需要。網(wǎng)絡新聞文本挖掘的內容主要有三個方面:主題發(fā)現(xiàn)與跟蹤、熱點趨勢檢測、事件預測規(guī)則的發(fā)現(xiàn)。

    4結語

    運用數(shù)據(jù)挖掘、Web挖掘和文本挖掘技術,知識鏈可以從外部知識源獲取知識形成自己的知識倉庫和知識地圖,但是要想贏得知識優(yōu)勢和競爭優(yōu)勢,知識鏈還必須實現(xiàn)成員之間知識的充分共享,最終通過知識創(chuàng)造保持核心能力。本文主要基于技術層面研究知識鏈知識獲取,未來知識獲取發(fā)展的趨勢將是技術和行為的融合,知識管理者不僅要對信息和人進行管理,更要將信息處理能力和人的創(chuàng)新能力相互結合,以增強組織對環(huán)境的適應能力。當前的知識管理系統(tǒng)的研發(fā)正在朝著這個方向發(fā)展,如IBM開發(fā)的Lotus系統(tǒng)和微軟公司開發(fā)的SharePointPortalServer系統(tǒng)都實現(xiàn)了人、場所、事務的有機關聯(lián)。

    參考文獻:

    [1]顧新.知識鏈管理-基于生命周期的組織之間知識鏈管理框架模型研究[M].成都:四川大學出版社,2008.

    [2]張省,顧新.知識鏈知識優(yōu)勢的形成與評價研究[J].情報資料工作,2012,(3):24-28.

    [3]胡潔,彭穎紅.企業(yè)信息化與知識工程[M].上海:上海交通大學出版社,2009.

    [4]LeanderA.,Riberio-NetoB.,SilvaA.Abriefsurveyofwebdataextractiontools[J].SIGMODRecord,2002,31(2):84-93.

    [5]諶志群,張國煊.文本挖掘研究進展[J].模式識別與人工智能,2005,18(1):65-74.

    [6]諶志群,張國煊.文本挖掘與中文文本挖掘模型研究[J].情報科學,2007,25(7):1046-1051.

    [7]李小慶.銀行數(shù)據(jù)挖掘與知識發(fā)現(xiàn)技術全景分析[J].華南金融電腦,2010,(11):44-47.

    [8]SrivastavaJ,CooleyR,DeshpandeM.Webusagemining:Discoveryandapplicationofusagepatternsfromwebdata[J].ACMSIGKDDExploration,2002,(2):76-88.

    [9]凌傳繁.Web挖掘技術在電子商務中的應用[J].情報雜志,2006,(1):93-95.

    [10]阮光冊.基于文本挖掘的網(wǎng)絡媒體報道研究[J].圖書情報工作網(wǎng)刊,2011,(6):24-31.

    作者簡介:張?。?981-),男,綿陽師范學院法學與社會學院講師,四川大學工商管理學院博士研究生,研究方向:知識管理;顧新(1968-),男,四川大學工商管理學院教授,研究方向:企業(yè)管理、技術經(jīng)濟及管理、教育經(jīng)濟與管理。

    猜你喜歡
    數(shù)據(jù)挖掘文本分析
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    隱蔽失效適航要求符合性驗證分析
    在808DA上文本顯示的改善
    電力系統(tǒng)不平衡分析
    電子制作(2018年18期)2018-11-14 01:48:24
    基于doc2vec和TF-IDF的相似文本識別
    電子制作(2018年18期)2018-11-14 01:48:06
    基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
    電力與能源(2017年6期)2017-05-14 06:19:37
    電力系統(tǒng)及其自動化發(fā)展趨勢分析
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
    如何快速走進文本
    語文知識(2014年1期)2014-02-28 21:59:13
    磐安县| 恩施市| 滦平县| 建平县| 晋中市| 卫辉市| 咸阳市| 浦江县| 庆云县| 灵台县| 进贤县| 顺平县| 周口市| 嘉峪关市| 甘德县| 庄河市| 章丘市| 资源县| 海伦市| 固镇县| 昌乐县| 望城县| 库伦旗| 本溪市| 天水市| 陇西县| 军事| 寻甸| 财经| 华亭县| 武陟县| 新郑市| 句容市| 泰顺县| 繁峙县| 奎屯市| 哈密市| 黑水县| 抚州市| 平顺县| 宁强县|