高逸晨
摘 要:經(jīng)濟(jì)全球化的發(fā)展使任何企業(yè)都不能忽視企業(yè)的快速變化的市場的影響,從而把握信息盡快全球化已成為企業(yè)制勝的關(guān)鍵;這同樣適用于政府、行業(yè)管理部門,收集的信息產(chǎn)業(yè)和企業(yè)的最新發(fā)展,將能夠迅速對(duì)市場、行業(yè)和企業(yè)的實(shí)時(shí)、準(zhǔn)確的動(dòng)態(tài)監(jiān)管,以最高的效率和制定相關(guān)的政策指導(dǎo),使行業(yè)一直在健康的發(fā)展軌道。近年來,互聯(lián)網(wǎng)的飛速發(fā)展給人們提供了各種各樣的信息,在這個(gè)行業(yè)中也蘊(yùn)含著豐富的商業(yè)信息。針對(duì)上述問題和需求,網(wǎng)絡(luò)信息傳播和非結(jié)構(gòu)化的特點(diǎn),現(xiàn)有的Web信息挖掘技術(shù)的應(yīng)用,提出了多學(xué)科信息塊分割,從企業(yè)建立一個(gè)商業(yè)實(shí)體的節(jié)點(diǎn)名稱代碼提取和分類所需的信息,并最終建立一個(gè)基于Web信息挖掘的經(jīng)營分析系統(tǒng),以促進(jìn)商業(yè)企業(yè)和產(chǎn)業(yè)的經(jīng)營與管理。
關(guān)鍵詞:web信息;挖掘;分析
一、非結(jié)構(gòu)化web信息提取
本文所提出的系統(tǒng)主要是對(duì)企業(yè)信息的收集和分析。由于商業(yè)信息比其他網(wǎng)頁內(nèi)容更規(guī)范,商業(yè)網(wǎng)站頁面也有規(guī)則格式,類似或同一站點(diǎn)有幾種格式類似于信息抽取,具有一定的方便性。但是您必須看到業(yè)務(wù)信息有其特殊性,并且相同的信息塊可能包含許多業(yè)務(wù)信息??紤]到上述因素,本文可以提取信息分為兩個(gè)步驟:第一步,先過濾掉網(wǎng)頁上沒有的信息,根據(jù)特定的框架格式的網(wǎng)頁,網(wǎng)頁的文本的主要信息是孤立的,表單網(wǎng)頁信息和構(gòu)建的文檔對(duì)象模型(DOM)頁面生成相應(yīng)的頁面模板信息;步驟2:分詞,詞頻統(tǒng)計(jì),和主題的信息塊得到的網(wǎng)頁分類的具體內(nèi)容。在數(shù)字表單的情況下,該表的格式可用于標(biāo)識(shí)專業(yè)域名詞典中的業(yè)務(wù)信息記錄。
具體的信息分離操作包含以下的步驟:
(1)循環(huán)讀取頁面信息
(2)讀取標(biāo)題
(3)讀取表格
(4)提取段落信息
(5)提取圖片
(6)構(gòu)造新的提取模板
經(jīng)過上述的信息塊分離操作,最終可形成一棵HTML信息塊樹,以達(dá)到信息分離的目的。
二、信息抽取
在經(jīng)過上一節(jié)所述處理后,信息是分散的,但必須考慮到業(yè)務(wù)信息本身的復(fù)雜性和混合性,往往可能包含多個(gè)話題中同一條信息的信息。因此,在第1節(jié)的基礎(chǔ)上,本系統(tǒng)還采用了一種信息抽取算法來獲取各種商業(yè)意義的web信息塊。具體步驟如下:
(1)對(duì)文本信息塊使用通用切分詞表進(jìn)行分詞處理
(2)再在商業(yè)領(lǐng)域?qū)嶓w名字典的指導(dǎo)下,統(tǒng)計(jì)信息塊中各關(guān)鍵詞出現(xiàn)的頻率
(3)通過計(jì)算關(guān)鍵詞頻率,計(jì)算出每個(gè)句子的權(quán)重
(4)根據(jù)句子權(quán)重將信息塊分離成多個(gè)主題
(5)從新產(chǎn)生的主題信息塊抽取出信息塊所含的商業(yè)信息,存入信息庫中
經(jīng)上述處理就能將混雜于頁面信息塊中的各個(gè)主題信息加以分離和提取。
三、信息評(píng)價(jià)
網(wǎng)絡(luò)上的大量信息,由于人性、技術(shù)原因,但也有一些矛盾,甚至沒有真正的內(nèi)容,應(yīng)該采取評(píng)價(jià)機(jī)制來確保提交結(jié)果的可靠性。該系統(tǒng)利用先驗(yàn)知識(shí)和信息反饋對(duì)臺(tái)灣進(jìn)行評(píng)估。分析的一些信托渠道盡可能多地獲得各種各樣的信息,各種信息來源的信用評(píng)級(jí),當(dāng)相同的數(shù)據(jù)源具有不同價(jià)值觀的沖突,最后的結(jié)果按照信貸,持續(xù)監(jiān)控反饋,動(dòng)態(tài)調(diào)整權(quán)重和評(píng)級(jí)。
首先在領(lǐng)域?qū)<抑笇?dǎo)下建立相關(guān)的評(píng)價(jià)體系,該評(píng)價(jià)體系重點(diǎn)從信息的兩個(gè)特征上進(jìn)行評(píng)價(jià),權(quán)威性及準(zhǔn)確性。
權(quán)威性包括信息是否表明了:
(1)作者。作者在文獻(xiàn)涉及領(lǐng)域受教育、培訓(xùn)及工作經(jīng)驗(yàn);有無作者聯(lián)系方式,作者的同行聲譽(yù);
(2)網(wǎng)站主辦者。主辦機(jī)構(gòu)在改領(lǐng)域的聲譽(yù)等
(3)引用資料來源,是否明確標(biāo)出引用資料來源,以及來源是否具有權(quán)威性
準(zhǔn)確性在于驗(yàn)證信息內(nèi)容是否與領(lǐng)域需求有關(guān),該信息與領(lǐng)域需求的關(guān)聯(lián)性有多大等。
通過對(duì)信息的權(quán)威性及準(zhǔn)確性進(jìn)行評(píng)價(jià)和分級(jí),能夠做到一下兩點(diǎn):
(1)信息篩選:能夠去除與領(lǐng)域需求無關(guān)聯(lián)的信息
(2)信息加權(quán):篩選后的信息,依照信用評(píng)級(jí)附加權(quán)重。當(dāng)信息倉庫中存在有關(guān)鍵詞的信息,但其表述信息內(nèi)容不同時(shí),依據(jù)信息的加權(quán)值大小評(píng)判真實(shí)性。
信息評(píng)價(jià)系統(tǒng)涵蓋了相關(guān)領(lǐng)域的范圍和文法規(guī)則。信息信用評(píng)級(jí)從手動(dòng)識(shí)別方法開始,以在域?qū)<业闹笇?dǎo)下標(biāo)記起始URL列表的地址。級(jí)別分為1級(jí)至10級(jí)。在系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)中,該方法可以更好地對(duì)信息源進(jìn)行評(píng)價(jià),但還需要進(jìn)一步研究,才能得出真正正確的信用評(píng)級(jí)。
四、信息提交與反饋
該系統(tǒng)提取的信息范圍很廣,信息的范圍也很大,但對(duì)于特定的用戶來說,它只想查看一小部分的視圖。所以向B/S方式的結(jié)果,合法用戶可以很容易地訪問系統(tǒng)通過互聯(lián)網(wǎng)提供通過使用java編程語言系統(tǒng)提供的服務(wù),后臺(tái)數(shù)據(jù)庫為SQL Server2000。在jsp模式下實(shí)現(xiàn)用戶調(diào)用。考慮到很多企業(yè)都有自己的信息分析系統(tǒng),系統(tǒng)還預(yù)留了一個(gè)與企業(yè)接口的B(業(yè)務(wù)信息/智能系統(tǒng))系統(tǒng),將系統(tǒng)的結(jié)果以接口調(diào)用給企業(yè)BI系統(tǒng),供用戶使用。
同時(shí),為了改變信用等級(jí)評(píng)價(jià)體系運(yùn)用到系統(tǒng)中,可以改變的動(dòng)態(tài)調(diào)整的趨勢(shì),從終端用戶獲得的評(píng)價(jià)結(jié)果也可以分析原始信息,新信息的密度等因素,將調(diào)整規(guī)則基礎(chǔ)和信息來源,學(xué)習(xí)SOM。系統(tǒng)添加用戶反饋,獲取結(jié)果,提交接口的功能,自動(dòng)獲取用戶的信息,并向用戶提供現(xiàn)有信息的選擇。
五、Conclusion
在這篇文章中,我們建立了基于Web信息挖掘的商業(yè)信息分析系統(tǒng),利用現(xiàn)有的Web信息挖掘技術(shù),根據(jù)原始數(shù)據(jù)的異構(gòu)信息塊分割的特殊性提出,商業(yè)實(shí)體名稱代碼引導(dǎo)商業(yè)信息提取和分類,最后將分散在Web信息抽取處理,通過潛在的商業(yè),實(shí)際效果具有實(shí)用價(jià)值,對(duì)企業(yè)管理進(jìn)行有效的指導(dǎo)。但同時(shí),系統(tǒng)和一些進(jìn)一步的改進(jìn):企業(yè)名稱是提取關(guān)鍵信息的分析,較好的解決了現(xiàn)有的實(shí)體和條目的命名系統(tǒng),對(duì)一些新的單詞,你需要學(xué)習(xí)鑒別方法是清楚的;此外,信息源具有更高的信用評(píng)級(jí)的準(zhǔn)確評(píng)估……這將是我們?cè)O(shè)計(jì)研究的重點(diǎn)。