• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Web信息挖掘的商業(yè)分析系統(tǒng)設(shè)計(jì)研究

      2021-01-27 12:02:13朱育頡浙江工商大學(xué)
      消費(fèi)導(dǎo)刊 2020年5期
      關(guān)鍵詞:詞條網(wǎng)頁實(shí)體

      朱育頡 浙江工商大學(xué)

      前言:將Web中商業(yè)信息加以挖掘并提取分析可以利用Web信息技術(shù)引導(dǎo)企業(yè)和商業(yè)高效率的運(yùn)行;將最新式的web信息服務(wù)引入管理部門以及政府,實(shí)現(xiàn)高質(zhì)量的監(jiān)管。因此,可以結(jié)合Web信息挖掘技術(shù),利用非結(jié)構(gòu)化的特征和網(wǎng)上信息的發(fā)布,結(jié)合信息塊多主題的分割技術(shù),構(gòu)建基于Web信息挖掘的商業(yè)分析系統(tǒng)。

      一、非結(jié)構(gòu)化Web信息提取

      雖然Web具有豐富的信息資源,但是這些信息一般使用在用戶的瀏覽過程。其中包含著許多HTML標(biāo)記,此標(biāo)記不可以代表網(wǎng)頁信息的實(shí)際含義,只可以用作瀏覽器的顯示解釋。同時(shí),網(wǎng)頁格式也與以往的文本文檔具有較大的不同,其中也許包含圖片、框架、表格各種形式的內(nèi)容,將機(jī)器理解復(fù)雜化。若想實(shí)現(xiàn)非結(jié)構(gòu)化的存在信息,需要對(duì)這些內(nèi)容進(jìn)行提取。關(guān)于Web的信息提取方案主要有三種:全自動(dòng)方法、半自動(dòng)方法、人工方法。具體內(nèi)容如下:包裝器的歸納方式提取、基于HTML結(jié)構(gòu)信息的提取、基于ontology的提取、依據(jù)自然語言進(jìn)行信息的提取、基于Web信息查詢的提取[1]。例如,其中最常見的應(yīng)用技術(shù)是利用Wrapper包裝器針對(duì)HTML等形式的網(wǎng)頁信息進(jìn)行提取。其中,Wrapper(包裝器)實(shí)際上是軟件構(gòu)件。一個(gè)包裝器對(duì)應(yīng)單一數(shù)據(jù)源的一種頁面,主要負(fù)責(zé)將查詢請(qǐng)求與數(shù)據(jù)從一種形式轉(zhuǎn)變?yōu)榱硪环N形式。在Web開發(fā)環(huán)境下,包裝器的工作主要是提取隱含在HTML中的信息,將其轉(zhuǎn)化成可以進(jìn)行下一步處理的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)數(shù)據(jù)。

      在提取信息時(shí)主要有兩個(gè)步驟:其一,篩掉網(wǎng)頁上沒有的信息數(shù)據(jù)。因?yàn)榫W(wǎng)頁的框架格式是固定的,因此其中的文本信息是孤立的。DOM(文檔對(duì)象模型)會(huì)與網(wǎng)頁信息之間形成對(duì)應(yīng)的頁面模板信息。其二,詞頻統(tǒng)計(jì)工作。在數(shù)據(jù)表單工作中,表單格式可以標(biāo)識(shí)專業(yè)域名的詞典業(yè)務(wù)信息記錄。其中,具體的信息分離工作有如下步驟:循環(huán)反復(fù)讀取頁面信息、讀取表格和標(biāo)題、提取圖片與段落信息、建立新式提取模板[2]。通過一系列的信息塊分離,可以幫助系統(tǒng)構(gòu)建HTML信息塊樹,實(shí)現(xiàn)信息分離的效果。

      二、信息塊分割和信息抽取

      提取的信息塊目前是分離的狀態(tài),需要將商業(yè)信息本身的混合性與復(fù)雜性融合在內(nèi)。一般同一個(gè)信息塊中富含著多種主題的信息。例如,在測(cè)試五種攝像手機(jī)時(shí),信息中包含著五種手機(jī)的詳細(xì)信息。本課題可以引入主題分割的信息提取算法獲得網(wǎng)頁中各種信息塊的商業(yè)含義。具體的操作內(nèi)容如下:其一,需要利用通用切分詞表對(duì)文本信息塊中的中文進(jìn)行分詞操作。其二,通過商業(yè)范圍中實(shí)體名字典的引導(dǎo),詳細(xì)統(tǒng)計(jì)各個(gè)信息塊中關(guān)鍵詞條的頻率。公式為:Wf=Wst+∑Waf,其中,Wst是詞條在信息塊中的出現(xiàn)頻率;Waf是商業(yè)實(shí)體名的字典中該詞條的同義詞出現(xiàn)頻率。其三,按照詞條頻率統(tǒng)計(jì)句子的權(quán)重,公式為:S=∑Wf。其四,依據(jù)權(quán)重求出最大的主題句子,用字母S表示。其中,S>N/5,N是句子的總量。將信息塊可以分為S個(gè)主題,在將S主題相關(guān)的信息進(jìn)行合并。其五,對(duì)分離之后再進(jìn)行合并的各個(gè)主題信息塊按照實(shí)體名字典中例如商品、類別、廠商的一些詞條,得到相應(yīng)的商業(yè)信息,如商品名、價(jià)格、型號(hào)、所屬企業(yè)等。接著提取出信息塊中的商業(yè)信息,將其存到的信息庫中。其六,未出現(xiàn)在商業(yè)實(shí)體名詞字典中的高頻詞條,需要分析其與同信息塊的實(shí)體名之間的關(guān)聯(lián),最后加入到商業(yè)實(shí)體名的字典中。其七,判定塊內(nèi)的URL地址的具體信息是否為之前分析的Web內(nèi)容。如果是,需要將其添加到URL的地址列表中。

      三、信息評(píng)價(jià)

      可以采取評(píng)價(jià)機(jī)制進(jìn)一步保障提交結(jié)果的真實(shí)性與可靠性。此系統(tǒng)通過使用信息反饋以及先驗(yàn)知識(shí)對(duì)信息進(jìn)行評(píng)估,科學(xué)分析出獲取商業(yè)信息的正確方式??梢栽趯<一蛘呒夹g(shù)人員的支持下構(gòu)建評(píng)價(jià)機(jī)制,評(píng)價(jià)系統(tǒng)的重點(diǎn)是圍繞信息的準(zhǔn)確性和權(quán)威性。此外,還需要對(duì)信息的準(zhǔn)確性與權(quán)威性進(jìn)一步分級(jí)和評(píng)價(jià),需要實(shí)現(xiàn)以下幾方面:其一,信息加權(quán),經(jīng)過篩選之后的信息可以按照信用評(píng)級(jí)進(jìn)行加權(quán)。比如信息倉庫中具有關(guān)鍵詞時(shí)但是表述內(nèi)容不全面時(shí),可以利用信息的加權(quán)大小判斷可靠性。其二,信息篩選過程需要去掉與領(lǐng)域需求不相關(guān)的信息。

      四、信息提交

      系統(tǒng)需要提取的信息面很大。不過對(duì)于特殊用戶,只需要查看小范圍的視圖即可??梢允褂肂/S形式,這樣一來用戶就可以輕松的訪問系統(tǒng)中利用Java編程語言系統(tǒng)提供的服務(wù),后臺(tái)數(shù)據(jù)庫可以選擇SQL Serve。通過Jsp系統(tǒng)可以進(jìn)行用戶的調(diào)度,在系統(tǒng)中可以留置企業(yè)接口B也就是智能/業(yè)務(wù)信息系統(tǒng),方便將系統(tǒng)的結(jié)果通過接口傳遞到企業(yè)的BI系統(tǒng)內(nèi)部,可以將CABWIM系統(tǒng)內(nèi)部的實(shí)際結(jié)果利用接口調(diào)用的形式傳遞到企業(yè)的BI系統(tǒng)中。

      結(jié)論:因此,在建立Web信息挖掘商業(yè)信息系統(tǒng)時(shí),需要結(jié)合數(shù)據(jù)的異構(gòu)信息塊分割特性,通過商業(yè)實(shí)體名稱代碼分類提取商業(yè)信息。通過潛在的信息商業(yè)價(jià)值,達(dá)到實(shí)用性的應(yīng)用效果,可以對(duì)企業(yè)的科學(xué)管理起到高效的指導(dǎo)作用。不過,系統(tǒng)需要結(jié)合需求進(jìn)行進(jìn)一步的改進(jìn),例如信息源和命名系統(tǒng)均是研究的重點(diǎn)。

      猜你喜歡
      詞條網(wǎng)頁實(shí)體
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
      2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
      2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      苍溪县| 新兴县| 凤城市| 文山县| 平陆县| 醴陵市| 阿坝| 六盘水市| 永登县| 托克逊县| 葵青区| 晋中市| 哈密市| 贵德县| 南华县| 宜君县| 理塘县| 田阳县| 根河市| 阿巴嘎旗| 明星| 孟村| 郁南县| 牙克石市| 随州市| 札达县| 清河县| 吉水县| 西盟| 米林县| 肥西县| 大石桥市| 峨边| 电白县| 合水县| 武清区| 正镶白旗| 西贡区| 扶风县| 桐城市| 长武县|