• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于信息抽取的電子商務聯盟系統(tǒng)

    2011-12-08 12:15:46譚龍江
    關鍵詞:異構貝葉斯檢索

    譚龍江

    基于信息抽取的電子商務聯盟系統(tǒng)

    譚龍江

    為解決同類電子商務中的信息異構等問題,研究并實現了一種基于信息抽取的電子商務信息共享聯盟系統(tǒng)。給出了該系統(tǒng)的系統(tǒng)組織模型,各個功能模塊,信息抽取關鍵算法以及運行流程。該系統(tǒng)通過異構網頁挖掘進行信息整合,采用貝葉斯算法進行按需信息抽取。仿真證明該系統(tǒng)具有較高的信息自動處理性能和較好的客戶需求匹配度。

    信息共享聯盟;電子商務;信息抽??;信息整合

    目前,電子商務領域已經形成了龐大的、廣泛的、分布式的異構數據庫和應用計算平臺。它給人們提供了一個非常廣闊的商務活動空間,幫助人們獲取所需要的各種商業(yè)信息、資源。然而由于信息形式的多樣性和信息存儲的異構性,網絡資源的有效利用率總是很低[1]。以福建泉州地區(qū)為例,就服裝電子商務信息資源而言,整個行業(yè)擁有數十個相關數據庫,各企業(yè)的小型公開數據庫數量更多,運行的相關網站多達700多個。這些數據庫與網站中有相當一大部分數據的信息相同,而存儲結構和表現形式卻是相異的,具有分散、異構的特征,不利于客戶的集中查詢。因此如何更加有效地組織、整合各類分散信息,使客戶能高效地搜索到所需資源并從中獲取所需知識已經成為當今電子商務技術發(fā)展的一個研究熱點。目前,電子商務領域中大部分的有效資源都保存在數據庫之中,而體現于Web頁面之上。人們最常用到的Web搜索引擎也大都是基于靜態(tài)或動態(tài)Web頁面的關鍵字搜索,無法直接面向數據庫;此外,數據庫中的數據量通常遠超Web頁面的信息承載能力。因此,通過搜索引擎等普通工具進行搜索具有相當的通用性,卻缺乏必要的針對性和專業(yè)性,及時性也較差(搜索引擎遍歷網頁的周期較長)。特別是當客戶搜索某些專業(yè)領域資源(如電子商務中的供需信息)時,搜索到的結果中往往會存在著諸多完全不相關的信息。如果能夠將這些分散的、異構的數據庫數據按照某種統(tǒng)一格式進行標準整合與共享,會極大限度地提高資源利用率。

    一 系統(tǒng)結構與功能模塊

    為解決上述問題,本文提出了基于信息抽取的電子商務信息共享聯盟模型,該系統(tǒng)將信息搜索源(數據源)定位為電子商務客商的Web服務器與數據庫數據,因此可以從宏觀上把握所共享信息的類別等相關輔助搜索的信息(即能實現基于內容的搜索);同時在信息共享的過程中不會修改聯盟成員(即資源提供者)數據庫的數據信息及數據庫結構。其本質特點是在邏輯上將各個信息資源的異構數據連接在一起,在物理上則對加盟數據按照元數據規(guī)范標準進行整合并備份上傳至聯盟。

    如圖1所示,本系統(tǒng)的系統(tǒng)結構與核心功能子模塊包括:

    (1)客戶信息接口:該模塊負責本系統(tǒng)面向客戶(包括B2B和B2G電子商務各方)的通信。該模塊除具有傳統(tǒng)的客戶注冊等功能外,還負責客戶需求初始化采集、信息封裝打包等任務。

    (2)客戶信息管理模塊:該模塊與傳統(tǒng)的客戶管理模塊不同,它不但管理注冊信息等客戶元數據(客戶的自身描述信息),而且存儲和管理客戶的個性化需求信息,不斷從更新的客戶元數據、客戶反饋信息與檢索關鍵詞等資料中抽取和挖掘客戶的需求,作為信息抽取的依據。

    圖1 電子商務聯盟系統(tǒng)結構

    (3)信息采集模塊:該模塊自動采集、分類、管理相關電子商務系統(tǒng)中各類資料的元數據(文件名、地址、關鍵詞、受關注的熱度等);采集到的數據將進行分類處理,實時數據(例如:特定網站更新后的標題)等注入“信息VS需求”匹配數據庫;歷史數據歸一化處理后,存入中心信息庫;按客戶需求采集所需的信息(從信息聯盟接口和中央信息目錄庫)可以直接提交給客戶。

    (4)“信息VS需求”匹配數據庫管理模塊:為向客戶提供高效準確的信息服務,該模塊在系統(tǒng)的存儲空間中建立一個實時庫(內存庫,以倒排表形式存儲數據可達2G以上);該模塊在接收到客戶既往需求以及電子商務信息注入后,首先將這些信息作同構化向量處理,當有新信息進入庫中時,該模塊自動從數據庫中檢索匹配程度較高的信息,在它們之間建立關聯,以便在進一步的信息發(fā)布過程中實現信息抽取的聯動;例如:客戶給出“襪子”關鍵詞時,舊系統(tǒng)很難從中檢索出跟“襪”相關的表項;而該模塊能夠自動根據客戶的歷史檢索喜好,根據分詞與匹配相關原則,提供相關的分類明細目錄“長筒襪類、短襪類、特種襪類”等。

    (5)電子商務聯盟互聯接口:針對電子商務客商分布的廣泛性和使用接入網的異構性,該模塊一方面實現服務器中的各個數據庫服務器與文件文檔服務器的互聯,使得服務器間可以獲取彼此公開發(fā)布的內容;同時,為實現不同數據庫平臺的互聯,該模塊采用JDBC數據庫接口,但該模塊并不把所有數據全都提取出來,而是通過對各個數據庫元素的遍歷,抽取高頻詞與主題詞,從而建立各服務器的元數據目錄,以便客戶檢索。例如:系統(tǒng)客戶登錄特定服務器后,提出檢索生僻詞,如本地服務器沒有此類信息,則由該模塊向聯盟互聯接口模塊提出檢索請求,該模塊即檢索服務器元數據列表,確定生僻詞可能存在的服務器,并代替客戶發(fā)出檢索請求,異地服務器獲取相關檢索結果后,提交給客戶。這種信息聯盟模式不但避免了客戶直接進入數據庫檢索的繁瑣操作,而且保證了檢索的高效性和安全性。

    二 關鍵技術

    異構電子商務網站系統(tǒng)中的網頁結構繁復,層次不清,而且網頁內的嵌入的文件類型復雜;因此,網頁優(yōu)化系統(tǒng)在處理這類數據時,很難兼顧實時性和處理效果。此外,異構網站系統(tǒng)的信息還存在來源不同、排版格式不通、訪問頻率不同等差異,導致信息同構化具有相當難度。本系統(tǒng)為解決上述問題,采用了貝葉斯網絡進行信息按需抽取。貝葉斯網絡是一種特殊的因果推理網;該網絡是由節(jié)點和有向邊組成的有向無環(huán)圖;其中,每個節(jié)點代表一個檢測信號構成的隨機變量,其概率分布說明該變量處于該變量狀態(tài)集合中每個狀態(tài)的概率值,每條有向邊代表兩節(jié)點之間聯合或推論的依賴關系,由與連接相關的條件概率矩陣定量描述。

    基于貝葉斯網絡的聯盟同構信息抽取如圖2所示。網絡節(jié)點分為兩類:假想(Hypothesis)節(jié)點(H 節(jié)點)和事件(Event)節(jié)點(E 節(jié)點)。假想節(jié)點表示客戶對某種商務的需求評估取值;而事件節(jié)點表示在一定的微觀檢測范圍內發(fā)生的需求事件。通常的需求事件可分為兩類,一類是可直接觀測的(例如:短期內頻繁出現的檢索詞),稱為事件線索或事件征兆(Event Cue),另一類是不可直接觀測的(例如:不同網站之間網頁之間的關系)。貝葉斯網絡設定節(jié)點之間的有向邊表示假想之間、假想和事件之間以及事件之間的因果關系;本系統(tǒng)中采用了存儲在文件中的條件概率矩陣描述兩者之間的關聯程度。設定一個有向聯結為: X→Y,則其條件概率矩陣定義為:

    圖2 貝葉斯在電子商務聯盟中的應用

    貝葉斯模型采用網絡來描述事件和假想之間的相互關系,采用條件概率矩陣描述各個節(jié)點之間的關聯程度。電子商務聯盟系統(tǒng)應用該模型從觀測到的事件出發(fā),逐層推理,最終得到假想的狀態(tài)或發(fā)生過的既有事件。當

    多個電子商務服務器發(fā)現需求事件發(fā)生時,將同時發(fā)送需求信息給聯盟中心,以執(zhí)行需求分類的推理過程:所有服務器中的事件狀態(tài)概率都運用貝葉斯方法,聯盟系統(tǒng)一方面通過Web內容歸一化處理,使得所有數據進入統(tǒng)一的數據表中待用,另一方面根據客戶需求等信息隨時對數據庫中保存的先驗概率和條件概率進行調整,使得貝葉斯模型中得到每次更新的結果。由此可見,貝葉斯網絡中的假想狀態(tài)不但與現在最新獲得的事件相關,而且與以前一段時間內事件累積的經驗相關;因此,本系統(tǒng)在抽取過程中具有信息的時間經驗累計能力,這種記憶能力是傳統(tǒng)的基于產生式硬性對照規(guī)則的舊系統(tǒng)無法達到的。

    三 仿真實驗結果

    電子商務聯盟系統(tǒng)已經在泉州地區(qū)服裝行業(yè)進行了實地仿真。實驗中,通過2個月的實地應用,系統(tǒng)管理員向網站用戶發(fā)放調查問卷,就采用本系統(tǒng)前后的客戶滿意度在線對比(與通用搜索引擎等方法)調查;用戶調研共進行200人次,最終收到有效調查表172份。表1列出了主要的調查內容及數據;從7個子調查指標和總體滿意度中可以看出,電子商務聯盟系統(tǒng)不但提高了客戶使用的方便性,并且提高了客戶的滿意程度。

    表1 電子商務聯盟系統(tǒng)應用效果

    四 結論

    解決同類電子商務中的信息異構等問題,研究并實現了一種基于信息抽取的電子商務信息共享聯盟系統(tǒng)。該系統(tǒng)通過異構網頁挖掘進行信息整合,采用貝葉斯算法進行按需信息抽取。仿真證明該系統(tǒng)具有較高的信息自動處理性能和較好的客戶需求匹配度。該系統(tǒng)未來的研究重點將集中在多領域的電子商務信息融合上。

    [1]黃煒,張李義.基于語義爬蟲的商品信息主題采集研究[J].現代圖書情報技術,2010(1).

    [2]鄭宇飛,劉磊等.農村科技信息共享服務系統(tǒng)的設計和實現[J].計算機科學,2005(8).

    [3]傅魁,聶規(guī)劃.面向電子交易的商品供應信息抽取模型[J].武漢理工大學學報(信息與管理工程版),2007(7).

    [4]肖建鵬,張來順,任星.直推式支持向量機在Web 信息抽取中的應用研究[J].計算機工程與應用,2009(2).

    [5]于魯波,陳超.互聯網商品信息抽取技術[J].計算機工程,2008(5).

    [6]周法國,王映龍等.非結構化信息抽取關鍵技術研究探討[J].計算機工程與應用,2009 (14).

    ClassNo.:TP393DocumentMark:A

    (責任編輯:包貴鑫 鄭英玲)

    E-commerceUnionSystemBasedonInformationExtraction

    Tan Longjiang

    In order to deal with the series problems of information heterologies in E-commerce sites, a novel union system is proposed and researched based on information fusion and extraction. The system model, some function modules, key algorithms and work flows are presented in this paper . And the system utilizes web mining to deal with information island problems and uses Bayes algorithm to extract web information to match the clients’ requests. Simulation results show that the system has better performance in the information processing and the client's satisfaction than the traditional one .

    information sharing union; E-commerce; information diffusion; information retrieval

    譚龍江,博士,西南財經大學;講師,華僑大學經濟與金融學院,福建·泉州。研究方向:電子商務等。郵政編碼:362021

    本文受福建省社科基金資助項目(編號:2010B064)資助

    1672-6758(2011)02-0049-2

    TP393

    A

    猜你喜歡
    異構貝葉斯檢索
    試論同課異構之“同”與“異”
    2019年第4-6期便捷檢索目錄
    貝葉斯公式及其應用
    overlay SDN實現異構兼容的關鍵技術
    電信科學(2016年11期)2016-11-23 05:07:56
    基于貝葉斯估計的軌道占用識別方法
    專利檢索中“語義”的表現
    專利代理(2016年1期)2016-05-17 06:14:36
    LTE異構網技術與組網研究
    一種基于貝葉斯壓縮感知的說話人識別方法
    電子器件(2015年5期)2015-12-29 08:43:15
    在新興異構SoCs上集成多種系統(tǒng)
    IIRCT下負二項分布參數多變點的貝葉斯估計
    桓台县| 长春市| 成武县| 兴安盟| 太仆寺旗| 尼玛县| 新野县| 呼图壁县| 米易县| 湖口县| 博客| 文水县| 元朗区| 宁明县| 南郑县| 焦作市| 红安县| 唐河县| 霍林郭勒市| 呼图壁县| 漠河县| 鲜城| 延安市| 西乌珠穆沁旗| 绍兴市| 乌审旗| 湛江市| 南投市| 麦盖提县| 鹿邑县| 汉寿县| 大兴区| 确山县| 绩溪县| 思南县| 苍南县| 新沂市| 洛宁县| 伊川县| 宜良县| 阿城市|