李婷婷
(新疆農(nóng)業(yè)大學交通與物流工程學院 烏魯木齊 830052)
數(shù)據(jù)挖掘是隨著編程技術的快速發(fā)展應運而生的綜合性技術,人類進入信息化時代后,數(shù)據(jù)信息隨著網(wǎng)絡技術的發(fā)展和數(shù)據(jù)庫系統(tǒng)的廣泛應用,容量逐漸增大,形成信息爆炸趨勢,大數(shù)據(jù)時代的到來也增加了數(shù)據(jù)處理過程所耗費的人力勞動和時間成本[1]。數(shù)據(jù)挖掘這一概念源自20世紀80年代,早期的相關研究多以基于數(shù)據(jù)庫理論的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)為目標,之后數(shù)據(jù)挖掘技術在1995年于加拿大舉辦的“第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際會議”中走進人們的視野[2]。數(shù)據(jù)挖掘技術所具備的從海量數(shù)據(jù)中提取相互關聯(lián)及有效數(shù)據(jù)的能力,使其成為大數(shù)據(jù)時代進行數(shù)據(jù)篩選、分析和預測的核心力量。例如在社會商業(yè)活動中,頻繁使用條形碼和二維碼技術造成了數(shù)據(jù)處理復雜化的局面,這使得商家不得不依靠數(shù)據(jù)挖掘技術對雜亂無章的數(shù)據(jù)進行處理,并有針對性地清洗數(shù)據(jù)、分析關聯(lián)度,找出顧客傾向性的購物行為[3]。
在交通領域,初期的交通運輸系統(tǒng)隨著科技的發(fā)展,逐漸結(jié)合了數(shù)據(jù)通信、信息、控制和電子傳感等技術,基于計算機運算系統(tǒng)構建了具備高效、實時、準確管理交通設施能力的智能交通系統(tǒng)(Intelligent Transportation System,ITS),引起了各國交通學者的重視[4]。ITS系統(tǒng)以交通信息采集、分析處理、轉(zhuǎn)換、公布和利用為主,給交通管理控制提供多種多樣的服務,其運行基礎為交通信息的采集,除傳統(tǒng)的人工調(diào)查方式外,ITS系統(tǒng)包含了基于道路交通檢測設備的數(shù)據(jù)自動采集技術,主要包括感應線圈、超聲波檢測、微波檢測、視頻檢測等檢測設備,用于采集、使用交通流速度、密度、流量及道路占有率等指標。在ITS發(fā)展的時代背景下,數(shù)據(jù)挖掘技術所具備的從數(shù)據(jù)庫海量數(shù)據(jù)中挖掘出數(shù)據(jù)關聯(lián)、規(guī)律和模式的能力使其成為了交通領域研究者處理、分析和預測數(shù)據(jù)的核心武器[5]。
數(shù)據(jù)挖掘(Data Mining)是依靠計算機技術,在海量儲存數(shù)據(jù)中自動根據(jù)自身的需求,有針對性地找到有價值數(shù)據(jù)的過程。數(shù)據(jù)挖掘技術在國外已被廣泛應用在醫(yī)療保險、電信、金融、體育、政府管理體系和商業(yè)等領域,而國內(nèi)雖然關注到數(shù)據(jù)挖掘的起步時間較短,但是發(fā)展速度較快。相較于傳統(tǒng)的數(shù)據(jù)分析方法,數(shù)據(jù)挖掘技術以全新的視角結(jié)合了機器學習、數(shù)理統(tǒng)計學、信息檢索、模式識別、人工智能和數(shù)據(jù)可視化等領域,并且發(fā)揮各領域的優(yōu)勢從數(shù)據(jù)庫中挖掘出相互關聯(lián)的隱含有效信息,并且運用到各個領域[6]。數(shù)據(jù)挖掘關注度指數(shù)如圖1所示,學科應用分析如圖2所示。
圖1 數(shù)據(jù)挖掘關注度指數(shù)分析
圖2 數(shù)據(jù)挖掘?qū)W科應用分布
面對海量數(shù)據(jù)時,數(shù)據(jù)挖掘過程首先要確定研究對象,明確目標可以確定相應的數(shù)據(jù)處理模型和方法。第二階段是根據(jù)分析模型所需的參數(shù)指標對數(shù)據(jù)庫的數(shù)據(jù)集進行選擇,并對選取的數(shù)據(jù)進行預處理(主要針對數(shù)據(jù)質(zhì)量),在此基礎上根據(jù)研究需要基于選取的數(shù)據(jù)挖掘算法對分析模型進行建立、評估和分析,最后根據(jù)數(shù)據(jù)分析結(jié)果,對研究對象進行改進優(yōu)化[7]?,F(xiàn)階段數(shù)據(jù)挖掘技術所涉及的方法主要包括人工神經(jīng)網(wǎng)絡算法、聚類分析和決策樹分析法等。
2.1.1 人工神經(jīng)網(wǎng)絡算法
神經(jīng)網(wǎng)絡算法是基于仿生動物行為特征,對數(shù)據(jù)進行分布式處理的算法,其優(yōu)點在于對噪聲數(shù)據(jù)有著較高的承受力、較好的魯棒性及較低的錯誤率,但是在運算結(jié)構上有著網(wǎng)絡訓練所需時間長、結(jié)果分析較復雜等缺點。同時人工神經(jīng)網(wǎng)絡算法有良好的并行性,且隨著多種規(guī)則提取算法和網(wǎng)絡剪枝法對其網(wǎng)絡訓練過程的優(yōu)化和改善,人工神經(jīng)網(wǎng)絡在數(shù)據(jù)挖掘算法中的使用率逐步提高[8]。
其基本特征主要包括非線性、非凸性、非局限性和非常定性[9]。非線性特征表示神經(jīng)網(wǎng)絡對數(shù)據(jù)的儲存量大及容錯性好;非凸性表示在指定條件下,狀態(tài)函數(shù)可以決定整個系統(tǒng)的發(fā)展方向;非局限性是指整體系統(tǒng)的演化行為是由數(shù)據(jù)樣本中的所有單元決定,該特征仿生了人類大腦的聯(lián)想能力,從而提高了算法對關聯(lián)數(shù)據(jù)的分析能力;非常定性是指神經(jīng)網(wǎng)絡的學習能力,可以根據(jù)數(shù)據(jù)挖掘過程中信息種類的不同調(diào)整、更正方法,有較高的適應能力[10]。
2.1.2 聚類分析法
聚類分析法是對數(shù)據(jù)按照分析目的、數(shù)據(jù)類型和應用需求進行分組的數(shù)據(jù)挖掘算法,其可以在大、小數(shù)據(jù)集中針對不同的數(shù)據(jù)類型生成不同形狀的簇,可處理高緯度的數(shù)據(jù)且對數(shù)據(jù)的解釋能力較強。
K-means是聚類分析中較為經(jīng)典的算法,指在N個樣本的數(shù)據(jù)集中生成K個簇,在模型開始分析之前首先給定一個初始分組模式,在此基礎上以反復迭代的方法改變分組,使分組方案不斷優(yōu)化,使用這種方法的除K-means算法外還有CLARANS算法和K-MEDOIDS算法[11]。從層次劃分角度來看,聚類分析可分為分裂和凝聚兩種,并且在分裂和合并時要檢驗大量數(shù)據(jù)記錄和簇,因此伸縮性較差,比較常見的方法有CURE、BIRCH和Chameleon[12]。另外,聚類分析還可基于密度進行,與其他方法最本質(zhì)的區(qū)別在于其不以距離作為相似度指標,能夠在一定程度上解決基于距離的聚類算法僅能發(fā)現(xiàn)類球狀結(jié)果的問題。
2.1.3 決策樹分析法
決策樹由路徑、分支、決策支點和葉子組成,可直觀表達對象值、屬性間的映射關系。由頂部逐步向下的每一個支點都有一個具體的問題,整體決策樹分析過程是對每一個支點的問題進行不同的決策,以達到不同的下分支節(jié)點,最終根據(jù)分析得出結(jié)論并做出決策[13]。決策樹分析法可列舉出所需的所有信息狀態(tài)和期望值,挖掘過程中對目標信息在不同時間、不同層級和不同過程的作用描述比較直觀,且結(jié)果描述中的階段明顯,層次較為清晰,便于數(shù)據(jù)分類,但是適用范圍大小的限制及使用者的主觀因素也可影響其分析結(jié)果[14]。
C4.5算法[15]是基于機器學習自動分類的決策樹學習算法,也是數(shù)據(jù)挖掘技術中的重要算法之一。其原理在于結(jié)合了樹狀分類規(guī)則和信息熵理論,構建數(shù)據(jù)樣本類型及樣本屬性間的映射關系[16],此外C4.5可處理數(shù)據(jù)屬性值缺失的情況,現(xiàn)階段已在決策樹剪枝方面有了更加成熟的策略。
2.1.4 關聯(lián)規(guī)則算法
關聯(lián)分析是通過對相互關聯(lián)事件的識別,進而預測發(fā)生該事件時另一件事件發(fā)生的概率,具體地體現(xiàn)出隱藏在數(shù)據(jù)庫中數(shù)據(jù)項之間的相互關系或關聯(lián)關系。
①關聯(lián)規(guī)則基于處理變量類別,分為數(shù)值型和種類型。數(shù)值型關聯(lián)規(guī)則可以結(jié)合多層關聯(lián)規(guī)則和多維關聯(lián),針對結(jié)構中數(shù)值型字段進行運算;種類型關聯(lián)規(guī)則多用于處理離散型、種類型的值。
②關聯(lián)規(guī)則基于數(shù)據(jù)抽象層次,分為單層關聯(lián)和多層關聯(lián)。多層關聯(lián)規(guī)則相較于單層關聯(lián)規(guī)則是進行了結(jié)合實際數(shù)據(jù)的多層次考慮,使數(shù)據(jù)分析結(jié)果更加精準和具有參考價值。
③關聯(lián)規(guī)則基于數(shù)據(jù)維數(shù),分為單維關聯(lián)和多維關聯(lián)。單維的關聯(lián)規(guī)則僅涉及到數(shù)據(jù)庫中的一個維度,多維關聯(lián)規(guī)則是對數(shù)據(jù)庫中的數(shù)據(jù)進行多維度計算處理。
2.1.5 特征挖掘算法
特征挖掘算法是從數(shù)據(jù)庫中的數(shù)據(jù)組中提取特定的數(shù)據(jù)特征式,特征是可以反映數(shù)據(jù)集的總體特征。選擇較好的特征代表選擇了靈活性高、計算迭代簡單的模型和結(jié)果。數(shù)據(jù)的特征選擇和特征工程相輔相成,有效的特征工程可代表一定的特征數(shù)據(jù)。
2.1.6 變化和偏差分析算法
偏差是一大類別的潛在有趣知識,如分類法中的非正常實例、模式類型的例外以及觀察結(jié)果對理想期望的偏差等,目的是尋找參照量與觀察結(jié)果之間的有效差別,偏差分析是對數(shù)據(jù)現(xiàn)狀進行探測、歷史記錄或者標準計算之間的顯著性偏離和變化。
偏差分析基本參數(shù):項目計劃中工作量的費用預算(BCWS),計算公式:BCWS=預算定額×計劃工作量,該指標主要是用來反映計劃應當完成的工作量進度。已完成工作的實際費用(ACWP)。ACWP是指項目實施過程中某階段實際完成的工作量所消耗的費用,該指標主要是反映項目在執(zhí)行過程中的實際消耗指標。
2.1.7 Web頁面挖掘算法
Internet的快速發(fā)展以及Web的普及,使得Web上具有無比豐富的信息量,將數(shù)據(jù)挖掘與Web進行有效結(jié)合,形成Web挖掘。Web挖掘是從大量的Web文檔和活動中隨機地選取用戶感興趣的隱藏信息和潛在有用模式,Web在廣告、新聞、教育、金融管理、科技政策、電子商務、政府等眾多信息及超鏈接信息中發(fā)揮作用。Web挖掘可劃分為三大類:Web內(nèi)容挖掘,Web結(jié)構挖掘,Web使用記錄挖掘。Web是一個成長變化速度極快,且沒有固定的標準和結(jié)構的異構系統(tǒng),所以為反饋真實情況,解決信息及時更新等問題,創(chuàng)建一個智慧化、多層化的數(shù)據(jù)庫顯得尤為重要,可以預期數(shù)據(jù)挖掘?qū)⒁驗閃eb的多維度分析從而成為Internet信息服務中最重要的部分。
在數(shù)據(jù)化時代中,人們對數(shù)據(jù)的利用需求越來越大,數(shù)據(jù)挖掘技術已成為國內(nèi)外的研究熱點,但不同研究領域?qū)?shù)據(jù)挖掘運用的需求不同。例如航天航空領域,一個同步衛(wèi)星平均每一小時會傳輸50千兆字節(jié)的遙感圖像數(shù)據(jù)到地球,針對如此大規(guī)模數(shù)據(jù),研究者開發(fā)了第一個數(shù)據(jù)挖掘系統(tǒng)SKICAT,這是天文學領域基于人工智能技術開發(fā)的成功應用之一[17];社會經(jīng)濟領域,國際上有眾多基于數(shù)據(jù)挖掘技術開發(fā)的以股市分析為目的的軟件,還有數(shù)據(jù)挖掘技術運用到甄別詐騙領域的實例,如FAIS、FALCON等系統(tǒng)可以總結(jié)轉(zhuǎn)賬行為和詐騙之間的聯(lián)系,通過數(shù)據(jù)分析取得詐騙行為特征,并在出現(xiàn)詐騙行為時系統(tǒng)自動向決策者拉響警報[18]。綜上所述,數(shù)據(jù)挖掘在各個研究領域的發(fā)展方向各有不同,數(shù)據(jù)挖掘技術的算法所使用的邏輯方法不盡相同,綜合以上因素,數(shù)據(jù)挖掘的發(fā)展趨勢,有以下四個方面:
(1)編程語言標準化。各個領域針對數(shù)據(jù)挖掘有不同的需求,通過語言的標準化可以促進其使用的廣泛性。
(2)加強對數(shù)據(jù)庫中的隱私保護。數(shù)據(jù)挖掘帶來的弊端在于挖掘過程中對用戶的敏感信息數(shù)據(jù)保密程度不足,如何在使用數(shù)據(jù)庫中的數(shù)據(jù)時有效保護用戶隱私已成為重要課題[19]。
(3)與其他先進系統(tǒng)集成化。數(shù)據(jù)挖掘的過程不僅僅是算法的應用,將數(shù)據(jù)挖掘和其他先進系統(tǒng)有機集成可以增強數(shù)據(jù)挖掘技術的優(yōu)勢。
(4)數(shù)據(jù)挖掘技術網(wǎng)絡化。結(jié)合現(xiàn)階段網(wǎng)絡云技術,并基于多領域理論對目標進行多角度挖掘分析。
數(shù)據(jù)挖掘技術是在智能交通系統(tǒng)背景下,對交通控制管理起到重要作用的關鍵性數(shù)據(jù)分析技術。通過對數(shù)據(jù)挖掘算法的選擇建立模型,可以對交通狀態(tài)進行識別、交通流數(shù)據(jù)進行預處理、交通流量進行預測、實時交通流量查詢和交通流空間進行聚類[20]。覃明貴[21]在此基礎上運用人工神經(jīng)網(wǎng)絡算法對交通流量進行預測,通過構建交通流的模式庫對之前普遍運用的交通流聚類分析法進行了優(yōu)化,最后以數(shù)據(jù)挖掘技術為基礎,設計實踐了智能交通綜合控制系統(tǒng)。張小利等[22]針對道路交通數(shù)據(jù)特點,結(jié)合概化數(shù)據(jù)預處理的方法,使用了基于決策樹模型的關聯(lián)規(guī)則方法進行交通數(shù)據(jù)挖掘,認為其得出的管理模式可向管理者提供決策支持,并以實際案例證明了智能交通系統(tǒng)中運用數(shù)據(jù)挖掘技術的可行性。
數(shù)據(jù)挖掘技術逐步運用到交通控制領域后,交通領域的研究者紛紛致力于根據(jù)不同需求選擇和改進算法,這使得數(shù)據(jù)挖掘技術在交通控制領域開始了深層次的研究并運用。謝亞芬[23]在對智能交通系統(tǒng)的研究中引入了地理信息系統(tǒng)(GIS),對應用于交通控制領域的數(shù)據(jù)挖掘技術進行了探索,在VC++基礎上實現(xiàn)了FP-growth,運用到實際中后得到了可行的規(guī)則,給交通決策部門提供了理論支持。夏英等[24]對智能交通系統(tǒng)中的時空關聯(lián)規(guī)則算法進行了研究,針對交通數(shù)據(jù)的時空特征進行挖掘分析,得出的結(jié)論包含時空變化趨勢、時空管理規(guī)則和時空分布等規(guī)則。雖然數(shù)據(jù)挖掘技術已在交通控制領域研究并實踐,但是目前并未成為主流方法,交通控制領域的研究較看重實時性,數(shù)據(jù)集中需要有時間序列,所以未來發(fā)展中數(shù)據(jù)挖掘技術應當結(jié)合交通控制領域的特性,優(yōu)化并提出新的算法應對時代的變化。
在道路養(yǎng)護方面隨著信息技術的發(fā)展也得到了不斷優(yōu)化和升級,從數(shù)據(jù)挖掘的角度看待道路養(yǎng)護,是指在公路養(yǎng)護管理過程中,結(jié)合運籌學的分析方法和現(xiàn)代化管理理論,在IT技術上實現(xiàn)道路養(yǎng)護管理信息平臺。最初于20世紀70年代由美國和加拿大開始對道路養(yǎng)護管理進行研究,經(jīng)過10余年的發(fā)展上述國家逐步建立起了公路養(yǎng)護管理系統(tǒng),現(xiàn)階段的公路養(yǎng)護系統(tǒng)已完成了理論至實際應用的轉(zhuǎn)變[25]。
20世紀90年代,美國的亞利桑那州在之前基礎上進一步細分了網(wǎng)級道路養(yǎng)護系統(tǒng),設計了PAYER城市道路管理系統(tǒng),使城市公路管理水平得到了提升[26]。隨著數(shù)據(jù)挖掘技術被研究者引入道路養(yǎng)護領域,世界各國已針對道路養(yǎng)護工程構建了完善的體系和豐富的研究方法[27]。國內(nèi)是以20世紀80年代為起點開展對道路養(yǎng)護的研究,同濟大學通過與國外聯(lián)合建立研究組,參考PAYER系統(tǒng)建立了關于瀝青公路性能的評價指標體系、評價方法和標準,在此基礎上構建了相關道路養(yǎng)護管理模型及方法。最初的道路養(yǎng)護管理系統(tǒng)主要分析公路的基本數(shù)據(jù),之后優(yōu)化的系統(tǒng)是一種道路養(yǎng)護架構系統(tǒng),結(jié)合了實際數(shù)據(jù)和實際養(yǎng)護工作,基于道路動態(tài)數(shù)據(jù)對道路養(yǎng)護資源調(diào)配進行優(yōu)化[28],現(xiàn)階段是智能化的道路養(yǎng)護系統(tǒng),可以對網(wǎng)狀道路養(yǎng)護決策進行可視化分析,可以通過數(shù)據(jù)挖掘技術對決策進行合理性分析及優(yōu)化[29]。
現(xiàn)階段物流行業(yè)在發(fā)展壯大的過程中,物流相關企業(yè)所掌握的業(yè)務信息和客戶數(shù)據(jù)呈持續(xù)增長趨勢,數(shù)據(jù)中除有效信息外存在大量的冗雜信息。對數(shù)據(jù)進行挖掘分析,對物流企業(yè)有著重要意義,使用數(shù)據(jù)挖掘技術可以對海量數(shù)據(jù)中的有效信息進行篩選并進行關聯(lián)度分析,根據(jù)分析結(jié)果有針對性地調(diào)整企業(yè)策略,對物流結(jié)構進行優(yōu)化[30]。
我國將數(shù)據(jù)挖掘技術運用在物流行業(yè)中始于20世紀90年代,研究重點隨著計算機技術的發(fā)展由理論逐漸轉(zhuǎn)向?qū)嶋H應用,當前的物流工程領域中數(shù)據(jù)挖掘技術主要運用于配送路線優(yōu)化、物流中心選址、市場需求預測、商品倉儲、顧客趨向分析等方面。在物流決策方面,已有學者將數(shù)據(jù)挖掘技術運用于解決物流決策問題,徐鑫濤[31]等提出了運用數(shù)據(jù)挖掘技術解決物流工程中倉儲決策等問題,針對庫存策略、倉儲合理化和客戶分析等方面進行了研究。新型的物流決策系統(tǒng)引入了人工神經(jīng)網(wǎng)絡算法,通過對商品銷售的每個環(huán)節(jié)進行大量數(shù)據(jù)信息采集,并利用人工神經(jīng)網(wǎng)絡算法進行分析,最終得出最優(yōu)經(jīng)營策略[32]。在物流工程中的需求預測方面,初始階段有學者采用運輸過程中的貨運量來代替需求量,也有學者從價值角度出發(fā),使用物流流程中的服務價值構成總體價值量,來衡量物流需求[33]?,F(xiàn)階段有學者針對海邊港口物流數(shù)據(jù)分散的特點,設計了包括決策分析平臺、信息共享平臺和數(shù)據(jù)采集系統(tǒng)的物流數(shù)據(jù)挖掘和輔助決策系統(tǒng)[34]。
基于上述分析,物流工程領域還包括客戶關系的管理方面,主要包含客戶忠誠度、滿意度、價值、流失原因等分析,使用決策樹方法可以對客戶進行分類分析,通過之前客戶的數(shù)據(jù)分析找出關聯(lián)規(guī)律,并用貝葉斯、SVM、遺傳算法和人工神經(jīng)網(wǎng)絡可對客戶流失情況進行預測分析[35]。
在現(xiàn)代化交通的背景下,人類出行可選擇的交通方式顯著增多,出行者的行為分析和建模是當前交通出行服務領域的研究熱點之一。當前研究普遍使用人工仿真的方法構建出行者移動模型[36],但是在人工仿真過程中,出行距離、起訖點、出行時間等指標均按照概率密度設定,因此仿真過程中缺少實際干擾因素,不能最大程度反映真實情況[37]。Wu等[38]結(jié)合了出行者間的人際關系和交互性,提出了兩種社會流動模型,模型中的出行者移動過程受多種因素影響。
因為仿真技術與實際出行行為存在差異,有更多學者將研究重點轉(zhuǎn)向了數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘可通過對出行者出行軌跡的分析,得出出行意圖、生活模式和出行經(jīng)驗等關鍵信息,并基于此對出行者的交通出行進行預測。Liao等[39]通過采集出行者所在位置及移動速度數(shù)據(jù)信息,預測出行者使用的交通方式,并推測其所在的交通環(huán)境。Li等[40]以社會動態(tài)關系為基礎,提出馬爾可夫混合位置預測法,提高了對出行者位置預測的精準度,通過對不同時段人們社交關系變化的統(tǒng)計,總結(jié)出不同人的個體變化相似性。
本文首先介紹了數(shù)據(jù)挖掘技術的研究背景以及數(shù)據(jù)挖掘技術在智能交通系統(tǒng)中的應用情況,在此基礎上分別介紹了人工神經(jīng)網(wǎng)絡、聚類分析、決策樹分析、關聯(lián)規(guī)則、特征挖掘、變化和偏差分析、Web頁面挖掘等主要算法,闡明了上述方法的特性、優(yōu)點及現(xiàn)有研究中對數(shù)據(jù)挖掘算法的運用,并通過梳理相關文獻對數(shù)據(jù)挖掘技術發(fā)展趨勢進行了簡要分析。并以數(shù)據(jù)挖掘技術在交通領域的運用為主線,分別介紹了交通控制領域、道路養(yǎng)護工程領域、物流工程領域和交通出行服務中對數(shù)據(jù)挖掘技術的應用情況。
在對數(shù)據(jù)挖掘進行分析研究過程中,發(fā)現(xiàn)數(shù)據(jù)挖掘技術存在以下幾個問題:
(1)數(shù)據(jù)挖掘的首要問題是如何選擇合適的變量進行分析以及對數(shù)據(jù)庫的數(shù)量和維數(shù)的選擇。
(2)數(shù)據(jù)庫中的存放數(shù)據(jù)可能存在噪聲、不完全或異常情況的數(shù)據(jù)對象,導致分析過程混亂或數(shù)據(jù)與模型過分適應,從而影響模式的精確性。
(3)保持數(shù)據(jù)挖掘系統(tǒng)的可伸縮性和有效性是當前的關鍵問題。
(4)為挖掘特定模式的數(shù)據(jù),構造特定數(shù)據(jù)挖掘系統(tǒng);針對不同模型的數(shù)據(jù),則應當制定不同模式的挖掘系統(tǒng)。
(5)從不同數(shù)據(jù)語言的非結(jié)構化、半結(jié)構化和結(jié)構化的數(shù)據(jù)源中發(fā)現(xiàn)知識,是數(shù)據(jù)挖掘領域未來值得思考的問題。
在交通領域中運用到數(shù)據(jù)挖掘技術,可以在數(shù)據(jù)分析的基礎上對不同交通方式之間的關聯(lián)程度進行分析,除了本文中提到的人工網(wǎng)絡等算法,還可以將遺傳算法、蟻群算法和模擬退火算法等數(shù)據(jù)挖掘方法引入交通領域,為交通管理者提供最佳的決策建議,從而提高整個交通運輸系統(tǒng)的綜合服務質(zhì)量。智能交通數(shù)據(jù)挖掘是當前的研究熱點,主要難點是:由于交通流的數(shù)據(jù)特殊性,現(xiàn)有的數(shù)據(jù)挖掘模型算法只能運用于小規(guī)模交通流數(shù)據(jù);針對實際問題,缺乏特殊領域設計算法,無法實現(xiàn)挖掘結(jié)果的實際應用需求,針對這些問題需要進一步深入研究。