朱天元
摘要:近些年,國內(nèi)社會(huì)有了很大發(fā)展,各種先進(jìn)技術(shù)和理念不斷得到應(yīng)用和發(fā)展,機(jī)器學(xué)習(xí)算法就是一種新型算法,在各行各業(yè)中都有很大作用。本文主要對(duì)機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用進(jìn)行詳細(xì)研究,首先借助大量移動(dòng)終端數(shù)據(jù),對(duì)GSM網(wǎng)絡(luò)的戶外終端進(jìn)行有效定位,提出三個(gè)階段的定位算法,進(jìn)而使定位速度和精度有很大提高。
關(guān)鍵詞:機(jī)器學(xué)習(xí)算法;數(shù)據(jù)挖掘;戶外定位
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)03-0166-01
1 數(shù)據(jù)挖掘概述
在數(shù)據(jù)挖掘算法內(nèi),機(jī)器學(xué)習(xí)與統(tǒng)計(jì)算法是比較常見的兩種,第一種是借助人工智能技術(shù),可以在大量的樣本集訓(xùn)練與學(xué)習(xí)之后,自動(dòng)的找到運(yùn)算所需的模式和參數(shù),第二種是借助判別和概率分析、聚類和相關(guān)性分析等開展運(yùn)算,不同的算法也有不同對(duì)應(yīng)的目標(biāo)和領(lǐng)域,這些算法可以獨(dú)自進(jìn)行使用,也能夠互相結(jié)合。
機(jī)器學(xué)習(xí)算法內(nèi)人工神經(jīng)網(wǎng)絡(luò)這種方法應(yīng)用范圍比較廣泛,具備很好的處理數(shù)據(jù)能力與自組織學(xué)習(xí)的能力,還可以進(jìn)行準(zhǔn)確的識(shí)別,進(jìn)而有利于對(duì)分類型問題數(shù)據(jù)進(jìn)行處理。可以借助建模進(jìn)行工作,模型比較多樣,可以對(duì)不同的需求進(jìn)行滿足,從整體出發(fā),這一方法的模型具有較高精度,魯棒性比較好,描述能力也比較強(qiáng),進(jìn)行應(yīng)用時(shí)不需要借助專家的支持,但是也有一些缺陷,訓(xùn)練數(shù)據(jù)時(shí)需要花費(fèi)較多時(shí)間,對(duì)知識(shí)進(jìn)行理解時(shí)也不是很智能,伸縮性和開放性也存在局限。
2 以機(jī)器學(xué)習(xí)算法為基礎(chǔ)的GSM網(wǎng)絡(luò)定位
(1)定位問題的建模。以支持向量機(jī)定位方式為基礎(chǔ),把定位區(qū)域柵格化,較小的柵格區(qū)域被抽象成類別,然后在定位區(qū)域中收集大量終端測量信息,如果要對(duì)移動(dòng)終端進(jìn)行定位,就需要利用計(jì)算對(duì)接收測量報(bào)告,然后對(duì)柵格內(nèi)村練技術(shù)劃分收集報(bào)告相似性或者距離度量,進(jìn)而對(duì)待定位移動(dòng)終端柵格進(jìn)行判斷,使用機(jī)器學(xué)習(xí)對(duì)這一分類現(xiàn)象進(jìn)行求解。
(2)采集數(shù)據(jù)和預(yù)處理。此次研究仿真數(shù)據(jù)都來自某一周邊長是10km的城市,在這一區(qū)域的內(nèi)部有4個(gè)時(shí)間不同的短路,測量得出4批數(shù)據(jù),為了確保以機(jī)器學(xué)習(xí)方法進(jìn)行定位的有效性,把利用線所測的3批數(shù)據(jù)當(dāng)做訓(xùn)練數(shù)據(jù),最后得到的數(shù)據(jù)集當(dāng)做定位數(shù)據(jù),對(duì)這批數(shù)據(jù)周圍10米內(nèi),有前3組訓(xùn)練數(shù)據(jù)的集中數(shù)據(jù)進(jìn)行刪除。在得到待定位的數(shù)據(jù)之后,需要把不同時(shí)間的間隔當(dāng)做依據(jù),對(duì)然后把一致通話內(nèi)相鄰的定位數(shù)據(jù)進(jìn)行合并,求取出相同通話內(nèi)同一基站接受電平與多個(gè)相鄰定位數(shù)據(jù)的經(jīng)緯度平均值。把這一數(shù)值作為新的定位數(shù)據(jù),因?yàn)樵谙嗤ㄔ捪噜彽臏y量報(bào)告內(nèi),存在很強(qiáng)相關(guān)性,所以需要對(duì)其進(jìn)行合并,然后進(jìn)行定位,這樣能夠去噪,還可以極大的降低定位所需的數(shù)據(jù)量,進(jìn)而有效提升定位精度和速度。
(3)以基站的經(jīng)緯度為基礎(chǔ)的初步定位。以機(jī)器學(xué)習(xí)為基礎(chǔ)的移動(dòng)終端定位計(jì)算的復(fù)雜性和使用機(jī)器學(xué)習(xí)的程度和定位區(qū)域的面積有正相關(guān)的關(guān)系,區(qū)域的面積越大,回歸模型和分類也就更復(fù)雜,在定位移動(dòng)終端時(shí),就要對(duì)函數(shù)計(jì)算有更多的決策,所使用機(jī)器學(xué)習(xí)算法時(shí),增加定位地區(qū)的面積,能夠極大提升這一算法定位和訓(xùn)練時(shí)需要的時(shí)間復(fù)雜度。以基站的經(jīng)緯度為基礎(chǔ)進(jìn)行初步定位,具體的步驟如下,需要把邊長是10千米的正方形分成1千米的小柵格,如果對(duì)定位數(shù)據(jù)集內(nèi)的數(shù)據(jù)進(jìn)行定位操作,就把主服務(wù)小區(qū)的基站經(jīng)緯度為基礎(chǔ)對(duì)邊長為1千米的柵格開展計(jì)算,因?yàn)闀r(shí)區(qū)中移動(dòng)終端和主服務(wù)小區(qū)的基站一般有不超過500米的距離,如果要獲取邊長1千米的柵格,就說明定位中心是柵格邊長是1千米的2千米柵格內(nèi),所以這是機(jī)器學(xué)習(xí)算法定位階段定位的區(qū)域。
(4)以向量機(jī)為基礎(chǔ)的二次定位。在進(jìn)行初步定位后,選擇一個(gè)2千米邊長的正方形,因?yàn)榈谝患?jí)支持向量機(jī)定位的范圍是400米,第二季向量機(jī)對(duì)100米柵格的待定數(shù)據(jù)進(jìn)行輸出,定位結(jié)果的輸出也就是以100米柵格為核心的經(jīng)緯度。和一級(jí)向量機(jī)的定位相比較,二級(jí)向量機(jī)在定位時(shí)計(jì)算的復(fù)雜度比較小,在分類后對(duì)向量機(jī)進(jìn)行計(jì)算時(shí)主要是決策函數(shù)計(jì)算與待分類樣本點(diǎn)所有類別向量機(jī)計(jì)算,如果得到的分類和全部向量機(jī)都有n數(shù)據(jù),就要同時(shí)利用成對(duì)分類方法對(duì)眾多分類問題進(jìn)行處理。定位的精度會(huì)隨柵格的變小而更高,因?yàn)樵黾臃诸惖膯栴}總量,定位的復(fù)雜度也得到增加,第一級(jí)向量機(jī)進(jìn)行定位對(duì)柵格的大小進(jìn)行選擇時(shí),要對(duì)第二級(jí)柵格的大小決定后,把第一級(jí)與第二級(jí)分類的問題總量的最小化為根據(jù)進(jìn)行選擇,保證在最小定位的階段對(duì)總量進(jìn)行計(jì)算。
(5)以K-近鄰法為基礎(chǔ)的三次定位。首先要確定定位的區(qū)域,在二次輸出后輸出經(jīng)緯度,借助經(jīng)緯度選擇,選擇邊長區(qū)域,這是定位的基礎(chǔ)。接著是定位模型的訓(xùn)練,K-近鄰法定位方法在訓(xùn)練階段需要集中訓(xùn)練的數(shù)據(jù),以大小為參考依據(jù)進(jìn)行合并,能夠有效的減少定位運(yùn)算的次數(shù),但是選擇的合并區(qū)域越大,定位的精度也就越低。
3 結(jié)語
綜上所述,機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用具有重要意義,能夠有效提升定位的速度和精度,因此需要引起相關(guān)人員的重視,不斷對(duì)其進(jìn)行改進(jìn)與完善,切實(shí)發(fā)揮出機(jī)器學(xué)習(xí)算法的作用,進(jìn)而解決戶外移動(dòng)終端的定位問題。
參考文獻(xiàn)
[1]陳小燕,CHENXiaoyan.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].現(xiàn)代電子技術(shù),2015, v.38;No.451(20):11-14.
[2]李運(yùn).機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[D].北京郵電大學(xué),2014.
[3]莫雪峰.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].科教文匯,2016(7):175-178.