倪龍飛,白 倩
(黃河交通學(xué)院智能工程學(xué)院,河南 焦作 454950)
強(qiáng)化學(xué)習(xí)(Reinforcement Learning)的基本原理是,智能體在與環(huán)境的交互過(guò)程中,通過(guò)環(huán)境反饋的信息調(diào)整自身策略從而獲得最佳對(duì)策的過(guò)程[1]。強(qiáng)化學(xué)習(xí)中一般包括:狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)、狀態(tài)的轉(zhuǎn)移概率、策略以及值函數(shù)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)在簡(jiǎn)單的場(chǎng)景中能取得好的結(jié)果,但是在現(xiàn)實(shí)中復(fù)雜問(wèn)題較多,傳統(tǒng)的強(qiáng)化學(xué)習(xí)不能滿足需求,為了解決動(dòng)作空間維數(shù)大的問(wèn)題,谷歌團(tuán)隊(duì)首先將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)有效結(jié)合,形成了人工智能的研究熱點(diǎn),深度強(qiáng)化學(xué)習(xí)由此產(chǎn)生。
智能體是在人工智能技術(shù)應(yīng)用背景下能夠與外界環(huán)境進(jìn)行人機(jī)交互的實(shí)體,其作為一種能夠自主活動(dòng)的軟件或者硬件實(shí)體,能夠在環(huán)境中基于自身的意圖或者算法來(lái)與其他智能體進(jìn)行交互,并且在環(huán)境應(yīng)用的過(guò)程中不斷修改自己的行為,從而更好地適應(yīng)智能化、信息化的環(huán)境需求[2]。其中,智能體的應(yīng)用主要受到策略(Policy)、價(jià)值函數(shù)(Value Function)和模型(Model)三個(gè)方面的影響。從策略的角度看,其主要是作為一種方向性的經(jīng)驗(yàn)指導(dǎo)來(lái)指揮智能體的操作,無(wú)論是作為確定性策略還是隨機(jī)性策略,都是基于特殊的現(xiàn)狀或者預(yù)測(cè)性現(xiàn)狀而形成的一種方向性的指令。
狀態(tài)是智能體執(zhí)行一項(xiàng)指令過(guò)程中所存在的器械環(huán)境,其主要包括三個(gè)方面的內(nèi)容,分別是外界環(huán)境狀態(tài)(Environment State)、智能體狀態(tài)(Agent State)和信息環(huán)境狀態(tài)(Information State)。其中,智能體所處的狀態(tài)可以理解為其所處的數(shù)據(jù)信息環(huán)境以及數(shù)據(jù)指標(biāo)的特征,例如Agent State是輸入給agent的信息,也就是特征數(shù)據(jù)。Information State是當(dāng)前狀態(tài)包含了對(duì)未來(lái)預(yù)測(cè)所需要的有用信息,過(guò)去信息對(duì)未來(lái)預(yù)測(cè)不重要,該數(shù)據(jù)狀態(tài)更側(cè)重于當(dāng)前數(shù)據(jù)狀態(tài)的分析。Environment State主要有完全可觀測(cè)環(huán)境與部分可觀測(cè)環(huán)境。完全可觀測(cè)環(huán)境是一種理想化的狀態(tài),而部分可觀測(cè)環(huán)境需要智能體在狀態(tài)操作基礎(chǔ)上進(jìn)行深層次的探索與學(xué)習(xí)研究。
傳統(tǒng)的蜂窩網(wǎng)資源分配方法主要包括博弈理論、拍賣機(jī)制、圖論著色理論、遺傳算法等。其中,拍賣機(jī)制采用了信息加密和拍賣協(xié)議的方式,不僅能夠提高頻譜的利用效率,還能提升頻譜安全性。圖論著色理論主要是采用相關(guān)理論建構(gòu)干擾感知圖,從而提出資源共享方案,這樣的優(yōu)點(diǎn)是算法快,時(shí)間成本相對(duì)較低。隨著無(wú)線網(wǎng)絡(luò)的不斷發(fā)展,資源呈現(xiàn)動(dòng)態(tài)變化,傳統(tǒng)的蜂窩網(wǎng)資源分配方法不足以應(yīng)對(duì)多目標(biāo)優(yōu)化問(wèn)題,無(wú)法挖掘深層次的數(shù)據(jù)信息。當(dāng)前,以深度學(xué)習(xí)為主的人工智能技術(shù)已開(kāi)始廣泛運(yùn)用于各個(gè)領(lǐng)域,其能夠基于一種狀態(tài)監(jiān)測(cè)與指令預(yù)測(cè)性操作的形式解決上述問(wèn)題,以此來(lái)全面提高數(shù)據(jù)資源的分配利用效率。
首先,蜂窩網(wǎng)資源分配算法的覆蓋面相對(duì)較廣泛,其能夠在數(shù)據(jù)信息利用的過(guò)程中覆蓋各個(gè)國(guó)家與地區(qū),從而更好地在多個(gè)主體的信號(hào)傳輸過(guò)程中實(shí)現(xiàn)信息資源的分配式均衡利用。其次,蜂窩網(wǎng)在資源分配算法應(yīng)用的過(guò)程中,其能夠通過(guò)遠(yuǎn)程管理的形式對(duì)于多個(gè)智能體進(jìn)行環(huán)境監(jiān)視,從而通過(guò)系統(tǒng)化的管理進(jìn)行故障監(jiān)測(cè),并且設(shè)定一定的技術(shù)指標(biāo)來(lái)會(huì)進(jìn)行異常情況預(yù)警,提示相關(guān)技術(shù)操作人員的維修與管理。另外,在蜂窩網(wǎng)資源分配式算法應(yīng)用的過(guò)程中,其能夠通過(guò)多個(gè)類似蜂窩的小區(qū)進(jìn)行信息的發(fā)射與接收,不僅能夠?qū)崿F(xiàn)信號(hào)傳輸?shù)母咝Ю?,還能夠在應(yīng)用過(guò)程中保護(hù)下小區(qū)內(nèi)部的隱私性信息,提高分布式算法系統(tǒng)的安全性。
蜂窩網(wǎng)資源分配算法能夠充分應(yīng)用于我國(guó)的通信工程、物聯(lián)網(wǎng)技術(shù)等方面的領(lǐng)域中,并且其實(shí)際的應(yīng)用范圍還處于一個(gè)不斷探索的過(guò)程中。例如我國(guó)許多學(xué)者在研究過(guò)程中仍然采用傳統(tǒng)的方法,即迭代運(yùn)算進(jìn)行研究,這樣的方式使得資源的優(yōu)化效率顯著降低,在復(fù)雜的網(wǎng)絡(luò)環(huán)境中不能夠快速靈活的作出反應(yīng)。擁塞控制能夠在一定程度上反映出用戶對(duì)于某種資源的需求情況,它與無(wú)線資源的分配是緊密聯(lián)系在一起的,而部分學(xué)者未考慮到用戶的擁塞控制,從而降低了用戶的QoS技術(shù)保證。此外,深度強(qiáng)化學(xué)習(xí)的模型確實(shí)能夠解決許多問(wèn)題,但是在新的網(wǎng)絡(luò)中不能復(fù)用,這不僅要求重新訓(xùn)練新的神經(jīng)網(wǎng)絡(luò),還要獲取大量的訓(xùn)練樣本,因而算法速度會(huì)顯著下降,也會(huì)耗費(fèi)訓(xùn)練時(shí)間。
基于深度強(qiáng)化學(xué)習(xí)理論我選哪個(gè)成的蜂窩網(wǎng)資源分配算法,其算法的應(yīng)用模式能夠基于深度學(xué)習(xí)的理解與感知能力進(jìn)行技術(shù)性的改機(jī),也就是將信息的感知能力與信息的決策能力、信息的處理進(jìn)行融合,從而通過(guò)多元的嘗試來(lái)進(jìn)行算法應(yīng)用的研究,從而在此基礎(chǔ)上給予最大效益的原則進(jìn)行算法框架預(yù)設(shè)??梢哉f(shuō),基于深度強(qiáng)化學(xué)習(xí)的蜂窩網(wǎng)資源分配算法框架,如圖1所示。
圖1 基于深度強(qiáng)化學(xué)習(xí)的蜂窩網(wǎng)資源分配算法模型
在該算法模型應(yīng)用的過(guò)程中,其主要采用了Q-learning的學(xué)習(xí)機(jī)制來(lái)進(jìn)行算法框架的設(shè)計(jì),其算法應(yīng)用主要是一種迭代式的狀態(tài)來(lái)進(jìn)行算法技術(shù)應(yīng)用的推算與預(yù)估,并且在該算法運(yùn)作的過(guò)程中,我們能夠采用求解誤差梯度的形式來(lái)進(jìn)行智能體動(dòng)作狀態(tài)值網(wǎng)絡(luò)的最優(yōu)解,從而基于效率最優(yōu)的原則來(lái)完成整個(gè)蜂窩網(wǎng)資源分配的全面應(yīng)用。
深度強(qiáng)化學(xué)習(xí)理論背景下蜂窩網(wǎng)資源分配算法流程的應(yīng)用,其主要是通過(guò)前向傳輸過(guò)程與反向訓(xùn)練過(guò)程來(lái)實(shí)現(xiàn)資源算法的應(yīng)用,并且基于信號(hào)傳輸最大化與效率最高的原則來(lái)進(jìn)行數(shù)據(jù)算法的應(yīng)用,從而在分配算法應(yīng)用的過(guò)程中實(shí)現(xiàn)算法模型的全面系統(tǒng)優(yōu)化。
在前向傳輸過(guò)程中,蜂窩網(wǎng)的資源分配算法需要構(gòu)建一個(gè)較為完善的DNN系統(tǒng),其作為前向傳輸過(guò)程中的核心,首先需要基于一定的算法公式來(lái)探索微基站的最大發(fā)射功率,并且基于傳輸速率最優(yōu)化的原則來(lái)進(jìn)行數(shù)據(jù)流分析,這就能夠在迭代應(yīng)用的過(guò)程中通過(guò)數(shù)據(jù)流的更新來(lái)構(gòu)造相對(duì)完整的DNN,從而能夠在不同的信道中將觀測(cè)到的蜂窩數(shù)據(jù)的進(jìn)行動(dòng)態(tài)分析,從而在研究活動(dòng)中用算法實(shí)現(xiàn)資源分配策略的優(yōu)化。
在反向訓(xùn)練的過(guò)程中,其算法模型主要通過(guò)是通過(guò)一種構(gòu)造誤差函數(shù)的形式來(lái)進(jìn)行數(shù)據(jù)的測(cè)試與訓(xùn)練。首先,在觀測(cè)系統(tǒng)中,其主要對(duì)于系統(tǒng)化的能量效率進(jìn)行觀測(cè),且將其作為一種獎(jiǎng)懲值來(lái)進(jìn)行接入信息與干擾信息的分析,從而在此基礎(chǔ)上形成優(yōu)質(zhì)的資源分配策略。可以說(shuō),在該策略分布的過(guò)程中,我們需要重點(diǎn)基于反向傳播算法來(lái)進(jìn)行數(shù)據(jù)的分析,將損失函數(shù)值實(shí)現(xiàn)最小化的處理,并且基于資源分配最優(yōu)化的策略來(lái)進(jìn)行仿真分析,這就能夠在研究活動(dòng)中通過(guò)深度強(qiáng)化學(xué)習(xí)的模式來(lái)優(yōu)化蜂窩網(wǎng)資源分配算法,全面提高信息處理與傳輸?shù)氖褂眯省?/p>
綜上所述,據(jù)深度強(qiáng)化學(xué)習(xí)理論顯示,蜂窩網(wǎng)資源分配算法能夠解決目前資源網(wǎng)格容量不高的問(wèn)題,并且在最大限度實(shí)現(xiàn)網(wǎng)絡(luò)總?cè)萘靠臻g的綜合應(yīng)用,并且構(gòu)建出一種相對(duì)完善的蜂窩網(wǎng)絡(luò)資源分配算法模型,該模型是基于深度強(qiáng)化學(xué)習(xí)理論基礎(chǔ)上構(gòu)建的算法模型,能夠通過(guò)系統(tǒng)化的設(shè)置來(lái)進(jìn)行智能體內(nèi)部的資源自主選擇,其收斂的速度較快,而且其算法應(yīng)用的成本消耗、運(yùn)作效率都優(yōu)于其他算法,更好地實(shí)現(xiàn)了蜂窩網(wǎng)資源分配效率的全面提升。