• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進型D3QN深度強化學習的鐵路智能選線方法

      2022-03-30 02:19:30袁泉曾文驅李子涵高天賜楊冬營何慶
      鐵道科學與工程學報 2022年2期
      關鍵詞:選線鐵路線路

      袁泉,曾文驅,李子涵,高天賜,楊冬營,何慶

      (1. 廣州地鐵設計研究院股份有限公司,廣東 廣州 510010;2. 西南交通大學土木工程學院,四川 成都 610031)

      選線是鐵路建設的龍頭,也是決定工程項目的投資成本、難易程度和安全風險的首要因素[1]。傳統(tǒng)的人工選線方法多為設計人員憑經(jīng)驗手工設計線路,存在方案有限,決策周期長,勞動強度大等缺陷[2]。隨著我國鐵路建設重心由東部向中西部山區(qū)轉移,研究區(qū)域內(nèi)愈加頻繁地出現(xiàn)丘陵河谷等復雜地形及地質不良、環(huán)境敏感區(qū)等復雜區(qū)域,傳統(tǒng)選線方法的缺陷更加明顯,極大限制了線路規(guī)劃設計的效率與質量。因此,亟需將傳統(tǒng)選線理論與飛速發(fā)展的人工智能技術結合,開展鐵路智能選線方法研究。智能選線方法,是一種將選線理論與地理信息系統(tǒng)、智能計算、多目標優(yōu)化等結合的現(xiàn)代線路設計方法,旨在利用計算機自動搜索出連接起、終點,滿足限制條件且目標函數(shù)最優(yōu)的線路方案,能為設計人員提供多樣化的線路備選方案,可有效提高選線工作的速度和質量[1-2]。國內(nèi)外學者運用多種方法對鐵路智能選線展開研究。變分法[3]將線路優(yōu)化變?yōu)閷で蠛瘮?shù)積分值最小的空間曲線的數(shù)學問題;網(wǎng)格規(guī)劃法[4]將研究區(qū)域劃分為一系列網(wǎng)格并采用最優(yōu)路徑等算法搜索出連接起、終點的最優(yōu)方案;動態(tài)規(guī)劃法[5]將起終點連線劃分為多個區(qū)間,將線路優(yōu)化問題分解為多個階段進行求解;易思蓉等[6?7]引入知識工程,基于最優(yōu)路徑分析和知識推理自動生成路徑;LI 等[8?10]將改進距離變化算法與遺傳算法結合,遵循由面到帶、由帶到線的思想分2階段實現(xiàn)復雜山區(qū)環(huán)境的線路智能優(yōu)化。鐵路選線是復雜、全面的系統(tǒng)工程,設計人員實際需要對線路整體進行評價?,F(xiàn)有的智能選線方法,大多強于局部計算,對后續(xù)未知以及全局態(tài)勢的感知把控較弱[1]。近年來,深度強化學習(Deep Reinforcement Learning,DRL)在智能控制、工業(yè)制造等領域備受關注[11],其具有基于全局的迭代更新方法和隨機搜索策略,使智能體在一定程度上具備了“大局觀”,已被廣泛應用于機器人路徑規(guī)劃、運營優(yōu)化領域[12?15]。鑒于此,本文基于深度強化學習理論,結合強化學習的決策能力和深度學習的感知能力,提出面向鐵路選線的深度強化學習模型,以最小化工程建設的經(jīng)濟費用作為目標,考慮多種線路約束條件,沿途自動布設橋梁、隧道、路基等構筑物,得到線路走向的優(yōu)化方案,有助于提高鐵路線路的設計效率。

      1 深度強化學習算法與智能選線模型

      1.1 強化學習原理

      強化學習的原理模型如圖1所示。設定在環(huán)境中有一個能執(zhí)行行動策略的個體,稱之為智能體Agent。在t時刻,智能體感知當前環(huán)境的狀態(tài)信息st,通過策略輸出動作at。Agent 執(zhí)行動作at作用于環(huán)境并遷移至新狀態(tài)st+1,同時接受環(huán)境向其反饋的獎勵信號r(st,at)進而展開新一輪循環(huán)。智能體通過與環(huán)境的不斷交互試錯積累經(jīng)驗、調(diào)整策略,最終使其得到最優(yōu)的行動策略,以在完成任務時獲得最大的累積獎勵。

      圖1 強化學習理論框架Fig.1 Theory framework for reinforcement learning

      Q-Learning(QL)算法是一種經(jīng)典的強化學習方法,它將智能體與環(huán)境交互得到的經(jīng)驗記錄在一張Q 表(Q-Table),將動作和狀態(tài)作為2 個維度的索引,表中記錄行為價值函數(shù)Q用以評估在不同狀態(tài)執(zhí)行各個動作的好壞。行為價值函數(shù)Q更新如式(1):

      其中:α和γ取值范圍均在[0,1]。α為學習率,表征Q值發(fā)生改變時更新變化的速度,α越接近1 則每次Q值更新的幅度越大;γ為折扣因子,代表智能體重視未來收益的程度,γ接近1 表示智能體更專注獲得長期獎勵,不局限于當下采取動作獲得的即時收益。在Q表中的每個狀態(tài)—動作對都被訪問更新足夠次數(shù)后,Q表收斂,智能體將在完成任務時獲得最大的累計獎勵。

      1.2 鐵路智能選線模型

      本節(jié)從模型環(huán)境、狀態(tài)、動作、獎勵、約束條件、探索策略等方面構建面向強化學習的鐵路智能選線模型。

      1.2.1 環(huán)境空間

      鐵路選線的設計區(qū)域是連續(xù)廣闊的三維地理空間,模型環(huán)境若為連續(xù)狀態(tài),線路走向在其中將有無數(shù)種可能,智能體難以完成線路搜索任務。為此,利用GIS 系統(tǒng)的數(shù)字高程模型(DEM),將連續(xù)空間離散成一張具有三維數(shù)字高程信息的規(guī)則柵格地圖;向地圖添加起點、終點、地質不良區(qū)、環(huán)境敏感區(qū)等空間屬性Ci,得到具有屬性信息的三維空間點集E,作為選線模型環(huán)境。

      Li=(Xi,Yi)為智能體位置的平面坐標,Zi為所處位置地面高程,Ci為屬性信息。模型中所有點屬性信息分為3 類:抵達終點的狀態(tài)Attain;將環(huán)境敏感區(qū)、地質不良區(qū)設置為禁行區(qū)域,其不可連通狀態(tài)Forbid;其他可通行狀態(tài)Normal。

      1.2.2 狀態(tài)空間

      路徑規(guī)劃問題將小車簡化為質點,小車所處位置Li=(Xi,Yi)即可視為環(huán)境中的一個狀態(tài)。然而,智能選線的任務是搜索符合線路標準的線形,要避免智能體與環(huán)境交互時出現(xiàn)曲線半徑過小甚至列車不能通行的過大轉角。若以單一位置作為智能體狀態(tài),即使在同一位置Li發(fā)生同一狀態(tài)轉移到達位置Li+1,Li前一步位置Li-1的不同亦會導致截然不同的轉角,如圖2所示。因此列車不能簡化成質點,其長度不能忽略。

      圖2 單一位置導致的轉角差異Fig.2 Different angles caused by single location

      本模型將前后2個位置聯(lián)結,以此線元作為智能體的一個狀態(tài),每個轉角只由前后2 個線元決定。智能體由起點出發(fā)抵達終點,得到的是由若干線元組合成的初始線形。狀態(tài)空間S表示環(huán)境中所有線元的集合。

      1.2.3 動作空間

      對鐵路選線而言,智能體的探索步長li不宜過小。一方面,過小步長嚴重影響模型收斂速度,另一方面,相鄰位置間距太小會使線形出現(xiàn)不符實際的毛刺、轉角。故選用柵格精度30 m 的DEM模型,智能體每步跨越N個高程點,N為可變的超參數(shù)。雖然一個位置有東、西、南、北、東北、西北、東南、西南8個方位供選擇,但為使線路轉向平緩,動作空間Ai只創(chuàng)建相對當前走向左前、正前、右前3 個方向的動作(圖3)。狀態(tài)更新方式如式(4),aix,aiy分別為動作ai2個方向上的分量。

      圖3 創(chuàng)建三向動作Fig.3 Create three-way action

      1.2.4 獎勵函數(shù)

      智能體收到來自環(huán)境的獎勵信號Ri由2 部分組成:

      式中:CTi為隧道工程費用;CSi為路基工程費用;CBi為橋梁工程費用;CLi為與線路長度有關的軌道、通信、電力等方面的費用;Costi為狀態(tài)Si轉移到Si+1對應的工程造價;Reachi+1為根據(jù)新狀態(tài)Si+1屬性分別給出的反饋值。智能體到達終點獲得額外的正值獎勵Bonus;進入禁行區(qū)域得到懲罰Penalty,并重新開始新一輪探索。在其余的可連通區(qū)段,不獲得額外反饋,繼續(xù)進行本輪探索。

      1.2.5 約束條件

      1)設置最大展線系數(shù)γmax,每輪線路搜索所有線元長度總和不應超過γmax與線路起、終點直線距離lSE的乘積。

      2) 線路上所有點的集合P與禁行區(qū)域交集為空。

      3) 在得到初始線形后,逐一添加擬合時能有效利用的交點,直到因交點過于密集而無法滿足規(guī)范要求的最小曲線半徑、圓曲線長度、夾直線長度等約束條件。隨后將其擬合并配置曲線以生成最終線路方案[8-9]。

      1.2.6 探索策略

      采用ε- greedy策略作為智能體動作選擇策略,ε為貪婪度,取值于0~1之間。行動時,智能體以ε的概率從可行動作中隨機選擇,以1-ε的概率選擇當前行為價值最大的動作。在探索初期,智能體積累的環(huán)境經(jīng)驗較少,故以較大的ε更多地隨機探索環(huán)境,避免陷入局部最優(yōu)。隨著探索次數(shù)的增多,令ε逐漸減小,更多地選擇行為價值最大的動作,更好地利用環(huán)境經(jīng)驗。

      1.3 深度強化學習算法與改進

      1.3.1 Deep Q Network算法

      當狀態(tài)和動作空間簡單、維數(shù)不高時,可以用Q-Learning 方法將行為價值函數(shù)Q存儲在表格。但狀態(tài)和動作復雜高維時,此方法會帶來維數(shù)災難,不再適用。因此,有學者提出一種將深度學習出色的感知能力和強化學習的決策能力結合的深度強化學習(Deep Reinforcement Learning, DRL)算法。選用深度神經(jīng)網(wǎng)絡Q(s,a;θ)對Q表進行函數(shù)擬合;θ為神經(jīng)網(wǎng)絡參數(shù)。神經(jīng)網(wǎng)絡輸入狀態(tài)向量,輸出每個動作對應的價值函數(shù)。此法稱為深度Q 網(wǎng)絡(Deep Q Network, DQN)算法[15]。本文將DQN 算法的變體Dueling-Double DQN(D3QN)用于鐵路智能選線研究。

      1.3.2 Dueling-Double DQN算法

      Q-Learning算法在探索的每一步都查詢利用下一狀態(tài)最大的狀態(tài)-動作對maxQ(s',a')對Q(s,a)進行更新。這個思路直接用于DQN會出現(xiàn)如下問題:

      1) 訓練神經(jīng)網(wǎng)絡的前提是假設訓練數(shù)據(jù)獨立同分布,而智能體交互得到的順序數(shù)據(jù)之間存在很強關聯(lián)性,易造成網(wǎng)絡訓練不穩(wěn)定。

      2) DQN 網(wǎng)絡的參數(shù)θ不斷更新,用同一網(wǎng)絡生成Q(s,a)和maxQ(s',a')導致神經(jīng)網(wǎng)絡的時序差分目標不斷變動,不利于算法的收斂。

      3) 訓練過程前期模型不夠穩(wěn)定,值函數(shù)估計存在偏差,使用maxQ(s',a')會導致模型過高估計某一動作的預期收益,誤導智能體選擇錯誤動作導致模型無法找到最優(yōu)的策略。

      對上述問題,D3QN算法做出以下改進:

      1) 使用經(jīng)驗重放機制(Experience Replay)將交互得到的經(jīng)驗逐條存儲在經(jīng)驗池中,積累到一定數(shù)量后,模型每步從經(jīng)驗池中隨機抽取一定批次的數(shù)據(jù)訓練神經(jīng)網(wǎng)絡[15]。隨機抽取的經(jīng)驗打破了數(shù)據(jù)之間的關聯(lián)性,提高泛化性能,有益于網(wǎng)絡訓練穩(wěn)定。

      2)構造2 個結構相同的神經(jīng)網(wǎng)絡[16],分別為估值網(wǎng)絡QE(s,a;θ)和目標值網(wǎng)絡QT(s,a;θ')。估值網(wǎng)絡用于選擇動作[17],參數(shù)θ不斷更新;目標網(wǎng)絡用于計算時序差分目標值Y,參數(shù)θ'固定不動,每隔一段時間替換為最新的估值網(wǎng)絡參數(shù)θ。目標值Y計算公式如下:

      θ'一段時間內(nèi)保持不變導致估值網(wǎng)絡QE收斂目標Y相對固定,有益于收斂;估值網(wǎng)絡和目標值網(wǎng)絡產(chǎn)生的最大值函數(shù)的動作不一定相同,用QE產(chǎn)生動作,QT計算目標值,能避免模型選到被高估的次優(yōu)動作,有效解決DQN算法的過估計問題。

      3) 對神經(jīng)網(wǎng)絡結構做出改進,將其輸出端分流為2 部分[18]。一部分為表征各狀態(tài)好壞的狀態(tài)值函數(shù)V(s;θ,μ),另一部分為區(qū)別特定狀態(tài)各動作好壞的優(yōu)勢函數(shù)A(s,a;θ,ω):

      改進后得到的D3QN算法流程如圖4所示。

      圖4 基于D3QN的鐵路智能選線算法Fig.4 Intelligent railway location design algorithm based on Dueling-Double DQN

      2 案例分析

      以我國西南某山區(qū)鐵路為例,對本文提出的方法進行驗證。智能選線算法模型參數(shù)如表1所示。

      表1 模型參數(shù)Table 1 Model parameters

      智能體在環(huán)境中探索十萬個回合后,得到2 171 條備選方案。選取2 條具有代表性的線路方案,與人工定線方案對比(圖5)。人工定線方案線路全長11.07 km,建設費用16 934.8 萬元;智能選線方案1 為最優(yōu)方案,全長11.32 km,預計花費14 046.2 萬元,較人工定線方案節(jié)省17.5%,橋梁建造長度縮減34%。智能選線方案2 為人工方案與最優(yōu)方案的折中選擇,較最優(yōu)方案適當放大了橋梁配比,經(jīng)濟費用較人工方案節(jié)省11.3%,線路全長較最優(yōu)方案更短。智能選線方案與人工方案走向大致相同,但在跨越河流時體現(xiàn)出差異。人工方案以大半徑曲線直接橫穿河谷,需建造較長橋梁,因此耗資較大;智能選線方案以小半徑曲線蜿蜒繞行,找到了平衡路基長度和橋梁長度的最佳過河橋位,節(jié)約了大量建設費用。

      圖5 智能選線方案對比Fig.5 Comparison of intelligent railway location design

      表2 工程費用對比Table 2 Engineering cost comparison

      3 結論

      1) 構建了面向鐵路智能選線的深度強化學習模型,在無人工經(jīng)驗的情況下對選線環(huán)境進行感知、搜索、判斷、決策,通過對不同線路構筑物的靈活配置,尋找到目標函數(shù)最優(yōu)的線路方案。

      2) 實驗表明,智能選線最優(yōu)方案較人工定線方案建設費用節(jié)約17%,橋梁建造長度縮減34%。

      3)選線設計是綜合考慮工程建設、運營維護、安全舒適性能、區(qū)域運輸需求等多目標的系統(tǒng)工程,本文的優(yōu)化目標尚不全面,將在今后的研究中對其進行更深入的改進。

      猜你喜歡
      選線鐵路線路
      沿著中老鐵路一路向南
      云南畫報(2021年12期)2021-03-08 00:50:54
      輸電線路工程造價控制
      基于壓縮感知的電力系統(tǒng)故障選線研究
      測控技術(2018年6期)2018-11-25 09:50:12
      鐵路通信線路維護體制改革探索與實踐
      10kV線路保護定值修改后存在安全隱患
      電子制作(2018年12期)2018-08-01 00:48:08
      無人機在鐵路工程建設中的應用與思考
      小波變換在電力線路故障選線中的應用
      GSM-R在鐵路通信中的應用
      基于強跟蹤濾波器的小電流接地系統(tǒng)故障選線
      近似熵在諧振接地系統(tǒng)故障選線中的應用
      台东县| 九龙城区| 夏邑县| 吐鲁番市| 太原市| 宣化县| 泰和县| 古田县| 珠海市| 唐海县| 土默特右旗| 大余县| 崇仁县| 兴国县| 图们市| 尤溪县| 洪泽县| 繁昌县| 桦南县| 大洼县| 常熟市| 扎赉特旗| 平山县| 布尔津县| 唐河县| 璧山县| 建德市| 墨江| 忻城县| 隆子县| 乐业县| 南雄市| 确山县| 清流县| 兴文县| 宿松县| 宕昌县| 邓州市| 米林县| 淅川县| 武胜县|