秦禹
對外經(jīng)濟(jì)貿(mào)易大學(xué)統(tǒng)計(jì)學(xué)院 北京市 100102
汽車行業(yè)的進(jìn)步促進(jìn)了自動(dòng)駕駛技術(shù)的不斷發(fā)展,但由于產(chǎn)業(yè)鏈、基礎(chǔ)設(shè)施、法規(guī)政策和道路場景等差異,造成了自動(dòng)駕駛不同的發(fā)展路線和研發(fā)方向。當(dāng)前對自動(dòng)駕駛的關(guān)注多集中在技術(shù)和應(yīng)用層面,而對于客觀量化分析自動(dòng)駕駛發(fā)展方向的研究不是很多。通過對自動(dòng)駕駛相關(guān)文獻(xiàn)采取量化分析和主題模型提取等技術(shù)分析手段,可以對全面理解自動(dòng)駕駛的發(fā)展現(xiàn)狀和行業(yè)熱點(diǎn),把握當(dāng)前發(fā)展趨勢和機(jī)遇,并輔助制定相關(guān)的政策和發(fā)展戰(zhàn)略有很大幫助。
自動(dòng)駕駛是在傳統(tǒng)汽車硬件架構(gòu)的基礎(chǔ)上,結(jié)合通信技術(shù)、網(wǎng)絡(luò)技術(shù)和人工智能等技術(shù)來賦予車輛自動(dòng)行駛的能力,并在安全性、便利性、高效性和低碳性方面有更大優(yōu)勢。隨著場景復(fù)雜性和車輛智能性的不斷提升,自動(dòng)駕駛的成熟度又被分為不同的等級。汽車行業(yè)對自動(dòng)駕駛的分級,主要參考了美國汽車工程師協(xié)會(SAE)提出的J3016自動(dòng)駕駛等級標(biāo)準(zhǔn)。在這份標(biāo)準(zhǔn)中,基于車輛控制權(quán)分配和環(huán)境感知程度,自動(dòng)駕駛被劃分為六個(gè)等級[1],分別對應(yīng)著無自動(dòng)駕駛、獨(dú)立輔助駕駛、協(xié)同輔助駕駛、條件約束的高級輔助駕駛、場景約束的無人駕駛和無約束無人駕駛這六個(gè)階段。
一套完整的自動(dòng)駕駛系統(tǒng)架構(gòu),包含環(huán)境感知、精確定位、路徑?jīng)Q策規(guī)劃和控制執(zhí)行。環(huán)境感知通過多維傳感器采集環(huán)境和車輛行駛狀態(tài)信息,來構(gòu)建車輛和環(huán)境認(rèn)知模型;精確定位通過高精地圖,實(shí)時(shí)定位車輛的位置和速度等狀態(tài);路徑?jīng)Q策規(guī)劃建立了包含障礙區(qū)域和自由區(qū)域的環(huán)境地圖,通過路徑搜索最優(yōu)算法快速生成最佳行駛路線;控制執(zhí)行將智能控制和傳統(tǒng)控制相結(jié)合,實(shí)現(xiàn)在復(fù)雜環(huán)境中自動(dòng)行駛。
文獻(xiàn)計(jì)量學(xué)是定量分析文獻(xiàn)的有效工具,廣泛用于評估多領(lǐng)域的發(fā)展現(xiàn)狀和研究趨勢。隨著大數(shù)據(jù)、5G和人工智能的不斷發(fā)展,自動(dòng)駕駛的重要性不斷提升,大量相關(guān)的學(xué)術(shù)文獻(xiàn)被發(fā)表。通過對文獻(xiàn)的量化分析,來了解自動(dòng)駕駛現(xiàn)狀和發(fā)展方向是很重要的。主題模型是文本挖掘的有效工具,常用于研究特定領(lǐng)域的主題和熱點(diǎn)。LDA(Latent Dirichlet Allocation)是最受歡迎的主題模型之一,在很多領(lǐng)域都有應(yīng)用[2]。本文結(jié)合了文獻(xiàn)計(jì)量分析和LDA模型,從統(tǒng)計(jì)分析和文本挖掘的角度,闡述了自動(dòng)駕駛技術(shù)的現(xiàn)狀和發(fā)展趨勢。
本文數(shù)據(jù)來自于Science Direct網(wǎng)站,檢索了從2002年到2021年包含Autopilot關(guān)鍵詞同期收錄的4569篇文獻(xiàn),處理后的數(shù)據(jù)包含文獻(xiàn)標(biāo)題、刊物、發(fā)表年份、作者、關(guān)鍵詞、摘要、國家和單位等信息。
4.2.1 主題模型
LDA模型由Blei等人于2003年提出[3],主要用于推測文檔的主題分布。它基于三層貝葉斯網(wǎng)絡(luò),以概率分布形式給出文檔主題,實(shí)現(xiàn)主題聚類和主題演變分析等目的。在本文中,提取文獻(xiàn)標(biāo)題、摘要和關(guān)鍵詞到模型語料庫中。通過Python Gensim實(shí)現(xiàn)LDA模型,超參數(shù)設(shè)定為:alpha=2,eta=0.9,iterations=1000,passes=20,選取前15位關(guān)鍵詞結(jié)果來解釋對應(yīng)主題。
4.2.2 確定主題數(shù)量
主題數(shù)會直接影響模型的識別效果,但不同主題領(lǐng)域存在復(fù)雜性和多樣性,學(xué)術(shù)界目前并沒有統(tǒng)一的方法?;谥R經(jīng)驗(yàn)并不斷優(yōu)化來主觀確定主題數(shù),也有很多成功的實(shí)際應(yīng)用。Blei提出通過困惑度來確定主題數(shù)的方法[3];Griffiths提出使用log-邊際似然函數(shù)的方法確定主題數(shù)[4];Teh提出基于狄利克雷過程的分層HDP方法,通過計(jì)算LDA和HDP的困惑度判斷主題數(shù)[5];Guan提出構(gòu)建主題困惑度-方差比值的指標(biāo)確定主題數(shù)[6];Wang通過構(gòu)建困惑度和平均相似度主題交叉曲線來確定主題數(shù)[7]。
除困惑度外,還可通過主題一致性來確定主題數(shù)。一致性衡量主題詞語之間的相對距離,相比于困惑度,一致性得到的結(jié)果通常也更接近主觀判斷。Roder在主題一致性度量空間的研究中,系統(tǒng)介紹了架構(gòu)原理,并提出多種度量方法[8]。主題一致性架構(gòu)為:
C代表一致性度量聚合值,S代表文本語料切分片段集合,M代表通過計(jì)算詞頻構(gòu)成的配置空間確認(rèn)度量,P代表詞頻估計(jì)方法集合,∑代表計(jì)算聚合標(biāo)量值的方法集合。
Roder在此基礎(chǔ)上提出一種全新的一致性度量組合方式(Cv),該方法能涵蓋現(xiàn)有所有的一致性度量標(biāo)準(zhǔn),并構(gòu)建包含間接余弦測量和布爾式滑動(dòng)窗口的新的度量標(biāo)準(zhǔn),相比于其他方法,該方法有最好的表現(xiàn)[8]。因此,本文也采用了基于Cv的一致性度量方法。
文獻(xiàn)計(jì)量分析展示了文獻(xiàn)發(fā)表時(shí)間、類型、期刊和主題領(lǐng)域分布的統(tǒng)計(jì)結(jié)果(見圖1)。自動(dòng)駕駛的文獻(xiàn)數(shù)量在近20年內(nèi)持續(xù)增長,近10年上升趨勢尤為顯著。超過76%的文獻(xiàn)類型為研究類,超過18%的文獻(xiàn)發(fā)表在國際自動(dòng)控制協(xié)會(IFAC)期刊,55%以上的自動(dòng)駕駛都分布在工程主題,其次為計(jì)算機(jī)科學(xué)、環(huán)境科學(xué)、社會科學(xué)和農(nóng)業(yè)生物科學(xué)主題。
圖1 文獻(xiàn)計(jì)量分析
5.2.1 主題數(shù)量確定
本文根據(jù)LDA主題模型一致性度量Cv來確定最佳主題數(shù)。通過一致性與主題數(shù)之間曲線(見圖2),當(dāng)主題數(shù)為7時(shí),一致性分?jǐn)?shù)達(dá)到最大0.5735,此時(shí)模型得到了最佳訓(xùn)練,并保持了足夠的主題高頻詞語義相似性。
圖2 主題一致性度量分?jǐn)?shù)
5.2.2 主題結(jié)果可視化
本文通過pyLDAvis實(shí)現(xiàn)主題結(jié)果的可視化,它針對LDA模型提供了可以分析主題差異性和高度關(guān)聯(lián)關(guān)鍵詞的全局視角框架。每個(gè)圓圈代表獨(dú)立的主題,圓圈大小和重疊面積反映了主題模型的魯棒性,圓圈中心被映射到兩個(gè)維度PC1和PC2,圓圈距離由主題降維矩陣計(jì)算得出。結(jié)果顯示有兩對主題之間有一定重疊,其他主題均保持了相對的獨(dú)立性(見圖3)。
圖3 主題模型可視化結(jié)果
5.2.3 主題結(jié)果展示
選擇概率最高的前15個(gè)詞來解釋對應(yīng)的主題,過濾不相關(guān)主題后,最終確定了六個(gè)主題:①基于模型的探測,②人體安全,③自適應(yīng)控制,④神經(jīng)網(wǎng)絡(luò)系統(tǒng),⑤動(dòng)態(tài)路徑識別,⑥自主實(shí)時(shí)導(dǎo)航。結(jié)合自動(dòng)駕駛的架構(gòu)體系,這些主題可被分為三類。第一類為路徑?jīng)Q策規(guī)劃,包含主題④⑤;第二類為控制執(zhí)行,包含主題②③;第三類為環(huán)境感知,包含主題①⑥。
作為自動(dòng)駕駛的核心,路徑?jīng)Q策規(guī)劃中基于圖搜索、最優(yōu)化、隨機(jī)采樣或曲線擬合的算法選擇,基于規(guī)則或強(qiáng)化學(xué)習(xí)的行為決策,基于故障預(yù)警和預(yù)留機(jī)制的異常處理等,都在不同程度上推動(dòng)著自動(dòng)駕駛的不斷創(chuàng)新。然而社會層面的因素也不可忽略,比如最近某車型在車禍前一秒退出自動(dòng)駕駛系統(tǒng)的控制策略,引發(fā)了巨大的社會爭議和對自動(dòng)駕駛的顧慮。相關(guān)行業(yè)標(biāo)準(zhǔn)體系的制定,不僅會推動(dòng)融合創(chuàng)新生態(tài)體系的建立,也對自動(dòng)駕駛的快速發(fā)展提供顯著支持[9]。
自適應(yīng)控制要實(shí)現(xiàn)對環(huán)境參數(shù)的變化有適應(yīng)能力的控制策略,基于車輛協(xié)同控制及行駛優(yōu)化技術(shù)、多目標(biāo)優(yōu)化理論、車輛自主運(yùn)動(dòng)決策與高精度跟蹤控制等技術(shù),都在推動(dòng)著此主題的發(fā)展。
環(huán)境感知主要包含障礙感知和車輛路徑感知,過程中有大量數(shù)據(jù)處理工作。真實(shí)場景中收集的各類傳感器數(shù)據(jù),需要人工標(biāo)注才能使用,而一些基于模型探測的預(yù)訓(xùn)練和測試要在仿真環(huán)境實(shí)現(xiàn)。自主探測與導(dǎo)航技術(shù)的進(jìn)一步發(fā)展,會顯著改善計(jì)算效率和數(shù)據(jù)成本。
為了全面了解自動(dòng)駕駛技術(shù)的發(fā)展,本文基于Science Direct網(wǎng)站上過去20年發(fā)表的自動(dòng)駕駛相關(guān)文獻(xiàn),開展了文獻(xiàn)計(jì)量分析和主題分析。文獻(xiàn)發(fā)表數(shù)的增長反映了自動(dòng)駕駛行業(yè)的快速發(fā)展,行業(yè)分析結(jié)果則反映了自動(dòng)駕駛的應(yīng)用和研發(fā)投入分布情況,前五位是工程、計(jì)算機(jī)科學(xué)、環(huán)境科學(xué)、社會科學(xué)和農(nóng)業(yè)生物科學(xué)。
通過LDA模型完成了自動(dòng)駕駛主題識別(見表1),這六個(gè)主題能夠反映當(dāng)前的主流研究方向和熱點(diǎn)。本文為理解自動(dòng)駕駛提供了一個(gè)寬泛的視角,并分析了發(fā)展現(xiàn)狀和熱點(diǎn)。一方面能夠幫助準(zhǔn)確把握研究趨勢,抓住機(jī)遇;另一方面,也能夠?yàn)榭萍颊吆蛻?zhàn)略發(fā)展提供參考支持。
表1 模型主題識別結(jié)果