英國薩里大學運用 AI 實現高階路徑追蹤解決方案

錫昌科教
1月26日
讀畢需時 5 分鐘

已更新：1月27日

移動機器人的應用與挑戰

移動機器人在倉儲與製造業等領域的應用日益廣泛。擁有精確的自主車輛狀態估計與控制至關重要。為了滿足這些需求，路徑追蹤演算法必須具備以下能力：

能應對倉儲與製造應用中的不同情境（例如：車速變化、避障動作）。
能在實體硬體上實作並進行測試。

移動機器人與自動駕駛車輛的路徑追蹤面臨一系列挑戰，例如：

縱向與橫向動力學的耦合
非線性車輛動力學
不確定的車輛參數
演算法在硬體上的實作

模型化控制（Model-based control）在路徑追蹤應用中非常有效，但其高度依賴精確的車輛模型。這在實務中極具挑戰性，因為干擾會影響追蹤性能，且難以考慮突發變化或處理複雜環境。人工智慧（AI）技術有潛力解決這些挑戰。因此，開發與評估基於 AI 的路徑追蹤解決方案是目前的熱門研究領域，且除了模擬之外，還需要可靠的實驗平台進行測試。

面臨挑戰

我們該如何應對這些挑戰？

英國薩里大學自主系統與控制工程高級講師 Montanaro 博士及其團隊（Su-COSMOS），探索了多種路徑追蹤方法，包括尖端的 AI 與基於神經網路的控制方案。具體而言，他們開發並測試了一種利用深度強化學習（DRL）架構的新型 AI 技術，用於路徑追蹤應用 [1]。在他們的架構中，神經網路的訓練過程亦參考了由「專家示範器」（expert demonstrator）產生的決策（車輛轉向），以加速學習並提升處理新環境與路徑的能力。

深度強化學習 (DRL)

Montanaro 博士團隊使用的 DRL 策略架構如圖 1 所示。控制器（即代理 Agent）是一個神經網路，在每個採樣時間對環境施加動作。訓練期間的目標是完成路徑並最大化獎勵函數（Reward function）。環境是配備定速巡航控制以調節速度的 Quanser QCar，行動是轉向角變化率（即轉向角的一階導數），而觀測值則是路徑追蹤誤差向量，由橫向誤差 Δy 及其導數dΔy/dt，以及航向誤差 Δψ 及其導數 Δr 組成。

代理(Agent) 在模擬環境中透過 Actor-Critic 深度確定性策略梯度（DDPG）演算法，結合他們為 QCar 開發的動力學模型進行訓練。

Quanser QCar 的參數是透過兩階段最小平方法（Least-Square method）經實驗識別而得，這確保了用於訓練代理(Agent) 的 QCar 模型精確無誤。QCar 的座標與參數如圖 2 所示。

獎勵函數（Reward function）用於訓練代理(Agent) 的神經網路，隨後部署於實際的 QCar 上。選擇合適的獎勵函數是確保神經網路訓練成功且具時效性的關鍵。

r_k = r_y_k + r_Ψ_k + r_δ_k + r_ed_k

r_y_k 考量橫向誤差，第二項 r_Ψ_k 針對航向誤差，第三項 r_δ_k 則是對控制動作（即轉向角導數）的懲罰。獎勵 r_y_k 與 r_Ψ_k 會隨著對應誤差減少而增加，而懲罰項 r_δ_k 則是控制動作的增函數。
專家示範器（ed）獎勵 r_ed_k 用於衡量代理(Agent) 產生的控制動作與線性二次（LQ）路徑追蹤調節器產生的動作之間的差異（該調節器是使用上述模型設計的）。
學習方案旨在極大化多個回合（Episodes）中的累積獎勵。

解決方案：專家示範器 — 關鍵轉折點

基於專家示範器的獎勵機制，當代理(Agent) 在實際環境中命令的轉向角與模擬中專家示範器的轉向角出現偏差時，會施加懲罰。這有助於透過減少探索量來縮短訓練時間，並藉由緩解「模擬到現實的差距」（Simulation-to-Reality Gap）來獲得更穩健的解決方案。所謂差距是指在模擬中訓練的代理(Agent) 由於環境差異或難以處理訓練中未出現的路徑，導致在現實中表現不佳。

研究結果

實驗分析於薩里大學的 Su-COSMOS 實驗室進行（見圖 3）。

圖 3：薩里大學 Su-COSMOS 實驗室的實驗裝置（a）基地台和（b）帶有 QCars 的軌道

主要目標有二：

評估在模擬中訓練的代理(Agent) 在實際路徑上的表現。
評估專家示範器(ed) 對追蹤性能的有效性。

針對目標 (1)，作者將 DRL 方案（紫色線）與三種策略進行了路徑追蹤性能對比：

FF+FB：前饋回饋控制器（藍色線）
LQcm：具備前饋動作的 LQ 控制器，針對 QCar 名義模型在穩態條件下計算以實現零橫向誤差（黃色線）
LQed：DRL 架構中作為專家示範器的 LQ 控制器（紅色線）

圖 4 與圖 5 顯示了避障動作（C 型路徑）時的追蹤結果。

參考路徑為黑色虛線。如圖所示，前饋回饋控制器（FF-FB）的表現不如 DRL 演算法。此外，DRL 演算法的表現也優於作為專家示範器的 LQ 策略。

圖 6 比較了兩種 DRL 方案：包含專家示範器訓練的方案（紫色線）與移除專家示範器獎勵的方案（綠色線）。測試路徑為訓練中未使用的圓形路徑。如圖所示，使用專家示範器的 DRL 橫向誤差較小。在獎勵函數中使用專家示範器是訓練代理(Agent) 執行現實路徑追蹤任務的關鍵因素，它能有效緩解某些 AI 技術中存在的模擬與現實差距。

參考文獻

[1] C. Caponio, P. Stano , R. Carli, I. Olivieri , D. Ragone, A. Sorniotti, P. Gruber, U. Montanaro, Modelling, Positioning, and Deep Reinforcement Learning Path Following Control of Scaled Robotic Vehicles: Design and Experimental Validation, accepted for publication in IEEE Transactions on Automation Science and Engineering.

Umberto Montanaro 博士

於 2005 年獲得義大利拿坡里腓特烈二世大學（University of Naples Federico II）計算機工程榮譽碩士學位，專攻自動化與控制。隨後於 2009 年與 2016 年分別獲得控制工程博士與機械工程博士學位。目前擔任英國薩里大學控制工程與自主系統高級講師，並帶領 Su-COSMOS 團隊。發表超過 90 篇學術論文，研究領域涵蓋自適應控制、最佳控制、機電系統控制及聯網自主系統協調。