北京2025年11月19日 /美通社/ -- 近日,在全球權威的ICCV 2025自動駕駛國際挑戰賽(Autonomous Grand Challenge)中,浪潮信息AI團隊所提交的"SimpleVSF"(Simple VLM-Scoring Fusion)算法模型以53.06的出色成績斬獲端到端自動駕駛賽道(NAVSIM v2 End-to-End Driving Challenge)第一名。
SimpleVSF深度融合了傳統軌跡規劃與視覺-語言模型(Vision-Language Model, VLM)的高級認知能力,能夠理解復雜的交通情境,突破了現有端到端自動駕駛模型"只會看路、缺乏思考"的局限。這得益于兩大關鍵創新:一方面,引入VLM增強打分器,使打分器不再僅僅依賴于原始的傳感器數據,而是能夠理解深層的交通意圖和"常識",從而選出更安全、更合理的駕駛方案;另一方面,采用雙重軌跡融合決策機制(權重融合器和VLM融合器),進一步融合多個打分器選出的軌跡,確保最終決策不僅數值最優,而且語義合理。
本篇文章將根據浪潮信息提交的技術報告"SimpleVSF: VLM-Scoring Fusion for Trajectory Prediction of End-to-End Autonomous Driving",詳解其使用的創新架構、優化措施和實驗結果。
一、背景與挑戰
近年來,自動駕駛技術飛速發展,正從傳統的模塊化流程(Modular Pipeline)逐步邁向更高效、更具魯棒性的端到端(End-to-End)范式。傳統的模塊化系統(感知、定位、規劃、控制)容易在各模塊間積累誤差,且面對復雜場景時,信息的層層傳遞往往導致決策滯后或次優。端到端方法旨在通過神經網絡直接從傳感器輸入生成駕駛動作或軌跡,實現信息流的統一與優化。然而,要真正讓機器像人類一樣在復雜環境中做出"聰明"的決策,仍面臨巨大的技術挑戰。
NAVSIM框架旨在通過模擬基礎的指標來解決現有問題,具體方法是展開場景簡化的鳥瞰圖(Bird's-Eye View, BEV)抽象,并在一個較短的模擬時間范圍內推演出行車軌跡。為了超越僅在人類數據采集中觀察到的狀態下評估駕駛系統, NAVSIM v2 挑戰賽引入了反應式背景交通參與者和真實的合成新視角輸入,以便更好地評估模型的魯棒性和泛化能力。
目前針對該類任務的主流方案大致可分為三類。第一類是基于Transformer自回歸的方案,通過路徑點的逐一預測得到預測軌跡,代表工作是Transfuser[1]。第二類是基于Diffusion的方案,通過在去噪時引入各種控制約束得到預測軌跡,代表工作是DiffusionDrive[2]。第三類是基于Scorer的方案,通過對一個預定義的軌跡詞表進行打分篩選得到預測軌跡,代表工作是GTRS[3]。
二、方法介紹
浪潮信息AI團隊提出了SimpleVSF框架,其核心創新在于引入了視覺-語言模型(VLM)作為高層認知引擎,并設計了雙重融合策略,將VLM的語義理解能力高效地注入到軌跡評分與選擇的全流程中。
SimpleVSF框架可以分為三個相互協作的模塊:
基礎:基于擴散模型的軌跡候選生成
框架的第一步是高效地生成一套多樣化、高質量的候選軌跡集合。
核心:VLM 增強的混合評分機制(VLM-Enhanced Scoring)
SimpleVSF采用了混合評分策略,它搭建了高層語義與低層幾何之間的橋梁。其工作原理如下:
A.語義輸入:利用一個經過微調的VLM(Qwen2VL-2B[4])作為語義處理器。VLM 接收以下三種信息:
(i)前視攝像頭圖像:提供場景的視覺細節。
(ii)自車狀態:實時速度、加速度等物理量。
(iii)高層駕駛指令: 規劃系統輸入的抽象指令,如"左轉"、"向前行駛"等。
B.輸出認知指令:VLM根據這些輸入,輸出認知指令(Cognitive Directives)。這些指令是高層的、類似于人類思考的抽象概念,例如:
縱向指令:"保持速度"、"加速"、"緩慢減速"、"停車"
橫向指令:"保持車道中心"、"微調向左"、"大角度右轉"
C.可學習的特征融合:這些抽象的語言/指令(如"停車")首先通過一個可學習的編碼層(Cognitive Directives Encoder),被巧妙地轉換為密集的數值特征。這個VLM特征隨后與自車狀態和傳統感知輸入拼接(Concatenated),共同作為軌跡評分器解碼的輸入。通過這種顯式融合,VLM的高層語義理解不再是模型隱含的特性,而是直接參與到軌跡的數值代價計算中。
保障:雙重軌跡融合策略(Trajectory Fusion)
為了實現魯棒、平衡的最終決策,SimpleVSF 采用了兩種融合機制來保障最終輸出軌跡的質量。
A.量化融合:權重融合器(Weight Fusioner, WF)
(i)指標聚合:將單個軌跡在不同維度(如碰撞風險、舒適度、效率)上的得分進行初次聚合。
(ii)模型聚合:采用動態加權方案,根據當前場景的重要性,動態地調整來自不同模型(如多個VLM增強評分器)的聚合得分的權重。
B. 質性融合:VLM融合器(VLM Fusioner, VLMF)
(i)軌跡精選:從每一個獨立評分器中,選出排名最高的軌跡。
(ii)LQR 模擬與渲染:這些精選軌跡通過 LQR 模擬器進行平滑處理,確保運動學可行性。然后,它們被可視化并渲染到當前的前視攝像頭圖像上,形成一個包含"潛在行動方案"的視覺信息圖。
(iii)將包含渲染軌跡的圖像以及文本指令提交給一個更大、能力更強的 VLM 模型(Qwen2.5VL-72B[5]),并明確要求 VLM 根據場景和指令,定性選擇出"最合理"的軌跡。
三、實驗結果
為驗證優化措施的有效性,浪潮信息AI團隊在Navhard數據子集上進行了消融實驗,結果如下表所示。以Version A作為基線(baseline)。
在不同特征提取網絡的影響方面,浪潮信息AI團隊使用了三種不同的Backbones,即V2-99[6]、EVA-ViT-L[7]、ViT-L[8],分別對應Version A、Version B、Version C。結果表明,Backbones的選擇對性能起著重要作用。ViT-L明顯優于其他Backbones。
在VLM增強評分器的有效性方面,Version D和Version E集成了VLM增強評分器,Version D優于對應的相同backbone的傳統評分器Version A,證明了語義指導的價值。雖然Version E的個體性能與對應的相同backbone的傳統評分器Version C相比略低,但VLM增強評分器的真正優勢在于它們的融合潛力。
在軌跡融合策略的性能方面,通過融合策略,浪潮信息AI團隊觀察到了最顯著的性能提升。WF B+C+D+E在Navhard數據集上取得了47.18的EPDMS得分。最終,浪潮信息AI團隊在Private_test_hard分割數據集上也使用了這四個評分器的融合結果。VLMF A+B+C也取得了令人印象深刻的 EPDMS 47.68,但由于提交規則限制,未在最終的排行榜提交中使用此融合策略。
在最終榜單的Private_test_hard分割數據集上,浪潮信息AI團隊提出的SimpleVSF框架在排行榜上獲得了第一名,取得了53.06的總EPDMS分數。對于Stage I,它在TLC(交通燈合規性)上獲得了100分,在DAC(可駕駛區域合規性)和 DDC(駕駛方向合規性)上獲得了99.29分,這展示了模型的魯棒性及其對關鍵交通規則的遵守能力。對于Stage I和Stage II,浪潮信息AI團隊的NC(無過失碰撞)分數在所有參賽團隊中處于領先地位。雖然其他方法可能在某些方面表現出色,但浪潮信息AI團隊的SimpleVSF在指標上實現了綜合平衡。
四、總結
本文介紹了獲得端到端自動駕駛賽道第一名的"SimpleVSF"算法模型。SimpleVSF框架成功地將視覺-語言模型從純粹的文本/圖像生成任務中引入到自動駕駛的核心決策循環,完成了從"感知-行動"到"感知-認知-行動"的升維。
[1] Chitta, K.; Prakash, A.; Jaeger, B.; Yu, Z.; Renz, K.; Geiger, A., Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. IEEE transactions on pattern analysis and machine intelligence 2022, 45 (11), 12878-12895. |
[2] Liao, B.; Chen, S.; Yin, H.; Jiang, B.; Wang, C.; Yan, S.; Zhang, X.; Li, X.; Zhang, Y.; Zhang, Q. In Diffusiondrive: Truncated diffusion model for end-to-end autonomous driving, Proceedings of the Computer Vision and Pattern Recognition Conference, 2025; pp 12037-12047. |
[3] Li, Z.; Yao, W.; Wang, Z.; Sun, X.; Chen, J.; Chang, N.; Shen, M.; Wu, Z.; Lan, S.; Alvarez, J. M., Generalized Trajectory Scoring for End-to-end Multimodal Planning. arXiv preprint arXiv:2506.06664 2025. |
[4] Wang, P.; Bai, S.; Tan, S.; Wang, S.; Fan, Z.; Bai, J.; Chen, K.; Liu, X.; Wang, J.; Ge, W., Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution. arXiv preprint arXiv:2409.12191 2024. |
[5] Bai, S.; Chen, K.; Liu, X.; Wang, J.; Ge, W.; Song, S.; Dang, K.; Wang, P.; Wang, S.; Tang, J., Qwen2. 5-vl technical report. arXiv preprint arXiv:2502.13923 2025. |
[6] Lee, Y.; Hwang, J.-w.; Lee, S.; Bae, Y.; Park, J. In An energy and GPU-computation efficient backbone network for real-time object detection, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2019; pp 0-0. |
[7] Fang, Y.; Sun, Q.; Wang, X.; Huang, T.; Wang, X.; Cao, Y., Eva-02: A visual representation for neon genesis. Image and Vision Computing 2024, 149, 105171. |
[8] Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; Weissenborn, D.; Zhai, X.; Unterthiner, T.; Dehghani, M.; Minderer, M.; Heigold, G.; Gelly, S., An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 2020. |