AI 研究の世界で、ゲーム領域から現実世界へ技術をスケールさせる挑戦は多く語られてきました。しかし実際に、ゲームで育てたAIを“公道を走る自動運転AI”に進化させた研究者はそう多くありません。第5回京大ミートアップ<後編>は、強化学習の“限界”に挑むTuring妹尾氏のセッションをご紹介します。
Session3 『強化学習の限界を探る E2E 自動運転開発』
妹尾 卓磨 氏Turing株式会社 スタッフリサーチャー
SONY時代:ゲームの中に“最強レーサーAI”を生み出す
妹尾氏がまず向き合ったのは、ソニーのレースゲーム「グランツーリスモ」を舞台に、強化学習で世界最強レーサーを超えるAI「GT Sophy」を作るプロジェクトでした。このAIはただ速いだけでなく、レースマナーまで理解し、人間のトッププレイヤーを凌駕。成果はNature誌に掲載され、世界的に注目されました。特に象徴的だったのが、その学習環境です。
SONY社内クラウドで大量の PlayStation を同時稼働
AI が自力でレースを“何十万回も走り続ける”訓練環境
制御・戦略・接触回避など複雑な行動を統合的に学習
つまり「大規模シミュレーション × 強化学習 × 実行環境のスケール」の力を最大限活用した研究でした。この経験が、後の自動運転研究の大きな土台となります。
Turingでの挑戦:公道を走る“学習型ドライバーAI”へ
Turing転職後、妹尾氏が挑んでいるのは 画像入力のみで運転判断を行うEnd-to-End自動運転。技術はすでに高難度の走行レベルに到達していて、さらにその先を目指す技術基盤を構築しているとのことでした。
実写級3D再構成シミュレーター「ATLAS」
3D Gaussian Splatting技術を用いて、
実車走行の映像をそのまま3D化
任意の視点で自由に再シミュレーション
“歩行者がいる左折1000シナリオ”などを自動生成
といった“現実をコピーして量産する”次世代シミュレーション環境を構築。これにより、従来のゲームエンジンでは再現困難だった複雑な運転状況でも、大量の学習データを瞬時に生成できます。
大規模計算資源 × 強化学習
Turingでは全体として富岳の約40%に相当する計算リソースを保有しており、この計算基盤があるからこそ、必要なタイミングで数百〜数千並列の強化学習実験を回せる環境が整っています。強化学習を活用することで、失敗から学ぶことや、運転行動の因果関係を捉えること、制御まで含めた最適化が可能になります。その結果、これまで苦手だった右折動作などについても改善が進み、入社後わずか3カ月で日本初となるE2E強化学習モデルの公道走行を実現しました。
次の一歩:VLA(Vision-Language-Action)モデルへ
Turingはさらに、画像・言語・制御を統合した VLAモデル へと研究を拡大しています。これにより、
シーンを言語で説明しながら状況判断
レアケースにも柔軟に対応
“説明可能な自動運転AI” の可能性
が開けつつあり、“どんな状況でも運転できるAIドライバー”へ向けた布石が打たれています。
強化学習は、ゲームを越え、現実へ踏み出した
ゲームの中で鍛えたAIが、現実世界で人と一緒に道路を走り始めようとしています。妹尾氏の挑戦は、強化学習が持つ“試行錯誤の力”を最大化しながら、その限界を押し広げていくプロセスそのものでした。ゲームから公道へ。 AIが“運転を学ぶ”時代は、もう始まっています。
妹尾氏のセッション映像はこちらから
https://www.youtube.com/watch?v=iuv6X_oBBsE