ヒューマノイドRL手法の全体像と最前線 ー 歩行からスポーツまで ー【2026年3月】

RL(強化学習)によるロボティクスの進化は、単なるアルゴリズムの改善にとどまらず、データパイプラインや表現学習、さらにはVLA(Vision-Language-Action)との融合へと広がっています。本記事では、RLパイプラインの全体像を整理しながら、sim-to-realから拡張された6つの代表的アーキテクチャパターンを解説。さらに、蒸留の一般化や潜在空間での汎化、スポーツ領域での応用など、最新トレンドを俯瞰し、今後の方向性を考察します。

はじめに

ここ数年で、ヒューマノイドロボットのハードウェアが急速に実用レベルに近づきました。
Unitree、Fourier、AgiBotなど複数メーカーから開発可能なヒューマノイドが登場し、研究者が手の届く選択肢が一気に広がり、sim-to-real(シミュレーションで訓練した学習データを実機に移行する)パイプラインが現実的な選択肢になっています。

加えて、ヒューマノイドは人間と骨格が近いため、人間のモーションデータを教師信号として直接活用しやすいという利点があり、模倣ベースの学習パイプラインが急速に発展しています。

現在実用的なヒューマノイドの学習方法は、大きく次の2つに分かれます。

RL(強化学習)ベース: シミュレーション上でロボットに試行錯誤させ、良い動作を実現した場合に高い報酬を与えるように設計することで、より良い報酬を得られる方法を学習させる手法

VLA(Vision-Language-Actionモデル)ベース: 事前学習済みの大規模Vision-Language Modelを活用し、言語指示から直接行動を生成する手法

それぞれ長所短所があり、2026年3月現在ではどちらも注目されている技術ではありますが、本記事ではRLベースの学習方法について、そのトレンド・核となる技術や、共通するアーキテクチャについて紹介します。

RLパイプラインの全体像

近年のヒューマノイドRL手法は、以下の3つのレイヤーの組み合わせになっていることがほとんどです。
(手法によって各レイヤーで用いている手法が異なったり、一部レイヤーが無かったりします。)

ロボット動作学習の3つのプロセス

データレイヤーは、訓練データの取得から前処理までを担います。MoCap(モーションキャプチャ)データセットの利用が最も一般的ですが、YouTubeなどの普通の動画から抽出する手法、人間が遠隔操作(テレオペレーション)で動きを教える手法、少数のお手本から自動的に大量のデモを作る手法など、データソースの多様化が進んでいます。取得したデータは、人間の骨格とロボットの骨格の違いを吸収するモーション変換(Retargeting)と、ロボットが物理的に実行できないモーションを除外するフィルタリングを経て、スキルレイヤーに渡されます。

スキルレイヤーは、シミュレーション内で運動ポリシーを訓練し実機に転送するまでを担います。変換済みのモーションを追従するポリシーをPPO等で訓練し、多くの手法が敵対的学習やStudentポリシーへの蒸留を組み合わせています。一部の手法はモーションを潜在空間(コンパクトな抽象表現)に圧縮し、新しい動きの合成に活用します。

タスクレイヤーは、スキルレイヤーの上に載るタスクレベルの意思決定層です。階層的RLでは「どこにボールを打つか」を決めるプランナー、視覚ベースの制御ではカメラ入力から直接行動列を出力するDiffusion Policyがここのコアを握ります。単純なモーション追従のみの手法ではこのレイヤーは多くの場合必要ありません。

本記事では、近年注目を集めた手法が各レイヤーにどんな技術を取り込んでいるのか、どんな風に進化してきたのかを概説し、トレンドとなる強化学習関連技術を抑えていきます。

タスク達成のためのアーキテクチャの分類

これまで提案されてきた代表的な手法を、「主にどのレイヤーに革新的な要素を持つか」と、「全体の構造的な複雑さ」に着目すると大きく以下の6つの構成パターンに整理できます。

ここではパイプラインのどこの改善に焦点を当てるか、という設計上の分類を示していますので、これは厳密な手法の発展の時系列とは異なります。
(前半の手法が必ずしも古い手法というわけではありません!)


以下では、この整理した構造の順にパターンを詳しく紹介します。

パターン1: sim-to-realの始まり

ヒューマノイドRLの出発点であり、スキルレイヤーの工夫が主戦場です。データレイヤー・タスクレイヤーに特段大きな工夫は無く、「シミュレーションでスキルレイヤーを鍛え、いかに頑健に実機へ転送するか」に集中したパターンで、パルクールやロコマニピュレーション(移動しながらの物体操作)など、全身を使ったダイナミックなタスクの実現例が多い構成です。

このパターンの大半で重要になる技術がTeacher-Student学習(蒸留)です。まずシミュレーション内で、地形マップ・物体の正確な位置・接触力など「実機では取得できないが、訓練には便利な情報」(特権情報)を使える教師ポリシーをPPOと呼ばれる標準的な強化学習アルゴリズムで訓練します。次に、この教師の行動を模倣する生徒ポリシーを、実機で使えるセンサ(関節角度・カメラ・深度センサ等)だけで動くように訓練します。

sim-to-realのギャップを埋める、もう一つの定石となるアイデアがDomain Randomization (DR)です。
シミュレーション中に物理パラメータ(質量、摩擦、遅延等)や視覚条件(照明、テクスチャ等)をランダムに変動させ、「どんな環境でも動く」頑健なポリシーを育てます。

代表的な手法の詳細とリンク

・具体的な技術名が記載されているレイヤーが主要な貢献
・○は利用しているが主要な新規性ではないレイヤー
・記載のないレイヤーは非該当/導入していない

  • Humanoid Locomotion (Science Robotics 2024)
    • スキル: Causal Transformer + Large-scale RL
    • arXiv
    • Project
    • 因果Transformerで観測-行動の履歴を入力し、in-context learning(推論時に重みを更新せず文脈から適応する手法)で環境に適応するヒューマノイド歩行コントローラです。IsaacGym上で10B(100億)サンプルの大規模RL訓練を行い、Digit実機にzero-shot転送。屋外の広場・芝・坂道など多様な地形を歩行し、完全学習ベースで実世界のフルサイズヒューマノイドを歩かせた最初の研究です。

  • WoCoCo (CoRL 2024)
    • スキル: Contact-stage RL
    • arXiv
    • GitHub
    • タスクを接触フェーズに分解し、各フェーズを個別にRLで訓練する段階的な学習です。モーションデータを一切使わないend-to-end RLで、パルクール・ダンス・クライミング・箱運搬などを達成しました。

  • VIRAL (RSS 2025)
    • データ: ○ / スキル: Privileged Teacher → Vision Student (DAgger)
    • arXiv
    • Project
    • 特権情報を使える教師をPPOで訓練し、RGBカメラだけで動く生徒にDAgger+BCで特権蒸留します。最大64GPU規模の大規模シミュレーション訓練で、照明・テクスチャ・カメラ特性・センサ遅延などを幅広くランダム化し、G1実機で54サイクルの連続ピック&プレースを達成しました。

  • ASAP (RSS 2025)
    • データ: ○ / スキル: Delta Action Alignment
    • arXiv
    • GitHub
    • まずsim内でモーション追従ポリシーを訓練し、次に実機を短時間走らせてデータを収集。「simとrealの動きの差」をデルタアクションモデルで学習し、sim側に組み込んで再訓練します。ランダム化だけでは越えられないギャップを直接補正でき、片足バランス・1m超の前方ジャンプなど高ダイナミクス動作の転送に成功しています。

  • Humanoid Parkour (CoRL 2024)
    • スキル: End-to-end Vision RL
    • arXiv
    • Project
    • モーションデータなし・カメラ入力のみのend-to-end RLで全身パルクールを訓練。0.42m台ジャンプ・0.8mギャップ跳躍・1.8m/s走行を実現し、ジョイスティックの方向指示に追従しつつ、目の前の地形に応じてパルクールスキルを自律選択します。腕の動作を上書きすることで物を運ぶタスクにも転用可能です。

  • PHP (2026)
    • データ: ○ / スキル: Motion Matching + RL → Depth Student (DAgger + RL)
    • arXiv
    • Project
    • 人間のモーション断片をMotion Matching(クエリに最も近いクリップをオンラインで検索・つなぎ合わせる手法)で長い軌道に合成し、RLで追従します。DAggerとRLを組み合わせた蒸留で深度カメラベースの生徒に実機転送し、G1実機で1.25m高さの障害物を含むパルクールコースを自律走破しました。

パターン2: データパイプラインの強化

sim-to-realの転送手法が整備された後、「何を学習させるか」= 訓練データと、その取り込み方に注目が集まりました。
特に、人間の行動をデータ化し、ロボットに学習させる手法は成功例が多く、その後現在に至るまで用いられる、標準的なデータレイヤーの処理が確立されています。

人間の行動を模倣する上では、Motion Retargetingと呼ばれる人間の動作を元に作成した関節データの骨格構造をロボットに合わせて変形する技術も重要となってきます。
単純な関節角マッピングでは足が地面を滑ったり(足滑り)手が物体を貫通したりするため、各手法が独自の工夫を加えています(OmniRetargetのInteraction Mesh、VideoMimicの4D再構成、GBCのDifferentiable IK等)。

また、「どのように人間のデモデータを学習するか」という点も重要で、模倣学習手法であるBehavior Cloning (BC)や、その改良手法であるDAggerといった技術も注目されています。特に近年の流行であるDAggerは「学習者を実際に走らせて、実際に起こった場面で教師に正解を聞き、その経験を訓練データに追加する」という訓練方法で、ミスからの回復を学びやすいという利点があります。ヒューマノイドRL分野では、DAggerはTeacher-Student学習で教師の知識を生徒に蒸留する手段としても広く使われています。

代表的な手法の詳細とリンク

・具体的な技術名が記載されているレイヤーが主要な貢献
・○は利用しているが主要な新規性ではないレイヤー
・記載のないレイヤーは非該当/導入していない

  • HumanPlus (CoRL 2024)
    • データ: Shadowing / スキル: RL Tracking / タスク: BC
    • arXiv
    • GitHub
    • 40時間の人間モーションでまず歩行・動作のベースポリシーをRL訓練し実機転送。次に、RGBカメラ1台で人間の動きをリアルタイム追従する「Shadowing」でテレオペのデモを収集し、ロボット頭部カメラからのBC(模倣学習)で自律スキルを獲得します。靴を履く・服を畳む等の日常タスクで60-100%の成功率を達成しています。

  • H2O (IROS 2024)
    • データ: RGB Camera Teleop / スキル: RL Tracking + Distillation
    • arXiv
    • Project
    • OmniH2Oの前身にあたる手法で、RGBカメラ1台から姿勢推定を行い、RL追従ポリシーでフルサイズヒューマノイドのリアルタイム全身テレオペレーションを実現しました。Sim-to-Dataプロセスで実行可能なモーションを自動フィルタリングし、特権教師から生徒への蒸留でzero-shot転送。歩行・ジャンプ・キック・押す等の全身動作をリアルタイムで人間の動きに追従させ、カメラベーステレオペのパラダイムを確立しました。

  • OmniH2O (CoRL 2024)
    • データ: Multi-modal Teleop / スキル: RL + Distillation / タスク: GPT-4 integration
    • arXiv
    • GitHub
    • H2Oを拡張し、VRヘッドセット・音声指示・RGBカメラで操縦できるマルチモーダルテレオペインターフェースです。大規模MoCapのリターゲティング→特権教師→生徒への蒸留というRLパイプラインを備え、GPT-4との統合で音声指示からの全身動作も実証。ヒューマノイド全身制御データセットOmniH2O-6も公開されました。

  • OmniRetarget (ICRA 2026)
    • データ: Interaction Mesh / スキル: RL Tracking
    • arXiv
    • GitHub
    • Interaction Meshで人体・地形・物体の空間的な接触関係をモデル化し、骨格差を吸収しつつ「手が物を持っている」「足が地面に着いている」といった接触関係を保存します。1つのデモから異なるロボット・地形・物体配置へのデータ拡張が可能で、G1実機で30秒のロコマニピュレーションタスクを実行しました。

  • VideoMimic (CoRL 2025)
    • データ: 単眼動画 → 4D Reconstruction / スキル: RL Tracking + DAgger
    • arXiv
    • GitHub
    • 普通のRGB動画から3Dの人体姿勢とシーン形状を復元し、データ取得にMoCapスタジオを必要とせずリターゲティングの入力を作ります。RLで追従ポリシーを訓練した後、DAggerで統合ポリシーに蒸留。「YouTube動画→実機スキル」のパイプラインで、階段昇降・着座・不整地歩行を単一ポリシーで実現しています。

  • GBC (2025)
    • データ: Differentiable IK / スキル: DAgger-MMPPO
    • arXiv
    • GitHub
    • 微分可能なIK(逆運動学)ネットワークで、異なる体型のロボットへの自動リターゲティングを実現。DAgger-MMPPO(DAggerとPPOを組み合わせた独自アルゴリズム)で全身模倣ポリシーを訓練します。Isaac Lab上のオープンソースプラットフォームとして公開されています。

  • DexMimicGen (ICRA 2025)
    • データ: Teleop→自動増幅 / タスク: BC
    • arXiv
    • GitHub
    • 60回の人間デモから21,000件のデモを自動生成。タスク構造を利用した軌道の切り貼り+変形で大量のデモを合成し、BCで両手の器用な操作ポリシーを訓練します。データ収集コストを大幅に削減するreal-to-sim-to-realパイプラインです。

パターン3: 複数スキルを単一ポリシーに統合

複数のモーションスキルを学習した上で、それらを1つの統合ポリシーにまとめるパターンです。

データレイヤーが整備され個別スキルのポリシーは作れるようになりましたが、歩行用・操作用・全身表現用とスキルレイヤーがスキルごとに分立する問題が浮上しました。
その問題を克服するために、複数モードの専門ポリシーを1つの統合ポリシーに蒸留する手法(HOVER)や統合訓練(ULC)など、歩行・操作・全身表現など多様なモードをシームレスに切り替えられるよう、統合することを目指した手法群がここに属します。

このパターンで報酬設計によく使われるのがAMP(Adversarial Motion Prior)です。AMPは「モーションの自然さ」を自動的に評価する仕組みで、GANの識別器と同じアイデアを使います。「本物の人間のモーションか、ポリシーが作った動きか」を見分ける識別器を訓練し、ポリシーにはこの識別器を騙す方向の報酬を与えます。「腕の角度が何度ずれたら減点」のような細かい報酬を手作業で設計しなくても、全体として自然な動きが学習できます。

代表的な手法の詳細とリンク

・具体的な技術名が記載されているレイヤーが主要な貢献
・○は利用しているが主要な新規性ではないレイヤー
・記載のないレイヤーは非該当/導入していない

  • HOVER (ICRA 2025)
    • データ: ○ / スキル: Multi-mode Distillation
    • arXiv
    • GitHub
    • 全身の動き模倣を共通の抽象層として定義し、速度追従・関節角追従・位置追従の複数モードを統合。各モードの専門ポリシーを訓練した後、複数モードの専門ポリシーを1つの汎用ポリシーに蒸留してまとめます。制御モード切替時に再訓練が不要で、Isaac Labに統合されており再現性が高いのも特徴です。

  • ExBody2 (RSS 2025 Workshop)
    • データ: Auto Curation / スキル: Tracking + Distillation
    • arXiv
    • GitHub
    • 「このモーションはロボットが実行可能か」を自動判定し、実行可能性と多様性のバランスを取りながら訓練データを選別します。動きの追従と移動の制御を分離し、特権教師から生徒への蒸留で実機転送。汎用(多様な動作全般)と専門(特定タスク特化)の両方のポリシーを効率的に訓練できます。

  • ULC (2025)
    • スキル: Unified single-policy
    • arXiv
    • Project
    • 歩行速度・体幹回転・両腕位置を単一ポリシーで同時に制御する統合コントローラです。歩行と操作を別々のポリシーに分ける従来手法と同等以上の性能を、1つのポリシーで達成。「統合型でも性能を犠牲にしない」ことを実証しました。

パターン4: 潜在空間での汎化

スキルレイヤーで学習済みのスキルを潜在空間(多数の動きを少数の変数で表すコンパクトな表現)に圧縮し、タスクレイヤーがその内部表現に直接介入して見たことのない状態に対応することを目指すパターンです。

例えば、BeyondMimicが採用するClassifier Guidanceという手法は、拡散モデルが段階的にノイズを除去して出力を生成する過程に「こっちに行きたい」という目標の勾配を注入することで、スキルレイヤーのデノイズ結果が目標を達成するように誘導します。
またULTRAが採用するSparse Goalは、訓練済みモデルをさらにRLで追加学習することでスキルレイヤーの潜在空間を目標に引き寄せます。

いずれも、モーション追従を「ゴール」ではなく「運動スキルの土台」として捉え、その上にタスクレイヤーを載せて訓練時に観測しなかった動きへの汎化を狙います。

代表的な手法の詳細とリンク

・具体的な技術名が記載されているレイヤーが主要な貢献
・○は利用しているが主要な新規性ではないレイヤー
・記載のないレイヤーは非該当/導入していない

  • BeyondMimic (2025)
    • データ: ○ / スキル: Tracking + Latent Diffusion / タスク: Classifier Guidance
    • arXiv
    • GitHub
    • コンパクトな報酬設計で空中側転・スピンキック・スプリント等を単一の設定で学習。先行研究で多用されてきたAMPとは異なるアプローチを採り、学習済みの追従ポリシーをLatent Diffusion Modelで潜在空間に圧縮し、テスト時にClassifier Guidanceで未見タスクに追加訓練なしで対応します。障害物回避やジョイスティック操作への汎化を、拡散モデルのテスト時誘導だけで実現した点が最大の新規性です。

  • ULTRA (2026)
    • データ: Neural Retarget / スキル: Latent Compression + RL FT / タスク: Sparse goal
    • arXiv
    • Project
    • 物理的な妥当性を保つニューラルリターゲティングで大規模MoCapを変換し、特権教師から実機向け生徒に汎用追従ポリシーを蒸留した上で、運動スキルを潜在空間に圧縮します。さらにRL微調整で想定外の状況への頑健性を高め、テスト時には「あの物体を拾え」のようなざっくりした指示からの自律制御を実現。G1実機でロボット頭部カメラからの自律ロコマニピュレーションを実証しました。

パターン5: スキルとタスクの分離

パターン4では、タスクの目標を変えるとスキルレイヤーの潜在空間も作り直しになります。両者を独立モジュールとして設計し、差し替え可能にする構成が次に登場しました。

スキルレイヤーとタスクレイヤーを分けて設計し、定義済みのインターフェース(目標座標や速度指令)だけで通信する手法群がこのパターンに属します。スキルレイヤーにはAMP(パターン3)や模倣学習で動きの自然さを保証し、タスクレイヤーで「どこにボールを打つか」などタスク固有の戦略をRLで最適化します。

パターン4ではタスクレイヤーがスキルレイヤーの内部表現(潜在空間)を知っている必要がありましたが、ここではスキルレイヤーをブラックボックスとして扱い、タスクレイヤーでは、例えば「指示した速度での移動を目指す命令が既にある」といったようにスキルの獲得を前提としてどのようにタスクを処理するかのみを考えます。
このように設計することで、タスクレイヤーは戦略を考えることに専念できます。
特にスポーツ系のタスクにおいては、身体操作と戦略のモデルを切り分けることで、それぞれのモデル設計が簡潔になるというメリットがあり、多く採用されています。

それぞれの手法の工夫は様々で、例えばLATENTは3段構成(動き追従→DAggerで生徒ポリシーに蒸留→戦略ポリシー学習)のパイプラインを持ち、Badminton HumanoidはManifold Expansion(少数の打点データを連続的な打撃空間に拡張する手法)でモーションのバリエーションを増やします。

代表的な手法の詳細とリンク

・具体的な技術名が記載されているレイヤーが主要な貢献
・○は利用しているが主要な新規性ではないレイヤー
・記載のないレイヤーは非該当/導入していない

  • Learning Agile Soccer Skills (Science Robotics 2024)
    • スキル: Multi-skill RL + Self-play / タスク: Game Strategy
    • arXiv
    • Project
    • 小型ヒューマノイド(OP3)で1対1のサッカーを実現した手法です。歩行・転倒回復・キック・ターンなどの個別スキルをまずRL訓練し、policy distillation(方策蒸留)で単一のマスターポリシーに統合した後、self-play(自己対戦)でゲーム戦略を最適化します。明示的なタスクポリシーを持つ後続のスポーツ手法とは構成が異なりますが、「スキルの獲得」と「戦略の学習」を段階的に行う枠組みを示した先駆的研究です。MuJoCo上で訓練した後、zero-shotで実機に転送しています。

  • LATENT (2026)
    • データ: ○ / スキル: Tracker + Online Distill / タスク: High-level Strategy
    • arXiv
    • GitHub
    • テニスのラリーを行う手法。Stage 1で不完全な人間テニスモーション断片からモーショントラッカーを事前訓練し、Stage 2でDAggerによりコンパクトな生徒ポリシーに蒸留、Stage 3で戦略ポリシーが打球位置・タイミングを決定し生徒を駆動します。3段パイプラインが最もクリーンで、G1実機で人間とのマルチラリーに成功しています。

  • Badminton Humanoid (2026)
    • データ: ○ / スキル: AMP + Manifold Expansion / タスク: Strike RL
    • arXiv
    • バドミントンのショットを行う手法。人間データからAMPベースのモーションプライア(自然な動きの事前知識)を構築し、コンパクトな状態表現に蒸留。少数の打点データをManifold Expansionで連続的な打撃空間に拡張してバリエーションを増やし、実機への追加訓練なし(zero-shot)転送でリフト・ドロップショットを実現しました。

  • HITTER (2025)
    • スキル: Low-level RL / タスク: Hierarchical Planner
    • arXiv
    • Project
    • 卓球のラリーを行う手法。ボール軌道予測に基づく階層プランナーが打球戦略を決定し、全身RLポリシーが実際の動きを実行する2層構成です。人間との1ラリー内で連続106打球(consecutive shots)を達成しています。

パターン6: カメラから行動列を直接生成するDiffusion Policy

最後は(記事執筆時点では)ちょっと特殊な手法です。ここまでのパターンはスキルレイヤーを土台にしてきましたが、このパターンではDiffusionモデルを用いてカメラ入力から直接関節角度の行動列を生成し、スキルレイヤーとタスクレイヤーが一体となる設計を持ちます。

スキルとタスクの連携という意味では、パターン4との違いがわかりにくいかと思いますが、パターン4では、RLで訓練したスキルレイヤーとタスクレイヤーの2つが存在し、後者が前者の「中」を操作する構成でした。一方、パターン6ではこの2つの区別自体がありません。

このパターンではDiffusion Policyがカメラ入力から直接関節角度の行動列を生成し、RLで学んだ運動スキルという中間表現を経由しません。

具体的な実現方法はそれぞれ大きく異なります。
iDP3はスキルレイヤーを持たず完全な一体型となっている一方で、FALCONは移動と操作を別々のDiffusion Policyとして訓練し、VLM(Vision-Language Model)がこれらを協調させる特殊な構成を採用しています(これはVLAではなく、RLパイプラインにVLMを組み込んだ事例です)

またDiffusion Policyはノイズから段階的にデノイズ(ノイズ除去)することで、ひとまとまりの行動列(アクションチャンク)を生成する手法です。通常のガウシアン方策(行動を正規分布の平均として1つだけ出力する方策)が「1つの正解」を出すのに対し、Diffusion Policyは「正解が複数ある状況」でも破綻しないのが強みです。まだヒューマノイド向けの事例は少ないですが、今後の発展に期待したいところです。

代表的な手法の詳細とリンク

・具体的な技術名が記載されているレイヤーが主要な貢献
・○は利用しているが主要な新規性ではないレイヤー
・記載のないレイヤーは非該当/導入していない

  • iDP3 (IROS 2025)
    • データ: Teleop / タスク: 3D Diffusion Policy
    • arXiv
    • GitHub
    • ロボット頭部カメラの3D点群をロボット自身の座標系で表現し、Diffusion Policyで行動列を生成します。ヒューマノイド(Fourier GR-1)への3D Diffusion Policyの先駆けで、ラボ内のデモだけで未見の実環境に汎化。ワールド座標系を使わないためカメラのキャリブレーションが不要です。

  • FALCON (2025)
    • データ: Teleop / スキル: Locomotion + Manipulation Diffusion / タスク: VLM Coordination
    • arXiv
    • Project
    • ロコモーションとマニピュレーションをそれぞれ専用のDiffusion Policyとして別個に訓練し、VLMがタスク文脈に応じて両者をコーディネートする「分離+協調」構成です。異なる種類のセンサ入力を1つのポリシーに無理に融合する際の性能低下を回避でき、新タスクへの拡張が容易になっています。

傾向と今後のトレンド

最後に、本記事で紹介した手法群を俯瞰してみて、感じた最近の傾向と、これからの注目技術について書いていきたいと思います。

Teacher-Student型の蒸留が普及した

HOVER、VIRAL、OmniH2O、ExBody2、PHCなど、sim-to-realを伴うほぼ全ての手法がTeacher-Student学習を採用しています。シミュレーション内の特権情報で教師を訓練し、実機で使えるセンサだけで動く生徒に蒸留するこの手法は、スキルレイヤーの訓練・転送における設計原則として、パターンを問わず広く共有されています。

模倣は目的から手段になりつつある

初期のヒューマノイドRLは「人間のモーションをいかに正確に再現するか」が中心でしたが、BeyondMimicやULTRAに見られるように、スキルレイヤーで獲得した運動能力を潜在空間に圧縮し、タスクレイヤーが未見の動きへの汎化に活用する流れが生まれています。これはパターン4(潜在空間での汎化)の核心思想であり、「模倣はゴールではなく、スキルレイヤーの土台を作るための手段」という認識が分野全体に浸透しつつあります。

sim-to-realギャップを埋めるのは残差アプローチ

ASAPはsimとrealの動きの差をデルタアクションモデルで学習してシミュレータ側を補正し、RobotDancingやMOSAICはベースポリシーの出力に小さな残差を加算して実機の挙動を補正します。Domain Randomizationだけでは越えられないギャップを、少量の実機データでピンポイントに埋めるアプローチは、シンプルながら痒いところに手が届くノウハウとなるでしょう。

スポーツタスクが統合技術の試験場になってきた

サッカー(Learning Agile Soccer Skills, Science Robotics 2024)に始まり、テニス(LATENT)、バドミントン(Badminton Humanoid)、卓球(HITTER)と、2024〜2026年にかけてスポーツタスクへの応用が急増しました。「動きの自然さ」と「ゲーム戦略」の両方が同時に要求されるため、スキルレイヤーとタスクレイヤーの分離パターン(パターン5)の実践的な検証場として機能しています。

(球技に興味のある・経験のあるエンジニアがsim-to-realを完遂できるようになってきた頃合いが最近というだけの可能性もありますね)

VLAとの融合は?

本記事のスコープ外ですが、WholeBodyVLA(ICLR 2026)は潜在アクションモデルとロコマニピュレーションRLを組み合わせ、言語指示からの全身制御を実現しました。また2026年3月に公開されたΨ₀は、人間の動画で事前学習した視覚-言語基盤モデルに少量の実機データで追加訓練を行うアプローチを採り、オープンソースで公開されています。本記事で紹介したRLベースの運動スキルと、VLAベースの高次意思決定の融合を、誰がどんなクオリティで完成させるか、注目です。

最後に

GMOインターネットグループでは、Unitree社製のヒューマノイドG1を使って実際に学習・開発ができるインターンシップを開催しています!

ヒューマノイドロボット「G1」を使った AI・ROBOTICS INTERNSHIP

ご応募をお待ちしております!

AI・ロボティクス インターンシップ

ブログの著者欄

真次彰平

GMOインターネットグループ株式会社 グループ研究開発本部 AI研究開発室

GMOインターネットグループにてエキスパートとして活動中。 巡回ロボットを用いた新規物体検出、およびヒューマノイドにおける強化学習を用いたモーションの獲得に関する研究に従事しております。

採用情報

関連記事

KEYWORD

TAG

もっとタグを見る

採用情報

SNS FOLLOW

GMOインターネットグループのSNSをフォローして最新情報をチェック