GMOインターネットグループ株式会社の藤間裕史です。先日、AMD 主催の Open Robotics Hackathon に参加し、最優秀賞を獲得しました!この記事では、怒涛の日々を赤裸々に語るとともに、◆どんなハッカソンだったのか◆なにを開発したのか◆AIロボット技術がどこまで来ているのか紹介します。AIロボットの「今」と、日本での盛り上がりを少しでも感じてもらえたら嬉しいです。
🚀 ハッカソン概要
AMD Open Robotics Hackathon
本ハッカソンは、AMD主催(Hugging Faceも共催)した AIロボット(特にVision-Language-Actionモデル)に特化した実践型ハッカソンです。
特徴的だったのは、実用性の視点でAIロボットを設計し、学習~一連のデモまで作りきる形式だという点です。
開催期間:3日間(12/5 - 7)開催場所:東京・秋葉原(フランス・パリ、アメリカ・サンノゼでも開催)参加対象:学生・研究者・エンジニアなど
なにより大変だった点として、なんと「国際ロボット展と丸被り」でした。
そのため開催期間は、昼は展示会対応、夜はハッカソン会場で朝まで作業の毎日でした。(※自分にとっては、ロボまみれで最高の日々)
いい意味で異質だったGMO AIRのブース
🧰 支給された技術スタック
項目内容学習環境AMD Instinct™ MI300X GPU(AMD Developer Cloud)推論実行AMD Ryzen™ AI 搭載ノートPC(現地支給)ロボットキットSO-101 Robotics Kit AI学習フレームワークHugging Face LeRobot
展示会でも使用された、約5万円で作れるロボアーム「SO-101」
🤖 私たちが作ったもの
「ドーナッツ箱詰めAIロボット」
私たちが開発したのは、 「Vision-Language-Action(VLA)モデルをファインチューニングし、ドーナッツの箱詰め作業に特化させたAIを組み込んだロボット」です。
VLAモデルは、「カメラ画像+プロンプトをもとに、ロボットの動作を出力するAIモデル」です。
このモデルを自前で集めたデータで学習させ、ドーナツショップ店員に改良しました。
https://youtu.be/vXm35VEmv4U?si=Z6Kib7bQ0DyOsLwh
実際のデモ
🔄 システム全体の流れ
画面表示、AIモデル推論、モデル切替を含めたAIロボットシステムとして設計しました。
🧠 技術的なポイント
ロボットに動きを教えるためにまず、データを集めます。
遠隔操作でロボットを動かし、以下データを、それぞれ30データずつ集めました。
学習内容エピソード数(≒データ数)チョコドーナッツ箱詰め30イチゴドーナッツ箱詰め30箱を閉める動作30合計90
そして、小規模なVLAモデル「SmolVLA」をベースにして、集めたデータで学習させます。
タスクごとにAIモデルを分け、
❶ドーナッツを箱に詰めるモデル
❷箱を閉めるモデル
モデルの最後に「ベルを鳴らす」動作を含めることで「ロボ自らで制御するモデルを切り替える」仕様になっています。
🏆 なぜ評価されたのか(振り返り)
① 完成度
そもそものデモの完成度が高かったです。この難易度のタスクだと、数回中一回成功すればよいくらいですが、ほぼ100%に近い精度で動かすことができました。(メンバーのタスク選定と環境整備のセンスが光ってました。)
② 実利用を想定したUI・UX設計
単なるデモではなく、実際の店舗で使われることを想定したUIと操作フローを設計しました。ロボットの状態が画面上で分かる構成にした点も、デモとして伝わりやすかったと感じています。
③ チームでの進め方
役割分担して、得意な部分を作業しました。3日間という制約を最大限活かせました。(チームメンバーにも本当に恵まれました、ありがとうございました🙏)
優勝の瞬間。電撃が走りました。
🧾 おわりに
今回のハッカソンを通して、 Vision-Language-ActionモデルをはじめとするAIロボット技術の発展スピードに驚かされると同時に、実用を想定した実装の大切さを改めて学びました。
この経験を、インターネット革命後半戦「AIロボティクス」の時代に存分に活かしていきます。
最後に、GMOインターネットグループでは、こうした先端的なAIロボット技術にも積極的に取り組んでいます。もしご興味がある方がいれば、ぜひ共に次の時代を創っていきましょう!