RESEARCH

現実世界で働く知能やロボットを実現する研究を進めています。

物理AIのための学習技術

Dexterous タスク学習のための模倣学習・強化学習

模倣学習は、人がロボットにお手本の動きを見せるだけで作業を教えられるため、特別なプログラミングなどが不要です。たとえば、人がバナナをつかんで持ち上げる様子を示せば、ロボットも同じ作業を行えるように学習します。そのため、専門知識がなくてもロボットを導入しやすく、身近な作業から使い始められることが期待されています。
本チームでは、こうした模倣学習を発展させ、GPTのような言語モデルを用いて、少数の実演から作業の意図を理解し、信頼できる動作軌道を生成する研究に取り組んでいます。

トレイ上の物を運ぶ・転がす・投げるような素早く複雑に動く作業は、人が正確にお手本を見せることが非常に難しいです。そこで私たちは人によるお手本に頼らずにロボットを学習させられる強化学習にも注目しています。
強化学習は、ロボットが試行錯誤しながら自分で動作を覚えていく方法で、複雑な動きを習得するのに適しています。シミュレーションで様々な条件を変えながら学ばせると、現実のロボットもそのまま安定して動くゼロショット転移の成果が得られます。
研究では、物を掴まずに操作する(A)運搬作業、(B)向き調整、(C)投てきを実演しており、今後もより多様な作業に対応することを目指しています。

学習のスケール化

近年、言語や画像を扱うAIの領域は、「基盤モデル」と呼ばれるAIモデルの登場によって大きく進歩しました。基盤モデルは、インターネット上などにある膨大なデータから学ぶことで、これまでのAIよりも多くの問題を解けるようになっています。この流れは、ロボットの分野にも広がっています。人間が集めた沢山の経験やデータから学んだ「ロボット基盤モデル」を使うことで、決まった作業だけでなく、状況に合わせて柔軟に動き、さまざまな仕事をこなせる器用なロボットの実現が期待されています。
私たちのチームは、異なる専門性を持つメンバーが協力しながら、「実際の産業現場で本当に役に立つロボット技術」を意識した研究・開発を進めています。

人作業・人協働データの活用

現場では、ロボットが一方的に賢くなるだけではなく、人に合わせて学び、働く能力が不可欠です。例えば協働作業では、人の動きから次の意図を予測し、危険な接近を避けつつ物を受け渡したり、重いものを支えます。
骨格情報など人由来のセンサ情報を取り込む学習モデル開発や、人やロボットの動きの予測結果を伝える説明可能性について研究しています。​

データ収集技術

シミュレーションによる経験拡張

シミュレーションには現実世界で取得することができない情報を取得できるという利点があります。また、現実に存在しない状況も含めて多様な環境条件のシーンを作ることもできます。このようなシミュレーションの特性を利用したロボットの認識や物体操作の学習手法を研究しています。
一つの例として視覚からシーン中の物体に働く力の予測があります。シミュレーションの仮想経験で学習したモデルを用いることで実世界において計測が困難な重なる物体に働く力の予測が可能になります。力は物体運動を決める重要な要因であり、これを予測できることで様々なタスクへの応用可能性が拓けます。

視覚から物体の柔らかさを推定

物体を把持する時はその物理特性を考慮して把持方法を決定する必要があります。特に柔らかさは重要であり、変形を考慮していないことで壊してしまうことや把持に失敗する可能性があります。
そこで我々は物体に触れることなく柔らかさを考慮した把持を実現する手法を開発しています。触覚の経験は視覚にも紐づいていることから、視覚のみから推定することにより、触覚センサがなく、把持力の制御が困難なロボットハンドでも柔軟物体をさまざまなシーンで適切に把持できるようになります。

実データからのhigh-fidelityな環境構築

デジタルツインとは、店舗・住宅・工場・物流施設などの実環境を、写真のようなリアルさと物理的な正確さを兼ね備えた3Dモデルとして再現する技術です。近年では、専用機材を使わなくても、スマートフォンで撮影した動画から高精度な3Dスキャンを生成できる技術が広く利用可能になってきました。撮影映像を解析してカメラの位置や向き、空間の立体構造を同時に推定し、得られたデータを基に最新の「3D Gaussian Splatting」を用いることで、自由な視点から滑らかで高品質な三次元表示を実現します。
こうして再現したデジタル空間や物体は、インタラクティブなロボットシミュレーションにも活用でき、私たちは NVIDIA Omniverse や Isaac Sim などのツールと組み合わせながら、強化学習・模倣学習・ROS/MoveIt による制御といった多様な技術の検証と開発を進めています。現実に近い環境で安全かつ効率的に試行錯誤できることは、ロボットの能力向上だけでなく、実環境での作業設計や検証の質を高めるうえでも大きな利点です。

身体性を有するデータ収集のためのデバイス・システム設計

進化は生物が生存に不可欠な多様な作業を単一のエンドエフェクタ(手)で実行するための最適な戦略を示してきました。
そのため、生物(特に人間)に見られる構造や働きから着想を得る「生体模倣(bio‑inspiration)」は、ロボット機構の設計・制御において長年にわたり有効なアプローチとして位置づけられています。
組み立て・分解・物体操作といった複雑な作業に取り組む際には、自然界の仕組みに基づく学習性・適応性を備えたアプローチが重要となります。

このトピックでは、多様な作業シナリオにおいて高い効率性と適応性を発揮する、生物模倣型エンドエフェクタの開発を目指しています。そのために、生物が持つ機械的特性・感覚特性(センシングの仕組み)をロボットに模倣させ、後続の学習プロセスを通して 似た作業能力を再現できるようにする 取り組みを進めています。

ロボット基盤モデルや模倣学習モデルを構築するためにはデータの質が重要でその収集方法を工夫する必要があります。
遠隔操作型やリーダーフォロワー型が開発、利用されていますが直感性やスケールアップに課題があります。これを解決するために、ハンド型のデバイスで開閉動作を行うことのみで質の高くスケールアップが容易なデバイスを開発しています。
ハンドの開発に加えて、人の手でより直感的に操作可能にするインターフェースを構築することが必要です。加えて、デバイスの姿勢追跡やマルチモーダルなデータを同時に収集できるなど1つのシステムとして構築することが求められます。

モデル評価技術

物理AI評価のためのベンチマーク設計

AIを搭載したロボットの研究開発においては、器用さや未知物体への対応能力など、ロボットが直面する個々の課題を多角的に評価し、その結果をもとにシステムを継続的に改善していくことが重要です。近年では、こうした能力を高めるために多様で豊富なデータを活用してAIを強化するアプローチが主流となっており、国際的にもデータの質や量が大きな注目を集めています。
私たちのチームでは、多様なロボットリソースを活用し、双腕ロボットの操作学習やAI評価のために設計した大規模データセットを公開しています。本データセットには、100種類以上の操作タスクにまたがる10,000エピソード以上の実データが含まれており、基本的なピックアンドプレースから複雑な組み立て作業、協調的な双手操作まで、多様なシナリオを網羅しています。このような多様なデータに基づく開発・評価は、どのような環境でも安定して動作できる“ユニバーサル”ロボットシステムの実現に向けて不可欠です。
私たちは、データセットの公開を通じて、ロボット研究コミュニティ全体の評価・改善サイクルを促進し、より汎用性の高いロボットシステムの実現に貢献していきます。