『株式会社ずんだもん技術室AI放送局 podcast 20250717』のカバーアート

株式会社ずんだもん技術室AI放送局 podcast 20250717

株式会社ずんだもん技術室AI放送局 podcast 20250717

無料で聴く

ポッドキャストの詳細を見る

このコンテンツについて

関連リンク R²D²: Training Generalist Robots with NVIDIA Research Workflows and World Foundation Models NVIDIAが、ロボットが新しいタスクを効率的に学習するための画期的な研究成果を発表しました。これまでは、ロボットに新しい動作を教えるには、大量のデータを集めて一つずつラベル付けする手間がかかっていました。この課題に対し、NVIDIAは「生成AI」や「ワールドファウンデーションモデル(WFMs)」、そして「合成データ生成」という最先端技術を活用することで、ロボットの学習を劇的に効率化しようとしています。 この研究の核となるのが、ロボットが未来の状況を予測し、リアルなトレーニングデータを自動で生成できる「NVIDIA Cosmos」のようなWFMsです。これにより、数ヶ月かかっていた開発期間がわずか数時間で済むようになります。 特に注目されるのが「DreamGen」という合成データ生成パイプラインです。これは、WFMsを使って、人間が手作業で集める手間をかけずに、現実的で多様なトレーニングデータを作り出す技術です。DreamGenで生成されたデータは、ロボットの賢さを測る「DreamGen Bench」という基準で評価され、スコアが高いほど実際のロボットの性能も向上することが確認されています。この技術をベースにした「NVIDIA Isaac GR00T-Dreams」を使えば、ロボットの行動学習に必要な大量のデータを効率的に用意できます。 さらに、NVIDIAは汎用的なロボットを実現する「GR00T N1」というオープンファウンデーションモデルを開発しました。これは、人間の認知能力にヒントを得て、視覚、言語、行動を統合することで、ロボットが複雑な指示を理解し、多段階のタスクを実行できるようにします。「GR00T N1.5」は、このGR00T N1の改良版で、実世界のデータ、シミュレーションデータ、そしてDreamGenで生成した合成データを組み合わせて訓練することで、より高い成功率と幅広いタスクへの対応力を実現しています。驚くべきことに、GR00T N1.5のアップデートは、手動でのデータ収集なら約3ヶ月かかるところを、合成データを活用することでわずか36時間で完了したとのことです。 また、「Latent Action Pretraining from Videos(LAPA)」という技術も発表されました。これは、インターネット上のラベルなし動画を大量に利用して、ロボットの行動を自動で学習させる方法です。これにより、高コストな手動ラベリングが不要になり、効率的なロボット学習が可能になります。 「Sim-and-Real Co-Training」という手法は、ロボットの学習における「リアリティギャップ」を埋めるものです。少量の現実世界のデータと大量のシミュレーションデータを賢く組み合わせることで、シミュレーションで訓練したロボットが実際の環境でも安定して動作できるようになります。この手法は、データ収集のコストを抑えつつ、ロボットの頑丈な動作を可能にします。 これらのNVIDIAの研究成果は、すでにAeiRobot、Foxlink、Lightwheel、NEURA Roboticsといった企業で活用され始めており、産業用ロボットやヒューマノイドロボットの開発を加速させています。今回の発表は、AIとロボティクスの未来を大きく変える可能性を秘めた、非常に重要な一歩と言えるでしょう。 引用元: https://developer.nvidia.com/blog/r2d2-training-generalist-robots-with-nvidia-research-workflows-and-world-foundation-models/ Gemini Embedding now generally available in the Gemini API Googleは、Gemini APIで新しいテキスト埋め込みモデル「gemini-embedding-001」の正式リリースを発表しました。このモデルは、私たちが普段使う「文章」や「単語」といったテキスト情報を、AIが理解し計算しやすい「数値の並び」(これを「埋め込み」と呼びます)に変換するための技術です。AI開発において、この埋め込みを使うことで、テキストデータの中から関連性の高い情報を素早く探し出したり、文章の意味を理解して分類したり、質問に自動で答えるシステムを構築したりと、AIが賢くテキストを扱うための土台となります。 「gemini-embedding-001」の最も大きな特徴は、その非常に高い性能です。テキスト埋め込みモデルの国際的な評価基準である「MTEB Multilingualリーダーボード」で、常にトップクラスの性能を維持しています...

株式会社ずんだもん技術室AI放送局 podcast 20250717に寄せられたリスナーの声

カスタマーレビュー:以下のタブを選択することで、他のサイトのレビューをご覧になれます。