エピソード

  • 株式会社ずんだもん技術室AI放送局 podcast 20250729
    2025/07/28
    関連リンク Claude Codeにカスタムサブエージェント機能が登場 ―複数のサブエージェントによるタスク特化の「エージェントチーム」を作成可能に gihyo.jp Anthropicが提供するコーディングAIツール「Claude Code」に、新しい機能「カスタムサブエージェント」が追加されました。これは、AIによるソフトウェア開発をより効率的で高度なものに変える可能性を秘めた、エンジニアにとって注目の機能です。 カスタムサブエージェントとは、特定の作業に特化した、いわば専門家のようなAIアシスタントです。それぞれが明確な目的と専門分野を持ち、他の作業に邪魔されない専用の作業スペース(コンテキストウィンドウ)でタスクに集中できます。また、使うことを許可された特定のツールだけを設定したり、具体的な指示(カスタムシステムプロンプト)を与えて動作を細かくガイドすることもできます。 この機能の最大の魅力は、複数のサブエージェントを組み合わせることで、まるで人間で構成された開発チームのように協力し合って、複雑な課題を解決できる点です。例えば、あるサブエージェントにコードのパフォーマンス問題を解析させ、その結果を別のサブエージェントに渡して修正を依頼するといった、タスクの連携が可能になります。 さらに、この考え方を応用して、実際の開発チームのような「エージェントチーム」を作り出すこともできます。例えば、以下のような役割を持つサブエージェントを連携させれば、開発プロセス全体をよりスムーズに進めることができます。 ソフトウェアアーキテクト: 機能設計を支援し、システムの骨組みを考えるAI。コードレビュアー: 書かれたコードに問題がないか確認し、改善点を提案するAI。QAテスター: ユニットテストやコードの検査を行い、バグの修正案まで作成するAI。 このように役割を分担することで、開発の効率が大幅に向上することが期待されます。 サブエージェントは、自分でゼロから作ることも、Claude Codeに提案させてから自分たちのプロジェクトに合わせてカスタマイズすることも可能です。作成・カスタマイズしたサブエージェントの設定はファイルとして保存されるため、プロジェクトごとに利用したり、全ての作業でいつでも呼び出したりできます。Claudeが自動的に最適なサブエージェントを選んで使うこともあれば、エンジニアが明示的に呼び出すことも可能です。 この機能を使うには、Claude Codeのプロンプト入力欄に/agentsと入力するだけで、利用可能なツールが一覧で表示され、必要なものを簡単に選んでサブエージェントに割り当てることができます。 カスタムサブエージェント機能の登場は、AIが単独でコードを書くというよりも、私たちエンジニアの良き「チームメイト」として、より複雑な開発タスクを強力にサポートしてくれる未来が近づいていることを示しています。新人エンジニアの皆さんにとっても、AIとの新しい協業の形を学ぶ良い機会になるでしょう。 引用元: https://gihyo.jp/article/2025/07/claude-code-sub-agents Six Principles for Production AI Agents AIエージェント(AIが自分で考えて行動するプログラム)を実際のシステムで安定して動かすには、いくつかの重要な考え方があります。この記事では、特に新人エンジニアの皆さんがAIエージェント開発でつまずきがちなポイントを解決するための、実践的な6つの原則が紹介されています。 プロンプトは明確に、詳細に: 大規模言語モデル(LLM)は、あいまいな指示だと混乱しやすいです。「頑張って」のような指示ではなく、「この情報から、この形式で、こんな結果を出してほしい」のように、具体的で矛盾のない指示を出すことが大切です。特別な「ごまかし」は不要で、LLM提供元のガイドラインに従いましょう。 必要な情報だけを渡す: LLMに与える「コンテキスト(背景情報)」は、少なすぎると間違った答えを出し、多すぎるとコストが増え、重要な情報を見落とすこともあります。最初は必要最低限の情報だけを与え、エージェントが必要だと判断したら、ツールを使って追加情報を取得させる仕組みにすると効果的です。例えば、...
    続きを読む 一部表示
    1分未満
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250728
    2025/07/27
    関連リンク Build More Accurate and Efficient AI Agents with the New NVIDIA Llama Nemotron Super v1.5 NVIDIAが、AIエージェントの精度と効率を大幅に向上させる新しい大規模言語モデル(LLM)「NVIDIA Llama Nemotron Super v1.5」を発表しました。このモデルは、AIがより賢く、そしてスムーズに動くための重要な進化を遂げています。 AIエージェントとは、まるで人間のアシスタントのように、自分で考えて計画を立て、複雑なタスクを自律的に実行できるAIシステムのことです。例えば、会議のスケジュール調整から、データ分析、プログラミングまで、幅広い業務を任せられる将来が期待されています。 この「Llama Nemotron Super v1.5」は、特にAIエージェントが「推論」を行う能力を強化しています。推論とは、与えられた情報から論理的に答えを導き出す能力のことで、具体的には、複雑な数学の問題を解いたり、科学的な問いに答えたり、正確なコードを生成したり、指示を的確に理解して実行したり、自然な会話を続けたりといったタスクが含まれます。 従来の「Llama Nemotron Ultra」の効率的な基盤を引き継ぎつつ、さらに「高信号な推論タスク」に特化した新しいデータで追加学習(ポストトレーニング)されているのが大きな特徴です。これにより、多段階の思考が必要な複雑なタスクや、外部ツールを組み合わせて使うような場面で、他のオープンモデルに比べて高い精度を発揮します。 さらに、AIの処理速度である「スループット」も大幅に向上しています。これは「ニューラルアーキテクチャ探索」といった最先端の技術を使ってモデルを効率化した結果で、同じ計算資源と時間で、より多くの処理を高速に行えるようになりました。つまり、より高度な推論を、より低い運用コストで実現できるということです。なんと、単一のGPUでも動作するように設計されており、導入のハードルも低くなっています。 この最新のモデルは、すでにNVIDIAの「build.nvidia.com」や「Hugging Face」から試したり、ダウンロードしたりすることが可能です。AIエージェント開発に興味がある新人エンジニアの皆さんにとって、このLlama Nemotron Super v1.5は、AIが自律的に行動する未来を切り開く、非常に重要なツールとなるでしょう。ぜひ最新の技術に触れてみてください。 引用元: https://developer.nvidia.com/blog/build-more-accurate-and-efficient-ai-agents-with-the-new-nvidia-llama-nemotron-super-v1-5/ Introducing Opal: describe, create, and share your AI mini-apps Google Labsから、AIの力を活用した「ミニアプリ」を簡単に開発・共有できる、実験的な新ツール「Opal」が発表されました。これは、プログラミングの専門知識がないエンジニアや、AIのアイデアを形にしたいと考えている方々にとって、まさに「コード不要」でAIアプリケーションを構築できる画期的なツールです。 Opalの核となる機能は、AIモデルへの「指示(プロンプト)」や様々な「ツール」を組み合わせ、一連の作業の流れ(ワークフロー)として視覚的に構築できる点にあります。例えば、「特定のテーマに関する情報を検索し、その結果を要約して、さらにメールを作成する」といった複雑なタスクも、自然な言葉でOpalに指示するだけで、視覚的なワークフローとして自動的に組み上げてくれます。これにより、会議の議事録作成支援やデータ分析の自動化、顧客対応の効率化など、日々の業務を助けるカスタムAIアプリを気軽に作れるようになります。 このツールは、単にアプリを作るだけでなく、作成過程での「編集のしやすさ」も重視しています。一度作ったワークフローも、会話型AIに話しかけるように変更を指示したり、ビジュアルエディタでブロックをドラッグ&ドロップしたりする直感的な操作で、簡単に修正や機能追加が可能です。これにより、思いついたアイデアを素早く試行錯誤し、実際に動作するプロトタイプとしてすぐに検証できるため、AIを活用した開発のサイクルを大幅に加速させることができます。 完成したAIミニアプリは、他のGoogleアカウントを持つユーザーと簡単に共有することが可能です。これにより、個人での生産性向上はもちろんのこと、チーム内でのAIを活用した新...
    続きを読む 一部表示
    1分未満
  • 私立ずんだもん女学園放送部 podcast 20250725
    2025/07/24
    関連リンク 複数のGemini CLIが同時開発する狂気 - Jujutsuが実現するAIエージェント協調の新世界 この資料は、複数のAI(人工知能)エージェントが同時にプログラム開発を行う、未来の働き方について解説しています。特に、Googleが開発した新しいバージョン管理システム「Jujutsu(ジュジュツ)」が、この「狂気」とも言える並列開発をどのように実現するのかがテーマです。 従来のGitのようなバージョン管理システムでは、複数の変更が重なると「マージコンフリクト(ファイル競合)」が発生し、解決まで作業が停止します。人間開発でも課題ですが、AIエージェントが自動で開発を進める場合、コンフリクトは大きなボトルネックとなり、効率を大幅に下げます。現在のAIエージェントは作業を順番に進める必要があり、これが限界でした。 そこで注目されるのが、Googleの長年の大規模開発経験から生まれた次世代VCS「Jujutsu」です。Jujutsuの最大の特徴は、「コンフリクトをファーストクラスに扱う」という概念です。これは、ファイルが競合した状態でも、そのコンフリクト自体をデータとして保存し、作業を止めずに先に進めることを可能にします。これにより、複数のAIエージェントが同じコンフリクトを認識しつつ、それぞれの担当部分を並行して解決できる、柔軟な協力体制が築けます。 例えば、バックエンド、フロントエンド、テスト担当の各AIエージェントが同時に作業中に競合が発生しても、Jujutsuは作業を停止させません。コンフリクトを保存したままコミットできるため、後からまとめて解決したり、他のエージェントと協力したりできます。Gitの「ステージングエリア」がない点も、AIが自動で変更を扱う際に混乱を避けられるメリットです。 JujutsuとAIエージェント(特にGemini CLI)の組み合わせは、開発生産性を劇的に向上させると期待されています。具体的には、セットアップ時間が90%削減、コンフリクト解決時間が95%削減され、全体の開発速度が10倍以上向上する可能性が示唆されています。これは、はるかに速く効率的にソフトウェアを開発できるようになることを意味します。 Jujutsuは、AIエージェントの特性(ステージングの混乱なし、自動スナップショット、コンフリクト耐性)と非常に相性が良いとされています。将来的には、100を超えるAIエージェントがそれぞれ専門分野に特化し、Jujutsuを介してシームレスに協力しながら、巨大なプロジェクトを進める世界が描かれています。AIが開発の「チームメンバー」として機能する、新しい開発スタイルが現実のものとなりつつあることを示唆する、非常に興味深い内容です。 引用元: https://speakerdeck.com/gunta/fu-shu-nogemini-cligatong-shi-kai-fa-surukuang-qi-jujutsugashi-xian-suruaiezientoxie-diao-noxin-shi-jie 【Claude Code】メモリ管理と効率的な開発手法~AI を活用した次世代コーディング~ ** Claude Codeは、Anthropicが開発したAIコーディング支援ツールで、コードを理解し、開発を加速させます。新人エンジニアの方も、このAIをパートナーとして活用することで、効率的に開発を進められます。 AIがプロジェクトの情報を「記憶」するために、CLAUDE.mdファイルが重要です。このファイルには、プロジェクト全体の設定や個人の開発環境、共通設定などを記述でき、AIがプロジェクトのコンテキストを深く理解し、的確なサポートを提供できるようになります。 Claude Codeは、テストコードの自動生成、コードのリファクタリング(改善)、ドキュメント作成といった繰り返しの作業を自動化し、エンジニアはシステムの設計や複雑な問題解決など、より創造的な業務に集中できます。また、Gitのworktree機能とAIを組み合わせることで、一つのプロジェクト内で複数の機能を効率的に並行開発することも可能です。これにより、AIが各タスクに集中でき、開発効率が向上します。 AIが生成するコードの品質を保つためのベストプラクティスも重要です。コードの見た目を整え、間違いを見つける『フォーマッター』や『リンター』を開発初期から導入しましょう。『テストを先に書き、それを通す最小限のコードを書き、その後にコード...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250724
    2025/07/23
    関連リンク FastVLM: Efficient Vision Encoding for Vision Language Models この研究記事は、Appleが開発した新しいAIモデル「FastVLM」について紹介しています。FastVLMは、画像とテキストを組み合わせて理解する「Vision Language Models(VLM)」の長年の課題を解決するものです。 VLMは、画像の詳細を理解するために高解像度の画像を処理することが重要です。例えば、道路標識の小さな文字を読み取ったり、書類の内容を分析したりする際に、解像度が高いほどAIの認識精度は向上します。しかし、これまでのVLMでは、高解像度の画像を処理しようとすると、AIが最初の回答を生成するまでの時間(「Time-to-First-Token」、TTFTと略されます)が大幅に長くなるという問題がありました。これは、画像をAIが理解できる形に変換する部分(「ビジョンエンコーダ」)の処理に時間がかかりすぎたり、変換されたデータ(「ビジュアルトークン」)が多くなりすぎて、次にテキストを処理する大規模言語モデル(LLM)の負荷が増えたりするためです。特に高解像度になるほど、ビジョンエンコーダがボトルネックとなることが課題でした。 FastVLMは、この「精度を上げると遅くなる」というトレードオフを劇的に改善しました。その鍵となるのが、新しく設計されたビジョンエンコーダ「FastViTHD」です。FastViTHDは、従来の画像処理技術である「畳み込みニューラルネットワーク(CNN)」と、最近のAIモデルで使われる「Transformer」の良いところを組み合わせた「ハイブリッドアーキテクチャ」を採用しています。これにより、高解像度の画像を効率的に処理しながら、AIが理解するための「高品質で少ない数のビジュアルトークン」を生成できるようになりました。結果として、LLMの処理負荷も軽減され、全体の応答速度が向上します。 様々な実験により、FastVLMの優位性が示されています。既存の多くのビジョンエンコーダや、画像を効率的に処理しようとする他の手法(「トークン剪定」や「ダイナミックタイリング」など)と比較しても、FastVLMは高い精度を保ちつつ、応答速度で大幅に優れていることが確認されました。例えば、同じくらいのサイズの他の人気VLMと比べると、最大で約85倍も高速でありながら、より高い精度を実現しています。 FastVLMの技術は、リアルタイムで画像を理解する必要があるアプリケーションや、プライバシー保護のためにユーザーのデバイス内でAIを動かす「オンデバイスAI」に特に適しています。Appleは実際に、FastVLMがiPhone上でほぼリアルタイムに動作するiOS/macOS向けのデモアプリも公開しており、その実用性を示しています。 このFastVLMは、VLMの応用範囲を大きく広げる可能性を秘めており、今後様々な場所で活用されていくことが期待されます。 引用元: https://machinelearning.apple.com/research/fast-vision-language-models kimi-k2-instruct Model by Moonshotai NVIDIA NIM AIモデル利用のためのプラットフォーム「NVIDIA NIM」に、最先端の新しい大規模言語モデル(LLM)である「kimi-k2-instruct」が追加されました。このモデルはMoonshotai社が開発したもので、現在プレビュー版として公開されています。 「kimi-k2-instruct」は、「Mixture-of-Experts(MoE)」という最新のアーキテクチャを採用したオープンなモデルです。MoEは、複数の異なる専門分野を持つAI(「エキスパート」)を組み合わせて処理を行うことで、より効率的かつ高性能な結果を出すことができる技術として、近年特に注目されています。このモデルは、複雑な推論(Reasoning)能力、プログラミングコードの生成や理解といったコーディング(Coding)能力、そして自律的にタスクを遂行するエージェント機能(Agentic Capabilities)において、非常に高い性能を持つとされています。 新人エンジニアの皆さんにとって、このような最先端のLLMがNVIDIA NIMのようなプラットフォームで手軽に試せるようになることは、AI開発の可能性を実感する良い機会です。実際にウェブ上でこのモデルを動かし、温度(Temperature)やTop Pなどのパラメータを調整しながら、その出力の特性や挙動を試すことができます。これにより、LLMがどのように動作し、どのような調整が可能か、実践的...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250723
    2025/07/22
    関連リンク Gemini 2.5 Flash-Lite is now stable and generally available Googleは、最新のAIモデル「Gemini 2.5 Flash-Lite」の安定版を一般公開しました。これは、GoogleのGemini 2.5モデルファミリーの中で、最も高速で、かつ最も低コストなAIモデルです。AI開発の現場で「費用対効果(インテリジェンス・パー・ドル)」を最大限に高めることを目指して作られ、特に返答速度が重要な翻訳や分類のようなタスクにぴったりです。 この「Gemini 2.5 Flash-Lite」の主なポイントは以下の通りです。 クラス最高のスピード: 従来の2.0 Flash-Liteや2.0 Flashモデルよりも、幅広いタスクでより低い遅延(レイテンシー)を実現しています。つまり、処理がより速いということです。非常に高い費用対効果: 入力トークン100万個あたり0.10ドル、出力トークン100万個あたり0.40ドルという、これまでの2.5モデルの中で最も低価格です。さらに、音声入力の価格も以前より40%削減され、大量のリクエストを低コストで処理できます。賢くてコンパクト: モデル自体はコンパクトながらも、プログラミング、数学、科学、推論、そして画像や動画などのマルチモーダルな理解能力において、幅広い分野で高い品質を示しています。充実した機能: 100万トークンという非常に長い文章を一度に扱える(コンテキストウィンドウ)、AIの思考プロセスを制御できる「思考予算」、Google検索と連携する「Grounding with Google Search」、コード実行機能、URLの内容を理解する機能など、開発に役立つ様々な機能が備わっています。 すでに多くの企業がこのモデルを活用し、素晴らしい成果を出しています。例えば、Satlytは衛星データの処理速度を45%向上させ、消費電力を30%削減しました。HeyGenはAIを使って動画の企画を自動化し、180以上の言語への動画翻訳を可能にしています。DocsHoundは製品デモ動画から数千枚のスクリーンショットを素早く抽出し、ドキュメント作成やAIエージェントのトレーニングデータ生成を効率化しています。EvertuneはAIモデルにおけるブランド表現の分析を高速化し、クライアントにリアルタイムな洞察を提供しています。 Gemini 2.5 Flash-Liteは、Google AI StudioやVertex AIで「gemini-2.5-flash-lite」という名前を指定することで、すぐに使い始めることができます。コストと性能のバランスが取れたこのモデルは、皆さんの今後のAI開発に大きな可能性をもたらすでしょう。 引用元: https://deepmind.google/discover/blog/gemini-25-flash-lite-is-now-ready-for-scaled-production-use/ Pioneering an AI clinical copilot with Penda Health AI技術、特に大規模言語モデル(LLM)は、医療の質向上に大きな可能性を持っています。しかし、AIの能力と実際の現場での活用には「モデルと実装のギャップ」という課題があります。この課題解決のため、OpenAIはケニアのPenda Healthと共同で、医師向けのAIコパイロット「AI Consult」を開発し、その導入効果を研究しました。 AI Consultは、GPT-4oを基盤としたAIアシスタントです。医師が患者の診察中に記録を入力すると、AI Consultはリアルタイムで潜在的な診断や治療のエラーを検出し、医師にフィードバックします。これは、医師の最終判断を尊重しつつ、見落としを防ぐ「セーフティネット」として機能します。 約4万件の患者診察データを対象とした大規模な研究の結果、AI Consultを導入した医師グループでは、導入しなかったグループと比較して、診断エラーが16%減少、治療エラーが13%減少という顕著な効果が確認されました。このデータは、AIが医療現場で具体的な成果を上げ、患者ケアの質を向上させることを明確に示しています。 この成功には三つの重要な要因がありました。一つ目は、GPT-4oのような「高性能なAIモデル」を活用したこと。二つ目は、医療現場のワークフローにシームレスに溶け込むよう「臨床現場に合わせた設計」を行ったこと。そして三つ目は、医師がAI Consultを効果的に活用できるよう、トレーニングやコーチング、インセンティブ付与といった「積極的な導入支援」を徹底したことです。 今回の事例は、AIが医療分野で大きな価値を生み出す可能性を示唆しています。新人エンジニアの皆さんにとって、システム開発において...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250722
    2025/07/21
    関連リンク 【Kiroだけじゃなかった!AWSがAIインフラ続々リリースして凄すぎたので緊急整理🔥】AWSがAIエージェント開発の「実験→本番」への難題を解決!AgentCoreで誰でも本格的なAIエージェントを動かせる時代に突入 AWS Summit NYC 2025で発表された「Amazon Bedrock AgentCore」は、これまで「デモ止まり」だったAIエージェントを、企業で実用的に使えるレベルへ引き上げる画期的なサービスです。 これまでのAIエージェント開発は、プロトタイプは簡単でも、セキュリティ、多数のユーザーが同時に使うための拡張性(スケーラビリティ)、過去の会話を覚える記憶機能、そして予測が難しい動的な動作の管理といった課題があり、本番環境への導入が困難でした。 AgentCoreは、これらの課題を解決するために7つの主要な機能を統合しています。 Runtime: AIエージェントを最長8時間連続で動かせ、何千人ものユーザーが同時にアクセスしても自動で対応し、問題が起きても自動で復旧します。Memory: 人間のように短期記憶と長期記憶を自動で切り替え、複数のエージェント間で情報を共有できます。開発者が記憶管理を意識する必要がありません。Identity: 各エージェントに固有の身分証明書を与え、細かくアクセス権限を設定できるため、セキュリティも安心です。Browser: 人間のようにWebサイトを自動で操作し、情報収集やフォーム入力などを安全に行えます。Gateway: 既存の社内システム(SaaSやデータベースなど)とAIエージェントを簡単に連携させ、API操作を自然言語で行えるようになります。Observability: エージェントの全ての行動を記録し、なぜその判断をしたのかが可視化されるため、予期せぬ動作にも迅速に対応できます。 さらに、AgentCore以外にも、AIの記憶容量を劇的に安くする「S3 Vectors」(ストレージコスト90%削減)や、Webサイト操作を人間と同レベルで行う「Nova Act」、自社の専門知識を学ばせて「専用AI」を育成できる「カスタマイズ可能なNova」など、AI活用を加速する新機能が多数発表されました。 実際に、会計ソフトのIntuitでは、4つのAIエージェントが連携して業務を自動化し、中小企業オーナーの作業時間を70%削減。レガシーシステムからの脱却が課題だったThomson Reutersでは、移行速度が4倍になるなど、具体的な成果が出ています。 AWSは、生成AI分野に大規模な投資を行い、専門家による無償支援や教育プログラムも提供し、AIエージェントを販売・購入できる「AWS Marketplace」も開始するなど、この分野に本気で取り組んでいます。 新人エンジニアの皆さんへ。AIエージェントは、もはや「面白い実験」ではなく「ビジネスに不可欠なツール」になりつつあります。AWSのバイスプレジデントも「完璧を待つな、今すぐ始めろ」と語っています。まずは小さな業務からAIエージェントの活用を試して、新しい技術に積極的に挑戦してみましょう。 引用元: https://qiita.com/akira_papa_AI/items/92fa19cbac0d2918ec8f Traditional RAG vs. Agentic RAG—Why AI Agents Need Dynamic Knowledge to Get Smarter 新人エンジニアの皆さん、AIエージェントを「もっと賢く、便利にする」ための最新技術「Agentic RAG」について解説します。古いGPSが新しい道路を知らないように、AIエージェントも訓練時の固定された情報に頼っていると、間違った情報を生成したり(ハルシネーション)、情報が古くなったりする課題があります。 これを解決するのが、常に最新情報にアクセスできる「動的な知識」です。リアルタイムで更新されるGPSのように、AIエージェントも変化する世界に適応できるようになります。 AIエージェントは、「認識」「推論」「計画」「行動」といった能力を持つ自律的なAIシステムです。社内文書や外部データベースなど、多様な情報源から動的に変化するデータを見つけ出し、活用することが求められます。この動的な知識を活用する重要な技術が「RAG(検索拡張生成)」です。RAGは、AIモデルが応答を生成する際に、知識ベースから関連情報を「検索」し、その情報を基に「生成」します。 RAGには2つのアプローチがあります。 Traditional RAG: AIが問い合わせに対し、知識ベースを単純に検索し、応答を生成する...
    続きを読む 一部表示
    1分未満
  • 私立ずんだもん女学園放送部 podcast 20250718
    2025/07/17
    関連リンク Introducing ChatGPT agent: bridging research and action OpenAIが、ChatGPTにまるで専属アシスタントのような新機能「ChatGPT Agent」を導入しました。これにより、ChatGPTはあなたの指示を受けて、自律的にパソコンを操作し、複雑なタスクを一貫して完了させられるようになります。 これまでのChatGPTは質問に答えるのが中心でしたが、Agent機能では「カレンダーを見て、会議の要約を作成してほしい」「競合3社を分析してスライドを作ってほしい」といった、より具体的な作業を依頼できます。ChatGPTはウェブサイトを巡回したり、必要な情報があれば安全にログインを促したり、コードを実行したり、分析を行ったりと、さまざまな手順を踏んで、最終的に編集可能なスライドやスプレッドシートとして結果をまとめます。 この新機能は、ウェブ操作に長けた「Operator」と、情報分析・要約が得意な「Deep Research」の技術を組み合わせたものです。ChatGPTは、仮想のコンピューター上で「推論(考える)」と「行動(実行する)」をスムーズに切り替えながら、あなたの指示通りにタスクを進めます。 最も重要なのは、ユーザーが常にコントロールできる点です。ChatGPTが重要な行動を起こす前には必ず許可を求めますし、いつでも作業を中断したり、自分でブラウザを操作したり、タスクを完全に停止したりできます。 この「Agentモード」は、Pro、Plus、Teamユーザー向けに提供が開始されています。ChatGPTのチャット画面にあるツールメニューから「agent mode」を選択するだけで簡単に有効にできます。GmailやGitHubなどの外部アプリと連携できる「コネクタ」機能を使えば、よりパーソナルな情報にもアクセスし、作業に活かすことが可能です。例えば、週ごとのレポート作成などを自動化することもできます。 ChatGPT Agentは、ビジネスでの繰り返しの作業(プレゼン作成、会議調整、データ更新など)や、プライベートでの旅行計画、イベント企画など、幅広いシーンでの活用が期待されます。各種ベンチマークテストでも非常に高い性能を発揮しており、特にスプレッドシートの編集やデータ分析のタスクでは、人間を超えるほどの精度を見せることもあります。 一方で、ウェブ上で直接行動する新機能には新たなリスクも伴います。OpenAIは安全性に最大限配慮しており、例えば、悪意のある第三者からの不正な指示(プロンプトインジェクション)を防ぐための対策や、モデルの間違いによる被害を避けるための「重要な行動前のユーザー確認」「高リスクなタスクの拒否」といった仕組みを導入しています。また、ユーザーのプライバシー保護のため、閲覧データの削除機能や、パスワードなどの機密情報をモデルが記憶しない安全なブラウザモードも備わっています。さらに、生物・化学兵器関連の悪用リスクに対しても、最高レベルの厳重な安全対策を講じ、専門家との連携やバグバウンティプログラムを通じて、継続的に安全性を向上させています。 この機能はまだ初期段階ですが、今後さらに効率的で多機能なツールへと進化していくことが期待されています。 引用元: https://openai.com/index/introducing-chatgpt-agent さよなら Flaky Test!Devinと共に実現する、CI安定化への道 この記事では、タイミー社が開発現場で直面していた「Flaky Test(フレイキーテスト)」という困った問題を、AIエージェント「Devin(デビン)」を使ってどのように解決し、開発効率を向上させたかを紹介しています。 Flaky Testとは何か?なぜ困るのか? Flaky Testとは、同じコードなのに「ある時はテストに成功し、別の時には失敗する」という、結果が不安定なテストのことです。これはまるで、たまにしか起きない謎のバグのようで、エンジニアの皆さんを大いに悩ませます。タイミー社でも、このFlaky Testが原因で、毎日何度もCI(継続的インテグレーション)という自動テストが失敗し、デプロイ(作ったプログラムを実際に使えるようにすること)が遅れたり、開発者が本来の業務ではなくテストの再実行や原因調査に時間を取られたりしていました。最悪の場合、CIが不安定すぎて「テストが通っても信用できない」状態...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250717
    2025/07/16
    関連リンク R²D²: Training Generalist Robots with NVIDIA Research Workflows and World Foundation Models NVIDIAが、ロボットが新しいタスクを効率的に学習するための画期的な研究成果を発表しました。これまでは、ロボットに新しい動作を教えるには、大量のデータを集めて一つずつラベル付けする手間がかかっていました。この課題に対し、NVIDIAは「生成AI」や「ワールドファウンデーションモデル(WFMs)」、そして「合成データ生成」という最先端技術を活用することで、ロボットの学習を劇的に効率化しようとしています。 この研究の核となるのが、ロボットが未来の状況を予測し、リアルなトレーニングデータを自動で生成できる「NVIDIA Cosmos」のようなWFMsです。これにより、数ヶ月かかっていた開発期間がわずか数時間で済むようになります。 特に注目されるのが「DreamGen」という合成データ生成パイプラインです。これは、WFMsを使って、人間が手作業で集める手間をかけずに、現実的で多様なトレーニングデータを作り出す技術です。DreamGenで生成されたデータは、ロボットの賢さを測る「DreamGen Bench」という基準で評価され、スコアが高いほど実際のロボットの性能も向上することが確認されています。この技術をベースにした「NVIDIA Isaac GR00T-Dreams」を使えば、ロボットの行動学習に必要な大量のデータを効率的に用意できます。 さらに、NVIDIAは汎用的なロボットを実現する「GR00T N1」というオープンファウンデーションモデルを開発しました。これは、人間の認知能力にヒントを得て、視覚、言語、行動を統合することで、ロボットが複雑な指示を理解し、多段階のタスクを実行できるようにします。「GR00T N1.5」は、このGR00T N1の改良版で、実世界のデータ、シミュレーションデータ、そしてDreamGenで生成した合成データを組み合わせて訓練することで、より高い成功率と幅広いタスクへの対応力を実現しています。驚くべきことに、GR00T N1.5のアップデートは、手動でのデータ収集なら約3ヶ月かかるところを、合成データを活用することでわずか36時間で完了したとのことです。 また、「Latent Action Pretraining from Videos(LAPA)」という技術も発表されました。これは、インターネット上のラベルなし動画を大量に利用して、ロボットの行動を自動で学習させる方法です。これにより、高コストな手動ラベリングが不要になり、効率的なロボット学習が可能になります。 「Sim-and-Real Co-Training」という手法は、ロボットの学習における「リアリティギャップ」を埋めるものです。少量の現実世界のデータと大量のシミュレーションデータを賢く組み合わせることで、シミュレーションで訓練したロボットが実際の環境でも安定して動作できるようになります。この手法は、データ収集のコストを抑えつつ、ロボットの頑丈な動作を可能にします。 これらのNVIDIAの研究成果は、すでにAeiRobot、Foxlink、Lightwheel、NEURA Roboticsといった企業で活用され始めており、産業用ロボットやヒューマノイドロボットの開発を加速させています。今回の発表は、AIとロボティクスの未来を大きく変える可能性を秘めた、非常に重要な一歩と言えるでしょう。 引用元: https://developer.nvidia.com/blog/r2d2-training-generalist-robots-with-nvidia-research-workflows-and-world-foundation-models/ Gemini Embedding now generally available in the Gemini API Googleは、Gemini APIで新しいテキスト埋め込みモデル「gemini-embedding-001」の正式リリースを発表しました。このモデルは、私たちが普段使う「文章」や「単語」といったテキスト情報を、AIが理解し計算しやすい「数値の並び」(これを「埋め込み」と呼びます)に変換するための技術です。AI開発において、この埋め込みを使うことで、テキストデータの中から関連性の高い情報を素早く探し出したり、文章の意味を理解して分類したり、質問に自動で答えるシステムを構築したりと、AIが賢くテキストを扱うための土台となります。 「gemini-embedding-001」の最も大きな特徴は、その非常に高い性能です。テキスト埋め込みモデルの国際的な評価基準である「MTEB Multilingualリーダーボード」で、常にトップクラスの性能を維持しています...
    続きを読む 一部表示
    1分未満