『株式会社ずんだもん技術室AI放送局 podcast 20250724』のカバーアート

株式会社ずんだもん技術室AI放送局 podcast 20250724

株式会社ずんだもん技術室AI放送局 podcast 20250724

無料で聴く

ポッドキャストの詳細を見る

このコンテンツについて

関連リンク FastVLM: Efficient Vision Encoding for Vision Language Models この研究記事は、Appleが開発した新しいAIモデル「FastVLM」について紹介しています。FastVLMは、画像とテキストを組み合わせて理解する「Vision Language Models(VLM)」の長年の課題を解決するものです。 VLMは、画像の詳細を理解するために高解像度の画像を処理することが重要です。例えば、道路標識の小さな文字を読み取ったり、書類の内容を分析したりする際に、解像度が高いほどAIの認識精度は向上します。しかし、これまでのVLMでは、高解像度の画像を処理しようとすると、AIが最初の回答を生成するまでの時間(「Time-to-First-Token」、TTFTと略されます)が大幅に長くなるという問題がありました。これは、画像をAIが理解できる形に変換する部分(「ビジョンエンコーダ」)の処理に時間がかかりすぎたり、変換されたデータ(「ビジュアルトークン」)が多くなりすぎて、次にテキストを処理する大規模言語モデル(LLM)の負荷が増えたりするためです。特に高解像度になるほど、ビジョンエンコーダがボトルネックとなることが課題でした。 FastVLMは、この「精度を上げると遅くなる」というトレードオフを劇的に改善しました。その鍵となるのが、新しく設計されたビジョンエンコーダ「FastViTHD」です。FastViTHDは、従来の画像処理技術である「畳み込みニューラルネットワーク(CNN)」と、最近のAIモデルで使われる「Transformer」の良いところを組み合わせた「ハイブリッドアーキテクチャ」を採用しています。これにより、高解像度の画像を効率的に処理しながら、AIが理解するための「高品質で少ない数のビジュアルトークン」を生成できるようになりました。結果として、LLMの処理負荷も軽減され、全体の応答速度が向上します。 様々な実験により、FastVLMの優位性が示されています。既存の多くのビジョンエンコーダや、画像を効率的に処理しようとする他の手法(「トークン剪定」や「ダイナミックタイリング」など)と比較しても、FastVLMは高い精度を保ちつつ、応答速度で大幅に優れていることが確認されました。例えば、同じくらいのサイズの他の人気VLMと比べると、最大で約85倍も高速でありながら、より高い精度を実現しています。 FastVLMの技術は、リアルタイムで画像を理解する必要があるアプリケーションや、プライバシー保護のためにユーザーのデバイス内でAIを動かす「オンデバイスAI」に特に適しています。Appleは実際に、FastVLMがiPhone上でほぼリアルタイムに動作するiOS/macOS向けのデモアプリも公開しており、その実用性を示しています。 このFastVLMは、VLMの応用範囲を大きく広げる可能性を秘めており、今後様々な場所で活用されていくことが期待されます。 引用元: https://machinelearning.apple.com/research/fast-vision-language-models kimi-k2-instruct Model by Moonshotai NVIDIA NIM AIモデル利用のためのプラットフォーム「NVIDIA NIM」に、最先端の新しい大規模言語モデル(LLM)である「kimi-k2-instruct」が追加されました。このモデルはMoonshotai社が開発したもので、現在プレビュー版として公開されています。 「kimi-k2-instruct」は、「Mixture-of-Experts(MoE)」という最新のアーキテクチャを採用したオープンなモデルです。MoEは、複数の異なる専門分野を持つAI(「エキスパート」)を組み合わせて処理を行うことで、より効率的かつ高性能な結果を出すことができる技術として、近年特に注目されています。このモデルは、複雑な推論(Reasoning)能力、プログラミングコードの生成や理解といったコーディング(Coding)能力、そして自律的にタスクを遂行するエージェント機能(Agentic Capabilities)において、非常に高い性能を持つとされています。 新人エンジニアの皆さんにとって、このような最先端のLLMがNVIDIA NIMのようなプラットフォームで手軽に試せるようになることは、AI開発の可能性を実感する良い機会です。実際にウェブ上でこのモデルを動かし、温度(Temperature)やTop Pなどのパラメータを調整しながら、その出力の特性や挙動を試すことができます。これにより、LLMがどのように動作し、どのような調整が可能か、実践的...

株式会社ずんだもん技術室AI放送局 podcast 20250724に寄せられたリスナーの声

カスタマーレビュー:以下のタブを選択することで、他のサイトのレビューをご覧になれます。