『株式会社ずんだもん技術室AI放送局 podcast 20260205』のカバーアート

株式会社ずんだもん技術室AI放送局 podcast 20260205

株式会社ずんだもん技術室AI放送局 podcast 20260205

無料で聴く

ポッドキャストの詳細を見る

概要

youtube版(スライド付き) 関連リンク Build with Kimi K2.5 Multimodal VLM Using NVIDIA GPU-Accelerated Endpoints NVIDIAは、Moonshot AIが開発した最新のオープンなマルチモーダル視覚言語モデル(VLM)である「Kimi K2.5」が、NVIDIAのGPUアクセラレーションエンドポイントで利用可能になったことを発表しました。このモデルは、テキストだけでなく画像やビデオの入力にも対応しており、高度な推論、コーディング、数学、そして自律的に動く「AIエージェント」のワークフローにおいて非常に高い性能を発揮します。 新人エンジニアが注目すべき技術的特徴は、その効率的なアーキテクチャです。Kimi K2.5は「混合エキスパート(MoE: Mixture-of-Experts)」という仕組みを採用しています。総パラメータ数は1兆(1T)という巨大な規模ですが、推論時にはそのうちの3.2%(約330億パラメータ)のみを動的に使用するため、高い処理能力と効率性を両立させています。また、262Kという非常に長いコンテキストウィンドウ(一度に読み込める情報量)を持っており、膨大な資料や長い動画の解析にも適しています。 視覚処理の面では、独自の「MoonViT3d Vision Tower」を搭載しており、画像やビデオフレームを効率的にベクトルデータに変換します。トレーニングにはNVIDIAの「Megatron-LM」フレームワークが使用されており、GPUの並列処理能力を最大限に引き出す最適化が施されています。 開発者向けの活用方法として、以下の3つのステップが紹介されています。 プロトタイピング: NVIDIA Developer Programに登録すれば、ブラウザ上のプレイグラウンド(build.nvidia.com)で無料かつ手軽にモデルの性能を試すことができます。API利用: OpenAI互換のAPIエンドポイントが提供されているため、Pythonなどのコードから簡単にモデルを呼び出してアプリケーションに組み込めます。デプロイとカスタマイズ: 高速な推論を実現する「vLLM」でのデプロイや、NVIDIA NeMo Frameworkを用いた独自のデータによる微調整(ファインチューニング)もサポートされています。 NVIDIAの最新GPU環境に最適化されたこの強力なオープンモデルは、これからのAIアプリケーション開発において、エンジニアにとって非常に魅力的な選択肢となるでしょう。 引用元: https://developer.nvidia.com/blog/build-with-kimi-k2-5-multimodal-vlm-using-nvidia-gpu-accelerated-endpoints/ Apple SiliconでAIやっている人に朗報です。vllm-mlxが凄い。 Apple Silicon(Mac)でのLLM実行環境を劇的に進化させる新しいフレームワーク「vllm-mlx」についての解説記事です。これまで高性能な推論サーバーの代名詞であった「vllm」は、Mac環境ではCPU実行に限定されるなどの制約がありましたが、本プロジェクトはApple純正の計算ライブラリ「MLX」をベースにすることで、MacのGPU(Metal)性能を最大限に引き出したvllmライクなインターフェースを実現しています。 概要 vllm-mlxは、Apple Silicon(M1〜M4チップ)にネイティブ対応した、マルチモーダルな推論プラットフォームです。単なるモデル実行用のラッパーにとどまらず、プロダクトレベルの運用に耐えうる高度なメモリ管理機能とスループット性能を備えている点が最大の特徴です。 主な特長 マルチモーダル対応: テキストだけでなく、画像、動画、音声の推論を一つのプラットフォームで統合的に扱えます。圧倒的なパフォーマンス: vllmと同じ「Paged KV Cache(ページングKVキャッシュ)」アーキテクチャを採用。従来のMLX関連ツールと比較して、処理スピードが1.14倍高速化し、メモリ消費量を約80%に節約することに成功しています。高度なサービング機能: 複数ユーザーの同時接続を効率よく処理する「連続バッチ処理(Continuous Batching)」に対応しています。OpenAI API互換: OpenAIクライアントをそのまま代替として利用可能なローカルサーバーを構築できます。MCPツール呼び出し: モデルコンテキストプロトコル(MCP)を介して外部ツールと連携でき、AIエージェントの開発にも適しています。 新人エンジニアに向けた注目ポイント Mac一台で「爆速かつ省メモリ」なLLM環境が手に入ることは、開発効率を大きく高めます。特に、これまで個別に使い分ける必要があった「mlx-lm(言語モデル用)」や...
まだレビューはありません