エピソード

  • 私立ずんだもん女学園放送部 podcast 20250425
    2025/04/24
    関連リンク 4万行超のopenapi.yamlをTypeSpecに移行した話 この記事では、OpenAPIを使ったAPIスキーマ駆動開発で直面した課題と、それを解決するためにTypeSpecに移行した経験が紹介されています。 筆者のチームでは、APIの仕様を定義するのにOpenAPIのopenapi.yamlファイルを使っていました。開発を進めるにつれてこのファイルが4万行を超えるほど巨大になり、いくつかの問題が発生しました。最も大きな課題は、ファイルが大きすぎて手作業での編集が非常に大変になったこと、そしてGitHub CopilotやCursorのようなAI Agentを使う際に、ファイル全体を読み込ませようとすると情報量が多すぎて処理できなくなる(コンテキスト圧迫)ことでした。 そこで、これらの課題を解決するためにTypeSpecというAPI定義言語への移行を検討しました。TypeSpecはMicrosoftが開発しており、TypeScriptに似た分かりやすい文法でAPIの仕様を定義できます。TypeSpecで書いた定義から、OpenAPIやプログラムのクライアントコードなどを自動生成する「エミッター」という機能が強力です。 TypeSpecを選んだ理由はいくつかあります。まず、OpenAPIよりも構造化しやすく、ファイルを細かく分割して書けるため、巨大化しても管理しやすくなる点です。また、万が一TypeSpecが合わなかった場合でも、自動生成されたOpenAPIファイルを使えば元の運用に戻りやすい(撤退しやすい)ことも決め手になりました。さらに、記事執筆時点(2025年4月)でTypeSpecの安定版候補がリリースされ、安心して利用できるようになったことも後押ししました。 移行は、まずTypeSpecの環境をセットアップし、既存の4万行を超えるopenapi.yamlをTypeSpec形式に自動変換するツールを使いました。変換後、一部の型定義がうまく変換されないといった問題が発生しましたが、TypeSpecの定義を手作業で調整したり、変換ツールの挙動を一時的に修正したりして対応しました。最終的には、TypeSpecファイルからopenapi.yamlを自動生成し、これまで使っていたコード生成ツール(OpenAPI Generator)やテストツール(Committee)はそのまま使い続けられるようにしました。 移行後、TypeSpecファイルは元のOpenAPIファイルの半分以下(約2万行)になり、モデルやAPIルートごとにファイルを分割して管理できるようになりました。これにより、スキーマ全体の可読性が大幅に向上し、開発体験も改善されました。AI Agentも TypeSpec のファイルは小さく分割されているため、問題なく扱えるようになりました。また、TypeSpecを使えばOpenAPIのバージョンアップもエミッターの設定を変えるだけで簡単に行えるようになります。 TypeSpecへの移行は調整が必要な部分もありましたが、約2日間で完了し、大規模なAPIスキーマの管理や開発効率の向上、AI Agentとの連携といった多くのメリットが得られたとのことです。OpenAPIファイルの巨大化に悩んでいるチームにとって、TypeSpecは検討する価値のある選択肢と言えるでしょう。 引用元: https://zenn.dev/yuta_takahashi/articles/migrate-to-typespec Enhance Your AI Agent with Data Flywheels Using NVIDIA NeMo Microservices NVIDIA Technical Blog 企業でAIエージェント(自律的に動くAIシステム)を活用する際、常に変化するデータに対応し、AIの精度を維持することが大きな課題となります。これを「モデルドリフト」と呼びます。例えば、顧客対応AIが参照するデータベースの形式が変わったり、ユーザーの質問の仕方が変化したりすると、AIの回答精度が落ちてしまう可能性があります。 この課題を解決し、AIエージェントの性能を継続的に向上させるための考え方が「データフライホイール」です。これは、ユーザーからのフィードバックやシステムで収集したデータを基にAIモデルを改善し、その結果AIの性能が向上することで、より多くのユーザーに使われ、さらにデータが集まる、という好循環サイクルのことです。このサイクルを回すことで、AIは常に新しいデータに適応し、精度を高く保つことができます。 データフライホイールは、特に複雑なタスクをこなすAIエージェントにとって重要です。AIエージェントは、単一の応答だけでなく、状況を判断し、複数のツールを使ったり、情報を検索...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250424
    2025/04/23
    関連リンク AI Agent × Cursor で要件整理から実装まで この記事は、AI AgentであるCursorを活用したWebフロントエンド開発の具体的な進め方とノウハウを紹介しています。特に新人エンジニアの方にも分かりやすいように、AIとの協調作業で開発を効率的に進めるためのフローが解説されています。 筆者は、AI Agentを使った開発では、いきなりコーディングを始めるのではなく、「要求から実装用のDocumentを作成する」フェーズと「そのDocumentに基づいて開発する」フェーズを分けて進めることを推奨しています。これは、従来の開発と同様に、事前に要件や方針をしっかり固めることで手戻りを減らし、質の高い開発を目指すためです。 「要求から実装用のDocumentを作成する」フェーズはさらに3つの段階に分かれます。 要求情報から実装要件Docを作成(specification.md): 様々な形式で与えられた要求(デザインやビジネス要件など)をAI Agentと一緒に整理し、実装に必要な要件を明確にします。AI Agentが不明な点を質問してくれるので、人間が補足することで要件の漏れを防ぎます。実装要件Docから実装方針Docを作成(design-doc.md): 定義した要件に基づき、どのような技術を使うか、どのように設計するかといった具体的な実装方針をAI Agentと考えます。既存のコードやドキュメントを参照させながら、最適な方針を決定します。実装方針DocからタスクDocを作成(task.md): 決まった実装方針に従って、開発作業を具体的なタスク単位に分割し、作業順序を計画します。AI Agentがタスクリスト案を作成し、人間がその粒度や順序を調整します。 これらの3つのDocumentを作成する過程で、AI Agentとの対話を通じて不明瞭な部分を解消し、開発の方向性を固めていきます。人間はAI Agentからの提案や質問に対して、状況に合わせて判断や補足を行う役割を担います。記事では、まとまった回答を効率的に入力するために、ChatGPTの音声入力を活用する具体的なTipsも紹介されています。 「実装用Documentから開発する」フェーズでは、作成したタスクDocに基づいて、タスクを一つずつAI Agentに進めてもらいます。AI Agentはタスクの内容を理解し、必要なコードを生成してくれます。生成されたコードを確認し、期待通りであればコミットに進みます。コミットは粒度やスコープを自分でコントロールするために、手動で行うことが推奨されています。 開発が終わったら、作成したDocumentはプルリクエスト(PR)の差分に含まれないように削除コミットを作成します。PR作成時には、Documentの情報を参照させながら、AI Agentにベースとなる説明文を作成してもらうことも可能です。 このフローは、AI Agentを単なるコード生成ツールとして使うのではなく、要求整理や設計方針検討といった上流工程から「協調して」進めることで、開発プロセス全体の効率化と質の向上を目指すアプローチと言えます。ゼロから大規模な要求整理を行う場合は、よりチームでの議論が必要になるなど、まだ模索中の部分もあるとのことです。 この記事で紹介されたフローは、AI Agentを開発にどう活用できるか、具体的な一歩を踏み出すための参考になるでしょう。 引用元: https://zenn.dev/kii/articles/with_ai-agent_on_2504 NVIDIA CEOが石破総理に力説–「AIエージェントの次はフィジカルAI。これは日本にとって本当に重要」 AI分野をリードするNVIDIAのCEO、ジェンスン・フアン氏が日本の石破総理大臣と会談し、AI技術の未来について語りました。 石破総理は、AIを活用した地方創生や、日本がAI開発しやすい環境整備への意欲を示しました。 これに対しフアン氏は、NVIDIAが創業間もない頃から日本のゲーム会社などと協力し、日本の技術力に支えられてきたことに触れました。 フアン氏は、AIの進化を波に例えて説明しました。 第一の波は、コンピューターが文字や画像などを「認識する」段階。 第二の波は、文章や画像を新しく「生成する」段階(これが今の生成AIですね)。 そして、現在進行中の第三の波は、AIが自分で考え、推論して問題を解決する「エージェントAI」の段階です。 そして、フアン氏が特に強調したのが、この次に来る「フィジカルAI」...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250423
    2025/04/22
    関連リンク AIエージェントのおかげでdbt開発の大部分を自動化した話 この記事は、データ分析基盤で使われる「dbt」というツールを使ったデータモデル開発において、AIエージェントを活用して多くの定型作業を自動化した事例を紹介しています。 データを使って分析やレポートを作る際、元データを使いやすい形に加工する作業が必要です。dbtは、この加工(データモデル開発)を効率的に行うための人気ツールですが、開発するデータモデルが増えると、「ファイルの置き場所や名前のルールを守る」「データのチェック(テスト)を書く」「どんなデータか説明するドキュメントを更新する」「分析ツールで使いやすくするための設定(メタデータ定義)をする」といった、定型的な作業がたくさん発生し、開発者の負担になってしまいます。もっとSQLを書くことや分析そのものといった、頭を使う本質的な作業に集中したい、というのがエンジニアの本音です。 この課題を解決するために、筆者らは「Cursor Editor」というAI搭載の開発エディタの「Agent機能」と「Project Rules」を活用しました。 Cursor EditorのAgent機能は、指示を与えるとAIがタスクをステップごとに実行してくれる機能です。Project Rulesは、プロジェクト特有の開発ルール(命名規則、コーディング規約、標準手順など)をAIに教え込むための設定です。 dbtモデル開発には通常、SQLを書く以外にも、ファイルのテンプレート作成、ローカルでの実行確認、メタデータやテストの更新、ドキュメント作成、プルリクエスト作成など、複数のステップがあります。 これらのステップをAIエージェントに任せるために、開発チームはProject Rulesを丁寧に整備しました。具体的には、以下のようなルールを定義しました。 命名規則: BigQueryのテーブルとdbtモデル名の対応関係や、データが加工される段階(層)ごとの名前の付け方。コーディング規約: SQLの書き方や、他のデータモデルを参照する際のルール。開発手順: dbtモデルの加工段階(層)ごとに、ステップ1からステップnまで何をどのように進めるかを細かく定義。使用するコマンドや、エラー発生時の対応方法まで含めました。 Project Rulesを整備し、AIにプロジェクト固有のルールをしっかり教え込んだ結果、AIエージェントはプロジェクトのやり方に沿って正確にタスクを実行できるようになりました。SQLを人間が準備すれば、それ以降の多くの定型作業(テンプレート作成、実行確認、メタデータ・テスト・ドキュメント更新、プルリクエスト作成)をAIが自動で行ってくれるようになり、ほぼ人間が最終確認するだけでGitHubにプルリクエストが作成されるレベルに達したとのことです。 もちろん、AIに任せる上で工夫も必要です。例えば、複雑なタスクは最初にAIに計画だけ立てさせる、AIに必要なルール情報を明示的に伝える、そして絶対に守りたいルールは昔ながらの自動チェックツール(静的解析、自動テスト)で間違いがないか確認する、といった「AIのための安全策(ガードレール)」を設けることが重要だと感じているそうです。 この取り組みにより、開発者はSQLの設計・実装といったクリエイティブな作業に集中できるようになり、社内からは開発効率が向上したという声があがっています。データモデル開発量も増加したという定量的な成果も出ています。 まとめとして、AIエージェントはまだ完璧ではありませんが、プロジェクト固有のルール(Project Rules)を整備し、継続的に改善していくことで、開発プロセスを大幅に自動化し、生産性を向上させることが可能です。AIにどこまで任せるか、人間とAIのより良い役割分担を考えていくことが今後の課題であり楽しみでもある、と筆者は述べています。 引用元: https://zenn.dev/ubie_dev/articles/d97c5ece4660bd 営業AIエージェント「アポドリ」のつくりかた この記事は、営業AIエージェント「アポドリ」を開発する過程で得られた経験や学びを共有するSpeaker Deckの資料に基づいています。新人エンジニアの皆さんにも、AIエージェント開発の現実や考え方を理解してもらうことを目指します。 「アポドリ」は、人の代わりに...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250422
    2025/04/21
    関連リンク Build a location-aware agent using Amazon Bedrock Agents and Foursquare APIs Amazon Web Services この記事は、Amazon Bedrock AgentsとFoursquare APIを使って、ユーザーの位置情報に基づいた賢いAIエージェントを構築する方法について解説しています。 パーソナル化された体験を提供するために、ユーザーの好みだけでなく、場所や天気といった状況も考慮することが重要です。例えば、晴れた日には公園、雨の日にはカフェといった具合に、状況に合わせたおすすめができれば、ユーザーはより満足するでしょう。このような位置情報を考慮したレコメンデーションを実現するために、Amazon Bedrock AgentsとFoursquare APIを連携させるアプローチが紹介されています。 Amazon Bedrockは、様々な高性能なAIモデルをAPI経由で利用できるAWSのサービスです。インフラ管理なしに生成AIアプリケーションを開発できます。 Amazon Bedrock Agentsは、Bedrockの機能の一つで、AIエージェントを自律的に動作させることができます。これらのエージェントは、ユーザーの複雑なリクエストを理解し、必要なステップに分解して実行できます。特に、会社の持つAPIやデータソースと連携させることで、定型的な業務などを自動化させることが可能です。プロンプトエンジニアリングやメモリ管理などを自動で行ってくれるため、比較的容易に設定できます。 一方、Foursquare Places APIは、正確な位置情報インテリジェンスを提供する外部サービスです。GeoTagging APIで緯度経度から場所を特定したり、Place Search & Data APIで場所のカテゴリや属性、営業時間などで絞り込んで検索したりできます。写真やレビュー、人気度といった詳細な情報も取得可能です。 これらの技術を組み合わせることで、ユーザーが今いる場所や天気といったコンテキストを理解し、それに合わせた関連性の高い、タイムリーな情報を提供できるAIエージェントを作ることができます。記事では、Amazon Bedrock AgentがFoursquare APIと天気APIを呼び出すアーキテクチャが示されており、ユーザーが近くの公園を探したり、公園周辺のテイクアウト可能なレストランを探したりするデモ例が紹介されています。 この位置情報認識エージェントを構築するためのソースコードはGitHubリポジトリで公開されており、必要な環境変数を設定し、依存関係をインストールすれば試すことができます。 開発のベストプラクティスとしては、テストデータセットを用意してエージェントの応答を検証することや、Amazon Bedrock Guardrailsを使って不適切な入力を防ぐ対策を行うことが推奨されています。 このように、Amazon Bedrock Agentsと外部APIを連携させることで、ユーザーの状況に応じたパーソナルな応答ができるAIエージェントを構築し、より優れたユーザー体験を提供できる可能性が示されています。 引用元: https://aws.amazon.com/blogs/machine-learning/build-a-location-aware-agent-using-amazon-bedrock-agents-and-foursquare-apis/ Local LLM inference - Amir Zohrenejad - Medium この記事は、LLM(大規模言語モデル)をインターネット上のクラウドサービスではなく、自分のPCやスマホといった「ローカル環境」で動かす技術の現状と、まだ実用化に向けた課題について解説しています。 なぜ、わざわざLLMをローカルで動かしたいのでしょうか?その主な理由はいくつかあります。一つはコストの削減です。クラウドでLLMを使うと利用料がかかりますが、ローカルなら追加費用は不要です。次にプライバシーの向上です。機密性の高い情報を外部のサーバーに送らずに処理できるため、情報漏洩のリスクを減らせます。また、処理速度の向上も期待できます。ネットワークの遅延がないため、特に最初の応答が速くなる可能性があります。さらに、オフラインでも利用できるようになる点も大きなメリットです。例えば、スマートフォンの顔認証機能はローカルでの画像処理(推論)の良い例で、高速性、オフライン性、プライバシーが重要だからこそローカルで行われています。 この記事の著者は、Macbook Pro(M2チップ搭載)を使って、いくつか代表的なローカル推論のためのフレームワーク(プログラムの枠組み)を試しています。具体的には、C/C++...
    続きを読む 一部表示
    1分未満
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250421
    2025/04/20
    関連リンク Gemma 3 QAT Models: Bringing state-of-the-Art AI to consumer GPUs Googleは、高性能な最新オープンAIモデル「Gemma 3」を発表しました。このモデルは高い性能を持っていますが、本来はBF16という精度で動かすために、NVIDIA H100のような高性能で高価なGPUが必要でした。 もっと多くの日本のエンジニアやAI開発者がこの素晴らしいモデルを気軽に使えるようにするため、Googleは「QAT (Quantization-Aware Training)」という技術で最適化された新しいGemma 3モデルを発表しました。 QATとは、AIモデルのデータを圧縮する「量子化」という技術を、モデルを訓練する(学習させる)段階から組み込む手法です。モデルのデータを小さくすることで、実行に必要なGPUのメモリ(VRAM)を大幅に減らすことができます。単純に量子化するとモデルの性能が落ちやすいのですが、QATを使うことで、性能の低下を最小限に抑えつつ、データサイズを小さくできるのが特徴です。 このQATによる最適化の効果は絶大です。例えば、Gemma 3の最大のモデルである27B(パラメータ数が多いほど高性能だがサイズも大きい)の場合、BF16精度だと54GBのVRAMが必要でしたが、int4という精度に量子化されたQATモデルでは、必要なVRAMがわずか14.1GBに減りました。これにより、NVIDIA RTX 3090(VRAM 24GB)のような、一般的に入手しやすいデスクトップPC向けGPUでも、これまで一部の研究者や企業でしか動かせなかったような高性能なGemma 3 27Bモデルを、自分のPCで実行できるようになります。 他のサイズのモデル(12B, 4B, 1B)も同様にVRAMが大幅に削減されており、ラップトップPCのGPUや、さらにメモリが少ないデバイスでも動かしやすくなりました。 これらのQAT最適化済みモデルは、Ollama、llama.cpp、MLXといった人気のAI実行ツールに対応しており、Hugging FaceやKaggleといったプラットフォームで公開されています。これにより、既存の開発環境に簡単に組み込んで試すことができます。 この取り組みは、最新のAI技術を特定の高性能ハードウェアを持つ人だけでなく、より多くのエンジニアが手軽に利用できるようにすることを目指しています。これにより、AI開発のハードルが下がり、新しいアイデアが生まれやすくなることが期待されます。高価なGPUがなくても、手元のPCで最先端のGemma 3モデルを使ってAI開発を始めるチャンスです。 引用元: https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/ ついに量子コンピュータでLLMの追加学習に成功。量子コンピュータとテンソルネットワークがLLM計算を変える。 この記事では、最先端技術である量子コンピュータと大規模言語モデル(LLM)が結びつき、特にLLMの追加学習(ファインチューニング)の方法が大きく変わり始めている状況について解説しています。 これまでのLLM学習は、たくさんのGPUを使った大規模な計算が中心でした。しかし最近では、LoRA(Low-Rank Adaptation)のように、モデル全体ではなく一部だけを効率よく学習させる「軽量な微調整手法」が注目されています。量子コンピュータは、少ない計算資源(量子ビット)でも「重ね合わせ」や「もつれ」といった量子力学の不思議な性質を使うことで、高い表現力を持つ可能性があります。ここに、量子コンピュータを使ってLLMを扱うメリットがあります。 この量子コンピュータ上でのLLMの学習を可能にしている重要な技術の一つが「テンソルネットワーク」です。これは、量子状態や複雑なデータ構造を効率的に扱える数学的な手法で、巨大なLLMの一部を量子コンピュータ向けに変換したり学習させたりするのに役立ちます。これにより、従来の数学的手法では難しかった「量子的情報構造」の調整ができるようになります。 量子コンピュータを使ったLLMのファインチューニングは、ただ単に学習を速くするだけでなく、従来とは全く異なる「新しいやり方(別の相)」として捉えられています。量子コンピュータの性質を最大限に活かすには、従来の学習アルゴリズムだけでは不十分なため、量子回路に特化した新しい学習方法の研究も進んでいます。 実際に、いくつかの研究では、量子コンピュータ上でLLMの...
    続きを読む 一部表示
    1分未満
  • 私立ずんだもん女学園放送部 podcast 20250418
    2025/04/17
    関連リンク
    • TechFeed - エンジニアのための技術情報収集&共有プラットフォーム

    タイトル: TechFeed - エンジニアのための技術情報収集&共有プラットフォーム

    要約: OpenAIがo3とo4-miniという新しいAIモデルを発表しました。o3は色々な分野で高い性能を発揮する大型モデルで、o4-miniは計算資源をあまり使わずに良い結果を出す小型モデルです。特にo3は画像を見て内容を理解し、複雑な問題も解けるようになりました。ChatGPTの有料版で試せます。

    引用元: https://techfeed.io/entries/680028631c02de6fd1abb47d

    • Start building with Gemini 2.5 Flash

    GoogleがGemini 2.5 Flashのプレビュー版を公開。推論能力が大幅に向上しつつ、速度とコストも最適化されている点が特徴。開発者は「thinking budget」を設定することで、品質・コスト・レイテンシのバランスを調整可能。APIを通じてGoogle AI StudioとVertex AIで利用可能。

    引用元: https://developers.googleblog.com/en/start-building-with-gemini-25-flash/

    • Neural Rendering in NVIDIA OptiX Using Cooperative Vectors NVIDIA Technical Blog

    NVIDIA OptiX 9.0で導入されたcooperative vectorsは、レイトレーシング内でAI処理を効率化する新機能です。NVIDIA RTX Tensor Coreを活用し、シェーディング時にハードウェアアクセラレーションされた行列演算とニューラルネット計算を可能にします。これにより、RTX Neural ShadersやNeural Texture CompressionといったAIレンダリング技術が進化し、リアルタイムレンダリングにおけるフォトリアルなマテリアル表現が向上します。cooperative vectorsはOptiX、DirectX、NVAPI、Slang、VulkanなどのAPIで利用可能です。 cooperative vectorsは、ニューラルネットワークの基本要素であるMLP(多層パーセプトロン)の計算を高速化するために、Tensor Coreの能力を最大限に引き出します。CUDAのSIMTモデルの制約を克服し、warp内の非アクティブなスレッドが存在する場合でも行列演算を可能にし、アーキテクチャ間の互換性を提供します。 OptiXでは、OptixCoopVecという型でcooperative vectorsが実装されています。サンプルコードでは、MLPの層を評価するevalLayer関数内でoptixCoopVecMatMul関数を使用し、ベクトル-行列積とバイアス加算を行っています。 cooperative vectorsは、RTX Neural ShadersやRTX Neural Texture Compressionに利用されており、NVIDIA RTX Kitの一部として提供されています。

    引用元: https://developer.nvidia.com/blog/neural-rendering-in-nvidia-optix-using-cooperative-vectors/

    • 「カップヌードルが好きすぎるずんだもん」が『ニコニコ超会議2025』に出展 Gateboxとのコラボアイテムが登場 - BCN+R

    この記事は、2025年4月26日、27日に開催されるニコニコ超会議2025に「カップヌードルが好きすぎるずんだもん」が出展するというニュースです。Gateboxとのコラボアイテムが登場する予定です。

    引用元: https://www.bcnretail.com/article/detail/id%3D509428

    • お便り投稿フォーム

    VOICEVOX:ずんだもん

    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250417
    2025/04/16
    関連リンク
    • うさぎでもわかるGPT-4.1 - 他のGPTモデルとの違いを徹底解説

    GPT-4.1はOpenAIの最新言語モデル。API経由で提供され、コーディング、指示理解、長文処理能力が向上。GPT-4oと比較し、性能向上しつつコストも削減。3つのモデル(GPT-4.1、mini、nano)があり、用途で選択可能。特にコーディング能力が向上し、指示理解もより正確。100万トークンまでの長文コンテキスト処理が可能。画像理解能力も向上。GPT-4oより高性能で低コストなminiモデルが魅力。APIでのみ利用可能。プロンプトを具体的に記述し、diff形式を活用、プロンプトキャッシングでコスト削減が有効。

    引用元: https://zenn.dev/taku_sid/articles/20250415_gpt41_features

    • ニューラルかな漢字変換システム「Zenzai」の開発

    東大の三輪氏らが未踏事業で開発したニューラルかな漢字変換システム「Zenzai」を紹介。従来の統計的かな漢字変換の限界を、ニューラルネットワークで克服する試みです。GPT-2をベースに1.9億文規模のデータセットで学習。GPU環境(高火力DOK)を活用し高速に実験を繰り返しました。評価では既存手法やGPT-4.5に匹敵する精度を達成。macOSアプリ「azooKey on macOS」に実装され、誰でも試せます。言語処理学会で発表、若手奨励賞も受賞。今後はMLOpsの改善や既存機能との統合を目指すとのことです。

    引用元: https://knowledge.sakura.ad.jp/42901/

    • JetBrains IDEs Go AI: Coding Agent, Smarter Assistance, Free Tier The JetBrains Blog

    JetBrainsがAIツールをIDEに統合。AIアシスタントに加え、コーディングエージェントJunieが利用可能に。これらは単一サブスクリプションで提供され、無料枠も用意。Junieは、AnthropicのClaudeやOpenAIのLLMを活用し、複雑なタスクを支援しコード品質も向上。AIアシスタントも強化され、Claude 3.7 SonnetやGoogle Gemini 2.5 Proなど最新モデルに対応。コード補完やコンテキスト認識が向上し、開発効率アップに貢献。

    引用元: https://blog.jetbrains.com/blog/2025/04/16/jetbrains-ides-go-ai/

    • Google PixelのAI電話対応、迷惑電話だと即お断りしててウケる→「この機能便利」「返答が参考になる」

    Google PixelのAIが、迷惑電話を自動で判断し、対応してくれる機能が話題です。ユーザーからは「便利」「参考にしたい」という声が上がっています。AIがセールス電話を識別し、AI同士の対話に期待する声や、もっと通話を長引かせて相手のコストを増やして欲しいという意見も出ています。

    引用元: https://togetter.com/li/2538490

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250416
    2025/04/15
    関連リンク
    • 3 new ways AI agents can help you do even more

    MicrosoftがAIエージェントに関する最新情報を公開しました。AIエージェントは、ユーザーのニーズを予測し、複雑なタスクを実行し、経験から学習する、まるで優秀なアシスタントのような存在です。Microsoft 365 Copilot向けのResearcherとAnalystは、メール、会議、ファイルなどのデータやWeb上の情報を分析し、高度な専門知識を提供します。また、サイバーセキュリティ分野では、フィッシング詐欺への対応やデータ保護を自動化するエージェントが登場し、セキュリティ担当者の負担を軽減します。開発者向けには、Azure AI FoundryでAIアプリの開発、展開、管理を支援するエージェントが提供され、データに基づいた意思決定やAIモデルの安全性テストを支援します。

    引用元: https://news.microsoft.com/source/features/ai/3-new-ways-ai-agents-can-help-you-do-even-more/

    • Generate videos in Gemini and Whisk with Veo 2

    Gemini Advancedのユーザーは、Googleの最新動画モデルVeo 2を使って動画生成・共有が可能になった。Geminiではテキストから8秒の動画を作成できる。Google One AI Premiumの契約者は、Whisk Animateで画像から動画を作成できる。Veo 2は高解像度でリアルな動画生成を目指し、物理法則や人の動きを理解し、滑らかな動きや細部まで表現する。Geminiで動画を作成するには、モデル選択でVeo 2を選択。作成した動画は簡単に共有可能。安全対策として、生成された動画にはSynthIDによるデジタル透かしが入る。

    引用元: https://blog.google/products/gemini/video-generation/

    • OpenAI GPT-4.1 now available in public preview for GitHub Copilot and GitHub Models · GitHub Changelog

    GitHub CopilotとGitHub ModelsでOpenAIの最新モデルGPT-4.1が利用可能になりました。GPT-4.1は、GPT-4oを上回る性能を持ち、特にコーディング、指示の理解、長文コンテキストの理解が向上しています。Copilot Enterpriseの管理者は、GPT-4.1へのアクセスをCopilot設定で有効にする必要があります。GitHub Modelsでは、GPT-4.1をAIアプリケーションで利用できます。

    引用元: https://github.blog/changelog/2025-04-14-openai-gpt-4-1-now-available-in-public-preview-for-github-copilot-and-github-models/

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    続きを読む 一部表示
    1分未満