『株式会社ずんだもん技術室AI放送局 podcast 20260204』のカバーアート

株式会社ずんだもん技術室AI放送局 podcast 20260204

株式会社ずんだもん技術室AI放送局 podcast 20260204

無料で聴く

ポッドキャストの詳細を見る

概要

関連リンク マルチモーダルLLMを活用したZOZOTOWN検索の関連性評価手法 ファッションECサイト「ZOZOTOWN」を運営するZOZOの検索基盤部による、マルチモーダルLLM(MLLM)を活用した検索結果の評価手法に関する解説記事です。 検索システムの改善において、新旧のアルゴリズムを比較する「オフライン評価」は不可欠ですが、従来の検索ログを用いた手法には課題がありました。過去のログは既存の検索ロジックの結果に基づいているため、新しいロジック(ベクトル検索など)に対して公平な評価ができず、バイアスが生じてしまう点です。 この課題を解決するため、ZOZOは人間の代わりにMLLMを用いて検索クエリと商品の関連性を判定する手法を導入しました。本手法の主な特徴とステップは以下の通りです。 マルチモーダル情報の活用と基準策定 ファッションにおいて「見た目」は重要な要素です。商品テキストだけでなく画像データもMLLMに入力することで、視覚的な関連性を考慮した高精度な判定を実現しました。また、評価基準を「Highly relevant(非常に関連あり)」「Acceptable Substitute(許容できる代替品)」「Irrelevant(無関連)」の3段階に整理し、曖昧さを排除したプロンプトを設計しています。 ゴールドセットによるモデルの検証 判定の信頼性を担保するため、まず人間が手作業で作成した正解データ(ゴールドセット)を用いて複数のLLMを比較しました。検証の結果、Gemini 2.5 Flashと改善したプロンプトの組み合わせが74.1%という高い精度を記録し、実用レベルにあることを確認しました。 定量評価の自動化とスケーラビリティ 構築した評価基盤を用いることで、数千から数万件のクエリ・商品ペアに対して自動でラベリングを行い、nDCGやPrecisionといった指標を算出します。人間が2時間かかる作業をMLLMなら1分以内で完了できるため、圧倒的なスピードで大規模な評価が可能になりました。 この取り組みにより、既存ロジックのバイアスを排除した「本質的な関連性」に基づく評価体制が整いました。LLMを単なるチャットツールとしてではなく、システムの精度を計測するための「スケーラブルな評価基盤」として活用する、実戦的で非常に参考になる事例です。 引用元: https://techblog.zozo.com/entry/search-quantitative-evaluation-llm H Companys new Holo2 model takes the lead in UI Localization AIスタートアップのH Company(Mistral AIの創設メンバーらによる企業)から、UI(ユーザーインターフェース)要素の特定において世界最高性能(SOTA)を更新した最新モデル「Holo2-235B-A22B Preview」が発表されました。本記事は、GUIエージェントやWebオートメーションの未来を大きく変える可能性を秘めた、この新モデルの技術的な進展を解説しています。 1. UIローカライズにおける新たな金字塔 「Holo2-235B-A22B Preview」は、GUIグラウンディング(画面上の特定の要素がどこにあるかを特定する技術)の難関ベンチマークである「ScreenSpot-Pro」で78.5%、「OSWorld G」で79.0%というスコアを記録しました。これは、AIが画面内のボタンや入力フォームをいかに正確に認識できるかを示す指標であり、現時点で世界トップクラスの精度を誇ります。本モデルはHugging Face上でリサーチリリースとして公開されています。 2. 「Agentic Localization」による精度の追求 従来のモデルが直面していた大きな課題に、4Kなどの高解像度画面における「非常に小さなUI要素の認識ミス」がありました。Holo2はこの課題を、独自の「Agentic Localization(エージェント的ローカライズ)」という手法で解決しています。 反復的な予測の洗練: 一度の推論で場所を決め打ちするのではなく、エージェントが推論を繰り返す(イテレーティブ・リファインメント)ことで、予測結果を段階的に正確なものへと修正していきます。劇的な精度向上: このアプローチにより、モデルのサイズを問わず10〜20%もの相対的な精度向上を実現しました。推論ステップの効果: 単発の推論では70.6%の精度ですが、エージェントモードとして3ステップ実行することで、最も難解なベンチマークの一つであるScreenSpot-Proにおいて78.5%という最高スコアを達成しました。 3. 日本の新人...
まだレビューはありません