エピソード

  • 「AIの評価」評価の課題 #2-4
    2025/10/15

    AI Shift Academy(#シフアカ)

    今回は「AIの評価」評価における課題についてお話しています。


    特にLLMの性能評価における信頼性の問題を深掘りします。

    今回の放送では、AI評価者や人間に内在し、結果を歪める「バイアス」の体系的な分析から始めます。

    さらに、評価データが学習データに混入する「データ汚染」が如何にベンチマークを無意味にするか、そして評価AIの癖に最適化し実用性を損なう「ジャッジへの過適応」の危険性を指摘。

    問題設定自体の誤りや環境依存性といった、スコアの再現性を揺るがす要因も解説。AIの能力を正しく見極める上で、開発者や研究者が直面する深刻な課題を論じます。


    ▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    27 分
  • 「AIの評価」LLM as a Judge #2-3
    2025/10/09

    AI Shift Academy(#シフアカ)

    今回は「AIの評価」LLM as a Judgeについてお話しています。


    従来のAI評価は、自動指標では精度に、人手評価ではコストと時間に大きな課題がありました。

    そこで登場したのが、GPTのような高性能LLMを「評価者」として使う新手法「LLM as a Judge」です。

    人間による評価と遜色ない精度を実現しつつ、高速・低コストで大規模な評価を可能にします。評価の質はプロンプト設計が鍵を握り、明確な基準を与えることで人間の判断をスケールさせることができます。

    RAGの性能評価や、AIからのフィードバックでAIを強化するRLAIFなど応用も多彩。

    AI開発の常識を変えるこの技術を詳しく解説します!


    ▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    20 分
  • 「AIの評価」ベンチマーク #2-2
    2025/10/01

    AI Shift Academy(#シフアカ)

    テーマ第2弾は「AIの評価」


    かつて「人間らしさ」を問うたAI評価は、翻訳や要約など具体的なタスクの性能を競う時代へ。

    そして、AI版センター試験とも言える「ベンチマーク」が登場し、開発競争が加速します。

    今回の放送では、AI評価方法の歴史から、日本語特有のデータセット問題、そして国産ベンチマーク「JGLUE」の開発秘話までを深掘り!

    ChatGPTの登場で評価の常識も激変し、今やAIがAIを評価する時代に…⁉

    AI開発の裏側がわかる、知的好奇心をくすぐるエピソードです。ぜひお聴きください!


    ▼おたよりは⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    32 分
  • 「AIの評価」AI評価の歴史 #2-1
    2025/09/24

    AI Shift Academy(#シフアカ)

    テーマ第2弾は「AIの評価」


    第1回はAIの「知能」を測る方法の歴史を解説します。

    人間と区別できるかで判断するチューリングテストから始まり、チェスAIのような課題達成能力、ベンチマークによる客観的比較、そして近年のLLMをAIに評価させる「LLM as a Judge」という最新の試みまでを紹介。

    それぞれの評価方法のメリットと、指標が形骸化する問題点などを通して、AIの知能を問うことの難しさと面白さに迫ります。

    ▼おたよりは⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    32 分
  • #1 番外編〜パーソナリティ自己紹介&Podcastスタート秘話〜
    2025/09/17

    AI Shift Academy(#シフアカ)

    #1番外編として、パーソナリティの自己紹介とPodcastのスタート秘話についてお話しております。


    MLエンジニア戸田とチーフエバンジェリスト及川の普段の業務や二人の関わりについて紹介し、なぜPodcastを始めたのか、そのきっかけについて深掘ります。


    次回は「#2 LLMの評価」編をお届けします!

    お楽しみに!

    ▼おたよりは⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    8 分
  • 「RAGのR」 情報検索システムの商業化 #1-5
    2025/09/10

    AI Shift Academy(#シフアカ)

    第5回は「RAGのR」編最終回、情報検索システムの商業化に迫ります。


    今回は、画期的な検索理論が研究室を飛び出し、ビジネスの世界へと羽ばたいていく物語です。

    「情報検索の父」が開発した技術は、世界初の商用オンライン検索サービスへと繋がります。

    それは革命的でしたが、非常に高価でした。そこに「接続料金を気にせず使える」CD-ROMが登場し、「最新情報か、手軽さか」という競争が始まります。

    この歴史は、単なる昔話ではありません。

    現代のAI(特にRAG)を活用する上で欠かせない「情報源の質」「適切な技術選択」「ユーザー体験の設計」という本質的な教訓を教えてくれます。

    情報の洪水と戦ってきた人類の歴史から、AI活用のヒントを探りましょう。


    本テーマは、下記の5章で構成されています。

    1. 情報検索の起源:人間はもともとどうやって探していたのか? なぜ検索が必要になったのか?
    2. 検索結果の「評価」:測れないものは改善できないという原則
    3. 機械による検索の誕生:コンピューターがもたらした新しい可能性
    4. 検索結果の「順位付け」:関連度という革命的な発想
    5. 情報検索システムの商業化:実験室から社会実装へ


    ▼おたよりは⁠⁠⁠⁠こちら⁠⁠⁠⁠から

    続きを読む 一部表示
    21 分
  • 「RAGのR」 検索結果の順位付け #1-4
    2025/09/03

    AI Shift Academy(#シフアカ)

    第4回は「RAGのR」検索結果の順位付けに迫ります。


    Google検索で当たり前の「検索順位」。しかし、かつて検索結果が五十音順だった時代をご存知でしょうか?

    今回は、RAGの「R」=情報検索の歴史を深掘り。「大量にヒットしすぎて、どれを読めばいいかわからない」という課題を打ち破ったのは、「たくさん出てくる単語は重要」という直感と、「珍しい単語こそ重要」という逆転の発想でした。

    このブレークスルーを導いた、哲学出身の女性研究者カレン・スパーク・ジョーンズの物語とは? 50年以上経った今も現役の技術「TF-IDF」の誕生秘話から、技術革新の本質に迫ります。


    本テーマは、下記の5章で構成されています。

    1. 情報検索の起源:人間はもともとどうやって探していたのか? なぜ検索が必要になったのか?
    2. 検索結果の「評価」:測れないものは改善できないという原則
    3. 機械による検索の誕生:コンピューターがもたらした新しい可能性
    4. 検索結果の「順位付け」:関連度という革命的な発想
    5. 情報検索システムの商業化:実験室から社会実装へ


    ▼おたよりは⁠⁠⁠こちら⁠⁠⁠から

    続きを読む 一部表示
    21 分