『AI Shift Academy』のカバーアート

AI Shift Academy

AI Shift Academy

著者: 株式会社AI Shift
無料で聴く

このコンテンツについて

サイバーエージェントグループ・株式会社AI Shiftが提供する、AI技術の進化をストーリーとして読み解く、AI教養ポッドキャストです。 ▼おたよりフォーム ご意見・ご感想は下記よりお送りください。 https://forms.gle/djeA4bbMgVkJMdK79 ▼各種リンク AI Shiftホームページ:https://www.ai-shift.co.jp/ AI Shift Xアカウント:https://x.com/AIShift_PR 及川(パーソナリティ):https://x.com/cyber_oikawa株式会社AI Shift
エピソード
  • 「AIの評価」評価の課題 #2-4
    2025/10/15

    AI Shift Academy(#シフアカ)

    今回は「AIの評価」評価における課題についてお話しています。


    特にLLMの性能評価における信頼性の問題を深掘りします。

    今回の放送では、AI評価者や人間に内在し、結果を歪める「バイアス」の体系的な分析から始めます。

    さらに、評価データが学習データに混入する「データ汚染」が如何にベンチマークを無意味にするか、そして評価AIの癖に最適化し実用性を損なう「ジャッジへの過適応」の危険性を指摘。

    問題設定自体の誤りや環境依存性といった、スコアの再現性を揺るがす要因も解説。AIの能力を正しく見極める上で、開発者や研究者が直面する深刻な課題を論じます。


    ▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    27 分
  • 「AIの評価」LLM as a Judge #2-3
    2025/10/09

    AI Shift Academy(#シフアカ)

    今回は「AIの評価」LLM as a Judgeについてお話しています。


    従来のAI評価は、自動指標では精度に、人手評価ではコストと時間に大きな課題がありました。

    そこで登場したのが、GPTのような高性能LLMを「評価者」として使う新手法「LLM as a Judge」です。

    人間による評価と遜色ない精度を実現しつつ、高速・低コストで大規模な評価を可能にします。評価の質はプロンプト設計が鍵を握り、明確な基準を与えることで人間の判断をスケールさせることができます。

    RAGの性能評価や、AIからのフィードバックでAIを強化するRLAIFなど応用も多彩。

    AI開発の常識を変えるこの技術を詳しく解説します!


    ▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    20 分
  • 「AIの評価」ベンチマーク #2-2
    2025/10/01

    AI Shift Academy(#シフアカ)

    テーマ第2弾は「AIの評価」


    かつて「人間らしさ」を問うたAI評価は、翻訳や要約など具体的なタスクの性能を競う時代へ。

    そして、AI版センター試験とも言える「ベンチマーク」が登場し、開発競争が加速します。

    今回の放送では、AI評価方法の歴史から、日本語特有のデータセット問題、そして国産ベンチマーク「JGLUE」の開発秘話までを深掘り!

    ChatGPTの登場で評価の常識も激変し、今やAIがAIを評価する時代に…⁉

    AI開発の裏側がわかる、知的好奇心をくすぐるエピソードです。ぜひお聴きください!


    ▼おたよりは⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    32 分
まだレビューはありません