『「AIの評価」AI評価の歴史 #2-1』のカバーアート

「AIの評価」AI評価の歴史 #2-1

「AIの評価」AI評価の歴史 #2-1

無料で聴く

ポッドキャストの詳細を見る

このコンテンツについて

AI Shift Academy(#シフアカ)

テーマ第2弾は「AIの評価」


第1回はAIの「知能」を測る方法の歴史を解説します。

人間と区別できるかで判断するチューリングテストから始まり、チェスAIのような課題達成能力、ベンチマークによる客観的比較、そして近年のLLMをAIに評価させる「LLM as a Judge」という最新の試みまでを紹介。

それぞれの評価方法のメリットと、指標が形骸化する問題点などを通して、AIの知能を問うことの難しさと面白さに迫ります。

▼おたよりは⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠から

まだレビューはありません