『「AIの評価」AI評価の歴史 #2-1』のカバーアート

「AIの評価」AI評価の歴史 #2-1

カートのアイテムが多すぎます

ご購入は五十タイトルがカートに入っている場合のみです。

カートに追加できませんでした。

しばらく経ってから再度お試しください。

ウィッシュリストに追加できませんでした。

しばらく経ってから再度お試しください。

ほしい物リストの削除に失敗しました。

しばらく経ってから再度お試しください。

ポッドキャストのフォローに失敗しました

ポッドキャストのフォロー解除に失敗しました

「AIの評価」AI評価の歴史 #2-1

無料で聴く

ポッドキャストの詳細を見る

このコンテンツについて

AI Shift Academy（#シフアカ）

テーマ第2弾は「AIの評価」

第1回はAIの「知能」を測る方法の歴史を解説します。

人間と区別できるかで判断するチューリングテストから始まり、チェスAIのような課題達成能力、ベンチマークによる客観的比較、そして近年のLLMをAIに評価させる「LLM as a Judge」という最新の試みまでを紹介。

それぞれの評価方法のメリットと、指標が形骸化する問題点などを通して、AIの知能を問うことの難しさと面白さに迫ります。

▼おたよりは⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠から

まだレビューはありません