エピソード

  • 【ショート編 #5】考えるAIの新形態:Ouroと“内部Chain-of-Thought”
    2025/11/28

    AI Shift Academy(#シフアカ)

    「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。


    ByteDanceが発表した新しい論文「Scaling Latent Reasoning via Looped Language Models」を紹介します。

    AIが“考える”という行為を、これまでとはまったく違う形で再定義する研究です。

    Chain-of-Thoughtのように「外で考える」モデルではなく、内部で何度も考える、Ouroについてコンパクトに紹介します


    参考リンク: https://arxiv.org/abs/2510.25741

    続きを読む 一部表示
    5 分
  • 「音声対話」対話システムの歴史 #3-4
    2025/11/26

    AI Shift Academy(#シフアカ)


    今回のテーマは「対話システムの歴史と未来」です。音声対話の基礎となるテキスト対話の進化を、1966年の元祖ELIZAから最新のLLMまで深堀りします。

    ・ELIZAとSHRDLU:黎明期の対話と擬人化現象

    ・主導権の変遷:一方通行から混合主導型へ

    ・技術の進化:ルールベースから確率モデル、深層学習へ


    ChatGPT以降、AIは言葉を理解できるようになりました。

    では次の競争軸は何か。答えは理解の正確さから「体験の心地よさ(UX)」へのシフトです。

    技術の先にある、これからの対話デザインの核心に迫ります!


    ▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    17 分
  • 【ショート編 #4】AIのIQテスト?~人間の知能構造でAGIを測る試み~
    2025/11/21

    AI Shift Academy(#シフアカ)

    「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。


    AIをどうやって「頭がいい」と言えるのか?

    今回は、AIの知能を人間のIQテストのように測ろうとした論文

    『A Definition of AGI』 を紹介します。

    GPT-4とGPT-5を10の能力で比べると、意外な強みと弱点がくっきり。

    「記憶が苦手」「得意分野にムラがある」など、今のAIのリアルな姿が見えてきます。

    AIの知能を“構造”から見る新しい視点を解説します。


    参考リンク:https://arxiv.org/abs/2510.18212

    続きを読む 一部表示
    6 分
  • 「音声対話」対話管理と対話制御モデルの変化 #3-3
    2025/11/19

    AI Shift Academy(#シフアカ)


    今回のテーマは、音声対話システムの核心「対話制御とモデルの変化」について。

    ユーザーの発話をAIはどう理解し、記憶し、次の応答を決めているのか?

    NLU(理解)→DST(記憶)→Policy(決定)という「対話の脳みそ」の仕組みを徹底解説します!

    ▼主なトピック

    ・ASR(音声認識)のストリーミング進化

    ・対話制御3モジュールの役割と連携

    ・LLM登場による「パイプライン型」から「End-to-End型」への構造変化

    ・精度と柔軟性を両立する「ハイブリッド型」の現実解

    「AIがどう考えて話しているか」を知れば、技術トレンドがより深く見えてきます。

    是非ご視聴ください!


    ▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    18 分
  • 【ショート編 #3】文字を画像に?DeepSeek-OCRが描くAIの新しい記憶法
    2025/11/15

    AI Shift Academy(#シフアカ)「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。


    今回はDeepSeek社が提案した新技術「DeepSeek-OCR」を紹介します。

    テキストを“画像として圧縮して保存する”というユニークな発想で、AIの「記憶のしかた」を変えるかもしれない注目の研究です。

    マルチモーダルAIの流れの中で、この技術がどんな位置づけにあるのか、そして今後のAIエージェント開発にどう影響するのかをわかりやすく解説します。


    参考リンク:https://arxiv.org/abs/2510.18234

    続きを読む 一部表示
    4 分
  • 「音声対話」ターンテイキングと音声対話システム #3-2
    2025/11/12

    AI Shift Academy(#シフアカ)


    なぜ私たちはスムーズに会話のキャッチボールができるのでしょう?

    今回のテーマは「ターンテイキング」(話す・聞くの順番交代)です。

    人間は相手の話の終わりを予測し、わずか0.2秒で交代していると言われます。この複雑な仕組みをAIでどう実現するのか?

    ターンテイキングの基礎、読み取る手がかり(声のトーン、視線など)から、LLMを活用した最新AIモデル(Turn GPT, VAP)、音声対話システムでの重要性(UX向上、「バージイン(割り込み)」)まで詳しく解説。

    会話AIの「間(ま)」の秘密に迫ります!


    ▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    26 分
  • 【ショート編 #2】「声で検索」Googleの新技術S2Rとは?
    2025/11/07

    AI Shift Academy(#シフアカ)「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。


    Googleが発表した新しい音声検索技術「Speech-to-Retrieval(S2R)」を紹介します。


    これまでの音声検索は「音声→文字→検索」という二段階でしたが、S2Rは“音声の意味”を直接理解して検索するという革新的な仕組み。


    音声認識の誤りを減らし、より速く自然な検索体験を目指すこの技術の仕組みや可能性を、わかりやすく解説します。


    ▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    4 分
  • 「音声対話」音声対話システムの全体像と変遷 #3-1
    2025/11/05

    AI Shift Academy(#シフアカ)


    ChatGPTのボイスモードなど、AIと「声」で話す仕組み=「音声対話システム」が急速に進化しています。

    かつては、(1)音声検出 → (2)文字化 → (3)意図理解 → (4)文脈把握 → (5)応答決定 → (6)文章生成 → (7)音声合成、という7つの専門分野を組み合わせる「パイプライン型」が主流でした。

    しかし、この方法ではエラーが伝播しやすく、全体最適化が困難でした。

    現在は、LLMを中心に多くを統合する「End-to-End型」が標準に。さらに、音声のトーンや感情をそのまま理解する研究も進んでいます。

    とはいえ、人間のように自然な「間」で会話を切り返す「ターンテイキング」や応答速度にはまだ課題も。

    音声対話の技術的な変遷と未来の課題を解説します!


    ▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠から

    続きを読む 一部表示
    24 分