エピソード

  • Ep.45 AIはなぜ「知ったかぶり」をするのか?言語モデルのハルシネーションの根源と社会技術的解決策
    2025/09/06

    大規模言語モデル (LLM) における「幻覚 (hallucination)」と呼ばれる現象について考察しています。この現象は、モデルが自信を持って誤った情報を生成することを指し、OpenAIの最新研究論文がその原因と評価方法の改善を提案しています。資料は、現在のトレーニングと評価の仕組みが、不確実性を認めるよりも推測を報酬として与えているため、幻覚が継続していると主張しています。

    続きを読む 一部表示
    19 分
  • Ep.44 VibeVoice-7Bを試してみた結果(25ステップ版)
    2025/09/02

    スクリプト:

    Speaker 1: こんにちは、みんな。今日は新しいAIのデモをためしてみるんだよね?

    Speaker 2: そうそう。音声合成で自然な日本語が話せるか確認したいんだ。

    Speaker 3: 楽しみだなぁ。どんな声になるのか想像できないよ。

    Speaker 4: 私はちょっと不安。変なイントネーションにならないかな?

    Speaker 1: まあまあ、ためしてみないとわからないよ。とりあえずやってみよう。

    続きを読む 一部表示
    1分未満
  • Ep.43 VibeVoice-7Bを試してみた結果(10ステップ版)
    2025/09/02

    スクリプト:

    Speaker 1: こんにちは、みんな。今日は新しいAIのデモをためしてみるんだよね?

    Speaker 2: そうそう。音声合成で自然な日本語が話せるか確認したいんだ。

    Speaker 3: 楽しみだなぁ。どんな声になるのか想像できないよ。

    Speaker 4: 私はちょっと不安。変なイントネーションにならないかな?

    Speaker 1: まあまあ、ためしてみないとわからないよ。とりあえずやってみよう。

    続きを読む 一部表示
    1分未満
  • Ep.42 VibeVoice-1.5Bを試してみた結果 English(25ステップ版)
    2025/08/31

    Script:

    Speaker 1: Hi everyone. We’re going to try a new AI demo today, right?

    Speaker 2: Yeah. I want to check if it can speak natural Japanese with speech synthesis.

    Speaker 3: I’m looking forward to it. I can’t imagine what the voice will sound like.

    Speaker 4: I’m a little worried. What if the intonation sounds weird?

    Speaker 1: Well, we won’t know until we try. Let’s give it a shot.

    続きを読む 一部表示
    1分未満
  • Ep.41 VibeVoice-1.5Bを試してみた結果(25ステップ版)
    2025/08/30

    スクリプト:

    Speaker 1: こんにちは、みんな。今日は新しいAIのデモをためしてみるんだよね?

    Speaker 2: そうそう。音声合成で自然な日本語が話せるか確認したいんだ。

    Speaker 3: 楽しみだなぁ。どんな声になるのか想像できないよ。

    Speaker 4: 私はちょっと不安。変なイントネーションにならないかな?

    Speaker 1: まあまあ、ためしてみないとわからないよ。とりあえずやってみよう。

    続きを読む 一部表示
    1分未満
  • Ep.40 VibeVoice-1.5Bを試してみた結果(10ステップ版)
    2025/08/30

    スクリプト:

    Speaker 1: こんにちは、みんな。今日は新しいAIのデモをためしてみるんだよね?

    Speaker 2: そうそう。音声合成で自然な日本語が話せるか確認したいんだ。

    Speaker 3: 楽しみだなぁ。どんな声になるのか想像できないよ。

    Speaker 4: 私はちょっと不安。変なイントネーションにならないかな?

    Speaker 1: まあまあ、ためしてみないとわからないよ。とりあえずやってみよう。

    続きを読む 一部表示
    1分未満
  • Ep.38 「interview2jppodcast」対談動画のトランスクリプトから日本語ポッドキャストを生成するアプリ
    2025/08/24

    「interview2jppodcast」は以下の機能を持った便利なあぷりです。このアプリを使えば、聞き取れない言語の対談動画を日本語で聴けるようになります。

    • 外国語のトランスクリプトを話者分離した日本語訳にする
    • GeminiのAPIを用いてTTSする
    • 長尺の場合、トランスクリプトをチャンク分けして並列でTTSをおこなうため短時間で音声にできる
    • ユーザーが指定したBGMを合成する


    https://github.com/ikuo5710/interview2jppodcast

    続きを読む 一部表示
    3 分
  • Ep.33 CVPR 2025 Best Student Paper Honorable Mentions : Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens
    2025/06/17

    Discrete Diffusion Timestep (DDT) Tokensに関するこの論文は、マルチモーダル大規模言語モデル (MLLMs)における視覚理解と生成を統合する革新的なアプローチを提案しています。既存のMLLMが使用する空間視覚トークンは、言語に固有の再帰的構造が欠けているため、LLMが完全に習得するのが困難であるという問題点を指摘しています。この課題に対処するため、著者は拡散タイムステップを活用して、離散的で再帰的な視覚トークンを学習する新しい手法を導入しています。これらのDDTトークンは、ノイズの多い画像における漸進的な属性損失を再帰的に補償することで、LLMの自己回帰推論能力と拡散モデルの正確な画像生成能力を効果的に組み合わせ、シームレスなマルチモーダル理解と生成を可能にします。実験では、このアプローチが、他のMLLMと比較して、マルチモーダル理解と生成の両方で優れた性能を達成していることを示しています。

    続きを読む 一部表示
    9 分