『E201|OpenAI挑战通用型AI Agent,聊聊Agent的底层架构、AGI转折点与RL人才分布』のカバーアート

E201|OpenAI挑战通用型AI Agent,聊聊Agent的底层架构、AGI转折点与RL人才分布

E201|OpenAI挑战通用型AI Agent,聊聊Agent的底层架构、AGI转折点与RL人才分布

無料で聴く

ポッドキャストの詳細を見る

このコンテンツについて

美国时间7月17日,OpenAI终于迎来了它的“Agent时刻”——通用型ChatGPT Agent正式发布。它整合了深度研究工具Deep Research与执行工具Operator,可一站式完成复杂任务,但仍存在速度慢、个性化不足等短板。 ChatGPT Agent的技术本质是“浏览器+沙盒”的混合架构,与Manus、Genspark形成技术路线差异。在底层架构层面,浏览器(Browser-based)代理虽堪称“万能”,但运行速度较慢;沙盒(Sandbox)代理高效,但无法联网操作、工具库受限;而工作流集成(Workflow API)速度快、结果精准。在训练方法层面,强化学习(RL)被视为AGI从“执行者”向“创新者”跨越的重要路径,但当前面临的验证泛化与训练不稳定难题,如同两道枷锁锁住了这扇进阶之门。 强化学习能否成为通用AI爆发的关键引擎?AGI实现技术跃迁的分水岭究竟在哪?在把Agent产品化和商业化的道路上,又如何平衡模型能力与用户体验?本期《硅谷101》,主播泓君对话Pokee.ai创始人朱哲清,多维度测评ChatGPT Agent使用体验,并深入拆解Agent的四大底层设计逻辑、探讨强化学习的训练路径,以及我们迎接“超级智能时刻”所面临的技术挑战。 【主播】 泓君Jane,硅谷101创始人,播客主理人 【嘉宾】 朱哲清,Pokee.ai创始人,前MetaAI应用强化学习团队负责人,斯坦福强化学习博士(X:@ZheqingZhu) 【101 Weekly新节目预告】 硅谷101上线了一版更加轻量级的音视频节目「101Weekly」,每周由我们的三位主播复盘三个商业热点事件,每期10分钟左右,并请来行业专家来一手分析解读,希望这每周的30分钟,帮助大家轻松了解一周新闻大事件,点击收听 (https://www.xiaoyuzhoufm.com/podcast/686add4193fd2d72b8d5d777)。 音频版:Fireside (https://sv101.fireside.fm/)|小宇宙 (https://www.xiaoyuzhoufm.com/podcast/686add4193fd2d72b8d5d777)|苹果播客|Spotify 视频版:BiliBIli (https://space.bilibili.com/508452265?spm_id_from=333.337.0.0)|Youtube (https://www.youtube.com/@TheValley101)|视频号|抖音 【你将听到】 ChatGPT Agent首发体验与技术拆解 00:21 拆解AI Agent技术路径:什么是“聪明机器的大脑”? 02:12 ChatGPT Agent一手实测:浏览器操作如超人 VS 速度慢如蜗牛 04:26 视觉能力加持:Action体验有提升,但仍需等待 05:45 旅行规划场景:支付环节仍需人类介入,信任门槛尚未跨越 08:11 “全部推翻重来”:缺乏个性化机制、记不住反馈细节 10:07 ChatGPT Agent“打通搜索与执行”的本质:Deep Research + Operator的“拼贴工程” 通用型Agent技术路径对比 12:31 通用Agent技术类比:Operator最早专注Browser操作,如今叠加Sandbox后,在通用Agent里表现最强 14:52 四大技术方向优劣势对比: 15:40 浏览器为主:通用性强,但速度慢、体验差、成本高 17:21 开放虚拟机:本地运行快,但访问互联网等外部服务不易 17:37 大模型+虚拟机:GensPark模式,相对环节更封闭 18:46 Workflow+工具集成:Pokee模式,交付好但不是所有任务都能做 20:23 Manus模式:Browser-based,Sandbox强,全能但慢 22:28 Genspark模式:标化工作流,牺牲通用性换取速度与稳定性 23:41 Pokee模式:速度快成本低,但范围受限 26:52 B端客户还是C端客户,适用场景与底层技术逻辑完全不同 29:36 Agent将重塑互联网入口,传统门户流量将大幅下滑 32:03 MCP无人维护:2万个协议中,真正可用的不到200个 33:47 Agent时代的广告逻辑大变:反而更有利于创作者? 强化学习与AGI的五个层次 38:52 强化学习适用场景:目标明确、机制清晰但数据稀缺 41:50 新兴路径:强化学习预训练(RL Pretraining) 44:40 一个非共识:验证(Verification)方向的泛化性,可能产出人类所不拥有的知识 46:51 AGI五级路径中,“执行者”(L3) 与“创新者”(L4) 间存在巨大技术鸿沟,核心在于验证能力 50:37 强化学习预训练的致命弱点:给出的解决方案可能“人类都看不懂” 52:43 强化学习(RLHF) Vs 监督学习微调(SFT):效果×2,但成本×10 Meta收购ScaleAI背后的逻辑 54:08 Meta收购Scale:多模态数据仍然是瓶颈 56:46 多模态数据的最大挑战:数据复杂 + 维度多 → 主观标准难统一 57:59 AI的核心问题:短期算力,中期数据,长期人才 59:10 如何让Agent调用更好用?自研模型 01:03:33 平衡模型能力与用户体验:模型能力决定下限,产品细节决定上限 强化学习的人才大本营 01:05:42 RL奠基人、2024年图灵奖得主Richard Sutton:想法极具前瞻性,且坚持原则 01:07:47 模型可塑性挑战:AI的“灾难性遗忘”亟待解决 01:09:56 奖励函数设计难...
まだレビューはありません