豆包正式上线AI播客，它为什么那么重视音频？

记者：陆彦君

编辑：吴洋洋

Key Points

播客制作技术的改变可能会让这种内容变得更流行，不过不单是因为制作变简单了；

播客不同于传统音频产品，它不是一个人的陈述，而是至少两个人的聊天；

对于一个想做社区而非只做生产工具的应用来说，AI播客是个机会；

豆包押注音频，AI播客只是其中之一；

给豆包发语音、打电话，曾契合了下沉市场用户与AI交互的方式。

昨天(6月17日)，豆包上线了一个叫AI播客的功能，用户只需上传文档或者输入文章的网页链接，即可一键生成一段由AI双人对话构成的播客类音频。与去年9月Google在NotebookLM中上线的AI播客中主播生硬的念稿感相比，豆包播客要自然得多，而且，连晦涩的英文技术论文它也能将其变成播客。

例如，将字节跳动Seed-TTS团队一篇18页的英文技术论文发送给豆包或扣子，即可收获一段两人对谈讲解论文的中文播客，时长3分56秒。开头的前奏音乐也由播客模型自动生成，两位AI主播对话的过程中，男女声的音色与音调都比较自然，还会模仿人说「然后」「这个」等连接词，自然程度堪比OpenAI去年5月发布GPT-4o模型时展示的对话能力。

内容表达方面，这段AI播客并非直接逐字朗读原文，而是总结内容，还会表达观点、引导对话。比如，其中一位AI主播介绍Seed-TTS（Text to Speech）模型「可生成与人类声音几乎无法区分的语音」时，另一位AI主播给出了「听上去很厉害，但我猜这还不是全部」的回应。

传统的播客节目制作环节复杂。主播需要先做案头研究，制定内容框架，部分主播还会提前写好逐字稿再录制音频，录制结束后再进行人工剪辑。相比之下，用AI生成播客的步骤要简单得多——将资料「投喂」给AI，即可生成一段播客。

播客制作技术的改变可能会让这种内容变得更流行，不过不单是因为制作变简单了。

图说：豆包生成的AI播客。

聊天，比陈述更有市场？

商业数据平台Statista的数据显示，2024年中文播客的听众规模预计为1.34亿，相当于每100个互联网用户中有12人收听播客‌。这个比例不算高，因为它意味着八九成的人目前依然在通过图文、视频而非音频获得信息。不过，播客不同于传统音频产品，它不是一个人的陈述，而是至少两个人的聊天。

有例子表明，相较于单向输出，用户似乎更喜欢有互动感的内容。2023年，Google推出AI原生应用NotebookLM，起初，它只是一款普通的AI助手，可以根据用户上传的内容生成摘要、注解与用户想要的答案。真正让NotebookLM获得关注的是2024年9月上线的AI播客功能——音频概述（Audio Overviews）。这项功能支持上传PDF、Google文档、YouTube视频或音频文件等内容。上传文件后，NotebookLM就会把它们变成一段两人对谈的播客。根据Similarweb的监测数据，音频概述上线后的一个月，NotebookLM的访问量增长了200%以上，达到3150万次。

随后，2024年11月，音频生成公司ElevenLabs推出了类似的AI播客功能GenFM，支持32种语言；一个月后，2024年12月，传统音频平台Spotify上线了年度回顾（Wrapped）功能，首次引入AI生成的播客版本，不过这一功能的基座技术不是Spotify研发的，而是来自Google的NotebookLM。今年1月，国内的理想同学App也推出了「听播客」功能，AI音频的音色有5种可选，不过新闻来源均为虎嗅，用户暂时还无法自主上传内容以生成播客。豆包在今年5月加入了这场「潮流之战」。

单从技术看，豆包实现了业界最好的音色自然度，不过在将长视频变成播客时，豆包生成的音频内容相对简略。而且，豆包PC端、App端和扣子空间还未上线下载AI音频的功能。也就是说，豆包生成的播客目前只能在豆包应用内收听，用户无法把节目下载后再发布到其他平台。对于一个想做社区而非只做生产工具的应用来说，AI播客是个机会。

NotebookLM也曾限制用户向其他平台分享生成的笔记和播客，不过这个月初，NotebookLM修改了规则，开始允许用户通过公开链接将自己创建的东西——无论笔记还是播客——分享出去，以增强产品的传播力。

豆包押注音频，AI播客只是其中之一

为了实现把没有角色的文章变成由两位主播对话的AI播客，字节推出了专门的「豆包·语音播客模型」。在模型介绍中，字节称该模型是豆包大模型语音语言技术的「重大场景化升级成果」。

豆包对语音能力的重视超过国内其他ChatBot。去年6月，字节大模型团队发布过一个语音生成基座模型——Seed-TTS（Text-to-Speech）。研究团队称，和传统的单一任务模型不同，「我们希望它（Seed-TTS）能干任何任务、发出任何声音，且同时允许我们进行很多个维度的操控，比如方言、真人口癖，甚至吞字这类语音上的瑕疵。」

今年1月，字节推出端到端语音大模型，并基于该模型在豆包App中推出实时语音通话功能，用户可以直接给豆包发语音或者打电话给它。这一功能契合了下沉市场用户与AI交互的方式。有用户对「新皮层」称，她的父母会像发微信语音那样给豆包发语音询问生活中的问题。另有用户称，他会在逛博物馆时直接拨通豆包的电话，让豆包实时讲解馆藏文物。跟豆包语音对话的短视频内容，也是抖音平台上热度最高的AI类内容之一。多位业内人士对「新皮层」称，语音功能提升了豆包在年轻用户中的渗透率。

推出端到端语音大模型之前，豆包的语音通话功能采用的是ASR+LLM+TTS的方案：用户输入的语音先是通过ASR（自动语音识别）被转写为文本，再通过LLM（大语言模型）生成对话文本，最后通过TTS（文生音频）转为语音输出。今年1月上线的端到端语音大模型则将上述环节放在同一个模型中解决，由此降低了交互延迟，同时提升了对AI声音音色和情绪的把控。目前，国内多个语音生成产品仍然采用ASR+LLM+TTS方案。

6月中旬的火山引擎大会AI应用专场论坛上，字节跳动语音产研负责人叶顺平称，字节的语音技术涵盖了音频生成与创作、音频理解与生成、音乐理解与生成三大能力，可在语音助手、智能客服、在线教育、虚拟陪伴、有声内容生产等场景发挥价值，日均语音处理量达到约150亿次，已应用于超30个行业。

推出AI播客功能前，字节跳动还将其AI语音能力加载到了其他场景上。比如，邀请演播圈艺术家，以他们的真实人声为基础，使用豆包语音模型制作有声书，然后在番茄小说App内上架，方便习惯通过听的方式阅读的用户。

「语音不完全是工具，而是人类最直接的交互形式。」豆包大模型Seed-TTS团队在去年6月的内部访谈中称。人与人之间的情感连接更多依靠语音。想要迈向真正的AI，语音的自然度是关键一环，要让AI真的像人类的助手、伙伴一样，语音带来的情感连接必不可少——比如《钢铁侠》系列电影中的贾维斯。

除了小说电子书、角色设计、视频翻译、虚拟角色、播音、演员表达等关键词，那次访谈中还提到了如何让口吃、发不出声音的人也可以借助语音技术表达。

-END-

张楠卸任抖音CEO后首露面，为即梦站台｜大公司

字节重建AI核心｜大公司

字节要做agent平台；AI芯片厂寒武纪一季度营收比肩去年全年...｜智能晚报

即可购买《第一财经》杂志2025年6月刊

展开阅读全文

更新时间：2026-01-21

标签：科技豆包上线正式语音模型音频用户字节功能内容技术音色

1 2 3 4 5

豆包正式上线AI播客，它为什么那么重视音频？

Meta智能眼镜矩阵再扩容：Oakley、Prada新品蓄势待发

华为徐直军：四大趋势重塑连接生态

华为余承东：开源鸿蒙软硬件产品已达1200款

华为余承东宣布鸿蒙6发布

清华系具身智能企业星动纪元发布拟人服务机器人Q5

最合拍的苹果搭子！vivo X Fold5轻薄、影像、续航全升级

9机并联朱雀三号可复用火箭一级动力系统试车成功

拿一整天不累手！vivo X Fold5跨生态互联更省心，即将与你见面

“又一销冠”离职，东方甄选寻找新的“增长点”

罗技MX Master 4鼠标曝光：侧边新增按键，指示灯移位

开源还要IPO？MiniMax不想被遗忘在这个夏天

曹立军会见东方电气集团董事长罗乾宜

惊天丑闻，OpenAI档案曝光，奥特曼捏造YC董事长身份，虚伪真面目被揭穿

苹果iOS 26隐藏新铃声曝光：强调“玻璃质感”

消息称华为正在测试eSIM手机，实体手机卡或被淘汰，迈入eSIM时代

宇树科技确认完成C轮融资，估值超100亿；GPT-5或在夏季发

【安居多巴幸福速递】单日生活垃圾收运规模可达18吨

重磅消息！国内宣布“机械蚊子”机器人问世，科技兴国风向

创历史新高！资金猛买恒生科技ETF

大积木过山车、积木艺术模型……160多批进口设备设施

煜邦数字科技申请基于多任务卷积神经网络的无人机智能

从社交媒体到金融“超级应用”，马斯克X平台将上线投资

AI智能体对话存在低俗擦边内容筑梦岛APP被上海市网信

当升科技获战略投资

澜起科技将于7月7日召开股东大会，共审议15项议案