豆包正式上线AI播客,它为什么那么重视音频?

记者:陆彦君

编辑:吴洋洋


Key Points


播客制作技术的改变可能会让这种内容变得更流行,不过不单是因为制作变简单了;


播客不同于传统音频产品,它不是一个人的陈述,而是至少两个人的聊天;


对于一个想做社区而非只做生产工具的应用来说,AI播客是个机会;


豆包押注音频,AI播客只是其中之一;


给豆包发语音、打电话,曾契合了下沉市场用户与AI交互的方式。

昨天(6月17日),豆包上线了一个叫AI播客的功能,用户只需上传文档或者输入文章的网页链接,即可一键生成一段由AI双人对话构成的播客类音频。与去年9月Google在NotebookLM中上线的AI播客中主播生硬的念稿感相比,豆包播客要自然得多,而且,连晦涩的英文技术论文它也能将其变成播客。


例如,将字节跳动Seed-TTS团队一篇18页的英文技术论文发送给豆包或扣子,即可收获一段两人对谈讲解论文的中文播客,时长3分56秒。开头的前奏音乐也由播客模型自动生成,两位AI主播对话的过程中,男女声的音色与音调都比较自然,还会模仿人说「然后」「这个」等连接词,自然程度堪比OpenAI去年5月发布GPT-4o模型时展示的对话能力。

内容表达方面,这段AI播客并非直接逐字朗读原文,而是总结内容,还会表达观点、引导对话。比如,其中一位AI主播介绍Seed-TTS(Text to Speech)模型「可生成与人类声音几乎无法区分的语音」时,另一位AI主播给出了「听上去很厉害,但我猜这还不是全部」的回应。

传统的播客节目制作环节复杂。主播需要先做案头研究,制定内容框架,部分主播还会提前写好逐字稿再录制音频,录制结束后再进行人工剪辑。相比之下,用AI生成播客的步骤要简单得多——将资料「投喂」给AI,即可生成一段播客。

播客制作技术的改变可能会让这种内容变得更流行,不过不单是因为制作变简单了。

图说:豆包生成的AI播客。


聊天,比陈述更有市场?

商业数据平台Statista的数据显示,2024年中文播客的听众规模预计为1.34亿,相当于每100个互联网用户中有12人收听播客‌。这个比例不算高,因为它意味着八九成的人目前依然在通过图文、视频而非音频获得信息。不过,播客不同于传统音频产品,它不是一个人的陈述,而是至少两个人的聊天。

有例子表明,相较于单向输出,用户似乎更喜欢有互动感的内容。2023年,Google推出AI原生应用NotebookLM,起初,它只是一款普通的AI助手,可以根据用户上传的内容生成摘要、注解与用户想要的答案。真正让NotebookLM获得关注的是2024年9月上线的AI播客功能——音频概述(Audio Overviews)。这项功能支持上传PDF、Google文档、YouTube视频或音频文件等内容。上传文件后,NotebookLM就会把它们变成一段两人对谈的播客。根据Similarweb的监测数据,音频概述上线后的一个月,NotebookLM的访问量增长了200%以上,达到3150万次。

随后,2024年11月,音频生成公司ElevenLabs推出了类似的AI播客功能GenFM,支持32种语言;一个月后,2024年12月,传统音频平台Spotify上线了年度回顾(Wrapped)功能,首次引入AI生成的播客版本,不过这一功能的基座技术不是Spotify研发的,而是来自Google的NotebookLM。今年1月,国内的理想同学App也推出了「听播客」功能,AI音频的音色有5种可选,不过新闻来源均为虎嗅,用户暂时还无法自主上传内容以生成播客。豆包在今年5月加入了这场「潮流之战」。

单从技术看,豆包实现了业界最好的音色自然度,不过在将长视频变成播客时,豆包生成的音频内容相对简略。而且,豆包PC端、App端和扣子空间还未上线下载AI音频的功能。也就是说,豆包生成的播客目前只能在豆包应用内收听,用户无法把节目下载后再发布到其他平台。对于一个想做社区而非只做生产工具的应用来说,AI播客是个机会。

NotebookLM也曾限制用户向其他平台分享生成的笔记和播客,不过这个月初,NotebookLM修改了规则,开始允许用户通过公开链接将自己创建的东西——无论笔记还是播客——分享出去,以增强产品的传播力。


豆包押注音频,AI播客只是其中之一

为了实现把没有角色的文章变成由两位主播对话的AI播客,字节推出了专门的「豆包·语音播客模型」。在模型介绍中,字节称该模型是豆包大模型语音语言技术的「重大场景化升级成果」。

豆包对语音能力的重视超过国内其他ChatBot。去年6月,字节大模型团队发布过一个语音生成基座模型——Seed-TTS(Text-to-Speech)。研究团队称,和传统的单一任务模型不同,「我们希望它(Seed-TTS)能干任何任务、发出任何声音,且同时允许我们进行很多个维度的操控,比如方言、真人口癖,甚至吞字这类语音上的瑕疵。」

今年1月,字节推出端到端语音大模型,并基于该模型在豆包App中推出实时语音通话功能,用户可以直接给豆包发语音或者打电话给它。这一功能契合了下沉市场用户与AI交互的方式。有用户对「新皮层」称,她的父母会像发微信语音那样给豆包发语音询问生活中的问题。另有用户称,他会在逛博物馆时直接拨通豆包的电话,让豆包实时讲解馆藏文物。跟豆包语音对话的短视频内容,也是抖音平台上热度最高的AI类内容之一。多位业内人士对「新皮层」称,语音功能提升了豆包在年轻用户中的渗透率。


推出端到端语音大模型之前,豆包的语音通话功能采用的是ASR+LLM+TTS的方案:用户输入的语音先是通过ASR(自动语音识别)被转写为文本,再通过LLM(大语言模型)生成对话文本,最后通过TTS(文生音频)转为语音输出。今年1月上线的端到端语音大模型则将上述环节放在同一个模型中解决,由此降低了交互延迟,同时提升了对AI声音音色和情绪的把控。目前,国内多个语音生成产品仍然采用ASR+LLM+TTS方案。

6月中旬的火山引擎大会AI应用专场论坛上,字节跳动语音产研负责人叶顺平称,字节的语音技术涵盖了音频生成与创作、音频理解与生成、音乐理解与生成三大能力,可在语音助手、智能客服、在线教育、虚拟陪伴、有声内容生产等场景发挥价值,日均语音处理量达到约150亿次,已应用于超30个行业。

推出AI播客功能前,字节跳动还将其AI语音能力加载到了其他场景上。比如,邀请演播圈艺术家,以他们的真实人声为基础,使用豆包语音模型制作有声书,然后在番茄小说App内上架,方便习惯通过听的方式阅读的用户。

「语音不完全是工具,而是人类最直接的交互形式。」豆包大模型Seed-TTS团队在去年6月的内部访谈中称。人与人之间的情感连接更多依靠语音。想要迈向真正的AI,语音的自然度是关键一环,要让AI真的像人类的助手、伙伴一样,语音带来的情感连接必不可少——比如《钢铁侠》系列电影中的贾维斯。

除了小说电子书、角色设计、视频翻译、虚拟角色、播音、演员表达等关键词,那次访谈中还提到了如何让口吃、发不出声音的人也可以借助语音技术表达。


-END-


张楠卸任抖音CEO后首露面,为即梦站台|大公司

字节重建AI核心|大公司

字节要做agent平台;AI芯片厂寒武纪一季度营收比肩去年全年...|智能晚报




即可购买《第一财经》杂志2025年6月刊





展开阅读全文

更新时间:2025-06-21

标签:科技   豆包   上线   正式   语音   模型   音频   用户   字节   功能   内容   技术   音色

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top