文生视频，ChatGPT的下一站？

文/李佳师

2023年 1 月12日晚上，OpenAI首席执行官Sam Altman身着灰色毛衣、蓝色牛仔裤、扎染运动鞋，出现在旧金山Salesforce 大楼46 层的一个房间。房间里挤满了投资人、记者和技术人员，因为人多，大家只能站着。在这个以风险投资为重点的活动上，Sam Altman透露了两个重要信息，一是OpenAI正在测试一个更强大的模型 GPT-4，预计很快发布；二是该公司正在开发一种可以根据文本描述生成视频的系统。

关于这两个重磅信息，前者已尘埃落地，GTP-4模型在3月15日推出，其性能之强大令人惊叹，后者尚未解开面纱，有可能成为该公司的又一枚引爆业界的“核弹”。

”关于AIGC,文字生成文本、图像、音频、视频的难度，其排序始终是文本静态图像声音视频。”小冰公司CEO李笛这样说。

去年下半年开始，业界包括谷歌、Meta以及一些创业公司相继发布了文本生成视频的系统，但这些系统效果并不理想，所以业界依然对于OpenAI公司的“文生视频”充满期待，因为OpenAI有制造现象级产品的“魔力”。

3月22日阿里达摩院在AI模型社区“魔搭”（ModelScope）悄悄放出 “文本生成视频大模型”，在开源模型平台低调对外测试；3月16日，百度发布文心一言也提供文字生成视频功能。

文字生成视频正在成为全球新一轮AIGC竞赛的新焦点。

文生视频赛道渐热

看到达摩院上线文生视频模型对外测试的消息，笔者在3月24日进入魔塔社区，在社区的模型库找到了“文本生成视频大模型-英文-通用领域”，进行体验。输入“一个猫咪吃饺子”，出来一段视频，是“一只灰黑的猫来回甩动头认真吃白色饺子“；输入“两只猫与一个女孩跳舞”，出现的视频为：“一只灰黑猫与一个猫头人身粉衣女孩跳舞“。

目前这个模型还不支持中文输入，从体验效果来看，生成的视频长度约为2-4秒，等待时间从20多秒到1分多钟不等，应该说，目前模型具备了文本生成视频的基本能力，但视频画面的真实度、清晰度以及长度等方面还有待提升。

在魔塔社区有关于“达摩院文生视频模型“的介绍，“该模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿。扩散模型采用Unet3D结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。“

就在阿里达摩院推出文生视频大模型之前的一周，百度发布了其大语言模型，具备文字生成文本、图像、视频的功能，其中被网友们关注的焦点之一是 “文生图“和”文生视频“的功能。

应该说，文字生成视频国外早于国内进行尝试。去年10月Meta公布了文生视频工具Make-A-Video，这个工具可以把文字生成视频，也可以将静态图片生成连续图片，然后将这些图片链接成一段视频，从效果看，目前Make-A-Video生成视频的分辨率有限。

尽管Make-A-Video尚显“生涩”，但已经足以引起业界“骚动”。

就在Meta公布Make-A-Video后一周，谷歌率先坐不住，谷歌公司 CEO Sundar Pichai 亲自上场公布了该公司的两个文生视频工具——Imagen Video 与 Phenaki，前者主打视频品质，后者主要挑战视频长。目前，Imagen Video 可以生成1280x768分辨率、每秒24帧的高清晰片段，而Phenaki可以实现“有故事，有长度“，而它之所以生成任意时间长度的视频，能力来源于其新编解码器-新编解码架构：C-ViViT。

因为Meta的搅动，另外一个坐不住的公司是StabilityAI，该公司因为文生图像的开源平台Stable Diffusion而出名，这家公司显然不希望文生视频的“彩头”被Meta与谷歌抢去，Stable Diffusion创始人兼CEO Emad立刻宣布 “即将发布一个比Make-A-Video更好的模型，而且是大家都能用的那种。”

“大家都能用”是致命杀手锏，事实上ChatGPT除了模型“牛”，更关键的是将人工智能从“天上“带到了“人间”，人人都可以用。

2023 年 2 月 6 日，Runway发布 Gen-1 模型，这个模型可以通过应用文本提示或者参考图像所指定的任意风格，将现有视频转换为新视频。这家公司在文生视频领域声名显赫，但如果不是今年3月13日奥斯卡将7项大奖颁给了《瞬息全宇宙》，很多人就不会知道这家公司，因为《瞬息全宇宙》的制作过程中，采用了这家公司的技术。

今年春天是万物生长的“AI季”，Runway公司的Gen-1还没内测完，3月21日该公司又以迅雷不及掩耳之势发布Gen-2，相比较于Gen-1，模型Gen-2 更专注于从零开始生成视频。

文生成视频正在成为AIGC的下一个焦点，形成新的虹吸效应。最近，谷歌文生图AI绘画模型Imagen论文的四位核心作者宣布离职，将创立一家文生视频的公司，虽然公司名称暂未对外公布，但文生视频的方向已经清清清楚楚。

文生视频，赛道已经开始变热。

文字生成视频为何难？

从文字生成文本到从文字生成图像、声音，再到文字生成视频，大语言模型正势如破竹加速各个维度的突破。按照小冰公司CEO李笛给出的难度排序，文字生成视频是AIGC领域比较难的一个堡垒。

OpenAI刚刚发布的GPT-4模型，与前代相比已经彰显了巨大飞跃，可以提供文字生成图像，但尚无文生视频。

APUS公司技术负责人张旭认为，视频本质上是一帧一帧的图像连续播放而成，目前文本生成图像的技术已相对成熟，所以文字生成视频原理是可行的，而且业界已经有不少文生视频的系统出现。但要从目前只能生成简单动画和短视频，实现更复杂、更任意长度的高质量视频，依然有两个方面的问题要解决。

“一方面要解决把AI生成的图像没有闪烁感，更连贯。另一方面需要解决时间效率与算力资源问题，目前将文本生成图像，在高端GPU显卡上，每张图像渲染的时间大约为几秒到十几秒，视频如果按照每秒30帧计算，那么一秒钟的视频就需要几分钟的渲染时间，大大限制其适用场景。这需要硬件技术和算法共同进化解决。”张旭说。

文字生成视频要实现 “所写即所得“快速生成，实现“丝滑连贯“依然有巨大挑战。

人工智能创业公司天壤智能创始人薛贵荣存将文生视频的挑战总结为五个维度：一是质量可控性有待提高。目前生成图像只是一帧画面，而生成视频则要求生成的内容具有高度一致性，如人物的形象、语言、动作、声音都要保持高度统一。二是形象的生动性、丰富度、真实性需持续提升。三是算力挑战巨大，成本耗费高。更高的分辨率意味着更清晰、精细的呈现和更多信息的变化控制。越生动、越高清，真实感越强的视频，计算量也就越大。四是模型的复杂度和参数规模挑战。能够生成视频的AI模型至少是千亿以上的参数模型。五是信任和安全、成本、版权等也面临很大的挑战。

业内一位专家提及目前文本生成视频产品的主要短板，首先是质量依然有很大的提升空间，尤其是复杂场景下的表现。与此同时处理速度，特别是在大规模文本数据处理时的速度仍然是挑战。再者是模型或应用在可控性和定制性方面也还有待提高。还有一点是数据隐私和安全性问题也需要解决。

李笛认为，文本生成视频当前主要短板是可控性。生成的质量不稳定，需要调整的时候不容易调整，这个导致它可以用来Demo（演示），但很难实际落地。所以从这个角度看，文生视频应用空间远没有文生文本大，而且难度与成本也要高得多。

李笛同时表示，一个文生视频的优与列决定要素是“算法“，而算法唯一可量化的就是参数规模。但恰恰是这个参数规模，它并不能反应模型真正的质量。有的模型很大但效果很差，有的模型参数不大但效果很好，有的模型参数规模比GPT 3.5大10倍，但效果远远不如它。“目前大模型并没有可以用来评估的指标体系。” 李笛说。

薛贵荣认为需要从时间和空间两个维度评价文字生成视频模型和应用。从时间维度看，AI要基于对文字的理解生成对应风格的视频内容。如何理解文字及背后延伸的含义，决定了内容的关联性是否足够强、故事情节和文化情感的变化是否合理。时间上的逻辑性越强，越会“讲故事”，生成的视频质量越高。从空间的维度看，模型能否真实、自然地生成每一帧画面，画面逻辑是否合理、细微之处是否平顺、光滑，画面结构是否符合现实物理世界的规律，决定了生成内容的可用性。

OpenAI文生视频，值得期待？

尽管谷歌、Meta等已经率先出动，尽管业界已经有不少玩家在弄文字生成视频的应用，但一点也不影响全球对于OpenAI 文生视频的期待。刚离职正进行AI大模型创业的前阿里副总裁贾扬清认为，ChatGPT的成功关键要素之一，是很好地设定了产品的边界。“ ChatGPT 为什么能够比其他的类似的聊天机器人更加不让人讨厌？除了技术能力超群之外，还和产品边界的定义非常相关。ChatGPT 的定位是很轻量级的‘Chat’，所以它就算回答出错，也不像其他的产品那样让人讨厌，反而变成一种有趣的谈资。同时，最简的界面让人非常容易上手，‘没事聊两句’也是一个不显得有科技产品的距离感的体验。 “

“可怕的不是ChatGPT不犯错，而是像人一样犯错。“美国国家工程院外籍院士、北京智源人工智能研究院理事长张宏江最近在一场主题为《大模型发展机会与挑战》演讲中表示：为什么人们如此热衷听ChatGPT一本正经地胡说八道？不是它聪明到不犯错，而是它聪明到犯的错误跟人特别像，这种人性一面若隐若现地显露。”

张宏江认为，ChatGPT是技术工程化与产品化的典范，除了数据、算力与算法构筑起强势技术壁垒，海量语料、海量会话与海量用户，都成为其至关重要的成功因素。它是数据与模型双轮驱动，赢家通吃的代表。

Salesforce 首席科学家、计算机视觉和机器人学家Silvio Savarese 在2022年10月3日发表了一篇博客《If You Can Say It, You Can Do It: The Age of Conversational AI》（如果你能说，你就能做到：对话式人工智能时代），文中非常关键的一句话是“最好的工具不是因为功能强大且易于使用，而是因为它们易于使用而强大”。他的这篇博客发表在ChatGPT上线之前，预言了具备这样特征的对话式人工智能，如何在海量用户的“互动”下快速迭代，最终成功。

微软中国公司首席技术官韦青说，古人有一句话叫“圣人畏因，凡人畏果。” 有了理念、信仰、追求，才能产生结果。ChatGPT的下层有两类支柱。一方面是因为大语言模型，赖以沉淀人类所有的知识，或者是能够被它学习到的所有知识的机制。是Transformer/RNN/CNN/LSTM，是用数学的方式，表征物理世界和人类知识与行为的特征。另一方面，OpenAI也是由人构成，这群人有一个共同的理想，坚信做这件事是对的，是有用的，这些人有科学修养，又有工程实现能力，又对语言学、计算机科学的第一性原理有深刻理解。

每一件事情的发生，人们往往看到了果，但凡是都有原因。不久前，北京智源人工智能研究院健康计算研究中心技术负责人黄文灏分享了他在硅谷与ChatGPT团队交流的感受。

首先，他们的三个领军人物包括CEO Sam、联合创始人兼首席科学家Ilyia、总裁Greg都是非常偏执的人，Sam、在公司里没有一分股份，Ilyia只拿研究经费，Greg来公司前就财务自由。这三个人都对这个世界有比较强烈的主张，整个机构有信仰和方向感、有定力。

其次是坚信AGI一定会到来，把AI做成产品而非技术。“我跟OpenAI的人聊，大家都很坚信AGI很快会到来。方法论是坚持暴力美学和系统主义，文化是把AI做成产品，而不是技术，他们一直在持续迭代产品。”

OpenAI的人才观很简单，就是能动手的研究员，精通算法的工程师。在那里做研究员和工程师没有区别，优秀的研究员包括从Google过去的人在面试的时候，OpenAI会要求他们有很好的paper，要求他们在第一轮写一个前端的实践，第二轮写优化，而且他们都能写得不错。

最后是OpenAI有强大的资源支持。目前OpenAI有近3万张GPU，他们随便写一个程序就用两千张卡，ChatGPT每月运行成本接近1亿美元。他们在数据量投入大量资金，数据标注投入数千万美元，2022年算力和数据花费为4亿多美元。

鉴于这样的“因”，人们有理由期待OpenAI能在文生视频上生成令人惊艳的“果”。而据黄文灏透露，OpenAI的GPT-4去年已经训练完，4.5差不多准备好了，GPT-5应该正在做。

最近,OpenAI发表了一篇论文，从论文中有专家分析出GPT-5的一些蛛丝马迹。

首先是模型规模,可能会达到1万亿甚至数十万亿的参数规模。这种庞大的模型将拥有更加深入的语言理解和更加精准的语言生成能力，能够更好地模拟人类的语言行为。

其次语言理解能力，未来的GPT-5则有望在这方面得到重大突破，实现对更加复杂、抽象、逻辑性强的语言任务的理解和产生。

三是多模态融合。目前的GPT模型主要是以自然语言为输入，输出也是自然语言。但未来的GPT-5有望将多模态信息（如图像、声音、视频等）融合到模型中，实现更加全面的语言理解和产生。这将使得模型在人机交互、虚拟现实、智能家居等领域的应用更加广泛。

四是更加高效的推理和训练。

五是更加人性化的交互方式。GPT-4主要是通过命令行或API进行交互，未来的GPT-5有望实现更加人性化的交互方式，如语音交互、手势交互、图形界面等，让普通用户也能够方便地使用这种技术。

官方的消息是OpenAI总裁格雷格·最近透露，目前公司正在测试GPT-4高级版本，是普通GPT-4储存内容能力的5倍。种种信息都在显示，OpenAI模型进化的速度越来越快。

不过黄文灏同时表示，即使OpenAI现在解决了语言模型的问题，但也不一定能很好地处理视频，因为现在都是采用抽关键值、把它变成图片的方式解决。而做视频数据可能需要一些不一样的网络结构。

应该说，从AI生成图像与视频技术积累的维度，OpenAI公司有文本生成图像的产品DALL-E-2。从模型的角度，按照薛贵荣预判的视频所需的模型参数是数千亿，GPT-5能达到1万亿甚至数十万亿的参数规模。而更为关键的是此前制造的ChatGPT有惊艳表现，以及这家公司的身上的种种“因”，OpenAI在文本生成视频上值得全球期待。

展开阅读全文

页面更新：2024-03-08

标签：达摩维度视频模型图像文本参数语言文字公司

1 2 3 4 5

文生视频，ChatGPT的下一站？

文生视频赛道渐热

文字生成视频为何难？

OpenAI文生视频，值得期待？

重新洗牌，一夜之间大批司机被封，顺风车行业变天了！

现在的自媒体造谣真没底线，建议华为的法务行动起来

张小飞的Java之路内部类

互联网江湖之免费：网易的崛起-丁磊造就了互联网免费的势

小店葡萄报白要多长时间？审核速度快不快？

人类的进化史上发生了什么，以至于胃酸的酸度接近食腐动物？

第六届数字中国建设峰会将于4月27日至28日在福州召开

如果我们的意识思想能够被数字化和上传，那么我们是否可以永生？

python 100天 88 用streamplot函数绘流线图

Flink ML 中机器学习算法介绍（一）

ai软件画画除了AI创作和AI绘画外，AI还能做什么

（干货观点）云涌科技董事长高南：数字时代下的工业互联网安全

魅族上车领克，燃油车的智能化靠手机厂来拯救？

石头自清洁扫拖机器人 G20 体验：可以更彻底的做个“懒人”了

已经6年了，纯电动车主算了一笔账，优势在缺陷面前不值一提

阿里出手！这家公司股价暴涨

郑爽公司被冻结100万股权

AI大模型下一站：“文生视频”还有多远？

云南景洪市市场监督管理局回应网传“版纳烧烤价格过高

他们开源了GitHub最火的双语对话模型，还说AI胡说八道不

教你如何一键压缩视频，可调节清晰度，还能批量压缩，很方便

一季度业绩抢先看，33家公司业绩预喜，机构预测6家公司今

专访太古股份有限公司主席白德利：大湾区的发展前景令人

我国制造业上市公司呈现出向好发展态势

「计算机基础」你不知道的编程语言的演变

文生视频，ChatGPT的下一站？

文生视频 赛道渐热

文字生成视频为何难？

OpenAI文生视频，值得期待？

文生视频赛道渐热