写作、绘画、游戏、音视频编辑…AIGC为内容生产带来了什么?

当AIGC产品不断涌向社会,人们纷纷认为美图app“危了“的时候,美图公司创始人兼首席执行官吴欣鸿表示,影像和 AIGC 的创新结合,将带来影像生产力的大爆发,同时会为相关领域带来新的职业和新的创业机会。目前,在影像生产力领域,AIGC 相关产品和服务正持续提升生产效率,大大降低人力成本。


就像丁磊博士在《生成式人工智能》中说到的,与其说人工智能将取代从业者,不如说它完成的是枯燥繁重的工作内容,它淘汰的不是人类,而是落后的生产力。对大部分人来说,人工智能不是竞争对手,而是我们的工作伙伴,它将成为必要的生产要素,使生产力倍增。我们应该做的是训练和使用人工智能,让人工智能为我所用,Work with AI


从字面上看,AIGC 就是利用人工智能自动生成内容的生产方式,它可以在生成式 AI 模型、训练数据等的基础上,生成文本、图片、音频、视频、代码等多样化内容,这种快速的内容生产方式给市场注入了令人兴奋的新鲜血液。


AIGC 的出现,使得各行各业都受益,使得人们的生活更加便捷。但在发展得如火如荼的同时,AIGC 又引发了我们对其更深层次的思考。AIGC 开启了新一轮的内容生产革命,它在多样性、质量、效率三个方面推动了内容生产大踏步前进。AIGC 的出现,既可以满足消费型内容亟待扩充的需求,也可以快速产出多样化的内容形态,迎合多种细分场景,以 AI 作者的身份助力商业化浪潮的翻涌。或许我们现在正在看的某张图片、某段视频就是 AI 作者的“作品”,而我们却不自知。


丁磊博士在《生成式人工智能》中,围绕 AIGC,对文本、图片、视频等不同的内容形式,详细说明了 AIGC 究竟是如何“长袖善舞”,在各个内容形式中发挥作用的。

#1

文本生成:接近人类的正常思维

AIGC 生成文本目前主要被应用于新闻的撰写、给定格式的撰写、风格改写以及聊天对话,GPT 是主流的文本生成模型之一。GPT 的“学名”是生成式预训练模型(generative pre-trainingtransformer),这是一种用来分析和预测语言的人工智能模型,它可以帮助我们进行自然语言处理,例如机器翻译、自动文摘和快速问答。GPT 的厉害之处是,它可以在文本中自动学习概念性内容,并自动预测下一段内容。也就是说,它可以根据上下文记住概念,并能够在短时间内直接输出相关内容。

GPT 背后的基础模型是一种新型的机器学习技术,它可以帮助我们分析大量的自然语言数据。它背靠一个大型神经网络,通过在已有文本库中找到有关自然语言的规律来学习。GPT 无须人工设计特定的自然语言处理系统,可以根据已有文本,自动生成语法正确、内容相关的文本。有这样一个“神器”,很多内容就可以借助它的力量来完成了!

GPT 的发展目前经历了 GPT—1、GPT—2 、 GPT—3、 GPT—3.5 和GPT—4 几个阶段。对于 GPT—1 模型,我们可以这么理解:先使用海量没有进行标注的语料,预训练出一个语言模型,而后对语言模型进行微调,使之应用于特定的语言任务中。GPT—2 则在 GPT—1 的基础上进行了多任务的训练,使用了更大的数据集,提升了语言处理能力。GPT—3 则在训练的参数量、训练数据和训练费用上都高于前两者,能完成更加复杂的任务。

OpenAI 推出的 ChatGPT 是 GPT—3.5 的延伸,这是一款聊天机器人程序,能通过学习和理解人类的语言与人类对话,还能实现视频脚本撰写、营销文案写作、文本翻译、代码编写等功能。例如它在代码理解和编写方面的能力,就在程序员圈引起了广泛的关注:它可以看懂你输入的代码片段,帮你解读其中的含义,甚至可以根据你的要求帮你编写一段完整的代码。如此强大的能力,几乎颠覆了人们的认知,并引发了诸多关于“AI 替代人类”的相关讨论。

而当人们还沉浸在 ChatGPT 带来的无限遐想中时,就在 2023 年3 月,OpenAI 推出了史上最强大的模型—GPT—4。它在文学、医学、法律、数学、物理和程序设计等不同领域表现出很高的熟练程度,各方面能力已全面超越 ChatGPT。不仅如此,它还能够将多个领域的概念和技能统一起来,并能够理解一些复杂概念。OpenAI 在官网上演示了这样一个示例:向 GPT—4 展示一张图片(图 1—8),并询问图中有什么有趣的地方。而 GPT—4 的回答相当精妙:这幅图的有趣之处在于,把一个大而过时的 VGA(视频图形阵列)接口插入一个小而现代化的智能手机充电端口,这是十分荒谬的。GPT—4 俨然拥有一个普通人的正常思维。

要想深刻了解 AI 技术的发展,我们就需要到推动主体—企业中去。主打 AI 文本生成的 Jasper 公司位于美国加利福尼亚州,通过其产品的文本生成功能,用户可以轻松完成生成 Instagram(照片墙)标题,编写 TikTok(抖音国际版)视频脚本、广告营销文本、电子邮件内容等略显烧脑的重复性工作。AI 文本生成功能一经推出,便给社交媒体、跨境电商、视频制作等多个新兴行业带来了巨大的颠覆力量。

除了 Jasper 以外,OpenAI 更是近期谈论 AI 时不可绕过的热门企业。OpenAI 是一家 AI 研究公司,成立于 2015 年,它旨在促进人工智能的安全可控发展。GPT 这类卓越的自然语言处理模型,就是 OpenAI 首创推出的,这也使得 OpenAI 一跃成为 AI行业的佼佼者。在自己进行技术创新之外,OpenAI 也通过与微软等行业巨头的合作,将 AI 的应用推向更高的层次,这也将为人类的日常生活带来丰富的可能性。

由于 GPT 有基于英文语料库且不开源的局限,国内的技术人员也在探索我们自有的自然语言处理模型。2020 年 11 月中旬,北京智源人工智能研究院和清华大学研究团队就合作推出了中文预训练模型—清源 CPM (Chinese Pretrained Models),我们也有了自主研发的类似于 GPT 的模型。

#2

图片生成:一秒出图成为现实

你是否尝试过用 AI 生成图片呢?谈到 AI 生成图片,你第一时间又会想到哪个程序呢?你所使用的程序,很可能背后是由 Diffusion(扩散)模型来进行技术支撑的。Diffusion 模型是一种新兴的 AI 技术,它的灵感来源于物理学中的扩散现象:通过对图片不断加入噪声来生成一张模糊的图片,这个过程类似于墨水滴入水池的扩散过程;再通过深度神经网络学习模糊的图片并还原成原始图片的逆扩散过程,实现生成图片的功能。目前,Diffusion 模型在视觉艺术和设计相关领域非常受欢迎。

Stability AI 是一家全球领先的 AI 研究型企业,致力于开发前沿的人工智能模型。2022 年,由该公司与另外两家初创公司共同研发的 Stable Diffusion 模型发布,可以真正实现“一秒出图”,这个“一秒”不是夸张的代指,而是真正的事实。这就意味着你可以借助 AI,实现自己瑰丽的梦境,复原宏大的想象,也可以为自己的小说配上极富幻想感的插图,不论它们有多超现实,你都可以通过 AI 把它们呈现在大家的眼前,让想象不再孤独。

2022 年,AI 绘图突然大热,随着 DALL·E 2、Stable Diffusion、Midjourney 等图像生成领域现象级应用的纷纷兴起,AI 绘画就像一阵旋风,首先在国外引起了不小的风浪,社交平台上出现了大量的AI 绘画相关尝试和讨论。很快这场旋风就从国外刮到国内,引起了国内用户的广泛关注。这些应用到底有着怎样惊奇的功能,而它们背后又有哪些企业在推动这场 AI 绘画“旋风”呢?

首先我们把目光放到 Midjourney 身上(图 1—9),这是由同名研究实验室开发的 AI 绘画工具。在 AI 绘画领域,Midjourney 降低了艺术绘画创作的门槛,用户只需要输入文字描述,计算机就会自动生成一张作品。Midjourney 采用了深度学习模型,能够自动为用户生成高质量的绘画作品,包括素描、油画等,让用户的使用更加方便。


毫不夸张地说,Stable Diffusion 模型是掀起 AI 绘画热潮的源头之一,Stable Diffusion 本身及基于它开发的绘画工具,让 AI 绘画引爆了舆论热潮。而其背后的公司 Stability AI 在 AI 绘画模型爆火前的估值为 1 亿美元,爆火后的估值则为 10 亿美元,狂涨 10 倍,足见AI 技术产出的大众化程序有多么强大的市场潜力。

与此同时,也有其他公司在 AI 绘画赛道“另辟蹊径”。如一家成立时间不到两年的公司 PromptBase,主营业务为销售 AI 绘画工具的提示词,将提示词复制到 Midjourney、Stable Diffusion 等 AI 绘画平台,可以实现精准快速的图像生成,让用户在探索提示词上少走弯路。

若把目光转向国内,百度集团旗下的人工智能产品文心一格也在2022 年 8 月宣布,用户只需要输入一段文字,并选择作画风格,文心一格就可以快速生成一幅画作。它以百度飞桨深度学习平台、文心大模型等技术为支撑,通过对海量优质图文的学习,经过多次迭代升级,如今已具备了更强的中文内容语义理解能力以及高质量图像生成能力,进一步满足国内用户对 AI 绘画的需求

#3

视频生成:明星企业众多

AIGC 视频生成,是一种基于人工智能的视频制作技术,它能够根据用户提供的文字提示,自动生成视频内容,而且还能够根据不同的需求调整视频的参数,以达到最佳效果。这在某种程度上是 AIGC图片生成的延伸,视频生成的目标是生成连续图片(每张图片即一帧)的序列,它可以使用深度神经网络技术来生成高质量视频和动态内容,从而极大地提高视频的制作速度,也能够让视频内容更加逼真生动。

AIGC 视频生成已经在很多行业得到了应用,并取得了不错的效果。学校可以使用 AI 视频生成技术来制作动画片或教学视频,医院也可以使用 AI 视频生成技术来模拟手术过程,帮助外科医生更好地理解手术流程。我们体验过的视频游戏、虚拟现实(VR)、视频会议等,都可能与 AIGC 视频生成的技术有关。

在 AIGC 视频生成技术逐渐成熟后,不少新兴科技公司也开始使用人工智能技术来进行影视制作,传统的影视制作方法与人工智能技术强强联合,能实现大规模的动态图像处理、自动剪辑、自动字幕添加、智能特效设计等,在影视制作中也能极大地解放人力和物力,压低制作成本

AI 影视制作的案例颇多,如电脑艺术家格伦·马歇尔(GlennMarshall)的人工智能电影《乌鸦》(The Crow)就获得了 2022 年戛纳短片电影节评审团奖。《乌鸦》的基础是视频网站上的短片Painted,马歇尔将其输入 OpenAI 创建的神经网络中,然后指导另一个模型生成图像,这样就生成了一段关于“荒凉风景中的乌鸦”的视频。在电影《速度与激情 7》中,剧组将虚拟演员“放置”到视频中,实现虚拟与现实的完美融合,减轻人物和场景的限制,实现更多可能。这种效果是怎样实现的呢?这涉及多重技术支持:首先从之前的镜头中选择拍摄所需的动作和表情,建立数字成像模型,再渲染出虚拟的人物;在替身演员拍摄完肢体动作后,还会对脸部进行替代。通过这种方式,逝去的保罗·沃克在电影《速度与激情 7》中“重生”,为影迷带来了慰藉。

在AIGC视频制作赛道同样有很多“明星企业”。2023年2月6日,人工智能初创公司 Runway 官网宣布推出 AI 视频生成模型 Gen—1,给竞争已十分激烈的 AIGC 赛道又添了一把熊熊烈火。Gen—1 究竟有什么令人惊叹之处呢?它采用了最新的深度学习编码技术,可以将数据转化为精美的 3D 图像和视频,还能根据文字脚本、图片、视频剪辑等进行自动内容生成,创造出真实感十足的 3D 场景,帮助使用者体验真实世界中所不能触及的情景,比如现在无法实现的太空旅行、历史重现等,小说中的“穿越”情节可以在现实中上演,给生活带来了无尽想象和无限可能。此外,Runway 还提到会不断改进 Gen—1,让其以更低的成本和更快的速度,生成更精彩的内容,为人类提供无尽的创意

除行业新秀外,谷歌也推出了 Imagen Video 与 Phenaki 两款视频制作工具。其中,Imagen Video 能够生成高清以及具有艺术风格的视频和文本动画,还具有高度的可控性、对世界知识和 3D 对象的理解能力,而 Phenaki 能够根据一个故事的时间线来生成视频。另一家硅谷巨头 Meta(脸书部分品牌更名而来)推出的则是 MakeA-Video,借助这款工具,可生成非常富有想象力的奇趣视频(图1—10)


除了 AIGC 在内容生成中的多角度应用,根据这项技术所延展的内容工具还能“互通有无”。不同内容形式的模型之间并没有壁垒,而是可以联合使用,实现跨模态的内容生成。例如将 GPT—3、StableDiffusion 一起使用,可以实现流畅的修图功能,让修图不再费时费力,美工不再被甲方的需求折磨。这个功能为什么可以实现呢?如图 1—11,我们给定一个输入图像和一个编辑图像的文本指令,这样它就能遵循我们给出的描述性指令来进行图片的加工编辑了。这听起来很智能,但实现此类功能的前提是要精细化地了解 AI 的话术并正确使用有效的提示词。如果没有正确使用提示词,很容易鸡同鸭讲。


总之,从文本、图片、视频这几个主流的内容形式来看,AIGC已然在其中疯狂“攻城略地”,取得了难以想象的巨大进步,它可以辅助人类创作甚至自动生成内容。是否会有那么一天,人类陷入 AI构造的信息茧房,逃不出数据库的桎梏,这仍需时间的考验。

但从产业发展上看,AI 的技术革新已经渗透到人类的日常生活,下沉为人人皆可使用的技术工具,这是非常可喜的变化。基于 AI 疾速发展带来的伦理和道德问题,或许会有一段时间的过渡期,我们须等待相关制度和规则的完善。但 AIGC 势如破竹地闯入了人类的领地,从此与人类相伴相生



生成式人工智能:AIGC的逻辑与应用》

中信出版集团

丁磊 著

2023年5月

ChatGPT问世,GPT-4即将接入未来办公软件……技术正在以前所未有的速度快速迭代,人类正在迎来新一轮的技术革命,企业、经济、个人发展将迎来重大变革。那么,这些技术背后的核心技术,生成式人工智能(AIGC),到底对企业、对商业有何影响,现在有着怎样的市场应用,已经催生了哪些经济,未来它的商业机会在哪里,我们个体未来如何把握发展机会?……这些问题对于我们理解当下,面向未来都十分重要。本书基于作者的专业背景和长期实践,在介绍生成式人工智能的技术逻辑基础上,着重分析其技术功能、市场应用及商业前景,将其与产业发展的实际相结合,帮助读者从本源了解未来趋势和发展机会。

展开阅读全文

页面更新:2024-02-08

标签:自然语言   内容   人工智能   模型   文本   人类   编辑   图片   技术   视频   公司   游戏

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top