元境谈AI 从过去到未来

近年来，AI-Generated Content (AIGC 人工智能生成内容) 的发展可谓是一日千里。我们见证了从基础的机器学习算法到复杂的深度学习模型的转变。2017年，Transformer的出现奠定了如今大模型的新技术格局。Transformer的结构方法突破了传统的卷积和递归网络的限制，提供了一种全新的方式来捕捉序列中的长距离依赖关系。自注意力机制的引入为模型提供了处理大量数据的能力，并保持了高度的并行性，这在以往是不可想象的。

随后，BERT、GPT等模型的出现进一步推动了生成式AI的繁荣。对传统机器学习算法表现出的降维打击，不仅展示了大模型在各种任务上的优越性能，还引发了关于模型规模、数据质量和计算资源之间复杂的权衡问题。如今当我们谈论AIGC、大模型时，我们不仅仅是在谈论AI技术上的进步，更是在讨论AI的可能性和其对社会、经济和文化的深远影响。

在本文中，作者将带领读者深入了解AIGC的发展脉络，从最初的尝试到关键技术的一次次突破，从小规模的实验到大规模的应用，了解AIGC是如何一步步改变世界。

1950s - 1980s：
AI的萌芽阶段

1950年代至1980年代是人工智能（AI）领域的萌芽阶段，也被称为AI的最初时代。在这段时间，AI的研究者们开始探索如何利用计算机模拟人类智能行为以及解决复杂的问题。在这一时期出现了如图灵测试等影响至今的重要发展：

1950年代：人工智能的概念首次提出，艾伦·图灵（Alan Turing）提出了著名的“图灵测试”，探讨了机器是否能够展现出人类智能的特征。“图灵测试”的目的是测试一台机器是否能够表现出与人类相似的智能，从而具有“思维”。测试的基本思想是通过与机器进行对话来评估其智能水平。

早期的专家系统（1960年代 - 1970年代）：在这个时期，AI研究者们开始尝试构建专门用于解决特定问题的“专家系统”。这些系统基于领域专家的知识，通过一系列的规则和推理来模拟人类专家的决策过程，而非内容生成。

符号推理和逻辑推理（1970年代）：在这个时期，AI的研究者们更加专注于符号推理和逻辑推理的研究，试图用数学和逻辑规则来描述和解决问题。

1950年代至1980年代被公认为是AI领域的探索时期，研究者们尝试了许多不同的方法来模拟和理解智能行为。然而，在这个时期，AI研究面临着严峻的限制。计算机的处理能力相对较弱，数据量有限，导致了在复杂问题上取得进展的困难。虽然即使当时的技术和硬件条件限制了AI的发展，但这一时期奠定了AI研究的基础，并为后来的AI发展指明了方向。

艾伦·图灵（Alan Turing）

1990s - 2000s：
机器学习的兴起

1990年代，随着计算机性能的提升，机器学习技术开始崭露头角。传统的机器学习方法在文本生成和自然语言处理方面取得了一些初步成果。机器翻译成为当时机器学习研究的一个热门领域。研究人员开始利用统计方法来翻译自然语言，例如基于短语的翻译模型（Phrase-based Translation）。向量机模型（SVM）也在这一时期出现（SVM是一种非常强大的监督学习算法，可以用于分类和回归问题。它的提出使得在复杂数据集上进行高维度的模式识别成为可能。）

值得一提的是在这一时期，AI界还发生了一件大事件。1996年，IBM的深蓝（Deep Blue）超级计算机，首次与当时的世界象棋冠军Garry Kasparov对决。Kasparov赢得了五局中的三局并与Deep Blue打成一局平手，但Deep Blue在第二局取得了突破，成为第一台击败国际象棋世界冠军的计算机。Deep Blue与Kasparov的对决向世界展示了计算机在复杂决策领域的能力。尽管象棋并非直接与内容生成相关，但这一事件对于AI的认知和发展都有着深远的影响。

2000年代：随着互联网的兴起，海量的文本数据成为AIGC研究的宝贵资源。统计机器翻译（SMT）和基于规则的方法成为了文本生成的主流。1990年代曾经因为算力导致被一度遗忘的神经网络随着CPU、GPU（特别是GPU性能的极大提高）性能的指数倍增长也在这一时期被再度提起，深度学习的浪潮由此兴起。同时在这一时期，互联网也迎来高速发展，大量数据开始涌现，为机器学习提供了丰富的训练和测试资源。这也使得基于数据驱动的机器学习方法变得更加有效和实用。

总的来说1990s - 2000s时期是AI和机器学习历史上的一个转折点，研究者们通过引入统计方法、支持向量机和神经网络等技术，使得计算机能够更好地理解和处理大量的数据，从而取得了在自然语言处理（NLP）、计算机视觉等领域的重要进展。这一时期也为后来深度学习的兴起埋下了种子，并为现代人工智能的发展打下了坚实的基础。

2010s：
AIGC正式进入倒计时

2012年: 卷积神经网络（CNN）崭露头角 — 2012年，Khrizhevsky，Sutskever和Hinton凭借8层的卷积神经网络AlexNet模型，以很大的优势赢得了ImageNet 2012图像识别挑战赛，识别错误率比第二名低大概10个百分点。AlexNet模型包含8层（可学习层）卷积神经网络，并首次引入ReLU激活函数，有效解决梯度消失问题，AlexNet的成功标志着卷积神经网络在计算机视觉领域的崛起。

（卷积神经网络 CNN）

2013年: Word2Vec发布：由Tomas Mikolov及其在Google的团队开发的Word2Vec模型在2013年引起轰动。Word2Vec模型的主要目标是将单词转换为高维的向量，这些向量能够捕捉单词之间的语义和语法关系。Word2Vec的主要特点包括：

浅层神经网络: Word2Vec实际上是一个浅层的两层神经网络，可以是Skip-gram或CBOW。

向量的语义特性: 通过训练，诸如“king - man + woman = queen”这样的向量关系得以体现。

高效的训练: 使用负采样和层序softmax来提高训练速度。

Word2Vec的发布使得许多NLP任务，如文本分类、命名实体识别和情感分析，都得到了显著的性能提升。

（图 Word2Vec）

2014年Sequence to Sequence (Seq2Seq)：Ilya Sutskever、Oriol Vinyals和Quoc Le于2014年发布了Seq2Seq模型。Seq2Seq模型使用两个递归神经网络（RNN）进行训练，一个用于读取输入序列（编码器），另一个用于产生输出序列（解码器），并在后期加入了注意力机制，深远的影响了到了3年后才会发布的Transformer架构的设计。值得一提的是Seq2Seq可以处理任意长度的输入并生成任意长度的输出，使其特别适用于翻译和对话系统。

（图 Seq2Seq）

2015年：扩散模型（diffusion model）被首次提出：扩散模型的主要目的是连续地向训练图像应用高斯噪声，逐渐退化原始数据。它可以被看作是一系列的去噪自编码器。后续在“文生图”、“图生图”领域名声大噪的Stable Diffusion则是扩散模型（diffusion model）的变体，叫做“潜在扩散模型”（latent diffusion model; LDM），它由3个部分组成：变分自编码器（VAE）、U-Net和一个文本编码器，其原理相当复杂，这里由于篇幅有限，不过多赘述技术层原理。扩散模型的出现为生成高质量的合成图像、影像内容提供了新的路径和可能性。

（图扩散模型和其延展）

2017年 - 2021年：
大模型崛起

2017年: Transformer架构发布- 这一年Google的研究员在《Attention Is All You Need》论文中首次提出了Transformer架构，基于自注意力机制的结构在后来涌现的各种大模型中得到了广泛应用。在Transformer模型之前，深度学习社区主要依赖于卷积神经网络（CNN）和递归神经网络（RNN）来处理序列数据。尽管CNN和RNN在特定领域取得了一定成功，但它们也有一些固有的缺点和挑战。例如，RNN处理序列数据的逐个元素的方式限制了其并行计算的能力。

（图 Transformer）

Transformer划时代性，主要体现在以下创新点：

自注意力机制 (Self-Attention Mechanism): 与传统的注意力机制相比，自注意力机制允许模型在计算一个元素的表示时考虑到所有其他元素。这使得模型能够捕捉到长距离的依赖关系。

多头注意力 (Multi-Head Attention): 通过使用多个注意力“头”，模型可以在不同的子空间中同时捕捉到多种类型的信息。

位置编码 (Positional Encoding): 由于Transformer没有使用递归或卷积结构，所以它需要一种方法来考虑到序列的顺序。位置编码为每个位置的元素提供了一个独特的向量，使模型能够考虑到序列的顺序。

前馈网络 & 残差连接: 每个Transformer块都包括一个前馈网络，并通过残差连接与前一层连接，这有助于梯度在深层网络中的流动。

规范化 (Normalization): 每个子层（如自注意力或前馈网络）后都有一个规范化步骤，帮助稳定训练。

2018年: BERT和GPT相继出现 - OpenAI首先发布GPT（Generative Pre-trained Transformer），基于Transformer架构的大型预训练模型，为文本生成任务设定了新的标准。不久之后，Google发布了BERT（Bidirectional Encoder Representation from Transformers）。与GPT不同，BERT是一个双向的预训练模型，通过预测缺失的单词来训练，这使得其在多种NLP任务上，特别是理解任务上，都取得了出色的性能。

2019年: GPT-2发布-伴随GPT-2出现的除了更强的模型性能外，还有“OpenAI”不“Open”所引发的争议。GPT-2，超150亿参数的大模型，其文本生成能力令人震惊。但OpenAI在此时选择闭源模型，并表示因为模型可能被用于生成假新闻或其他有害内容，决定不予公开，引发了关于AI伦理和模型可用性的广泛讨论。

2020年: 千亿级参数，大模型能力发生质变 - 20年，OpenAI发布GPT-3，这个参数量达到1750亿的巨型模型，展示了前所未有的文本生成能力，后续推出的GPT-3.5则在此之上进一步提升了内容的生成质量。

2021年:AIGC市场化开始，国内部分领域头部企业开始尝试将AIGC进行市场化。元境科技也是在这一时期入局AIGC，将虚拟数字人与AIGC、大模型有机结合，并提出打造有灵魂的虚拟数字人。

（图元境科技CEO&创始人王智武
提出打造有灵魂的虚拟数字人）

2022年：
AIGC场景化布局
与商业化的初步探索

2022年随着计算能力的进一步提升，以及对模型架构和训练方法的不断优化，AIGC已被验证具备大规模使用的可能性。22年12月，ChatGPT面世，两个月后月活用户突破了1亿，成为史上用户增长速度最快的消费级应用程序。

这一年，国内部分科技企业已经意识到AIGC将在更广泛的应用领域发挥重要作用。元境科技在22年加大研发投入力度，联合众多行业客户，调研需求，布局AIGC场景化应用，针对金融、文化、文旅、教育、影视、医疗等行业，定制开发垂域模型，积极探索以AIGC为核心的人机交互技术，将大模型、多模态感知交互、虚拟数字人等技术相融合创新，推出全栈式虚拟数字人多场景应用解决方案，覆盖虚拟数字人制作、虚拟内容策划、行业垂直模型训练、AI人机交互、AIGC内容创作，备受行业客户认可。

2023年：
AIGC颠覆千行百业
虚拟数字人迎来质变

2023年4月元境科技依托自研底层模型和中间层的垂直模型，推出「MetaSurfing-元享智能云平台」v1.1版本，全方位接入AI深度学习、神经网络、预训练大模型等技术，并开放了API接口，提供开放式、多样性的驱动技术服务，大幅简化了AI虚拟数字人开发&应用流程，元境科技也成为了虚拟人行业首批将AIGC全面应用到生产流程中的企业。

（图 MetaSurfing-元享智能云平台）

2023年7月元境科技推出「AI MAGIC BOX - 元享数字魔盒」，融合 AI 数字技术与 3D 全息技术，内置行业领先的 AI 大模型与数字人交互系统，立体呈现有记忆，有灵魂，多情感，多感知，超写实的全拟真人类个体，真正实现虚拟数字人与真实人类的“面对面”交互。

（图 AI MAGIC BOX - 元享数字魔盒）

2023年9月，元境科技在2023服贸会发布新一代虚拟数字人--江凌枫，作为新一代AIGC虚拟数字人，江凌枫拥有高度的自我学习能力和深度理解人类情感的拟态内核，能够实时分析观众的情绪、语态，进而实时生成相应的交互动作、面部表示、文本语音。除此之外，江凌枫还是首个具有实时肌肉系统、首个高精度多情感表情模拟系统、首个生成式动作及微调技术的超拟真AIGC虚拟数字人。

（图新一代AI虚拟数字人--江凌枫）

2023年底，元境科技还将在AI界投下重磅“炸弹”，发布旗下首个企业级大模型，以AI内容生产模式变革为根本，引爆企业生产力革命。元境科技企业级大模型以完善算力与数据等要素供给为基础，以模型算法创新为关键，以场景应用为牵引，在实际应用中不断优化大模型底层算法，强化学习迭代多次来优化模型效果，打造行业领先的“高知”、“高情商”的“智慧大脑”，是驱动企业级虚拟数字人的绝佳选择。在历次AI寒潮中沉淀的技术，终在数据、算法，算力，场景四者共振下诞生出的元境科技企业级大模型，将为千行百业的智慧升级按下加速键。

结语

随着文明的发展，人类对于创造和探索的热情从未消退。从火的发现到电的掌控，从蒸汽机的咆哮到信息技术的革命，每一个时代都有它独特的标志性技术。而现在，我们站在一个新的历史节点上，见证着AIGC、大模型如何从一个初步的概念，成长为一个几乎影响到每一个现代人生活方方面面的巨大技术体系。

但是，技术的发展从未是终点，而是一个永恒的开始。目前的人工智能技术离AGI（通用人工智能）还有相当漫长的距离，但随着时间的推移、数据的增长和算法的改进，未来的AI将会更加智能、更加多元和更加人性化。作为“AI虚拟数字人”领域的先驱者，元境科技愿与所有合作伙伴，共同探索AI未来。

点击【阅读原文】，获取一站式AIGC虚拟数字人应用场景解决方案手册

展开阅读全文

页面更新：2024-02-28

标签：递归卷积神经网络向量模型时期机器未来数字数据技术

1 2 3 4 5

元境谈AI 从过去到未来

双十一现“最低价”罗生门，专家：别让低价本意失了色

建工厂是为了向大陆供应粮食？富士康被查原因揭晓：是郭台铭欺骗

美国芯片巨头对布林肯发出灵魂拷问：制裁了中国，东西卖给谁？

空中交通管制员，同时指挥数几十名飞行员是什么感觉？

“元宇宙”生活，你准备好了吗？

“龙芯之父”陈进：“盗取”美国芯片技术牟利，东窗事发后逃出国

折叠屏手机科技创新典型代表，OPPO折叠屏手机入选中国科创新名片

赛力斯赢家！华为将进一步加大直营门店的建设，市值或超上汽

工行、中行、建行、农行深夜公告！

明年将会比今年更难熬，普通老百姓将面临4个难题，建议早做准备

能定制易回收黄金消费“触网”焕新

玉米价格翻天覆地变化，揭秘行业内的干货大爆炸！

民企千强研发投入占全国四成，东部地区破万亿

河南济源第一大民企：击败万洋，抛开龙成、宇通，挺进中国500强

专家预测，到 2025 年，房价将会是现在的四到五倍！这是否真的？

“龙芯之父”陈进：“盗取”美国芯片技术牟利，东窗事发后

成都新繁泰辅寺探秘之一：三国时期承载的文化遗产

陕西安定堡古城，建于北宋时期城墙高大结实，陕北地区全是

全国名山名水名园展第一天游客排长队打卡体验数字化

关于发布上海市2023年度区块链关键技术攻关专项项目指

门头沟区开放应急指挥、数字文旅等七大类人工智能应用

全能表现！李凯尔半场6中3拿下10分5板3助&三项数据

新知新型康复技术从“科幻”走向现实

人工智能模型改善了乳腺手术中癌症肿瘤的切除效果

数据资产化如何助力数据流通？专家：数据财产规则模糊是难