接上文,这里回复一下几个朋友的疑问。我的总结参考了国内外很多专家或者其他朋友整理的内容,算不上真正意义的原创,中间也增加了一些个人拙见,大家凑合看。欢迎讨论!
此前经历了大概30年的发展,但是当时受限于社会评价或跨领域知识的匮乏,导致人工智能学科的发展其实相当曲折。直到20世纪80年代,人工智能的发展进入了新的高潮,这里有几个关键词:专家系统模拟人类、计算机视觉、RNN雏形、玻尔兹曼机无监督模型、贝叶斯网络、鲁棒性、CNN出现。
人工智能走入应用发展的新高潮。专家系统模拟人类专家的知识和经验解决特定领域的问题,实现人工智能从理论研究走向实际应用。机器学习(尤其是神经网络)也在其他学科知识的帮助下不断的探索不同的学习策略和学习方法,在大量的实际应用中也开始慢慢复苏。
解释图上的几个概念:
贝叶斯网络:是一种模拟人类推理过程中因果关系的不确定性处理模型,如常见的朴素贝叶斯分类算法就是贝叶斯网络最基本的应用。
决策树模型:可视为多个规则(if, then)的组合,与神经网络黑盒模型截然不同是,它拥有良好的模型解释性。
霍普菲尔德网络:
玻尔兹曼机:受限制玻尔兹曼机(Restricted Bolzmann Machine, RBM),是一种预训练模型,也属于深度信念网络DBN的范畴。
鲁棒:Robust的音译,其实代表的是一个事物的健壮性和强壮性。也指在异常/危险情况下系统生存的能力。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。所谓“鲁棒性”,也是指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。
ID3决策树算法:决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
而ID3算法是一种贪心算法,用来构造决策树。起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。
万能近似定理:为什么MLP可以拟合任意的函数?怎么理解万能近似,以sigmoid函数为例,一个线性函数,改变偏移量b或者斜率w可以得到一个近似不变的分段函数,而如果我们使用多个线性函数,不断调整每个函数的b和w,然后再给每个函数配置不同的权重,然后把他们相加,理论上就可以模拟出任意一个函数。这就万能近似定理的由来,我个人理解积分变化中的傅里叶变换也是类似的道理。
卷积神经网络(CNN):通常由输入层、卷积层、池化(Pooling)层和全连接层组成。卷积层负责提取图像中的局部特征,池化层用来大幅降低参数量级(降维),全连接层类似传统神经网络的部分,用来输出想要的结果。
这里我想把BP算法单独拿出来再说一次,因为实在是太重要了!!!
BP算法是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络模型之一。
在人工神经网络的发展历史上,感知机(Multilayer Perceptron,MLP)网络曾对人工神经网络的发展发挥了极大的作用,也被认为是一种真正能够使用的人工神经网络模型,它的出现曾掀起了人们研究人工神经元网络的热潮。而单层感知网络(M-P模型)做为最初的神经网络,具有模型清晰、结构简单、计算量小等优点。但是,随着研究工作的深入,人们发现它还存在不足,例如无法处理非线性问题(比如异或问题,XOR),即使计算单元的作用函数不用阀函数而用其他较复杂的非线性函数,仍然只能解决线性可分问题.增强网络的分类和识别能力、解决非线性问题的唯一途径是采用多层前馈网络,即在输入层和输出层之间加上隐含层,构成多层前馈感知器网络。
最早由Werbos于1974年在博士论文中提出BP算法(前向传播/逆向传播)。
20世纪80年代中期,David Runelhart。Geoffrey Hinton和Ronald W-llians、DavidParker等人分别独立发现了误差反向传播算法(Error Back Propagation Training),简称BP,系统解决了多层神经网络隐含层连接权学习问题,并在数学上给出了完整推导。人们把采用这种算法进行误差校正的多层前馈网络称为BP网。
1983年加州理工学院的物理学家John Hopfield利用神经网络,通过电路模拟仿真的方法求解了旅行商难问题,在学术界引起的较大的轰动,这也推动了人工智能第二次的快速发展。
1986年,Geoffrey Hinton和David E. Rumelhart等人的努力下,BP算法被再次发明,并广泛应用于升级网络的训练中。目前深度学习各种网络模型也均采用了86年提出的BP算法。
基本原理就是:让一个人工神经网络模型从大量训练样本中学习统计规律,从而对未知事件做预测。
1980年福岛邦彦提出卷积和池化的时候,并没有把BP算法应用在神经网络训练中,所以很可惜。
1989年YannLeCun想到了在卷积和池化基础上结合BP算法发明了现在的CNN卷积神经网络,并首次将卷积神经网络成功应用到美国邮局的手写字符识别系统中。
所以上文中提到的Geoffrey HintonHinton、YannLeCun以及后来提出GAN对计算机视觉CV造成重要革命性影响的Yoshua Bengio,并成为当世“深度学习三巨头”的称号。
由于互联网技术的迅速发展,加速了人工智能的创新研究,促使人工智能技术进一步走向实用化,人工智能相关的各个领域都取得长足进步。在2000年代初,由于专家系统的项目都需要编码太多的显式规则,这降低了效率并增加了成本,人工智能研究的重心从基于知识系统转向了机器学习方向。
1995年深蓝在国际象棋中战胜人类到2016年阿尔法狗在围棋中战胜人类,20年一轮回。
1997年LSTM到2017年Google发布的Attention,也是20年一轮回。
为什么这里提一下LSTM,因为从简单RNN到LSTM再到Transformer,到GPT到ChatGPT是要给按照ChatGPT倒推回去的学习主路径,这个我后面会介绍到原因!
玄之又玄!
2006年Geoffrey HintonHinton带着他的学生又出来搞事情了,提出了•Deeping Learning的概念,开始了新一轮的计算机浪潮。
至于2010年的《迁移学习调查》很多时候被人忽略,其实不然,这篇文章为后来的各种样本学习方法奠定了基础,GPT-2和GPT-3中也有不同程度的涉及后来的少样本学习(Few-Shot)或者零样本学习(Zero-Shot)。
一样解释一些概念,帮助理解:
支持向量机(Support Vector Machine, SVM):可以视为在感知机基础上的改进,是建立在统计学习理论的VC维理论和结构风险最小原理基础上的广义线性分类器。与感知机主要差异在于:1、感知机目标是找到一个超平面将各样本尽可能分离正确(有无数个),SVM目标是找到一个超平面不仅将各样本尽可能分离正确,还要使各样本离超平面距离最远(只有一个最大边距超平面),SVM的泛化能力更强。2、对于线性不可分的问题,不同于感知机的增加非线性隐藏层,SVM利用核函数,本质上都是实现特征空间非线性变换,使可以被线性分类。
Adaboost迭代算法:基本思想主要是通过调节的每一轮各训练样本的权重(错误分类的样本权重更高),串行训练出不同分类器。最终以各分类器的准确率作为其组合的权重,一起加权组合成强分类器。
LSTM:是一种复杂结构的循环神经网络(RNN),结构上引入了遗忘门、输入门及输出门:输入门决定当前时刻网络的输入数据有多少需要保存到单元状态,遗忘门决定上一时刻的单元状态有多少需要保留到当前时刻,输出门控制当前单元状态有多少需要输出到当前的输出值。这样的结构设计可以解决长序列训练过程中的梯度消失问题。
随机森林算法:基本思路是对于每一弱学习器(决策树)有放回的抽样构造其训练集,并随机抽取其可用特征子集,即以训练样本及特征空间的多样性训练出N个不同的弱学习器,最终结合N个弱学习器的预测(类别或者回归预测数值),取最多数类别或平均值作为最终结果。
LDA是一种无监督方法,用来推测文档的主题分布,将文档集中每篇文档的主题以概率分布的形式给出,可以根据主题分布进行主题聚类或文本分类。
深度学习:概念源于人工神经网络的研究,它的本质是使用多个隐藏层网络结构,通过大量的向量计算,学习数据内在信息的高阶表示。
迁移学习(transfer learning):通俗来讲,就是运用已有的知识(如训练好的网络权重)来学习新的知识以适应特定目标任务,核心是找到已有知识和新知识之间的相似性。
接下来10年,人工智能迎来了蓬勃发展期。。。。
更新时间:2024-08-14
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号