人工智能学会了如何做化学

人工智能学会了如何做化学

人工智能通过允许研究人员分析现代科学仪器产生的大量数据,改变了科学研究的方式。它可以在一百万大草堆的信息中找到一根针,通过深入学习,它可以从数据本身中学习。人工智能正在加速基因搜寻、医学、药物设计和有机化合物创造方面的进步。

深度学习使用算法(通常是对大量数据进行训练的神经网络)从新数据中提取信息。它与传统计算有着很大的不同,它的指令是循序渐进的。相反,它从数据中学习。深度学习远不如传统的计算机编程透明,留下了重要的问题——系统学到了什么,知道什么?

作为一名化学教授,我喜欢设计至少有一个难题的测试,以扩展学生的知识,确定他们是否能够将不同的想法结合起来,并综合新的想法和概念。我们为人工智能倡导者的海报儿童AlphaFold设计了这样一个问题,AlphaFold解决了蛋白质折叠问题。

蛋白质折叠

蛋白质存在于所有生物中。它们为细胞提供结构、催化反应、运输小分子、消化食物等功能。它们是由长链氨基酸组成的,就像绳子上的珠子一样。但是,蛋白质要在细胞中发挥作用,就必须扭曲并弯曲成复杂的三维结构,这一过程称为蛋白质折叠。错误折叠的蛋白质会导致疾病。

克里斯蒂安·安芬森(ChristiaanAnfinsen)在1972年的诺贝尔化学奖获奖演讲中假设,应该可以根据蛋白质的组成部分氨基酸序列来计算蛋白质的三维结构。

正如本文中字母的顺序和间距赋予它意义和信息一样,氨基酸的顺序决定了蛋白质的特性和形状,从而决定了蛋白质的功能。

人工智能学会了如何做化学

在核糖体的氨基酸链(左)退出后的几毫秒内,它被折叠成能量最低的3D形状(右),这是蛋白质功能所必需的

由于氨基酸构建基块固有的灵活性,一种典型的蛋白质可以采用大约10到300种不同形式的幂。这是一个巨大的数字,超过了宇宙中原子的数量。然而,在一毫秒内,生物体内的每一种蛋白质都会折叠成自己的特定形状,这是构成蛋白质的所有化学键中能量最低的一种。在蛋白质中通常存在的数百种氨基酸中,只改变一种氨基酸,它可能会错误折叠,不再起作用。

AlphaFold公司

50年来,计算机科学家一直试图解决蛋白质折叠问题,但收效甚微。2016年,谷歌母公司Alphabet的AI子公司DeepMind启动了AlphaFold计划。它使用蛋白质数据库作为训练集,其中包含实验确定的150000多个蛋白质的结构。

在不到五年的时间里,AlphaFold解决了蛋白质折叠问题——至少是其中最有用的部分,即根据其氨基酸序列确定蛋白质结构。AlphaFold并不能解释蛋白质是如何快速准确地折叠的。这是人工智能的一个重大胜利,因为它不仅累积了巨大的科学声望,而且是一个重大的科学进步,可能会影响每个人的生活。

今天,由于像AlphaFold2和RoseTTAFold这样的程序,像我这样的研究人员可以在一两个小时内免费从构成蛋白质的氨基酸序列中确定蛋白质的三维结构。在AlphaFold2之前,我们必须用X射线结晶学对蛋白质进行结晶并解析结构,这一过程耗时数月,每个结构的成本高达数万美元。

我们现在还可以访问AlphaFold蛋白质结构数据库,Deepmind在该数据库中存储了在人类、小鼠和20多种其他物种中发现的几乎所有蛋白质的3D结构。迄今为止,他们已经解决了100多万个结构,并计划仅今年就再增加1亿个结构。关于蛋白质的知识飞速增长。到2022年底,一半已知蛋白质的结构可能会被记录下来,其中有许多新的独特结构与新的有用功能相关。

像化学家一样思考

AlphaFold2的设计目的不是预测蛋白质如何相互作用,但它能够模拟单个蛋白质如何结合形成由多个蛋白质组成的大型复杂单元。我们对AlphaFold提出了一个具有挑战性的问题——它的结构训练集教过它一些化学吗?它能告诉我们氨基酸是否会相互反应吗?这是一种罕见但重要的现象?

我是一名对荧光蛋白感兴趣的计算化学家。这些蛋白质存在于数百种海洋生物中,如水母和珊瑚。它们的辉光可以用来照明和研究疾病。

人工智能学会了如何做化学

表达荧光蛋白的神经元揭示了两个果蝇幼虫的大脑结构

蛋白质数据库中有578个荧光蛋白,其中10个“断裂”且不发光。蛋白质很少攻击自己,这一过程称为自催化翻译后修饰,很难预测哪些蛋白质会与自身反应,哪些不会。

只有具备大量荧光蛋白知识的化学家才能使用氨基酸序列来找到具有正确氨基酸序列的荧光蛋白,以进行使其荧光所需的化学转化。当我们向AlphaFold2展示了44个不在蛋白质数据库中的荧光蛋白序列时,它将固定的荧光蛋白与断裂的荧光蛋白进行不同的折叠。

人工智能学会了如何做化学

AlphaFold2可以提取荧光蛋白的氨基酸序列并预测其3D桶形,它还可以预测哪些荧光蛋白“断裂”而不能发出荧光

结果让我们大吃一惊:AlphaFold2学会了一些化学。它已经发现荧光蛋白中的哪些氨基酸具有使其发光的化学作用。我们怀疑,蛋白质数据库训练集和多重序列比对使AlphaFold2能够像化学家一样“思考”,并寻找相互反应以使蛋白质荧光所需的氨基酸。

从训练集中学习一些化学的折叠课程也有更广泛的影响。通过提出正确的问题,还可以从其他深度学习算法中获得什么?面部识别算法能否找到疾病的隐藏标记?设计用于预测消费者消费模式的算法是否也能发现轻微盗窃或欺骗的倾向?最重要的是,这种能力——以及其他人工智能系统在能力上的类似飞跃——是否可取?

展开阅读全文

页面更新:2024-04-20

标签:人工智能   化学   化学家   可能会   氨基酸   荧光   序列   蛋白质   蛋白   结构

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top