AlphaFold迎来对手?Meta AI 预测超6亿个蛋白结构,仅用2周时间
原创 生物世界 生物世界
编译丨王聪
排版丨水成文
今年7月,开发 AlphaFold 的 DeepMind 公司宣布,将预测的蛋白质结构数据量从100万个提升到了2.2亿个,而且不再仅仅着眼于人类蛋白质,还包括了植物、细菌、动物和其他生物体在内的各种物种的蛋白质结构。这几乎还改了DNA数据库中所有已知的蛋白质。
蛋白质结构的数量(紫色小圆表示实验所得的蛋白质结构数据量,浅蓝色中圆表示早期AlphaFold数据库中的数据量,蓝色大圆表示现在AlphaFold数据库中的数据量) 图片来源:deepmind.com
而现在,另一个科技巨头 Meta(也就是之前的Facebook)正在填补蛋白质宇宙中的暗物质。
Meta 的研究人员使用人工智能(AI)预测了超过6亿种蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未被表征的微生物。
ESM宏基因组图谱数据库包含6.17亿个蛋白质的结构预测
Meta AI 蛋白质团队使用“大型语言模型”生成了这些结构预测,并于11月1日在预印本发表论文【1】,描述了这一成果。
Meta AI蛋白质团队的研究负责人 Alexander Rives 表示,这些来自土壤、海洋和人体的微生物中的蛋白是我们所知最少的结构,这些蛋白质非常神秘,能够为我们深入了解生物学提供潜力。
“大型语言模型”一种人工智能(AI)模型,可以从几个字母或单词预测文本,通常语言模型是在大量文本的基础上进行训练的。为了将其应用到蛋白质结构预测上,研究团队用已知的蛋白质序列进行序列,这些蛋白质由20个不同的氨基酸组成表示,每个氨基酸用一个字母表示。然后,该模型学会了在模糊氨基酸比例的情况下“自动补全”蛋白质序列。
蛋白质序列“自动补全”
Alexander Rives 表示,这种训练使模型对蛋白质序列有了直观的理解,而蛋白质序列包含了蛋白质结构形状的信息。受到 DeepMind 开创性的蛋白质结构工具 AlphaFold的启发,将这种洞察力与已知蛋白质结构和序列之间关系的信息结合起来,从蛋白质序列生成预测结构。然后,该模型学会了在模糊氨基酸比例的情况下“自动补全”蛋白质。
Meta 的研究团队在今年夏天发布的一项报告中表示,其开发的蛋白质结构预测工具 ESMFold 的准确性不如 AlphaFold,但在速度方面要快60倍左右,这意味着可以将结构预测扩展到更大的数据库中。
作为一个测试案例,他们决定将这一预测模型应用于一个大序列DNA数据库“宏基因组”,这些DNA数据来自环境之中,包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。绝大多数编码潜在蛋白质的DNA序列来自从未被培养过的生物,也不为科学所知。
Meta 的团队总共预测了超过6.17亿个蛋白质的结构。这项工作只花了两周时间。
Alexander Rives 表示,这一预测模型是免费的,任何人都可以使用,就像模型的底层代码一样。
在这6.17亿个预测的蛋白质结构中,该模型认为超过三分之一的预测是高质量的,因此研究人员可以确信蛋白质的整体结构是正确的,在某些情况下,还可以识别更精细的原子级的细节。其中数大量结构都是全新的,与实验确定的蛋白质结构数据库或从已知生物中预测的 AlphaFold 数据库中的任何东西都不同。
首尔国立大学的计算生物学家 Martin Steinegger 表示,AlphaFold 数据库的很大一部分是由彼此几乎相同的结构组成的,而“宏基因组”数据库应该涵盖以前从未见过的蛋白质宇宙的很大一部分,这是一个很大的机会来揭开更多的黑暗中的蛋白质。
但哈佛大学进化生物学家 Sergey Ovchinnikov 对 ESMFold 的数亿个预测结果表示怀疑,其中有些预测可能缺乏确定的结构,而另一些可能是非编码DNA,却被误认为编码蛋白质,似乎还有一半以上的蛋白质空间是我们所不知道的。
德国慕尼黑工业大学的计算生物学家 Burkhard Rost 对 ESMFold 预测的速度和准确性印象深刻。但他也怀疑从宏基因组数据库中预测蛋白质时,它是否真的比 AlphaFold 的精确度更有优势。基于语言模型的预测方法,更适合快速确定突变如何改变蛋白质结构,这是 AlphaFold 无法做到的。他表示,我们将看到结构预测变得更精简、更简单、更便宜,这将为新事物打开大门。
DeepMind 的一位代表说,该公司目前没有计划在其数据库中包含宏基因组的结构预测,但不排除在未来这样做的可能性。
但首尔国立大学的计算生物学家 Martin Steinegger 表示,他和合作者已经使用 AlphaFold 来预测大约3000万个宏基因组蛋白质的结构。他们希望从中发现新的RNA病毒种类。他认为,这类预测工具的下一步显然是研究生物学中的暗物质。预计我们将很快会在这些宏基因组结构的分析方面出现爆炸式增长。
参考资料:
1.https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2
2.https://www.nature.com/articles/d41586-022-03539-1
最近更新影视资讯
- 韵府群玉
- 老年临终关怀护理集锦9篇
- 如何评价剧场版动画《和谐(harmony/ハーモニー)》原作:伊藤计划 ?
- 智人战胜尼人的决定性因素 是神灵崇拜与艺术品 在3万7千年前智人击败了远比自己强
- 沈阳参考消息(2017年1月11日)
- 密集架区密集架书库图书馆负一楼期刊阅览区中外文期刊图书馆一楼图书借阅区(A-H
- 费维光:脾胃病17方
- 土耳其身为伊斯兰国家,为什么允许“风俗产业”合法化?
- 高中教师教学反思
- 三观尽毁!90后公务员出轨50岁女上司,聊天言语暧昧,妻子怒举报
- 22应用心理学考研347 首师360有调剂院校吗?
- 铃木凉美女士,你仍期待同时收获怜爱与尊敬吗?
- 团建别墅 | 确认过眼神,是能疯一起的人!Boss,今年年会我们泡私家温
- 《归来》观后感
- 翻译伦理的重要性和译者荣辱观建设研究
- 高二语文期末考试测试题及答案
- 国医大师名单!在北京看中医该找谁,这下全知道!
- 这些年爱过的同人文(BG)
- 荷兰深陷风俗业?日本都要甘拜下风,为何能稳坐世界顶尖位置!
- 戴安娜25年前私密录像首次解密:自述性生活,全英国都被炸懵逼了
- 原创上官婉儿为什么必须死,她做的这件事太无耻,李隆基忍无可忍
- 「医药速读社」Paxlovid临床失败 礼来斥巨资引进Kv1.3抑制剂
- 她是韩国性感女神,靠出演“三级片”走红,今41岁韵味不减当年!
- 电影市场有望点燃 好莱坞大片排队上映
- 评荐《传染病(Contagion)》