DeepMind开源的AlphaFold怎么用?打开Colab就能在线用

机器之心报道
机器之心编辑部
借助Colab , 你可以在线使用AlphaFold的一个简化版本 。
前段时间 , 《自然》杂志刊登了DeepMind的两篇论文 , 介绍了该公司在蛋白质结构预测方向的最新进展 。 研究表明 , DeepMind的AlphaFold所预测的蛋白质结构已经能达到原子水平的准确率 。 与此同时 , 他们还在GitHub上公开了AlphaFold的源代码 。
DeepMind开源的AlphaFold怎么用?打开Colab就能在线用
文章图片
开源链接:https://github.com/deepmind/alphafold
然而 , 有些研究者抱怨说数据文件太大了(2.2TB) 。 于是 , 在几个小时之内 , 一些敬业的研究者就创造出了一个GoogleColabnotebook 。 借助这一工具 , 任何一个拥有免费谷歌账号的人都可以在自己感兴趣的蛋白质上运行略微简化的AlphaFold2 , 甚至不需要下载数据 , 也不需要任何特殊硬件 。 所有的计算都是在云上进行的 , 而且是在一个免费的colab空间内进行的 , 这让用户能够对运行进行微调 。 这是加速技术大众化最好的方法之一 。
DeepMind开源的AlphaFold怎么用?打开Colab就能在线用
文章图片
Colab地址:https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb
开放的AlphaFold将分子生物学研究带入新时代
2020年12月 , AlphaFold2在国际蛋白质结构预测竞赛CASP14击败一众选手 , 实现了前所未有的结构预测精度 , 这破解了出现50年之久的蛋白质分子折叠问题 , 被称作结构生物学「革命性」的突破、蛋白质研究领域的里程碑 。
但成功之后 , 批评和质疑也随之而来 , 这些声音包括:「学术界无法与这样的巨头竞争」「他们做的很好 , 但我们不能用」「他们肯定不会把它开放给别人使用」 。
但DeepMind最近的举动回应了这些担忧 , 他们不仅开源了AlphaFold的代码 , 还提供了一个Colabpipeline 。 有个这个东西 , 你甚至可以通过手机使用简化版AlphaFold2 。
DeepMind开源的AlphaFold怎么用?打开Colab就能在线用
文章图片
如下面两位研究者所说 , Colabnotebooks可以完成从加载库、输入蛋白质序列到构建蛋白质序列对齐等一系列任务 。 在结果展示界面 , 你可以在浏览器中看到5个3D模型 , 以及根据序列估算的LDDT分数 。 此外 , 原则上你还可以fork这些notebook并自行编辑 , 使其适用于更具体的任务 。
DeepMind开源的AlphaFold怎么用?打开Colab就能在线用
文章图片
DeepMind开源的AlphaFold怎么用?打开Colab就能在线用
文章图片
不过 , Colab版本的AlphaFold2经过了一些简化 , 没有模板(同源结构) , 而且只用了BFD序列数据库的一部分 。 开发者表示 , 他们已经在数千个最近的PDB结构上验证了简化版和完整版的差异 , 虽然在许多目标上 , Colab版本的准确度与完整的AlphaFold系统几乎相同 , 但由于MSA(多序列比对)较小和模板的缺失 , 一小部分目标的准确度出现了显著下降 。 如果你想得到更加可靠的结果 , 建议使用完整的开源AlphaFold或AlphaFold蛋白质结构数据库 。
DeepMind开源的AlphaFold怎么用?打开Colab就能在线用
文章图片
数据库链接:https://alphafold.ebi.ac.uk/
在洛桑联邦理工学院研究结构生物学、分子建模等方向的博士后LucianoAbriata表示 , 他已经用这些notebook做了一些测试 , 而且已经得出了一些结论 。 最重要的是序列对齐等功能对于获得更好的模型大有帮助 。 Abriata还发现 , 很多人在使用这个工具时都忽略了LDDT估计图 , 但其实这些图非常关键 。
AlphaFold的开放使用给全世界的研究者都带来了便利 。 对于那些难以用实验测定结构的蛋白质来说 , 通过这种方式建立蛋白质模型至关重要 。 即使你有一些无法适当使用的数据 , 拥有一个优秀的蛋白质模型也是有帮助的 。