颜宁点评AlphaFold2+外行买家秀:蛋白结构预测神器初体验( 二 )


但热闹是他们的 , 我只关心我课题里的蛋白能不能利用这两个程序的某一个来凹个造型 , 哦不对 , 预测个结构 。
对于绝大多数实验生物学从业者来说 , 我们在实验室中研究某个蛋白功能之后 , 常想进一步了解一下它们的空间结构 , 这样就能够更好地理解和诠释我们在实验中看到的一些现象 , 也可以针对空间结构去开发设计一些药物 , 来阻断蛋白的功能 。 ——当然 , 这部分设计需要另外的专家 。
AlphaFold把预测结果以数据库的形式公开在了网络上 。 对于只想薅羊毛的用户 , 不啻天外福音 。 于是我兴致勃勃地打开了它的预测结果查询网站(alphafold.ebi.ac.uk) 。
颜宁点评AlphaFold2+外行买家秀:蛋白结构预测神器初体验
文章图片
我一看 , 直接输入蛋白或者基因名就可以了 , 非常符合我这种不懂结构生物学和人工智能的选手 。
好 , 先来一个试试 。 以前读博士时 , 经常研究一种叫beta-catenin的蛋白 , 这是一个在脊椎动物个体发育和癌症等多个生物学过程里都非常重要的蛋白 。 输入蛋白名称后 , 得到25条结果 , 对应人、大鼠、小鼠、斑马鱼等多个模式物种 。 这25条当然不是现在地球上已知叫beta-catenin的全部蛋白 , 但能有模式物种的结果 , 就很有代表性了 。
颜宁点评AlphaFold2+外行买家秀:蛋白结构预测神器初体验
文章图片
排在第一位的链接 , 是人的beta-catenin 。 就可以看到一个五颜六色的三维结构——不同颜色代表着AlphaFold预测的可靠性 , 深蓝色和浅蓝色代表AlphaFold对预测模型很有信心 , 而橙色和黄色代表他们也不太确信 。 可以看到 , beta-catenin蛋白中间12个像弹簧一样的alpha螺旋 , 这类连在一起的alpha螺旋有个诨名叫Armadillorepeat , 得名于动物犰狳(Armadillo , 如下图) 。
颜宁点评AlphaFold2+外行买家秀:蛋白结构预测神器初体验
文章图片
(https://dfwwildlife.org/)
颜宁点评AlphaFold2+外行买家秀:蛋白结构预测神器初体验
文章图片
怎么样 , 这两家伙还挺像吧?
但是预测出来这个犰狳重复并不出奇——PDB数据库*现已发表数个人类beta-catenin结构 , 说明这段序列比较稳定 , 换言之就是供AlphaFold学习训练的知识比较充沛 , 它预测也比较容易 。 反倒是这段重复区域的前后两端(N端和C端)还各有近百个氨基酸 , 至今没有稳定的结构问世(当然 , 可能蛋白本身在这个区域就属于比较混沌无序的) , 而AlphaFold的模型里 , 在N端(氨基端)和C端(羧基端)也同样分数很低 , 并没有显著改善 。
*PDB , 全称ProteinDataBank , 是目前最主要的收集蛋白质三维结构的数据库 。
再试验一个我现在导师课题组里研究多年的膜蛋白TGFBR2 , 这是一个受体酪氨酸激酶 , 既是膜受体又是激酶 , 同样没有全长结构问世 。 同样的流程 , 找到人TGFBR2 , 打开结构后是下面的情形:这个蛋白明显出现了三个分数比较高的区域 , 包括靠近N端的配体结合区 , 中间的跨膜区 , 和C端的激酶区 , 从序列上看 , 和目前人们对这一蛋白的功能认识很吻合 。 而画面中橙黄色低分区域 , 也同样是PDB已有结构里缺失信息的部分 。
颜宁点评AlphaFold2+外行买家秀:蛋白结构预测神器初体验
文章图片
单从这两个例子看来 , AlphaFold的确可以复现科学家实验得到的蛋白结构 。 尤其是这个激酶区 , 套用网上流行的俏皮话来说 , 不说非常相似吧 , 简直是一模一样 。
颜宁点评AlphaFold2+外行买家秀:蛋白结构预测神器初体验
文章图片
左图:AlphaFold预测的TGFBR2结构(中间为激酶区) , 下方的深绿色模块对应上方高亮的激酶区;右图:PDB数据库上的代表性TGFBR2激酶区结构 , 是实验得到的结构数据 。