AI革新生命科学
这一年来,人工智能在多个领域大放异彩。从聊天机器人程序ChatGPT到AI绘画,从机器视觉到AI芯片,AI展现了革新各个行业的巨大潜力。
聚焦到生命科学和医疗创新领域,AI也正逐步渗透,比如目前AI已经在辅助医生诊断,甚至参与到药物发现环节。作为重要的细分方向,AI蛋白质设计赛道发展更如火如荼,涌现了诸如Generate Biomedicines、Deepchain、百图生科、深原质药、分子之心、赛得康、力文所等国内外新锐企业,并在2023年吸引众多VC/PE前来押注,投资频频。
资本蜂拥的背后,是AI蛋白质设计的广阔想象空间。要知道,作为生物体中的基本构建块,蛋白质不仅在生命活动中发挥着作用,还在多个产业扮演着重要角色。蛋白质设计的突破,将有望进一步拓展人工蛋白质在药物、试剂、合成生物学、酶工程等领域的广泛应用。
不过,AI蛋白质设计这条道路充满挑战,目前行业仍处于起步阶段,各个入局者们都在根据自身的差异化优势进行探索。
这个过程中,36氪近期接触的深原质药,从2022年创立便专注于AI蛋白质设计领域,核心使命是以先进AI模型为工具设计蛋白质,并近期在其官网(www.dProtein.cn)上开放了CUTEDGEopt和AtomSeg两个算法的公开测试,以供更多行业用户了解和使用,从而为AI蛋白质设计的进一步发展提供了新的思路。
革新/蛋白质设计进入“AI生成时代”
一场由AI带来的革新正在蛋白质设计领域发生。
“在过去,蛋白质设计最大的挑战是如何找到一个符合功能需求的蛋白质。”深原质药首席执行官管峥告诉36氪,蛋白质设计是通过改变蛋白质的序列和结构,从而创造出具有特定功能和性能的蛋白质分子,这里面涉及局部的改造设计和蛋白质的整体设计。其中,前者相对简单,而后者则困难得多。
原因在于,蛋白质可能的序列空间太过广阔,这使得蛋白质设计需要在无可计数的可能性中找到与目标功能相吻合的某个蛋白质,无疑大海捞针。以一个长度仅有50位氨基酸的微蛋白(miniprotein)为例,其序列可能就有20的50次方之多,甚至接近银河系中全部原子的数量。
“由于所有可能的蛋白质序列空间将比宇宙还要浩瀚,完全可以称为‘蛋白质深度空间’”。管峥表示,面对如此广阔的空间,仅靠盲目筛选与手工实验的探索是远远不够的。
而AI技术的出现,特别是稳定扩散模型和各类大语言模型的井喷式发展,正在改变着这一局面。
因为AI模型可以在复杂的海量数据中发现规律,并应用这一规律生成新的数据,这就让AI与蛋白质设计找到了天然的契合点。
此外,在AI加持下,蛋白质设计能变得更高效和精确,大大提高了研究效率。同时,AI蛋白质设计还可以设计出更加复杂和多样化的蛋白质结构,拓展蛋白质的应用领域。
面对广阔的机遇,AI蛋白质设计的创业浪潮开始翻涌,深原质药便是其中之一。与其他行业入局者不同,深原质药最大特色是基于蛋白质的结构去做蛋白质设计。
“深原质药是把蛋白质表征成一种结构,而不是一个字符串,这种对蛋白质表征方式的巨大差异使得我们所采取的AI模型、技术路线很不一样。”管峥表示,“同时我们也十分注重实验的验证,任何的计算都不能够取代实验,只有实验的结果才是真实的。”
围绕这一路径,深原质药尝试以生成式AI模型为基础,实现了AIGP(AI Generated Proteins)。具体来看,深原质药的AI算法矩阵中包含了多种不同设计功能,包括蛋白质从头设计、蛋白质配体设计、蛋白质功能优化设计、蛋白质序列差异化设计、蛋白质可溶性优化设计、蛋白质热稳定性优化设计等,能够为生物医药企业提供围绕蛋白质主题的全面AI解决方案。
值得一提的是,深原质药的核心算法CUTEDGE是不依赖于氨基酸序列就能工作的蛋白质设计AI算法。它专注于结合配体的设计问题,从而实现了从结构到结构的直接设计与快速生成。
不难发现,AI蛋白质设计的出现正逐渐颠覆过往的行业逻辑,而创新企业们的尝试正在为行业带来新的突破。
交叉/一场跨学科的前沿探索
在前沿科技领域,跨学科的探索并不容易,加之AI与蛋白质设计的融合才刚刚起步,行业缺少足够的经验与共识。对于入局者来说,构建一支优秀的交叉团队组合极为重要,而如何实现跨学科人才之间的协同更是关键。
“我们组建了一支复合型的研发团队,成员既有在生命科学领域工作多年的资深结构生物学家和蛋白质科学家,也包含来自IT领域的顶尖算法专家。”管峥表示,“蛋白质设计是由结构生物和蛋白质科学家来完成,我们内部叫作蛋白质设计师,他们不仅有行业经验,而且有学术研究背景。”
比如深原质药的首席科学家叶盛博士,他在蛋白质结构研究与蛋白质设计研究方面拥有20余年的丰富经验,曾先后主持了抗中东呼吸综合征(MERS)冠状病毒和抗新型冠状病毒两款多肽药物前体的设计工作。
与此同时,深原质药还建立了由领域内著名科学家组成的科学顾问委员会,这里面包括我国著名结构生物学家、清华大学教授饶子和院士,美国两院院士、结构生物学领域奠基人之一、美国哥伦比亚大学教授Wayne Hendrickson院士,以及我国蛋白质结构预测与设计领军人之一、中国科学院计算技术研究所卜东波研究员等。
“为了让AI与蛋白质设计两个领域的人才能够更好地进行协作,我们每周都有一次AI和蛋白质设计部门联合的技术例会,每两周还会有一个最新文献的分享会。”管峥分享道,首席科学家叶盛博士在这个过程中充当了桥梁作用。“叶盛博士能把AI的语言翻译成结构生物学专家能听懂的语言,也能把结构生物学这边的问题翻译成AI专家能够听懂的问题。”
面对未来的团队构建,管峥透露,接下来深原质药会继续招聘更多具有结构生物学背景和对蛋白质有深刻理解的人才,以及AI专家和商务拓展团队等。
共赢/AI算法上线公测,行业创新加速
在当下,如何获取行业数据、如何通过实验验证来对数据进行标注,进而得到高质量的反馈数据,是当下限制AIGP大爆发的主要拦路虎。
“目前行业面临三个层面的问题,一是数据共享,这是很难突破的点,各家企业和机构私有的数据很难公开,二是行业如何利用好公共的数据库,三是优质的数据集需要更多的反馈数据来优化。”管峥表示。
面对该情况,深原质药近期已在其官网(www.dProtein.cn)上开放了两个算法的公开测试,分别是CUTEDGEopt和AtomSeg,以让更多用户了解和使用深原质药的蛋白质设计算法,
详细来看,CUTEDGEopt是CUTEDGE中的一个重要功能组件,主要专注于解决已有配体蛋白或多肽的优化问题。该模型是一个三维的稳定扩散模型,参数量1.8亿,能够在几秒钟内完成单次设计,并实现较强的结构生物学合理性。
“CUTEDGEopt所做的事情其实就是把二维的深度扩散模型投射到了三维的空间中,也就是把它加了一个维度,最终展现的效果也是非常好的。”管峥解释说,比如在针对GLP-1的优化设计中,CUTEDGEopt就成功获得了礼来公司产品替尔泊肽的大部分氨基酸替换设计,而计算时间仅需不到2小时。“这就为进一步的实验工作节省了大量的时间和成本,合作方也很满意。”
深原质药使用CUTEDGE算法为某客户设计的环化肽结合到了靶蛋白的指定表面区域
AtomSeg则是一个原子级别的电子密度分割识别算法,其既可以用于对AI算法生成的电子密度进行解读,也可以用于对晶体学电子密度图和冷冻电镜密度图的识别,进而搭建蛋白质结构模型。
从效果上看,相较于传统模型搭建算法需要漫长的计算时间,AtomSeg仅需几十秒就可以完成上千个氨基酸残基的原子识别,且全过程无需提供任何序列信息。这将给当前超大型天然复合物的结构研究提供帮助,能够直接为未知的蛋白质亚基搭建结构,并通过序列进行鉴别。
“基于当下的算法,我们能做的事情也越来越多。以近期服务的以一个蛋白质生产企业为例,我们通过蛋白质设计能够给到客户拥有同样生物学功能,但是又不会侵犯别人已有专利的一个替代型蛋白质或多肽产品,这样客户就具备了在这个细分市场‘切一块蛋糕’的能力。”管峥表示。
CUTEDGEopt与AtomSeg公开测试的背后,是深原质药秉持的“创新”与“共赢”的理念。在管峥看来,深原质药希望有更多来自企业和科研机构的蛋白质设计者能够体验到AI深度生成模型的强大原创设计能力,从而开展更进一步的深入交流,促进蛋白质设计领域的整体发展,让更多功能强大的蛋白质成为药物、疫苗、制剂、美妆产品,并走进千家万户。
“我们的期待是AI能变成一种通用的工具,使人们能在电脑上就完成蛋白质的设计工作,真正助力行业发展,并让蛋白质这个产品进一步扩大影响力,为社会提供更多健康、绿色的解决方案。”对谈的最后,管峥如此表示。
在可预见的未来,技术跃迁将持续推动AI蛋白质设计行业的变革。而身处其中的参与方们,将享受到这波技术浪潮下的时代红利。
文章来自于36氪 “36氪品牌”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则