智峪生科揽下生物计算领域“奥运会”冠军,中国生物科技力量站上台前
在生物计算领域素有“奥运会”之称的2022年CASP赛事尘埃落定。今年,有中国团队在全球共计162个参赛队伍中拔得头筹!
近日,第15届国际蛋白质结构推测竞赛(CASP15)正式公布,智峪生科旗下AICHEMY-RNA2团队在RNA结构推测项目上斩获总排名第一名的成果。另据了解,智峪生科另一只参赛团队AICHEMY-LIG也在蛋白质-小分子复合体推测项目取得了第二名的成果,两只团队均参与了CASP15研讨会并做主题报告的邀请。
CASP15大赛官方排名:AICHEMY-RNA2团队数据最优
官网链接:
实际上,RNA结构推测正是今年CASP大赛中最受关注的领域之一,该方向的突破会极大扶助到RNA相关的疗法和合成生物学调控元件的设计。而蛋白质-小分子复合体推测也是首次在赛事中出现,该方向的进取将极大促进药物设计和酶设计的项目落地。
智峪生科在两大热门项目中的优异表现,也昭示着在生物科技领域,中国技术已然站上台前,也为后续国内探索AI生物计算与合成生物学边界谋得了先发位置。
据悉,培植出夺冠团队的智峪生科成立于2021年,汇聚了国内外知名学府及工业界的一线团队,致力于通过人工智能技术推测和设计蛋白、核酸等生物元件,为药物研发和合成生物学带来革命性突破。
在智峪生科首席执行官王晟博士看来,生物信息技术领域方兴未艾,基于AI推测的蛋白质和RNA结构,让人类把握了打开生物秘密大门的钥匙。通过基于已知数据挖掘未知领域、通过设计工具从无到有发明,相关推测结果更可以进一步使用于辅助药物研发或是合成生物学,推动医疗健康、农业、食品、消费、化工等行业发展,同时助力中国生物科技力量站上国际竞技舞台。
从东半球第一到全球第一
此次智峪生科夺冠的CASP竞赛最早始于1994年,如今已成为评估推测技术的“金准则”。两年一届的CASP竞赛,其猛烈程度无异于“奥运会”,而取得最佳成果的团队也可类比为行业中的“奥运冠军”。
展开全文
上一届的CASP竞赛上,横空出世的人工智能——AlphaFold2一举夺冠,解决了困扰众多科研人员半个世纪的蛋白质结构推测难题。在此之前,鉴于生命科学以实验为基础的特性,理论推测的模型并不能等同于看测到的实验数据,蛋白质结构主要通过X-射线衍射、冷冻电镜等实验技术解析。
AlphaFold2则打破了这一“陈规”。
“AlphaFold2实现的高精度推测结构与实验误差接近,实验人员可以先参考模型推测的结果,再对实验数据进行处理。直接改变了结构生物学的实验流程与实验结果。对生物计算整个专业领域而言,其影响更是不亚于原子弹爆炸成功。”有业内人士分析称。
据其介绍,在AlphaFold2公布开源后,蛋白质结构推测问题已经基本得到解决,RNA结构推测成为新的重心,过往蛋白质结构推测的老牌玩家也都纷纷加进到RNA结构推测的领域之中。这也让本届CASP竞赛中,RNA结构推测奖项布满含金量。而这一最具含金量的“桂冠”,如今被智峪生科这支来自中国的团队斩获。
具体而言,针对PDB数据库中RNA结构数量过少的问题,智峪生科基于AI的AICHEMY-RNA方法(又称为RhoFold)借助了(i)纯粹基于序列信息的RNA-FM基础模型、(ii)基于多序列联配的RhoFormer语言模型、以及(iii)考虑了专家体会与真实二级结构约束的缺失函数,进行了端对端的模型练习,并在多个RNA结构的推测上取得了优异的成果。
而对于更难的人造RNA以及从未出现在PDB数据库中的天然RNA结构,智峪生科基于力场的AICHEMY-RNA2方法(又称为BriQ)创新性的摘用了(i)碱基对概率密度拆解、(ii)化学基团的电子云表达、以及(iii)高效的Monte Carlo摘样,取得了非常出色的推测结果。
小分子推测赛道,同样也是众多医药公司长期关注的重要方向,对小分子药物设计的精度和质量会带来立竿见影的效果。例如本次小分子比赛的评估方就是AI药物设计领域的知名公司Relay Therapeutics。同时,高精度小分子结合推测,也可以为未知功能酶元件的发现和高精度的理性酶设计提供坚实计算基础,赋能合成生物学的产品开发。智峪生科核心小分子算法在内部和外部项目中均已实现了广泛使用。
实际上,在此次夺冠之前,智峪生科核心算法团队也曾在王晟博士带领下,以tFold系列算法在上一届比赛CASP14上和AlphaFold2算法同台竞技,斩获了蛋白接触图推测这一细分项目的第一名。而在分量最重,也最受关注的3D结构推测比赛中,王晟博士带领的tFold团队在没有使用大量的基础序列数据库的情状下,仅以微弱劣势获得组别第四,也成为除欧美地区外,整个东半球排名第一的队伍。
从东半球第一到全球第一,智峪生科一家企业的进取,也折射出中国生物科技力量的崛起。
据介绍,基于在AI计算及蛋白质、RNA结构推测领域和蛋白质-小分子复合体推测以及生物大分子模拟方向积存的体会,目前智峪生科已正式推出了高通量、高精度、全生态、全流程生物计算平台——“峪云ZCloud”,以解决大分子结构计算、分子模拟、药物设计、酶工程、大分子设计(包括蛋白、核酸、以及其复合物)等领域内计算问题。
在“峪云ZCloud”平台的加持下,生物医药企业可以提前完成新药研发前的大分子相关研究工作,后续只用参照计算结果,即可顺畅完成药物发现的工作。智峪生科也可以通过平台中的模块进行蛋白、核酸等生物元件的挖掘和设计,从而拓展生物合成的使用边界,大步迈向“万物皆可合成”的愿景。
ZCloud全生态平台
按照智峪生科的想象,仅从RNA结构推测出发,研究者就可以挖掘崭新的用药靶点、显示由RNA突变带来的疾病成因。“每一点突破,都有可能对现行的疾病治疗方案带来颠覆。”王晟博士指出。
AI技术赋能中国生物科技未来
实际上,上述方向仅仅揭开了蛋白质/RNA结构推测/蛋白质-小分子复合体推测后续使用的“冰山一角”。
“我信赖生物计算在整个生命科学产业中一定会大有所为。我们期看另辟蹊径,探索AI或者生物计算方法在合成生物学领域的潜力。”王晟博士表达。
所谓合成生物学,多摘用工程学“自下而上”的理念,从系统表征自然界具有催化调控等功能的生物大分子,使其成为准则化“元件”,进而创建“模块”、“线路”等全新生物部件与细胞“底盘”,最终构建出具备各类用途的人造生命系统。
这也就决定了合成生物学需要依靠各类底层元件,比如催化元件、调控元件、感应元件和结构元件等。但当前,研究领域内可用元件十分匮乏,直接限制了合成生物学的想象空间。
不同于过往利用有限的过往研究出来的已知元件往进行产品研发,在包括蛋白质结构推测、RNA结构推测、蛋白质-小分子复合体结构推测在内的AI技术加持下,智峪生科技术团队可以从千万甚至数亿的宏基因组中实现高精度的功能标注,进行新的功能元件挖掘;通过要害元件改造和设计,实现从无到有的元件设计技术拓展出近乎无限的元件库,极大地拓展合成生物学的选品领域,根本性地解决选品难的问题,为该领域发展带来颠覆性的影响。“就像用积木搭建房子,假如我们有一千块积木,那么搭建出来的房子样式、质量、方法、速度上会比只有十块积木更好。”王晟博士表达。
与此同时,智峪生科还建立了颠覆性的基于AI的生物合成“计算设计-实验验证-计算再优化(DBTL)”循环,在解决选品难问题的同时,通过智能化和自动化的干湿实验结合,指数性地提升数据产生和算法迭代的速度,达到极致的降本增效,从而形成绝对的竞争优势。
本次CASP15竞赛中,智峪生科AI技术实力就有所体现。若仅考虑基于AI的方法的表现,公司旗下AICHEMY-RNA团队和AICHEMY-LIG团队表现均为全球最优。
另外,基于在CASP竞赛上RNA结构推测夺冠的实力,智峪生科还可以进一步设计RNA三维结构实现密码子(codon)优化,进而提高蛋白质异源表达量,促进合成生物学进展。同时在合成生物学创建的细胞工厂中,清楚描绘蛋白质与RNA之间的调控网络,设计或挖掘出全新的RNA调控元件,提升整个细胞工厂的可操控性。
“从我们的角度来看,人工智能和合成生物学其实存在共同点,两者都能实现对已知事物的降本增效和对未知事物边界的不断探索。智峪生科也是全球领域内,少有的将 AI 和合成生物学进行深度合成的公司。信赖在未来,智峪生科可以通过AI技术进一步赋能合成生物学领域,并以此改良医学、能源、环境、消费等相关领域,为生物科技带来一场看得见的革命,也为中国生物科技事业成长奉献力量。”王晟博士表达。
我来回答