从天然环境中分离和克隆的野生酶往往有各种各样的局限性,酶学性能的“天花板”主要取决于分离到这些酶的自然环境,这是典型的自然选择和进化。野生酶虽然可以胜任大多数科学研究用途,但在体外诊断、生物合成和生物医药这样的专用场景往往就会“力不从心”,前面提到的活性不足或不稳定、功能性不够专一或特异、抗抑制性不够强,甚至难以大规模生产等都会制约酶在专用场景的商业化应用。
化学修饰和蛋白质工程是目前优化野生酶的主要手段。但化学修饰往往依赖对酶的序列、空间结构、活性基团与酶学性状和功能之间的关联(即“序效关系”,Sequence-Activity Relationship,SAR)有明确的认知才能开展,改造难度较大。因此,蛋白质工程是目前更热门和主流的手段,得益于基因测序、定点突变、DNA和蛋白重组(Recombinant DNA and Protein)以及定向进化等技术的出现和成熟,其中又以定向进化最为重要。
经典定向进化技术在当下转化研究和临床应用的背景下,遇到了一些新的瓶颈问题,主要体现在4个方面,尤其是后面2个问题对临床应用的影响更甚:
(1)幸存者偏差,即通过压力筛选的酶幸存者,其序列仍可能是非最优的,性状更优良的菌株可能在筛选过程中意外死亡。
(2)定向迭代的路径很长,开发的效率和成功率很低。
(3)筛选维度单一,难以满足临床应用的复合性要求。因为筛选实验设计的难度以及分析方法的局限性等问题,经典方法往往一次只能筛选一种酶学性状。但一个酶突变体的几种所需性状却又存在“此消彼长”的现象,即当定向强化了一种性状时,另外一种性状可能减弱甚至丢失。以对临床NGS非常重要的高保真PCR酶为例,扩增效率和保真性都是非常重要的,但它们是一对互相掣肘的性状,扩增效率高了,纠错能力就会减弱,如何同时筛选这两组性状,优化它们达到最佳的平衡是开发高保真PCR酶的核心难题之一。
(4)压力类型的局限性。PCR时代,酶筛选的压力实验设计往往针对的是诸如扩增效率、耐热性、对某些抑制剂的耐受性等这些直接可测量的性状指标,筛选实验的设计相对容易。但进入NGS时代,情况有较大的改变,许多优秀的性状并不是直接可测量的,例如高保真酶的保真性、均匀性,又如连接酶的连接效率和保真性,再如甲转酶的转化率和稳定性,这些都不是直接可测得的指标,往往需要后续更多的分析才能评价和优化,因此经典的筛选方法失灵了。
为了克服这些瓶颈问题,我们引入了新的系统,包括微流控、深度测序、大数据、人工智能和自动化。
微流控和深度测序平台可将每一个酶的突变体包裹在微滴中,进行各种压力测试后回收进行表型及基因型的分析,不仅可以评价诸如酶活、收率、耐受性等直接可测的酶学指标,还可分析测序应用关注的GC偏好性、覆盖度、转化率、错误率等间接指标,并同时测得产生这些性状的酶分子的序列,从而获得全面的“序效关系”数据。
大数据和人工智能平台不仅可对这些数据进行学习和建模,来掌握特定的一组压力条件下酶序列的基因位点与酶学性状之间的关联性,明确关键位点,还可对酶的空间结构、酶与底物和配体之间的互相作用等关键参数做出预测。
不同压力下获得的参数模型还可在更高维度上进行整合和建模,形成完整的酶学知识库,为酶的理性设计提供助力。
自动化可在摸索和调制酶的最适反应液配方这类繁琐的工作中帮助节省成本和劳动力,加速研发项目的进度。
也许这些原理听上去比较晦涩,我举一个高保真PCR酶的优化案例。
我们至今成功开发并上市了两代高保真酶产品(商品名为Equinox®),Equinox酶以及Equinox Plus酶。在Equinox酶的开发过程中,运用微流控和深度测序,我们对每一个酶突变体的覆盖均一性和错误率进行了测量和评价,最终选择一个最优的序列进行了产品化。
Sanger研究所的Michael Quail博士及其团队对Equinox酶以及其他20余种市售的高保真PCR酶进行了系统比较和评价,高度认可并推荐了Equinox酶,数据发表在《Microbial Genomics》期刊上(Quail, M. A., et al. (2024). "Identifying the best PCR enzyme for library amplification in NGS." Microbial Genomics 10(4). DOI:10.1099/mgen.0.001228)。