
科学研究与应用
Journal of Scientific Research and Applications
- 主办单位:未來中國國際出版集團有限公司
- ISSN:3079-7071(P)
- ISSN:3080-0757(O)
- 期刊分类:科学技术
- 出版周期:月刊
- 投稿量:5
- 浏览量:648
相关文章
暂无数据
糖基转移酶生物信息分析及在人参中的应用
Research Progress on Bioinformatics Analysis Methods of Glycosyltransferases and Their Application in the Discovery of Ginsenoside Glycosyltransferases
引言
人参(Panax ginseng C.A. Meyer)作为“百草之王”,在东亚传统医学体系中占据核心地位。其主要的药理活性成分——人参皂苷,属于三萜类化合物,具有显著的抗肿瘤、抗氧化、免疫调节及神经保护作用。人参皂苷的结构多样性主要源于其苷元(aglycone)骨架的差异以及糖链修饰的多样化。根据苷元结构,人参皂苷主要分为原人参二醇(PPD)型、原人参三醇(PPT)型、齐墩果酸(OA)型以及近年来备受关注的奥克梯隆(Ocotillol)型。
植物UGT是植物界最大的酶家族之一。传统的基因挖掘方法依赖于同源克隆和逐个酶活测定,这种“大海捞针”式的筛选不仅效率低下,而且难以区分功能冗余的同工酶。因此,建立一套系统、高效、精准的生物信息学分析方法,从海量基因组数据中快速锁定候选功能基因,已成为人参皂苷生物合成研究的迫切需求。本综述将从序列、结构、进化和多组学四个维度,详细论述UGT生物信息学分析体系的建立及其在人参研究中的前沿应用。
糖基转移酶的结构与分类基础
1.1 CAZy系统框架下的GT1家族结构与功能
生物信息学对GTs的系统分析,其首要框架基于全球公认的碳水化合物活性酶数据库(CAZy)。CAZy的分类不依赖底物特异性,而是以蛋白质氨基酸序列的相似性为基础,这直接反映了GTs的蛋白质折叠结构与进化起源。植物中负责修饰次生代谢产物的GTs,绝大部分归属于GT1家族,其序列特征是其被识别为功能性酶的根本依据。
GT1家族酶在催化机制上具有显著特征,即利用UDP-活化的单糖(如UDP-葡萄糖、UDP-半乳糖、UDP-木糖等)作为糖基供体,将其转移至各类小分子受体,因此这类酶也被称为UDP-糖基转移酶(UDP-glycosyltransferases, UGTs)。此反应通常遵循“翻转机理”,产物的糖苷键构型与供体底物呈相反构型(例如,从α-UDP-葡萄糖生成β-D-葡萄糖苷)。这种机制与酶的三维结构紧密相关,也为后续的分子对接与功能模拟提供了关键的化学基础。
1.2 核心序列基序(PSPG盒)与供体识别
在植物UGTs家族序列中,最具诊断性的结构特征是位于C末端、长约44个氨基酸的“植物次生代谢产物糖基转移酶盒”(Plant Secondary Product Glycosyltransferase Box, PSPG box)。此高度保守基序是酶与UDP-糖供体结合的关键区域。生物信息学与结构生物学研究表明,PSPG盒内特定残基通过氢键与疏水作用直接参与识别UDP的核糖、磷酸基团及糖基部分。其中,第44位残基的性质在决定糖基供体特异性方面尤为关键:谷氨酰胺(Q)通常暗示对UDP-葡萄糖的偏好,组氨酸(H)指向UDP-半乳糖,而精氨酸(R)则可能与识别UDP-葡萄糖醛酸有关。
因此,利用MEME、MAST等生物信息学工具对PSPG盒进行精准识别与残基保守性分析,成为判断候选蛋白是否为功能性植物GT、并初步预测其糖基供体类型的重要步骤。
1.3 三维结构基础:GT-B型折叠与“模块化”功能
在三维拓扑结构上,植物GTs均采用经典的GT-B型折叠。该折叠包含两个结构域:C端结构域与N端结构域,二者通过一连接片段形成活性裂隙。其中,C端结构域序列高度保守,是PSPG盒的载体,主要负责识别并稳定结合UDP-糖供体。而N端结构域序列变异程度高,其三维表面与结构特征决定了酶对多种受体分子(如不同种类的人参皂苷元)的特异性识别与结合。
这种“保守C端+可变N端”的结构模块性,为GTs的功能研究提供了清晰的生物信息学分析策略:通常基于保守的C端(特别是PSPG盒)进行序列搜索、家族鉴定与进化分析,而对可变N端(包括其活性口袋)的分析则为分子对接、底物特异性预测与结构建模提供了核心结构依据。
人参皂苷生物合成途径及其关键糖基化修饰
人参皂苷的生物合成过程经历一系列精确的酶催化步骤。首先,通过甲羟戊酸(MVA)途径和甲基赤藓糖醇磷酸(MEP)途径合成前体物质异戊烯焦磷酸(IPP)及其异构体二甲基烯丙基焦磷酸(DMAPP)。研究表明,在人参根部,MVA途径对皂苷合成的贡献更为显著。接着,在法尼基焦磷酸合酶(FPS)和角鲨烯合酶(SS)作用下生成角鲨烯,随后经角鲨烯环氧酶(SE)催化氧化为2,3-氧化角鲨烯。随后,2,3-氧化角鲨烯在达玛烯二醇合酶(DDS)或β-香树脂醇合酶(bAS)催化下,分别环化形成达玛烯型骨架(Dammarane skeleton)或齐墩果烷型骨架(Oleanane skeleton)之后,多种细胞色素P450单加氧酶(CYP450s)逐步引入羟基,形成原人参二醇(PPD)、原人参三醇(PPT)或齐墩果酸等苷元。例如,CYP716A47催化达玛烯二醇C-12位羟基化生成PPD,CYP716A53v2进一步催化C-6位羟基化生成PPT。最终,UGTs的催化,以UDP-葡萄糖(UDP-Glc)、UDP-木糖(UDP-Xyl)、UDP-阿拉伯糖(UDP-Ara)或UDP-葡萄糖醛酸(UDP-GlcA)等为糖基供体,将糖基转移至苷元特定位置,完成糖基化修饰。
糖基化修饰不仅是决定人参皂苷水溶性和稳定性的关键,还直接影响其药理活性与代谢特征——例如,稀有人参皂苷Rh2和Rg3比常见皂苷Rb1表现出更强的抗癌活性。然而,UGT基因家族成员众多,植物基因组中亦存在大量功能未知的同源基因,传统“逐个克隆—表达—验证”的研究模式效率低下,难以应对大规模候选基因的筛选需求。此外,天然UGT常面临催化效率低、底物特异性宽泛或区域选择性不理想等问题,制约其在工业化合成中的应用。因此,借助生物信息学手段进行UGT的精准挖掘、结构解析与分子改造,已成为推动该领域发展的关键研究方向。
糖基转移酶功能预测的生物信息学研究方法与进展
蛋白质功能预测工具的发展经历了从传统序列分析到人工智能驱动的迭代发展。
基于一级序列比对的BLAST,将已知的糖基转移酶序列,在NCBI的非冗余蛋白质数据库中进行BLAST搜索,寻找与之相似的序列,从搜索结果中提取出高相似性序列。如范广义等人利用blastp软件使用拟南芥的糖基转移酶序列作为参考,预测人参糖基转移酶编码基因,得到308个候选基因。王媛媛等研究人员在葡萄UDP-糖基转移酶基因家族的全基因组鉴定过程中,以拟南芥数据库下载的AtUGT家族蛋白质序列作为查询序列,对葡萄基因组蛋白序列进行BLAST搜索,成功鉴定出230个葡萄VvUGT基因家族成员,确认所有成员均含有PSPG结构域,证实它们属于典型的UDP-糖基转移酶家族。
基于数据整合与相似性匹配的pUGTdb,将待研究植物的蛋白质序列提交到pUGTdb数据库,通过该数据库的注释信息,直接获取其中可能的糖基转移酶序列,以及相关的功能和分类信息。研究人员选择了三种最近报道的UGT作为示例,为了测试工具的潜力,当使用来自相应物种的底物和所有UGT作为输入时,所有报告的UGT都排名前10位。
基于高效结构比对的TM-align,可以量化两个蛋白质三维结构之间的相似性,并通过计算TM-score来评估结构预测的准确性,从而为蛋白质功能注释和进化关系分析提供关键依据。TM-align在比较糖基转移酶的不同预测模型或实验结构时表现出高度的灵敏性和鲁棒性,尤其在识别全局折叠相似性、保守结构核心和活性位点空间排布方面具有显著优势。林旭在其构建的CBMDB数据库平台中,将TM-align作为集成的蛋白质三维结构比对工具之一,提供TM-score作为结构相似性评分标准,用于实现蛋白质三维结构的相似性搜索与比对。
基于人工智能大模型的软件,以AlphaFold为代表,可以预测蛋白质以及蛋白质-配体复合物的高精度结构,可间接推断活性位点的位置和构象,从而为酶的活性分析提供结构基础。AlphaFold在糖基转移酶的结构预测中表现出较高的准确性,尤其在活性位点、金属离子结合位点和整体折叠模式的预测上具有显著优势,但其对动态构象和底物结合细节的捕捉可能仍存在一定局限性。吴新明等人使用AlphaFold2对糖基转移酶进行了三维结构预测,成功获得了EUGT11、UGTSL2、PgUGT的高置信度三维结构模型,为后续模拟提供了结构基础。这些预测结构被用于后续的分子对接和分子动力学模拟,以研究其与底物的相互作用机制。
基于蛋白质-配体相互作用的分子对接,使用PyMOL、AutoDock等软件,旨在预测小分子与生物大分子之间的最佳结合模式和结合亲和力。陈雨彤等人使用AutoDock用于进行分子对接模拟,预测AaUGT2与底物(淫羊藿素)及糖供体(UDP-葡萄糖)之间的结合模式和结合能,PyMOL用于可视化分子对接结果展示,系统揭示了AaUGT2与底物的结合模式及其催化效率的结构基础。研究人员利用同源建模和分子对接技术,研究了来自三七(Panax notoginseng)的两个糖基转移酶PnUGT74AE2和PnUGT94AG1的底物选择性分子基础。他们首先构建了这两个酶的三维模型,然后使用AutoDock Vina将不同的三萜皂苷元前体(如原人参二醇PPD和原人参三醇PPT)对接到其活性口袋中。通过分析对接结合能、氢键网络和底物—酶相互作用的差异,他们成功预测了PnUGT74AE2倾向于催化C-3位羟基糖基化,而PnUGT94AG1倾向于催化C-20位羟基糖基化。
基于生物信息学进行人参皂苷糖基转移酶筛选研究进展
在人参全基因组数据发布之前,研究人员主要依赖于表达序列标签(EST)文库进行功能基因的挖掘。通过对人参cDNA文库进行构建和EST测序,并利用生物信息学工具对具有植物糖基转移酶保守结构域的序列进行筛选,研究者初步鉴定出包括UGTPg45在内的一系列候选基因。尽管该酶在早期研究中表现出较低的催化效率,但其作为功能模板,为后续基于结构理性的酶工程改造奠定了基础。与此同时,通过类似的EST数据库同源性搜索,另一个关键酶UGTPg1(亦称为PgUGT71A53)得以鉴定。该酶作为最早明确功能的人参糖基转移酶之一,表现出对原人参二醇(PPD)和原人参三醇(PPT)C-20位羟基的糖基化能力,从而连接了PPD与PPT两条生物合成支路,既能催化生成Compound K,也能合成人参皂苷F1,在人参皂苷糖基化网络中具有重要的节点功能。
茉莉酸甲酯(MeJA)是有效诱导人参皂苷生物合成的外源信号分子。研究人员利用这一特性,通过对比MeJA处理前后人参不定根的转录组数据,从差异表达基因(DEGs)中筛选出表达显著上调且含有保守PSPG盒的糖基转移酶(UGT)基因。在此基础上,进一步构建酵母工程菌株进行体内功能验证,成功鉴定了两个关键酶:PgUGT74AE2与PgUGT94Q2。其中,PgUGT74AE2是原人参二醇(PPD)型皂苷合成的起始酶,负责催化PPD的C-3位糖基化,生成稀有人参皂苷Rh2;而PgUGT94Q2则在此基础上继续催化糖链延伸,将Rh2进一步转化为Rg3。该研究展示了基于诱导表达与功能验证相结合的UGT挖掘策略,为系统性解析人参皂苷糖基化途径提供了重要线索。
在挖掘与低丰度或组织特异性分布皂苷(如齐墩果烷型人参皂苷)合成相关的酶时,传统的差异表达分析往往难以有效定位。为此,加权基因共表达网络分析(WGCNA)作为一种数据驱动的方法,能够系统性地从复杂转录组数据中筛选候选基因。研究团队通过收集来自不同人参栽培品种和多种组织的大规模转录组数据集,构建了基因共表达网络。利用该网络,研究人员识别出与目标代谢物——人参皂苷Ro的含量呈显著正相关的基因模块。通过进一步筛选该模块中的枢纽基因,成功锁定了一个属于UGT73亚家族的关键基因PgUGAT252645。该基因被鉴定为齐墩果酸C-3位的葡萄糖醛酸基转移酶,其编码的酶特异性催化齐墩果酸生成Calenduloside E,从而明确了人参皂苷Ro生物合成途径中先前未知的关键糖基化步骤。这项研究展示了WGCNA在多品种、多组织整合分析中精准挖掘低丰度代谢物合成相关酶的强大潜力。
结论与展望
本文系统梳理了糖基转移酶(UGT)功能研究的主流生物信息学方法,从序列、结构、相互作用及多组学整合等多个维度构建了系统的分析框架。传统的序列比对工具(如BLAST)与保守结构域分析(如PSPG盒识别)为UGT的初步鉴定与分类提供了基础。以CAZy数据库为代表的分类系统,则为理解其进化与功能分化建立了宏观图景。随着结构生物学与计算方法的融合,基于三维结构的比对(如TM-align)、高精度预测(如AlphaFold2)以及分子对接模拟,使得在原子层面解析UGT的底物识别与催化机制成为可能,极大地推进了功能注释与理性设计的深度。
然而,当前研究仍面临诸多挑战。首先,现有预测方法在准确推断UGT的精确底物特异性及区域选择性方面仍存在局限,尤其是对糖基供体与受体组合的精准预测能力有待提升。其次,多数研究仍侧重于单一蛋白质或单一层面的分析,缺乏将基因组、转录组、蛋白质组与代谢组数据进行系统整合,以在复杂生物网络背景下理解UGT功能的动态调控机制。此外,如何将计算预测的高潜力候选基因高效地转化为湿实验验证,仍是制约其实际应用的关键瓶颈。
展望未来,人参UGT的生物信息学研究将呈现以下趋势:一是深度智能化,即开发融合多模态数据(序列、结构、相互作用、化学信息)的专用机器学习或深度学习模型,以实现更高精度的功能预测与虚拟筛选。二是多组学整合化,通过构建“基因—表达—蛋白—代谢物”的关联网络,系统性解析UGT在人参不同组织、发育阶段及逆境响应中的表达模式与功能模块,为合成生物学提供精准靶点。三是模拟动态化与高通量化,结合分子动力学模拟与自由能计算,深入探究酶—底物结合的动态过程与催化机理;同时,开发自动化分析流程,实现对大规模基因组中所有UGT候选基因的快速并行评估。四是应用导向化,紧密对接代谢工程与酶工程需求,利用计算指导的理性设计或定向进化,改造UGT的催化特性(如活性、稳定性、特异性),以高效生产稀有人参皂苷或新型糖基化产物。
总之,随着生物信息学技术的不断革新与多学科交叉的深化,一个更加精准、高效、系统化的UGT功能研究体系正在形成。这不仅将加速揭示人参皂苷多样性的合成密码,也为其他植物天然产物的糖基化研究提供可借鉴的方法范式,最终推动合成生物学与绿色生物制造的产业发展。
参考文献:
- [1] Yang J-L, Hu Z-F, Zhang T-T, et al. Progress on the studies of the key enzymes of ginsenoside biosynthesis. Molecules,2018,23(03):589-600.
- [2] Xue Y, Zhang R, Li T, et al. Sustainable production of ginsenosides: Advances in biosynthesis and metabolic engineering. Plants,2025,14(18):2821-2846.
- [3] Campbell J A, Davies G J, Bulone V, et al. A classification of nucleotide-diphospho-sugar glycosyltransferases based on amino acid sequence similarities. Biochem,1997,326(Pt3):929-939.
- [4] Wu Y, Liu J, Jiao B, et al. Genome-wide analysis of Family-1 UDP-Glycosyltransferases in potato (Solanum tuberosum L.): Identification, phylogenetic analysis and determination of response to osmotic stress. Genes,2023,14(12):2144-2158.
- [5] Ren C, Cao Y, Xing M, et al. Genome-wide analysis of UDP-glycosyltransferase gene family and identification of members involved in flavonoid glucosylation in Chinese bayberry (Morella rubra). Frontiers in Plant Science,2022,13:998985-999001.
- [6] Wang M, Ji Q, Lai B, et al. Structure-function and engineering of plant UDP-glycosyltransferase. Computational and Structural Biotechnology Journal,2023,21:5358-5371.
- [7] Yu A, Jiang X, Sun Y, et al. Genome-wide identification, characterization, and expression analysis of UDP-glycosyltransferase genes associated with secondary metabolism in alfalfa (Medicago sativa L.). Frontiers in Plant Science,2022,13:1001206-1001222.
- [8] Xu J, Chu Y, Liao B, et al. Panax ginseng genome examination for ginsenoside biosynthesis. Gigascience,2017,6(11):1-15.
- [9] Yu X, Yu J, Liu S, et al. Transcriptome-wide identification and integrated analysis of a UGT gene involved in ginsenoside Ro biosynthesis in Panax ginseng. Plants (Basel),2024,13(05):604-623.
- [10] Chen H, Li X, Zheng Y, et al. Effects of different culture times on gene expression and ginsenoside biosynthesis of the ginseng adventitious roots in Panax ginseng. Horticulturae,2023,9(07):762-775.
- [11] Luan L, Montecillo J A V, Bae H, et al. Recent advances in the metabolic engineering of yeasts for ginsenoside biosynthesis. Frontiers in Bioengineering and Biotechnology,2020,8:139-158.
- [12] Fan G, Liu X, Sun S, et al. The chromosome level genome and genome-wide association study for the agronomic traits of Panax notoginseng. iScience,2020,23(09):101538-101595.
- [13] 王媛媛, 刘云清, 徐晶宇, 等. 葡萄UDP-糖基转移酶家族的全基因组表征、进化和表达分析. 食品科学,2025,46(14):134-146.
- [14] Liu Y, Wang Q, Liu X, et al. pUGTdb: A comprehensive database of plant UDP-dependent glycosyltransferases. Molecular Plant,2023,16(04):643-646.
- [15] Taujale R, Zhou Z, Yeung W, et al. Mapping the glycosyltransferase fold landscape using interpretable deep learning. Nature Communications,2021,12(01):6892.
- [16] 林旭. 基于多维度生物信息学分析手段的碳水化合物结合模块数据库的构建[D]. 大连工业大学,2023.
- [17] Varadi M, Anyango S, Deshpande M, et al. AlphaFold protein structure database: Massively expanding the structural coverage of protein-sequence space with high-accuracy models. Nucleic Acids Research,2022,50(D1):439-444.
- [18] 陈雨彤, 张倩, 陈静, 等. 知母糖基转移酶基因AaUGT2克隆、表达及特性研究. 中国生物化学与分子生物学报,2025,41(12):1850-1859.
- [19] Zhang M, Li F-D, Li K, et al. Functional characterization and structural basis of an efficient Di-C-glycosyltransferase from Glycyrrhiza glabra. Journal of the American Chemical Society,2020,142(07):3506-3512.
- [20] Wang P, Wei W, Ye W, et al. Synthesizing ginsenoside Rh2 in Saccharomyces cerevisiae cell factory at high-efficiency. Cell Discovery,2019,5:5-19.
- [21] Jung S-K, Kim W, Sung C-P, et al. Two ginseng UDP-glycosyltransferases synthesize ginsenoside Rg3 and Rd. Plant and Cell Physiology,2014,55(12):2177–2188.
