乳酸菌基因组学研究新进展

生物饲料工程研究中心 2018-08-09 16:37:14


导读

乳酸菌在食品和发酵饲料工业中的应用有着悠久的历史。近几十年, 随着科学技术的迅猛发展,人们逐渐意识到乳酸菌在发酵、生物、农业、食品以及医药等多个领域具有重要的地位,因此,乳酸菌已成为发酵工业领域研究的主题。

基因组学是通过全基因组序列信息、数据库以及相关生物研究技术等方法, 从基因组水平上研究和认识生物系统的结构、功能及进化的一门综合性学科。与传统分子生物学方法的研究相比,基于全基因组序列信息的研究具有更全面、深入、细致等显著特点。随着基因组学的兴起,对于人类生产、生活具有重要价值的乳酸菌也成为重点研究对象。人们期待从分子水平上揭示乳酸菌的多样性和进化历程,解析生理和代谢机制,挖掘重要性状相关的功能基因, 进而加速优良菌种的选育和改造,为高效利用乳酸菌,提高发酵工业化控制水平提供依据。

本文结合本研究团队前期开展的乳酸菌基因组测序工作,介绍基因组测序技术的发展历程,重点阐述基因组测序技术在乳酸菌分类、进化和代谢机制等方面的应用现状。

1基因组测序技术的发展

基因组测序技术共经历了3 代的发展。第1代测序技术是以Sanger 测序法为基础发展起来逐步克隆法(clone by clone)和全基因组鸟枪法(Wholegenome shotgun strategy)。随着生物技术和计算机技术的快速发展,具有高通量、低成本、大规模测序等优点的第2 代测序技术诞生。其中,最具有代表性的是Roche 公司的454 焦磷酸测序技术,Illumina 公司的Solexa 技术和ABI 公司的SOLiD技术。

目前,第2 代测序技术已广泛应用于乳酸菌的基因组学研究中,然而其测序读长较短,往往造成基因组中重复序列区域的错误拼接。而以单分子测序技术为标志的第3 代测序技术的兴起和发展为全基因组测序提供了利器。

2008 年,HdicosBiosciences 公司开发了第1 台单分子测序仪器HeliScope 系统。之后 Pacific Bioscience公司和Oxford Nanopore Technologies 公司相继推出的单分子实时测序技术(Single Molecule RealTime Sequencing,SMRT) 和纳米孔单分子测序技术(Single Molecule Nanopore Sequencing)是最具标志性的第3 代测序技术。第3 代测序技术实现了在单分子水平上对生物分子的实时分析,测序过程无需进行PCR 扩增,而是采用边合成边测序的思想。单分子实时测序速度能达到每秒10 个碱基,DNA 聚合酶自身的延续性保证了测序读长可达几千个碱基,并且将DNA 聚合酶换成RNA 反转录酶可完成对RNA 的直接测序。第3 代测序技术以其通量高、成本低、速度快、信息产出高等突出优点迅速地应用于基因组测序,甲基化研究,RNA 测序和高GC 含量高的基因组测序等研究领域。

虽然目前第2 代测序技术仍是基因组测定的主流技术, 但是第3 代测序技术的优点已逐渐显露。2014 年,内蒙古农业大学“乳品生物技术与工程” 教育部重点实验室研究人员采用SMRT 技术对干酪乳杆菌(Lactobacillus casei)Zhang 和植物乳杆菌(Lb. plantarum)P-8 进行基因组重测序。这两株菌分别于2008 年和2010 年利用2 代测序技术完成了基因组精细图谱的绘制。通过对两次测序结果的比较, 发现基因组与参考序列整体线性关系良好, 然而先前的植物乳杆菌P-8 基因组中因第2 代测序读长有限, 无法跨越含有重复序列的区域而导致拼接结果错误。第3 代测序数据在纠正之前的错误后检测到一个新质粒(15.174 kb,GC% = 39.7%)。2015 年,美国冷泉港实验室和霍华德休斯医学院的学者通过测定扁形虫(Flatworm)的基因组来研究其长生不老的分子机制。由于该物种基因组非常特殊,75%的基因组为简单重复序列和转座子, 因此使用第2 代测序技术对其进行基因组测序和组装的结果非常不尽人意。之后,采用SMRT 技术获得130x 覆盖度的数据量, 组装得到的contig N50 达到64 kb,比2 代测序组装结果提升了近300 倍。尽管第3 代测序技术因其读取长而备受关注, 但是高错误率却让人望而却步。马里兰大学的Adam Phillippy团队开发了一种融合第2 代和第3 代测序技术的完全准确的长读取技术(Hybrid error correction),并验证了该技术可使第3 代测序技术的高错误率得以控制。

2乳酸菌基因组学研究

2001 年,第1 株乳酸菌即乳酸乳球菌乳酸亚种(Lactococcus lactis subsp. lactis)IL1403 基因组测序的完成,揭开了乳酸菌基因组学研究的新篇章。截止2016 年1 月,NCBI 基因组数据库中已完成全基因组测序的乳酸菌菌种超过300 个。在我国,第1 株乳酸菌(干酪乳杆菌Zhang)基因组的测定工作于2008 年由内蒙古农业大学“乳品生物技术与工程”教育部重点实验室完成。早期乳酸菌基因组测序均集中在研究1 株具有特定功能菌株的基因组结构、组成、生物学功能及代谢途径等。例如: 较典型的有嗜酸乳杆菌(Lb. acidophilus)NCFM、干酪乳杆菌BL23和鼠李糖乳杆菌(Lb. rhamnosus)GG等。随着测序技术的更新,成本的锐减,研究学者通过大批量、大规模测定乳酸菌基因组, 对同一属中不同菌种或同一菌种中不同株进行比较基因组学研究, 进而解析乳酸菌的基因功能, 代谢网络调控以及群体遗传与物种分化过程。


2.1 乳酸菌的分类、系统发育和进化

全面解析乳酸菌的分类地位、遗传背景和进化历程,对于其开发利用具有极其重要的意义。早期的乳酸菌分类学研究主要依赖于表型特征,如利用碳水化合物代谢特征,不同培养基、温度、pH的生长特性等对乳酸菌进行分类鉴定。伴随着分子生物学的诞生和发展, 相继涌现出许多基于DNA 指纹图谱和核酸序列的分类技术。乳酸菌遗传变异方式主要有两种, 即基因水平转移(HorizontalGene Transfer,HGT)和自身基因变异,主要包括点突变、基因重组、短重复序列变异等。从乳酸菌基因组中可以看出基因水平转移(HGT)是个普遍的进化事件。仅以单个或几个基因为研究对象得到的进化关系并不能真实地反映乳酸菌的分类地位和进化关系,然而基于全基因组DNA 序列的基因组学为乳酸菌进化和分类研究注入了强劲的动力。

2014 年,Gao 等人通过比较138 株链球菌的基因组,阐述链球菌属(Streptococcus)中不同种群的进化历程; 基于278 个核心基因编码的蛋白序列构建的系统发育树表明链球菌属进化过程中共有两个遗传谱系(lineages):一个谱系包括Pyogenic,Bovis,Mutans 和Salivarius 种群(group),另一个谱系包括Mitis, Anginosus 和未命名的种群,每个种群的进化轨迹与属的进化是一致的。比较基因组学还证实了该属中种群的分类是可靠的。

2015 年Sun 等人对乳杆菌属中的213 株模式菌株进行基因组测序, 采用2 代Illumina HiSeq2000 高通量测序平台绘制其基因组精细图谱。这些模式菌株形成了一个包含44 668 个基因家族的泛基因组,而核心基因只有73 个,表明乳杆菌属基因组具有复杂的多样性。通过对乳杆菌的平均核苷酸一致性(Average nucleotide identity,ANI)和总核苷酸一致性(Total nucleotide identity TNI)的数据统计可以看出(图1),ANI 和TNI 值的频率分布与传统定义良好的属和科的分布显著不同,而与同一纲、目的分布却有一定的重叠性,这表明乳杆菌属基因组多样性接近于常规的科的水平,低于常规目的水平。这一结果对于建立全新的乳杆菌分类体系具有重要的参考意义。利用26 个门的452 个属的基因组和乳杆菌模式菌株基因组中共有的16 个蛋白的核酸序列构建系统发育树(图2), 证实了乳杆菌属是一个并系类群(paraphyletic),其各个种是从一个共同祖先不断进化分化而形成, 即兼性异型发酵乳杆菌为了适应环境逐渐分化成专性同型和异型发酵乳杆菌。同时还发现片球菌属(Pediococcus)、魏斯氏菌属(Weissella)、明串株菌属(Leuconostoc)、嗜果糖乳酸菌属(Fructobacillus)和酒球菌属(Oenococcus) 这5 个属是乳酸菌属(Lactobacillus)的子分支,作者建议将这6 个属命名为乳杆菌复合体(Lactobacillus Complex)。同年,关于乳杆菌属和片球菌属中174株模式菌株的基因组研究也证实了片球菌属是乳杆菌属的子分枝这一结论。这项研究不仅系统地解析了乳杆菌属的进化历程, 也为乳杆菌属内菌株以及相关属间的发育关系提供了确凿的证据。

2015 年,钟智通过分析37 株肠球菌(Enterococcus)的基因组来解析肠球菌种遗传关系和物种进化历程, 这些菌株的基因组构建出一个含有29 545 个基因的肠球菌属泛基因组和含有605 个基因的核心基因组。其以核心基因序列构建了肠球菌的系统发育树(图3),并与16S rRNA 序列构建的系统发育树进行比较, 结果显示二者整体的拓扑结构相似度较高, 然而在深度分支上存在很大分歧, 以核心基因系统发育树的绝大多数分支节点的Bootstrap 值均为100%, 这表明依据核心基因构建的系统发育树更加真实地反映了菌株的系统发育位置。此外,该研究基于核心基因系统发育树(图3)进一步分析物种进化与其生存环境的关系, 推断出肠球菌最初的宿主可能是植物和鸟类,之后通过某种途径传给人和哺乳动物,并且在人和哺乳动物的环境中加快了进化的速度。Yu 等应用Illumina HiSeq 2000 高通量测序技术完成了10 株乳球菌(Lactococcus)模式菌株的基因组重测序工作。10 株菌构建出一个含有8 036 个基因的泛基因组和643 个基因的核心基因组。乳球菌属10 株模式菌株的ANI 值分布在67.4%~85.0%之间, 亚种间的ANI 值在86.1%~97.9%之间。值得一提的是,乳酸乳球菌霍氏亚种(Lac. lactissubsp. hordniae)DSM 20450,乳酸乳球菌乳酸亚种(Lac. lactis subsp. lactis)ATCC 19435 与乳酸乳球菌乳脂亚种(Lac. lactis subsp. cremoris)ATCC 19257,Lac. lactis subsp. tructae DSM 21502的ANI 值在86.1%~86.5%之间, 这个数值远远小于定义种的界限(95%~96%)。结合核心基因系统发育树和ANI 值聚类图, 作者提议将其定义为单独的种。这一研究结果为乳球菌的分类和新种的鉴定提供借鉴。

上述研究均证明依据全基因组序列可以如实反映菌株的系统发育关系和分类地位。可见,基因组测序技术已成为研究乳酸菌分类和进化的强有力的技术手段。


2.2 乳酸菌的代谢特点

乳酸菌属于化能异养型微生物, 其代谢活动需要单糖, 通过糖酵解和底物磷酸化方式获取能量来维持生命活动。其蛋白质分解能力和氨基酸、维生素、嘌呤以及嘧啶的合成能力较弱。乳酸菌的代谢特点与其生活环境密切相关, 已知的乳酸菌基因组数据表明: 不同种属乳酸菌的代谢具有多样性。通过测定乳酸菌的基因组,基于基因组注释和详细生化信息把细胞内的生化反应构建网络模型,反映参与代谢过程的化合物之间以及催化酶之间的相互作用,从而全局性、系统化地解析乳酸菌的代谢途径, 为高效定向调控乳酸菌代谢功能提供重要的遗传学信息和理论依据。

2013 年,Douillard 等人对100 株来源于人体口腔、肠道、阴道和乳制品的鼠李糖乳杆菌进行基因组测序, 并将其与参考菌株鼠李糖乳杆菌LGG 的基因组进行比较, 结果显示这些菌株丢失了一些编码磷酸转移酶系统(Phosphotransferase systems,PTS) 以及碳水化合物代谢相关蛋白的基因,而且来源不同的菌株代谢能力也有显著差异,表明这些菌株的代谢多样性与其生态环境息息相关。2015 年,Koen 等人为了探索可可豆功能发酵剂菌种的代谢特征、功能特性和环境适应性,利用454 高通量测序技术测定发酵乳杆菌(Lb. fermentum)222 和植物乳杆菌80 的基因组, 基于基因组数据重构的代谢网络示意图显示: 发酵乳杆菌222 中所有基因编码的酶与异型发酵途径有关,其具有不同的碳水化合物转运系统,包括磷酸烯醇式丙酮酸- 糖磷酸转移酶系统(Phosphoenolpyruvate dependent sugar phosphotransferase systems,PEP-PTS)、透性酶,还具有一套完整的编码精氨酸脱亚氨基酶途径(Arginine deiminasepathway)的基因。植物乳杆菌80 中所有基因编码的酶与同型、异型发酵途径均有关,还有多种编码碳水化合物转运系统的基因, 这使得该菌株能够根据环境中可利用的物质来转换不同的代谢途径。

通过与公共数据库中同种的基因组比较,结果表明这两株菌分别具有自身独特的功能, 例如发酵乳杆菌222 具有额外编码柠檬酸转运蛋白(Citratetransporters)和氨基酸转换通路(Amino acidconversion pathways)相关酶的基因,而植物乳杆菌80 是25 株菌中唯一一株具有利用果糖或山梨糖基因簇的菌株。

图4 发酵乳杆菌222 和植物乳杆菌80 的代谢途径示意图


最近,Zheng 等人测定了174 株乳杆菌属和片球菌属模式菌株的全基因组序列, 由核心基因系统发育树可知, 同型发酵乳杆菌和异性发酵乳杆菌明显地分布在两个不同的类群。结合不同类群的代谢特征分析,发现醛缩酶(aldolase)和磷酸果糖激酶(phosphofructokinase)普遍存在于同型发酵乳杆菌中,而两个主要的酶,乙醇脱氢酶(Alcohol dehydrogenase)和甘露醇脱氢酶(mannitol dehydrogenase)却存在于大部分的异型发酵乳杆菌中。由于许多异型发酵乳杆菌在葡萄糖作为唯一碳源的环境中不能很好地生长, 所以研究学者认为以葡萄糖产气作为判定同型或异性发酵的标准是不准确的, 例如之前被认为是兼性异型发酵的两株菌(Lb. spicheri 和Lb. coleohominis)的基因组中存在异型发酵模式的典型代谢基因。另一个关于乳杆菌属模式菌株碳水化合物水解酶系统的研究也表明,所有缺乏磷酸果糖激酶的乳杆菌、片球菌、魏斯氏菌、明串珠菌、类酒球菌和嗜果糖乳酸菌形成一个单独的种系。其中87%的缺乏磷酸果糖激酶的菌株属于专性异型发酵, 而其余的属于兼性异型发酵菌株。

3结语

基因组学在乳酸菌的研究中占据重要的地位。它不仅可以全面揭示乳酸菌的遗传信息,为乳酸菌的分类系统和遗传进化提供可靠的依据,还可以系统阐述乳酸菌的生理及代谢机制, 为优良菌种的选育和改造奠定理论基础。如果将基因组与蛋白组(proteome)、转录组(transcriptome)及代谢组(metabolome)等组学(omics)技术相结合应用于乳酸菌的研究中, 势必会加速乳酸菌理论和应用研究的进程。然而,伴随着日益庞大的数据量,如何进行有效的数据挖掘是当前面临的挑战,这就要求相关交叉学科,如生物信息学、计算机学等的不断发展,全景式地揭示乳酸菌的生命信息,从而使乳酸菌为人类健康事业做出更大的贡献。

注:本文由工程中心小编整理发布,如有任何建议或意见及投稿等,请您加小编微信(13260429991)交流互动。

责编:马维军;审阅:陈达

(来源:中国食品学报;作者:张和平,于洁)


他们都关注了此公众号

点击“阅读原文”查看更多文献