人类基因组计划完成20多年后,美国怀特黑德研究所乔纳森·韦斯曼及其同事展示了在人类细胞中表达基因的第一份综合功能图谱。6月9日在线发表于《细胞》杂志上的项目数据,将每个基因与其在细胞中的功能联系起来,这是多年来基于单细胞测序方法Perturb-seq的重大合作研究成果。数据可在韦斯曼实验室网站上获得,供其他科学家使用。
兼任麻省理工学院生物学教授和霍华德休斯医学研究所研究员的韦斯曼说:“有了这张基因型—表型关系图谱,你可以进入并筛选数据库而无需进行任何实验。”
该图谱使研究人员能深入研究各种生物学问题。研究人员可用它来探索功能未知的基因对细胞的影响,研究线粒体对压力的反应,并筛选导致染色体丢失或获得的基因,这种表型在过去被证明是难以研究的。
借助CRISPR构建图谱
该项目利用的Perturb-seq方法,能以前所未有的深度跟踪基因打开或关闭时产生的影响。Perturb-seq方法使用CRISPR/Cas9技术将基因变化引入细胞,然后使用单细胞RNA测序来捕获变化引起的表达RNA信息。由于RNA控制细胞行为的所有方面,这种方法可帮助解码遗传变化的许多细胞效应。
在这项新成果中,研究人员将该方法扩大到整个基因组。他们使用人类血液癌细胞系以及来自视网膜的非癌细胞,对超过250万个细胞进行了Perturb-seq测序,并使用这些数据构建了一个将基因型与表型联系起来的综合图谱。
挖掘未知功能
完成筛选后,研究人员决定使用他们的新数据集来检查一些生物学问题。最明显的应用是首先研究具有未知功能的基因。
由于新测序读出了许多已知基因的表型,研究人员可使用这些数据将未知基因与已知基因进行比较,并寻找相似的转录结果,这可能表明基因产物会作为更大复合体的一部分协同工作。
一个名为C7orf26的基因的突变尤为突出。研究人员注意到,去除导致相似表型的基因是称为整合子的蛋白质复合体的一部分,该复合物在产生小核RNA中发挥作用。整合子复合体由许多较小的亚基组成,之前的研究表明有14种单独的蛋白质,研究人员此次证实C7orf26是复合体的第15个组成部分。
他们还发现15个子单元在更小的模块中协同工作,以在整合子复合体中执行特定功能。
筛选正确分离DNA的因子
Perturb-seq的另一个好处是,由于该分析侧重于单细胞,研究人员可使用这些数据来查看更复杂的表型,这些表型在与来自其他细胞的数据一起研究时通常会变得混乱。
研究人员发现,导致细胞间不同结果的基因子集是染色体分离的原因。这种分离会导致细胞丢失一条染色体或获得一条额外的染色体,这种情况称为非整倍性。
韦斯曼表示:“你无法预测失去这个基因的转录反应是什么,因为它取决于你获得或失去的染色体的次要效应。我们意识到,这个局面其实是可以扭转的,创造这种复合表型,寻找获得或丢失的染色体特征。通过这种方式,我们对正确分离DNA所需的因子进行了第一次全基因组筛选。”
仍有悬而未决的问题
研究人员还使用数据集研究了线粒体如何应对压力。从自由生活的细菌进化而来的线粒体在其基因组中携带13个基因。在核DNA中,大约1000个基因与线粒体功能有关。研究人员发现,当他们扰乱不同的线粒体相关基因时,核基因组对许多不同的基因变化的反应相似。然而,线粒体基因组反应的可变性要大得多。
为什么线粒体仍然有自己的DNA?这仍是一个悬而未决的问题。新研究的一个重要结论是,拥有单独的线粒体基因组的好处之一,可能是针对不同的压力源要进行局部或非常特定的基因调控。如果有一个线粒体被破坏,而另一个线粒体以不同的方式被破坏,那么这些线粒体可能会作出不同的反应。
未来,研究人员希望将Perturb-seq用于研究癌细胞系之外的不同类型的细胞。