结果和讨论
小鼠线粒体的发现和消减蛋白质组学
作为建立哺乳动物线粒体蛋白质实验支持目录的第一步,我们对14种不同小鼠器官的线粒体进行了蛋白质质谱分析()。我们设计了分两个阶段的蛋白质组实验,以便在系统标记共净化污染物的同时,尽可能多地识别线粒体蛋白质。在发现从健康C57BL/6小鼠的大脑、小脑、脑干、脊髓、肾脏、肝脏、心脏、骨骼肌、白色脂肪组织、胃、小肠、大肠、睾丸和胎盘中分离出高度纯化的线粒体。通过western blots针对选定的线粒体和非线粒体蛋白质评估线粒体纯度,并通过极谱研究(数据未显示)和电子显微镜验证完整性(,S2系列)。每个样品通过SDS-PAGE分离,然后分成20个谱带,每个谱带使用LTQ Orbitrap Hybrid MS系统通过高效液相色谱-串联质谱法(LC-MS/MS)进行分析。我们捕获了470万个串联质谱,并使用严格的匹配标准在小鼠RefSeq蛋白数据库中进行搜索,从而自信地鉴定了3881个基因的产物(表S3)。检测到的蛋白质不受分子量、等电点或跨膜螺旋存在的影响,但对转录物丰度低的蛋白质有轻微的影响(图S4)。我们估计,我们在每个样本中识别出85%的蛋白质(基于技术肝脏复制品),但我们通过对许多组织进行取样,使不同蛋白质的检测饱和()。总的来说,我们鉴定了88%的已知线粒体蛋白质,包括93%的OXPHOS蛋白质。
发现分离线粒体的蛋白质组学和减法蛋白质组学(A) 从14个小鼠组织中纯化线粒体。通过ER蛋白(钙网蛋白)与线粒体蛋白(VDAC和CI 8kDa亚基)在三个分离阶段(W,全组织裂解物;C,粗线粒体提取物;P,纯化线粒体提取物)的比值来追踪线粒体的富集。电子显微照片显示纯化的细胞器完好无损。
(B) 通过发现MS/MS绘制了先前已知线粒体蛋白质的蛋白质鉴定饱和度(吨米托)、丰富的蛋白质(>25%覆盖率)和所有蛋白质。
(C) 基于减法MS/MS实验的纯(红色)或粗(黑色)线粒体样品中富含蛋白质的基因本体注释。插图:减法MS/MS方法的示意图。
(D) 基于发现和减法MS/MS实验中的检测,蛋白质成为真正线粒体的可能性比率。
在减法的蛋白质组学阶段,我们对上述10个组织的粗线粒体和纯化线粒体进行了液相色谱-质谱/质谱分析。该方法基于以下观察结果:真诚地线粒体蛋白质应在纯化过程中得到富集,同样污染物也应被耗尽(例如,ER蛋白钙网蛋白的丢失)。这种减法在概念上类似于蛋白质相关分析(Foster等人,2006年)。在粗样品或纯样品中检测到的2565个基因产物中,1022个在粗样品中含量更高(粗富集),709个在纯化样品中含量更多(纯富集),其余不确定(见实验程序)。富含原油的蛋白质组包含许多质膜和细胞外蛋白(可能是内质网的前体),而纯富含蛋白质组几乎完全是线粒体,这验证了减法蛋白质组学方法可以帮助区分真正的线粒体蛋白质和污染物().
接下来,我们将发现阶段和减法阶段的数据结合起来,以确定发现MS/MS检测到的每个蛋白质都是真正的线粒体的概率。为此,我们编译了由591个已知线粒体基因组成的训练集(吨米托)和2519个非线粒体基因(吨~有丝分裂),在中列出表S5为了避免循环,我们策划了吨米托该列表不包括仅由先前蛋白质组研究表征的线粒体蛋白质。使用我们的训练数据,我们根据发现的MS/MS蛋白丰度和减去的MS/MS富集度计算了每种蛋白质真正是线粒体的可能性比率(见实验程序和图S6)。如所示,似然比量化了MS/MS检测到的蛋白质确实是线粒体的信心。
质谱分析与基因组尺度数据集的集成
我们的发现和消减蛋白质组学的结合在发现方面非常强大真诚地线粒体蛋白质,尽管这种方法本身不够敏感或特异()。例如,这些实验遗漏了丰度极低的蛋白质,缺乏易患MS的胰蛋白酶肽,或仅在特定条件下定位于线粒体的蛋白质。为了获得全面的线粒体清单,我们需要将这些数据与其他可用信息结合起来。
通过显微镜进行数据集成和验证(A) 用于预测线粒体定位的八种全基因组方法,其敏感性和纠正的错误发现率(cFDR)是根据预定义阈值的大型训练集计算得出的(实验程序)。最右边的列显示了每种方法对选定的小鼠基因的对数似然分数,将其相加得出线粒体定位的Maestro对数似然。
(B) 10个GFP融合构建体的荧光显微镜图像具有清晰的线粒体定位,对应于面板A中的示例。所有131个构建体显示线粒体定位的图像可在www.broad.mit.edu/publications/MitoCarta网站.
因此,我们将我们的MS/MS结果与六种互补的计算、基于同源性和实验技术相结合,以确定线粒体定位的可能性(和实验程序)。使用我们之前开发的Maestro天真贝叶斯框架(Calvo等人,2006年),我们使用训练数据将每种方法的数据值转换为线粒体定位的对数似然分数(表S7)。由于这七种方法在很大程度上是有条件独立的(图S8),我们根据独立的概率模型,将这些个体的对数似然分数加总为组合的Maestro分数。使用Maestro,我们根据线粒体定位的可能性对所有小鼠基因进行系统排序(表S5)。我们可以使用校正的错误发现率统计(cFDR)评估每个分数的准确性,该统计说明了训练集的大小(请参阅实验过程)。当Maestro评分阈值为4.56时,对应于10%cFDR,有951个线粒体基因预测,包括498/591个已知线粒体基因(84%敏感性)。这种贝叶斯集成避免了训练数据过拟合,如10倍交叉验证所示(轮流对90%的数据进行训练,并保留10%用于测试),在相同的cFDR下达到了82%的可比灵敏度。如中所示,积分大大提高了预测精度。
线粒体定位的大尺度GFP显微镜
我们还进行了大规模的显微镜研究,作为确认线粒体定位的补充实验方法()。由于从人类hORFeome v3.1收集的高质量克隆的可用性,我们测试了小鼠预测的人类直系图(Lamesch等人,2007年)。我们创建了C末端GFP融合结构,并通过荧光显微镜观察了HeLa细胞中的亚细胞定位。该方法显示12/21个阳性对照组和18个阴性对照组的线粒体定位清晰,表明该技术具有特异性,但敏感性有限。然后,我们测试了470个缺乏线粒体定位先前实验支持的基因。这些候选人是从中期Maestro分析中挑选出来的,根据我们最终的贝叶斯分析,他们的cFDR估计为59%。在成功转染的404个候选基因中,我们确定了131个具有明确线粒体定位的基因(代表性显示为整套可在www.broad.mit.edu/publications/MitoCarta网站)。这种方法的成功率与我们估计的cFDR和敏感性比率相匹配,从而验证了我们的贝叶斯集成。没有明确线粒体定位的273个构建体的信息量较小,因为GFP标签可能干扰了线粒体输入,测试了错误的剪接形式,或者HeLa细胞缺乏必要的伴侣/修饰物。
线粒体图谱:1098个编码线粒体蛋白质组的基因清单及其在14个组织中的蛋白表达
结合我们的发现和消减蛋白质组学、计算、显微镜和以前的文献,我们定义了一个包含1098个基因的高置信线粒体简编,称为MitoCarta()。据估计,该库存已完成85%以上,并包含约10%的假阳性(请参阅补充数据)。它包含356个基因,之前在基因本体(GO)或线粒体P2中没有线粒体注释(Prokisch等人,2006年)数据库,并通过为87%的基因提供强有力的实验支持,将其与其他目录区分开来,这些支持基于:质谱(70%)、GFP研究(12%)和/或文献整理(54%)。我们保守地估计,至少有85个线粒体蛋白质也存在于其他细胞位置,这是基于线粒体与两个基于细胞器的蛋白质组学调查的交叉,如表S9(Foster等人,2006年;Kislinger等人,2006年).
MitoCarta系列包括一些显著的成分,并突出了细胞器的重要调节功能。例如,该清单包括几种激酶、磷酸酶、RNA结合蛋白和疾病相关蛋白(MMACHC公司,自动变速箱)以前与线粒体无关(表S5B)。有趣的是,作为一个集合,与所有小鼠基因相比,MitoCarta基因的UTR和编码区明显较短,并且表达更高(图S10)。它们的启动子往往有CpG岛,缺乏TATA盒,这一特征与其他“内务处理”基因相同,可能是它们高表达的原因(Carninci等人,2006年)。此外,MitoCarta启动子富含八个保守序列基序,包括五个已知的线粒体转录因子结合位点和三个新元件(图S10).
除了增加已知线粒体蛋白的数量外,我们的清单还提供了评估组织间线粒体蛋白表达差异的机会()。我们使用MS总峰值强度评估了14个组织中每种线粒体蛋白质的相对丰度(见实验程序)。该指标在技术复制中具有高度可重复性(图S11)与mRNA表达密切相关(参见补充数据)。然而,由于我们的图谱仅包含每个组织的一个重复,我们注意到两个警告:首先,它不能用于评估组织间丰度的统计显著差异;其次,由于随机抽样,我们估计我们检测到每个组织中大约90%的蛋白质。
14个小鼠组织中线粒体蛋白的表达(A) 蛋白质丰度热图,用对数测量10(MS总峰值强度),针对14个组织中1098个MitoCarta基因。基因按组织数量和总强度排序。白色背景表示其蛋白产物未被MS/MS检测到,但根据之前的注释、计算或显微镜检查,其为线粒体的基因。
(B) 蛋白质在选定途径中的组织分布。勾号表示(A)中相应蛋白质的位置,灰色阴影表示检测到该蛋白质的组织总数(0-14)。
(C) 通过MS/MS在每个组织中检测到的线粒体蛋白质的相关矩阵,分层聚集。对角线上的计数表示通过MS/MS鉴定的线粒体蛋白的数量。
(D) 通过细胞色素ELISA测量评估每个组织的线粒体数量c(c)从整个组织裂解物中提取。
我们利用这个蛋白质图谱来研究组织之间线粒体途径的差异。我们发现大约1/3的线粒体基因是所有样本组织中的核心线粒体成分,包括大多数OXPHOS亚基和TCA循环()。然而,大多数线粒体基因显示出一定程度的组织特异性()。有趣的是,这些包括线粒体核糖体的大部分和复合物IV的一半亚单位,其中一些亚单位以前已经证实组织特异性表达(Huttemann等人,2003年)。此外,酮生成和尿素循环途径的酶在比预期更广泛的组织中表达,包括大脑和胎盘(图S12)。通常,我们发现线粒体平均每个组织表达约760个独特的基因产物(范围554-797,)成对组织通常共享~75%的蛋白质(范围63-88%)。此外,使用细胞色素c(c)ELISA,我们估计线粒体量在由19种组织组成的小组中,变化幅度达30倍()。总之,这些分析揭示了线粒体数量和组成的组织多样性,并证明了我们的概要如何可以作为未来研究组织特异性线粒体生物学的资源。
通过系统发育分析鉴定复合物I相关蛋白
扩大后的线粒体简编还提供了一个机会,可以发现细胞器内通路的新成分。近300个基因(占我们基因库的26%)与GO生物过程无关。为了将其中的一个子集与已知通路联系起来,我们进行了系统发育分析,该分析使用共享的进化历史来识别功能相关的蛋白质(Pellegrini等人,1999年)。鉴于线粒体在真核生物进化早期从类立克次体内共生体下降的独特进化历史,这种方法可能特别适用于线粒体(Andersson等人,1998年).
为了探索线粒体系统发育分析的实用性,我们首先在500个完全测序物种中鉴定了小鼠MitoCarta蛋白的同源物(,表S13)。我们发现,目前75%的线粒体成分具有明确的细菌祖先(BlastP预计<1e-3),57%具有细菌最佳双向同源性,这比所有小鼠蛋白质高出三倍以上()。系统发育图谱证实,功能相关的线粒体蛋白往往具有相似的进化历史。例如,参与脂肪酸代谢、柠檬酸循环和叶酸代谢的大多数蛋白质都有古老的起源()。相反,线粒体蛋白质输入机制和线粒体载体是最近的创新()。因此,有可能使用共享的进化历史将未标记的线粒体蛋白质与已知途径联系起来。
线粒体蛋白质的祖先(A) 500个完全测序生物体中1098个线粒体蛋白质的存在/缺失矩阵。蓝色方块表示小鼠蛋白质(行)与目标物种(列)内的蛋白质的同源性。
(B) 来自选定组的线粒体蛋白质的祖先。勾号表示蛋白质在(A)中的位置。
(C) 比较MitoCarta蛋白质祖先与所有小鼠蛋白质,仅考虑最佳双向点击。基于超几何分布和Bonferroni多重假设修正的P值:*P=6e-64,**p=4e-78,***p=2e-232.
由于呼吸链复合物I(CI)在能量代谢和疾病中的重要作用,我们将此策略的重点放在识别对其至关重要的因素上。目前,这种大分子复合物只有三种已知的组装因子,尽管临床数据表明,它的组装和活性需要许多未知的因子(Janssen等人,2006年)。这些因素可能存在于线粒体中,因此我们的线粒体简编有助于对候选者进行优先排序。此外,5种酵母的CI进化史最近被证明有助于识别组装因子NDUFA12L,支持这种系统发育方法(Gabaldon等人,2005年;Ogilvie等人,2005年).
为了建立CI更广泛的系统发育谱,我们首先建立了42种真核生物的根系统发育树(,实验程序)。该树对不同的系统发育重建方法具有鲁棒性,除了三个深分支原生物种的一些定位不确定性(参见补充数据)。我们观察到,一组15个CI蛋白不仅在几种酵母中缺失,而且是祖先细菌的亚单位,在真核生物进化中独立丢失了至少四次(,表S14)。丢失CI的物种很可能也丢失了组装和功能所需的蛋白质。只有19种其他的线粒体蛋白质与CI具有相同的特征,现在是CI功能关联的有力候选蛋白()。这19个线粒体蛋白质,被称为COPP(Complex One系统发育谱),以及一组具有较弱系统发育特征的扩展蛋白质,列于表S14。COPP集合包括两种经过深入研究的参与支链氨基酸降解的蛋白质(静脉注射,Mccc2型)和四种参与脂质分解的蛋白质(Dci公司,菲,阿玛克,{“类型”:“entrez-notide”,“属性”:{“文本”:“AF397014”,“term_id”:“18650799”}}AF397014型)这提出了一个有趣的假设,即这些途径与复杂I活性之间存在关联。
通过系统发育分析鉴定复合物I相关蛋白(A) 42种真核生物44个呼吸链CI亚基和3个组装因子的存在/缺失矩阵。蓝色方块表示小鼠蛋白质(行)与目标物种蛋白质(列)的同源性。
(B) 在进化过程中,与CI亚基亚群的系统发育特征相匹配的线粒体蛋白质至少独立丢失了四次。星号表示通过RNAi测试的候选人(D-F)。
(C) 重建了系统发育真核生物树,红色文本表示失去CI的物种。
(D) 候选基因敲除对人成纤维细胞CI水平的影响。在慢病毒介导传递针对GFP(阴性对照)、NDUFAF1(已知CI组装因子)和四个CI候选物的空载体或发夹后,对全细胞裂解物中的肌动蛋白和CI亚单位进行免疫印迹。
(E) 通过实时qPCR测量的对照组(灰色条)或候选CI(蓝色条)实现的mRNA表达的敲除百分比。
(F) 对照组(灰色条)和四个候选组(蓝色条)的成纤维细胞裂解物的CI活性分析(如D所示)。误差条表示重复分析的范围。
我们通过使用慢病毒介导的RNAi在人类成纤维细胞中产生稳定的敲除,测试了我们的四个COPP基因是否参与CI活性(Root等人,2006年)。鉴于我们对这些预测的临床相关性感兴趣,我们选择测试候选小鼠的人类直系同源物。通过定量实时PCR检测,我们实现了3个COPP基因的80%敲除和第四个基因的50%敲除()。接下来,我们使用针对CI亚单位的免疫印迹评估CI丰度,并使用基于免疫捕获的活性分析评估CI活性(参见实验程序和图S15)。击倒C8或38与已知的CI组装因子NDUFAF1相比,CI丰度和活性下降幅度最大()。这些数据强烈表明C8或38以前与任何生物过程或亚细胞位置都没有关联,对内源性CI的活性和/或组装至关重要。其他三个候选敲除系显示CI活性降低了20-40%()对CI丰度有可变影响()。CI活性的适度降低并不能提供与CI相关的确切证据,但我们注意到CI活性测定仅测量NADH脱氢酶活性,即使CI的其他模块组装不当,NADH的脱氢酶活性仍可能基本保持不变。因此,我们通过实验验证了一个COPP基因的重要性,为其他三个COPP蛋白基因提供了提示性证据,并优先考虑了十几个额外的蛋白质,以供将来研究复合物I。
中的突变C8或38导致人类遗传复合物I缺乏
上述19个MitoCarta COPP基因是临床CI缺乏症潜在基因的有力候选基因。我们将这些候选基因与纯合子作图相结合,在黎巴嫩远亲父母所生的两个患有严重孤立CI缺乏症的兄弟姐妹(女性和男性)中寻找致病基因突变()。这对兄弟姐妹分别在10个月和7个月时出现局灶性右手抽搐,运动和力量减弱,共济失调和僵硬。两人都有持续性乳酸酸中毒,神经影像学与Leigh综合征一致。受影响的女孩在肌肉、肝脏和成纤维细胞中发现CI缺乏,其他复合物和柠檬酸合成酶活性正常或升高()。她在34个月大时因肺炎入院后心脏呼吸停止而死亡。受影响的男孩在成纤维细胞中有一个孤立的CI缺陷,目前年龄为22个月。
发现C8或38遗传复合物I缺陷的突变(A) 一个黎巴嫩近亲家庭的家系,有两个孩子患有Leigh综合征和复合I缺乏症。每个家族成员下面的字母代表了该家族中c.296A>G突变的基因型C8或38.探针用箭头指示。
(B) 呼吸链酶活性,对照线粒体基质标记酶柠檬酸合酶进行标准化,表示为平均值的百分比(括号中的正常范围)。最后一列列出柠檬酸合成酶活性(相对于总蛋白)为正常对照平均值的%(见实验程序)。
(C) 使用(A)中家庭成员的DNA进行纯合子映射的结果。列出了受影响兄弟姐妹而非父母或未受影响兄弟姊妹共享的八个纯合子区间,以及每个区间不同类别中的基因数量(CI,已知复合物I基因;COPP,复合物1系统发育分析候选)。
(D) 的序列跟踪C8或38来自(A)中的每个家庭成员和一个健康对照,在两个受影响的兄弟姐妹中证明了c.296A>G突变的纯合性。
由于潜在的分子缺陷可能是隐性突变,我们对从五个家族成员中分离的DNA进行了纯合子作图,并确定了八个纯合子染色体区域,这些区域仅由受影响的兄弟姐妹共享(和实验程序)。总的来说,这些区域包含857个基因,包括4个CI结构亚基和一个COPP基因:C8或38()。两个CI结构亚基基因的测序显示没有突变,但C8或38({“类型”:“entrez-notide”,“属性”:{“文本”:“NM_152416”,“term_id”:“1519311513”}}NM_152416)在第2外显子中发现与该家族疾病分离的c.296A>G突变()。该突变导致脊椎动物中一个完全保守的残基发生Gln99Arg替代,并可能由于其位于外显子2的3′端而导致剪接缺陷()。EST数据库、SNP数据库或测试的100条黎巴嫩染色体中均未出现这种突变。C8orf38在线粒体的定位及其CI缺乏症的RNAi表型()和隔离C8或38高度保守残基的突变一起强烈证明C8或38是人类CI疾病基因。
结论
我们构建了一个高质量的线粒体蛋白质简编,使用比较基因组学预测未标记蛋白质在CI生物学中的作用,并使用细胞模型和人类遗传学验证了这些预测。我们的1098个线粒体基因及其在14个组织中的蛋白表达清单代表了迄今为止最全面的细胞器特征,并为解决线粒体生物学中的主要问题提供了一个框架。
我们利用我们的纲要来发现适当的复合物I活性所必需的蛋白质。尽管CI在能源生产中至关重要,在罕见和常见的人类疾病中发挥着广泛作用,但人们对其结构、组装和活性的许多方面了解甚少。通过系统发育分析,我们确定了另外19个可能与CI相关的基因,最显著的是C8或38,我们进一步证明在遗传性CI缺乏症中发生突变。C8或38在这项研究中首次显示为线粒体,之前与任何生物功能无关。C8orf38的结构域表明参与了植物烯代谢,可能与其他COPP蛋白Phyh、Amacr和{“类型”:“entrez-notide”,“属性”:{“文本”:“AF397014”,“term_id”:“18650799”}}AF397014型其余COPP基因现在是其他CI缺陷的主要候选基因,可能有助于解开CI的组装和成熟程序。
除了推动我们在这里提出的发现外,MitoCarta清单还可以立即用于其他疾病相关项目。正如我们在当前报告中所证明的那样,线粒体简编可以帮助突出任何孟德尔线粒体疾病连锁区域内的特定候选者。MitoCarta还可以帮助阐明常见退行性疾病的发病机制,这些疾病最近与线粒体基因表达下降和活性氧产生增加有关(霍斯蒂斯等人,2006年;Mootha等人,2003b;Schon和Manfredi,2003年)。重要的是,线粒体也可以作为基本线粒体生物学的基础。由两个基因组编码的线粒体成分被精心转录、翻译和组装成功能正常的组织特异性细胞器,这是一项了不起的壮举,但仍有很多未知之处。我们的蛋白质简编提供了一个框架,用以解释这些组织特异性程序。
实验程序
蛋白质质谱
发现阶段
通过Percoll密度梯度纯化从C57BL/6小鼠组织中分离出线粒体(参见补充数据详细信息),并使用抗钙网蛋白(钙生物化学)、VDAC1(Abcam)和8 KDa-CI亚单位(线粒体)的抗体评估纯度。为了进一步证明纯度,一组更广泛的细胞器标记抗体被用于线粒体制剂的子集(图S2)。每个样品用4-12%双三梯度SDS-PAGE进行大小分离,分离成20个凝胶片,然后还原、烷基化,并进行凝胶内胰蛋白酶消化。使用LTQ-Orbitrap(Thermo Scientific)通过反相LC-MS/MS分析每个切片中提取的肽。在LTQ中收集Orbitrap测量扫描中观察到的前十个最强烈离子的数据相关MS/MS,使用动态排除排除最近为串联MS/MS选择的重采样峰值(60 s间隔内)。筛选MS/MS光谱以获得光谱质量,从所有14个组织中汇总,并使用Spectrum Mill MS Proteomics Workbench对RefSeq小鼠蛋白质数据库进行搜索。我们要求蛋白质具有至少2个检测到的独特肽,其中至少有一个肽能将匹配基因与所有其他小鼠Entrez基因区分开来。使用任何剪接形式的最高MS值在基因水平上聚合数据。丰度通过覆盖率(具有MS证据的氨基酸百分比)进行跨蛋白质比较,并通过总峰值强度(与蛋白质匹配的所有序列识别肽的MS峰面积之和)进行跨组织比较。
减法相位
从10个组织中收集到匹配的粗线粒体和高纯度线粒体。样品蛋白质被还原、烷基化,然后用胰蛋白酶溶液消化。如上所述获得并搜索MS/MS谱,但蛋白质只需要≥1个肽谱,因为这些结果仅影响通过发现MS/MS检测到的蛋白质。蛋白质仅存在于粗提物中,或发现粗提取物中的峰强度比纯提取物高出两倍以上,则被视为粗富集(与纯富集类似)。
数据组合
使用似然比为蛋白质分配综合MS/MS评分L(左)(d、 秒)=P(P)(d、 秒|吨米托)/P(P)(d、 秒|吨∼米托)其中d日是发现MS/MS丰度水平(覆盖范围),秒是减去MS/MS富集类别,以及吨米托和吨∼米托是训练集。请参见补充数据了解完整的详细信息。
基因组规模数据集的集成
使用Maestro naive Bayes分类器整合了7种确定线粒体定位的方法(Calvo等人,2006年)。训练集(吨米托和吨∼米托)用于转换每个特征得分(秒1..秒7)对数似然比,定义为对数2[P(P)(秒1..秒7|吨米托) /P(P)(秒1..秒7|吨~有丝分裂)]. 对于转录或蛋白质水平的得分,该基因继承了所有剪接形式中得分最高的一种。七种基因组特征的得分是在预定义的范围内计算的(参见表S7)如下(参见补充数据详细信息):
蛋白质组学:中显示的12个类别之一或NA(如果未检测到)
蛋白质结构域:分类得分(M+,M-,M±,NA)表示存在一个蛋白质结构域,该结构域仅为线粒体,仅为非线粒体,不明确,或在任何注释的SwissProt真核蛋白中不存在。
酵母同源性:如果最好,则为1酿酒酵母同源物(BlastP预计<1e-3,覆盖率>50%的较长基因)是线粒体(酵母基因组数据库,2006年12月27日),否则为0
祖先:BlastP期望值来自普氏立克次体同源物,或NA,如果预期>1e-3
共同表达:N50分(数量吨米托在61个小鼠组织的GNF1M图谱中,在基因的50个最近的转录共表达邻居中发现的基因(Su等人,2004年)
由于训练集的大小不同,因此使用修正的错误发现率来评估预测的准确性吨米托和吨~有丝分裂与我们之前对线粒体与非线粒体细胞蛋白质比例的预期不符(Calvo等人,2006年)。我们定义cFDR=(1−SP)/(1−的SP+SN×O(运行)先前的)其中TP、TN、FP、FN代表真/假阳性和阴性,特异性SP=TN/(TN+FP),敏感性SN=TP/(TP+FN),以及O(运行)先前的= 1500/21000.
比较每种方法的性能(),我们选择了以下阈值:MS/MS纯富集,或覆盖率>25%的非决定性;靶点P≥1;感应≥1.5;域M+;共表达≥5;酵母同源性1;祖先≤1e-3;迈斯卓≥4.56。
用GFP和显微镜进行表位标记
人类Orfeome收集的cDNA(Lamesch等人,2007年)克隆到C端GFP载体pcDNA6.2/C-EmGFP-DEST(Invitrogen)中。约4×10三HeLa细胞在使用Lipofectamine LTX(Invitrogen)转染前24小时接种在100μL培养基(含10%FBS的DMEM,1×GPS)中的96周成像板(Falcon)中。转染后48小时,用含有50 nM MitoTracker Red CMXRos和1:1000稀释的Hoechst 33258(分子探针)的培养基对细胞进行染色,清洗、固定并成像(参见补充数据)。线粒体定位是通过GFP和MitoTracker信号的重叠来确定的。
细胞色素c ELISA测定
新鲜小鼠组织在冷藏PBS中制备(参见补充数据)。均质后,将组织裂解物重新悬浮在含有0.5%Triton X-100洗涤剂和蛋白酶抑制剂(Roche)的PBS中,并在台式离心机中以最大速度旋转至4°C,持续30分钟。取出上清液,在液氮中快速冷冻,并在-80°C下储存直至使用。细胞色素c(c)按照制造商的方案,使用ELISA试剂盒(Quantikine)测量两次水平。
系统发育分析
500个完全测序物种中小鼠蛋白质的同源性(表S13)由BlastP定义,预计<1e-3。具有≤1个细菌同源物的小鼠基因被称为“真核创新”。我们建立了42个真核生物物种和一个细菌外群的根系统发育树(大肠杆菌)使用PhyML(Guindon和Gascuel,2003年)(JTT矩阵,4个替代率类别)基于6种高度保守的小鼠蛋白质(Rps16、Ak2、Drg1、Dpm1、Cct7、Psmc3)的ClustalW多重比对,这些蛋白质被串联并手动编辑以删除比对不良的区域。COPP基因通过以下图谱进行鉴定:11个物种中没有COPP基因(葡萄球菌、棉子球菌、光滑梭菌、酿酒梭菌、人型梭菌、微小梭菌、恶性疟原虫3D7、环状梭菌、细小梭菌、蓝氏梭菌、小梭菌),存在于细菌基因组中,存在于≥1个类植物物种中(A.thaliana、O.sativa、D.discoideum、C.merolae)并存在于2个以上的其他酵母中(溶脂酵母菌、白色念珠菌、针叶炎酵母菌和汉森酵母菌),其中存在由BlastP定义,预计<1e-3。请参见补充数据和表S14了解详细信息。
复合物I丰度和活性分析
编码短发夹序列的慢病毒载体(pLKO.1)来自Broad RNAi Consortium(TRC)(Root等人,2006年)。根据TRC协议,使用Fugene(Roche)将这些载体与包装质粒(pCMV-dR8.91)和VSV-G包膜质粒(pMD2.G)转染到293T细胞中(www.broad.mit.edu/genemo_bio/trc/publicProtocols.html)。转染后24小时和48小时收集含病毒培养基。感染前一天,将大约30000 MCH58人成纤维细胞接种在24孔板上。为了感染细胞,将150μl含病毒培养基与350μl含8μg/ml聚brene的低抗生素培养基混合,添加到每个孔中,并在37°C下以2250 rpm旋转90分钟。旋转后,用DMEM(5%FBS,1×GPS)替换培养基12-24小时,然后切换到用2μg/ml嘌呤霉素的DMEM,持续1-2周,以筛选稳定感染的细胞。从每个细胞系(Qiagen RNEasy)提取RNA并用于1标准链cDNA合成(Invitrogen)。然后使用实时PCR(ABI Taqman Assays)评估敲除效率,使用HPRT作为内源性对照。对于CI和肌动蛋白的免疫印迹分析,在4-12%凝胶(Invitrogen)上分离10μg清除的全细胞裂解液,并转移到pvdf膜上。用抗β-肌动蛋白(Sigma)抗体和8kDa CI亚单位(线粒体)检测膜。按照制造商的方案(Mitosciences),使用基于免疫捕获的分析对15μg细胞裂解液进行CI活性分析。使用BioRad GS-800扫描仪扫描结果,并使用Quantity One软件进行分析。
线粒体酶测定
呼吸链复合物I、II、III和IV加上线粒体标记酶柠檬酸合成酶,通过分光光度法在骨骼肌和肝匀浆以及富集的成纤维细胞线粒体制剂中进行测定,如前所述(Kirby等人,1999年;Rahman等人,1996年)。呼吸链酶测定测定了NADH:辅酶Q1还原酶(CI)、琥珀酸:辅酶Q1还原酶(CII)、癸基苄基喹啉:细胞色素c还原酶(CIII)和细胞色素c氧化酶(CIV)。酶活性表示为相对于柠檬酸合成酶的比率,然后表示为正常对照平均值的百分比。
纯合性映射
使用Affymetrix GeneChip Mapping 50K XbaI SNP阵列对五个家族成员的DNA进行分析。使用Affymetrix软件(GDAS v.3.0.2.8、CNAT v.2.0.0.9和IGB v.4.56)检测杂合区域缺失。