A mitochondrial protein compendium elucidates complex I disease biology

David J. Pagliarini; Sarah E. Calvo; Betty Chang; Sunil A. Sheth; Scott B. Vafai; Shao-En Ong; Geoffrey A. Walford; Canny Sugiana; Avihu Boneh; William K. Chen; David E. Hill; Marc Vidal; James G. Evans; David R. Thorburn; Steven A. Carr; Vamsi K. Mootha

doi:10.1016/j.cell.2008.06.016

单元格。作者手稿；PMC 2009年11月18日发布。

以最终编辑形式发布为：

单元格。2008年7月11日；134(1): 112–123.

数字对象标识：2016年10月10日/j.cell.2008.06.016

预防性维修识别码：项目经理2778844

NIHMSID公司：美国国立卫生研究院156598

PMID：18614015

线粒体蛋白质简编阐明复合物I疾病生物学

大卫·帕利亚里尼，^1中，^2,^* 萨拉·卡尔沃，^1中，^2,^三，^* 张蓓蒂，² 苏尼尔·谢斯，^1中，^2,^三斯科特·瓦菲，¹ 邵恩昂，² 杰弗里·沃尔福德，¹ 精明的苏吉安娜，⁴ 阿维胡·博内，^4,⁵ 威廉·K·陈，¹ 大卫·E·希尔，⁶ 马克维达尔，⁶ 詹姆斯·埃文斯，⁷ 大卫·R·托本，^4,⁵ 史蒂文·卡尔，²和Vamsi K.Mootha公司^1中，²

大卫·帕利亚里尼

¹马萨诸塞州总医院人类遗传研究中心，马萨诸塞州立波士顿，邮编02114；马萨诸塞州波士顿哈佛医学院系统生物学系02446

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥02142

查找文章依据大卫·帕利亚里尼

萨拉·卡尔沃

¹马萨诸塞州总医院人类遗传研究中心，马萨诸塞州立波士顿，邮编02114；马萨诸塞州波士顿哈佛医学院系统生物学系02446

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥02142

^三哈佛大学-麻省理工学院健康科学与技术部，马萨诸塞州剑桥02139

查找文章依据萨拉·卡尔沃

张蓓蒂

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥02142

查找文章依据张蓓蒂

苏尼尔·谢斯

¹马萨诸塞州总医院人类遗传研究中心，马萨诸塞州立波士顿，邮编02114；马萨诸塞州波士顿哈佛医学院系统生物学系02446

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥02142

^三哈佛大学-麻省理工学院健康科学与技术部，马萨诸塞州剑桥02139

查找文章依据苏尼尔·谢斯

斯科特·瓦菲

¹马萨诸塞州总医院人类遗传研究中心，马萨诸塞州立波士顿，邮编02114；马萨诸塞州波士顿哈佛医学院系统生物学系02446

查找文章依据斯科特·瓦菲

邵恩翁

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥02142

查找文章依据邵恩翁

杰弗里·沃尔福德

¹马萨诸塞州总医院人类遗传研究中心，马萨诸塞州立波士顿，邮编02114；马萨诸塞州波士顿哈佛医学院系统生物学系02446

查找文章依据杰弗里·沃尔福德

精明的苏吉安娜

⁴澳大利亚墨尔本大学默多克儿童研究所和儿科

查找文章依据精明的苏吉安娜

阿维胡·博内赫

⁴澳大利亚墨尔本大学默多克儿童研究所和儿科系

⁵澳大利亚墨尔本皇家儿童医院维多利亚遗传健康服务中心

查找文章依据阿维胡·博内赫

威廉·K·陈

¹马萨诸塞州总医院人类遗传研究中心，马萨诸塞州立波士顿，邮编02114；马萨诸塞州波士顿哈佛医学院系统生物学系02446

查找文章依据威廉·K·陈

大卫·E·希尔

⁶马萨诸塞州波士顿市哈佛医学院达纳-法伯癌症研究所癌症系统生物学中心（CCSB）和癌症生物学系以及遗传学系，邮编02115

查找文章依据大卫·E·希尔

马克维达尔

⁶马萨诸塞州波士顿市哈佛医学院达纳-法伯癌症研究所癌症系统生物学中心（CCSB）和癌症生物学系以及遗传学系，邮编02115

查找文章依据马克维达尔

詹姆斯·埃文斯

⁷马萨诸塞州剑桥市怀特黑德麻省理工学院生物成像中心02139

查找文章依据詹姆斯·埃文斯

大卫·R·托本

⁴澳大利亚墨尔本大学默多克儿童研究所和儿科系

⁵澳大利亚墨尔本皇家儿童医院维多利亚遗传健康服务中心

查找文章依据大卫·R·托本

史蒂文·卡尔

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥02142

查找文章依据史蒂文·卡尔

Vamsi K.Mootha公司

¹马萨诸塞州总医院人类遗传研究中心，马萨诸塞州立波士顿，邮编02114；马萨诸塞州波士顿哈佛医学院系统生物学系02446

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥02142

查找文章依据Vamsi K.Mootha公司

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 1
NIHMS156598-补充-01.doc（58.8万）
GUID:A7F0BED4-45CB-43DB-91FF-AFA00BEFC791
2
NIHMS156598-补遗-02.zip（813000）
GUID:D314B090-9076-42D2-A6CF-A1D4F1FCF2FA
3
NIHMS156598-增补-03.xls（890万）
GUID:8C3C3750-7A84-4003-92D7-BF4E15439E0E
4
NIHMS156598-补充-04.xls（92K）
GUID:846047B9-4974-45B9-81C5-B0D318199266
5
NIHMS156598-增补-05.xls（8.8万）
GUID:1EA4B1AB-CF83-44FB-836D-DE5A2C4C54E1
6
NIHMS156598-补充-06.xls（71K）
GUID:EDEA0E28-1041-4683-8A6D-D24B912C470C

总结

线粒体是一种复杂的细胞器，其功能障碍是多种人类疾病的基础。识别细胞器中的所有蛋白质并了解它们如何整合到通路中是细胞生物学中的主要挑战。为了实现这一目标，我们进行了质谱分析、GFP标记和机器学习，以创建一个包含1098个基因及其在14个小鼠组织中的蛋白质表达的线粒体简编。由于共同的进化历史，我们将该清单中特征不佳的蛋白质与已知的线粒体途径联系起来。使用这种方法，我们预测19个蛋白质对电子传递链的复合物I（CI）的功能很重要。我们使用RNAi验证了这些预测的子集，包括C8或38我们进一步表明，在致命的婴儿CI缺乏症中存在遗传突变。我们的结果对理解CI的功能和发病机制具有重要意义，更广泛地说，它说明了我们的纲要如何作为线粒体系统研究的基础。

介绍

线粒体是细胞生命、死亡和分化所必需的动态细胞器。尽管它们以通过氧化磷酸化（OXPHOS）产生ATP而闻名，但它们还拥有无数其他生化途径，是细胞凋亡和离子稳态的中心。线粒体功能障碍可导致50多种疾病，从新生儿死亡到成人发病的神经退行性变，并可能导致癌症和II型糖尿病(DiMauro和Schon，2003年;洛厄尔和舒尔曼，2005年;华莱士，2005年)。线粒体基因组编码的13个蛋白质自测序以来已为人所知(安德森等人，1981年)并与多种母体遗传疾病有关。然而，可能有多达1500个核编码线粒体蛋白质(Lopez等人，2000年)尽管只有不到一半的人得到了实验支持。跨组织细胞器的完整蛋白质清单将为研究线粒体生物学和发病机制提供分子框架。

线粒体蛋白质组定义的最新进展受到大规模方法的推动，包括哺乳动物中基于质谱（MS）的蛋白质组学(Forner等人，2006年;Foster等人，2006年;Johnson等人，2007年;Kislinger等人，2006年;Mootha等人，2003a;Taylor等人，2003年)和酵母(Reinders等人，2006年;Sickmann等人，2003年)酵母中的表位标记与显微镜检查相结合(Huh等人，2003年;Kumar等人，2002年)、和计算(Calvo等人，2006年;伊曼纽尔森等人，2000年;Guda等人，2004年)。然而，每种方法都存在固有的技术局限性。基于MS的方法难以区分真正的线粒体蛋白质和共净化污染物，已发表的报告显示高达41%的假阳性率(表S1)。此外，这些方法往往忽略了低丰度蛋白质或那些仅在特定组织或发育状态中表达的蛋白质，因此仅捕获23-40%的已知线粒体成分(表S1)。其他实验方法（如表位标记）受到cDNA克隆可用性、标记干扰和过度表达伪影的限制。而综合机器学习方法可以更全面(Calvo等人，2006年;Jansen等人，2003年)它们需要随后的实验验证。

在这里，我们进行深入的蛋白质质谱、显微镜和机器学习来构建线粒体的蛋白质简编。我们对高纯度和粗线粒体制剂进行基于MS的蛋白质组学研究，以发现真正的线粒体蛋白质，并根据富集程度将其与污染物区分开来。我们使用贝叶斯框架将这些MS数据与其他六个基因组规模的线粒体定位数据集进行了整合，并对哺乳动物线粒体进行了最广泛的GFP标记研究(图1)以及它们在14个小鼠组织中的蛋白表达。虽然不完整，但这代表了迄今为止最全面和准确的细胞器分子特征。

在单独的窗口中打开

图1

构建线粒体蛋白质简编

MitoCarta是一个包含1098个编码蛋白质的基因的简编，有力地支持了线粒体定位。通过以下一种或多种方法确定每个蛋白质都是线粒体：1）对七个基因组规模数据集进行综合分析，包括对14个小鼠组织中分离的线粒体进行深入的蛋白质组学分析（灰圈），2）大规模GFP标记/显微镜检查（绿圈），以及3）来自重点研究的先前实验支持（红色圆圈）。每种方法的基因联合构成了MitoCarta简编。

我们的纲要提供了一个框架，用于识别线粒体内通路中的新蛋白质。在这里，我们关注电子传递链的复合物I（CI），这是一种哺乳动物中由～45个亚基组成的大分子结构(Carroll等人，2006年)。CI缺乏是罕见呼吸链疾病的最常见原因(迪莫罗和肖恩，2003年)并与帕金森氏病有关(夏皮拉，2008)。半数CI缺乏症患者缺乏任何已知CI亚单位的突变，这表明对CI成熟、组装或稳定性至关重要的未知基因在其余病例中发生突变(Janssen等人，2006年)。对于更小的配合物IV和V，在酿酒酵母据估计，仅复杂IV就需要20多个因子(Devenish等人，2000年;Fontanesi等人，2006年)。然而，在酿酒酵母阻碍了类似的研究，迄今为止，只有三个CI组装和成熟因子被确定(Ogilvie等人，2005年;Saada等人，2008年;Vogel等人，2005年).

为了系统地发现CI功能所必需的蛋白质，我们应用了系统发育分析技术，该技术使用共享的进化历史来突出功能相关的蛋白质(Pellegrini等人，1999年)。该方法最近被用于使用五种酵母鉴定CI组装因子NDUFA12L(Ogilvie等人，2005年)。我们将这种方法更广泛地应用于我们的线粒体蛋白质库存，并报告称其中19种蛋白质与CI蛋白质的一大亚群具有相同的祖先。我们在细胞模型中验证了这些预测中的几个，并进一步报告了其中一个基因，C8或38，在遗传性CI缺乏症中具有致病突变。

总之，这些研究说明了扩大线粒体库存在促进细胞器基础和疾病生物学方面的效用。我们的简编名为MitoCarta，可在www.broad.mit.edu/publications/MitoCarta网站.

结果和讨论

小鼠线粒体的发现和消减蛋白质组学

作为建立哺乳动物线粒体蛋白质实验支持目录的第一步，我们对14种不同小鼠器官的线粒体进行了蛋白质质谱分析(图1)。我们设计了分两个阶段的蛋白质组实验，以便在系统标记共净化污染物的同时，尽可能多地识别线粒体蛋白质。在发现从健康C57BL/6小鼠的大脑、小脑、脑干、脊髓、肾脏、肝脏、心脏、骨骼肌、白色脂肪组织、胃、小肠、大肠、睾丸和胎盘中分离出高度纯化的线粒体。通过western blots针对选定的线粒体和非线粒体蛋白质评估线粒体纯度，并通过极谱研究（数据未显示）和电子显微镜验证完整性(图2A，S2系列)。每个样品通过SDS-PAGE分离，然后分成20个谱带，每个谱带使用LTQ Orbitrap Hybrid MS系统通过高效液相色谱-串联质谱法（LC-MS/MS）进行分析。我们捕获了470万个串联质谱，并使用严格的匹配标准在小鼠RefSeq蛋白数据库中进行搜索，从而自信地鉴定了3881个基因的产物(表S3)。检测到的蛋白质不受分子量、等电点或跨膜螺旋存在的影响，但对转录物丰度低的蛋白质有轻微的影响(图S4)。我们估计，我们在每个样本中识别出85%的蛋白质（基于技术肝脏复制品），但我们通过对许多组织进行取样，使不同蛋白质的检测饱和(图2B)。总的来说，我们鉴定了88%的已知线粒体蛋白质，包括93%的OXPHOS蛋白质。

在单独的窗口中打开

图2

发现分离线粒体的蛋白质组学和减法蛋白质组学

（A）从14个小鼠组织中纯化线粒体。通过ER蛋白（钙网蛋白）与线粒体蛋白（VDAC和CI 8kDa亚基）在三个分离阶段（W，全组织裂解物；C，粗线粒体提取物；P，纯化线粒体提取物）的比值来追踪线粒体的富集。电子显微照片显示纯化的细胞器完好无损。

（B）通过发现MS/MS绘制了先前已知线粒体蛋白质的蛋白质鉴定饱和度(吨_米托)、丰富的蛋白质（>25%覆盖率）和所有蛋白质。

（C）基于减法MS/MS实验的纯（红色）或粗（黑色）线粒体样品中富含蛋白质的基因本体注释。插图：减法MS/MS方法的示意图。

（D）基于发现和减法MS/MS实验中的检测，蛋白质成为真正线粒体的可能性比率。

在减法的蛋白质组学阶段，我们对上述10个组织的粗线粒体和纯化线粒体进行了液相色谱-质谱/质谱分析。该方法基于以下观察结果：真诚地线粒体蛋白质应在纯化过程中得到富集，同样污染物也应被耗尽（例如，ER蛋白钙网蛋白的丢失图2A)。这种减法在概念上类似于蛋白质相关分析(Foster等人，2006年)。在粗样品或纯样品中检测到的2565个基因产物中，1022个在粗样品中含量更高（粗富集），709个在纯化样品中含量更多（纯富集），其余不确定（见实验程序）。富含原油的蛋白质组包含许多质膜和细胞外蛋白（可能是内质网的前体），而纯富含蛋白质组几乎完全是线粒体，这验证了减法蛋白质组学方法可以帮助区分真正的线粒体蛋白质和污染物(图2C).

接下来，我们将发现阶段和减法阶段的数据结合起来，以确定发现MS/MS检测到的每个蛋白质都是真正的线粒体的概率。为此，我们编译了由591个已知线粒体基因组成的训练集(吨_米托)和2519个非线粒体基因(吨_{～有丝分裂})，在中列出表S5为了避免循环，我们策划了吨_米托该列表不包括仅由先前蛋白质组研究表征的线粒体蛋白质。使用我们的训练数据，我们根据发现的MS/MS蛋白丰度和减去的MS/MS富集度计算了每种蛋白质真正是线粒体的可能性比率（见实验程序和图S6)。如所示图2D，似然比量化了MS/MS检测到的蛋白质确实是线粒体的信心。

质谱分析与基因组尺度数据集的集成

我们的发现和消减蛋白质组学的结合在发现方面非常强大真诚地线粒体蛋白质，尽管这种方法本身不够敏感或特异(图3A)。例如，这些实验遗漏了丰度极低的蛋白质，缺乏易患MS的胰蛋白酶肽，或仅在特定条件下定位于线粒体的蛋白质。为了获得全面的线粒体清单，我们需要将这些数据与其他可用信息结合起来。

在单独的窗口中打开

图3

通过显微镜进行数据集成和验证

（A）用于预测线粒体定位的八种全基因组方法，其敏感性和纠正的错误发现率（cFDR）是根据预定义阈值的大型训练集计算得出的（实验程序）。最右边的列显示了每种方法对选定的小鼠基因的对数似然分数，将其相加得出线粒体定位的Maestro对数似然。

（B） 10个GFP融合构建体的荧光显微镜图像具有清晰的线粒体定位，对应于面板A中的示例。所有131个构建体显示线粒体定位的图像可在www.broad.mit.edu/publications/MitoCarta网站.

因此，我们将我们的MS/MS结果与六种互补的计算、基于同源性和实验技术相结合，以确定线粒体定位的可能性(图3A和实验程序）。使用我们之前开发的Maestro天真贝叶斯框架(Calvo等人，2006年)，我们使用训练数据将每种方法的数据值转换为线粒体定位的对数似然分数(表S7)。由于这七种方法在很大程度上是有条件独立的(图S8)，我们根据独立的概率模型，将这些个体的对数似然分数加总为组合的Maestro分数。使用Maestro，我们根据线粒体定位的可能性对所有小鼠基因进行系统排序(表S5)。我们可以使用校正的错误发现率统计（cFDR）评估每个分数的准确性，该统计说明了训练集的大小（请参阅实验过程）。当Maestro评分阈值为4.56时，对应于10%cFDR，有951个线粒体基因预测，包括498/591个已知线粒体基因（84%敏感性）。这种贝叶斯集成避免了训练数据过拟合，如10倍交叉验证所示（轮流对90%的数据进行训练，并保留10%用于测试），在相同的cFDR下达到了82%的可比灵敏度。如中所示图3A，积分大大提高了预测精度。

线粒体定位的大尺度GFP显微镜

我们还进行了大规模的显微镜研究，作为确认线粒体定位的补充实验方法(图1)。由于从人类hORFeome v3.1收集的高质量克隆的可用性，我们测试了小鼠预测的人类直系图(Lamesch等人，2007年)。我们创建了C末端GFP融合结构，并通过荧光显微镜观察了HeLa细胞中的亚细胞定位。该方法显示12/21个阳性对照组和18个阴性对照组的线粒体定位清晰，表明该技术具有特异性，但敏感性有限。然后，我们测试了470个缺乏线粒体定位先前实验支持的基因。这些候选人是从中期Maestro分析中挑选出来的，根据我们最终的贝叶斯分析，他们的cFDR估计为59%。在成功转染的404个候选基因中，我们确定了131个具有明确线粒体定位的基因（代表性显示为图3B整套可在www.broad.mit.edu/publications/MitoCarta网站)。这种方法的成功率与我们估计的cFDR和敏感性比率相匹配，从而验证了我们的贝叶斯集成。没有明确线粒体定位的273个构建体的信息量较小，因为GFP标签可能干扰了线粒体输入，测试了错误的剪接形式，或者HeLa细胞缺乏必要的伴侣/修饰物。

线粒体图谱：1098个编码线粒体蛋白质组的基因清单及其在14个组织中的蛋白表达

结合我们的发现和消减蛋白质组学、计算、显微镜和以前的文献，我们定义了一个包含1098个基因的高置信线粒体简编，称为MitoCarta(图1)。据估计，该库存已完成85%以上，并包含约10%的假阳性（请参阅补充数据)。它包含356个基因，之前在基因本体（GO）或线粒体P2中没有线粒体注释(Prokisch等人，2006年)数据库，并通过为87%的基因提供强有力的实验支持，将其与其他目录区分开来，这些支持基于：质谱（70%）、GFP研究（12%）和/或文献整理（54%）。我们保守地估计，至少有85个线粒体蛋白质也存在于其他细胞位置，这是基于线粒体与两个基于细胞器的蛋白质组学调查的交叉，如表S9(Foster等人，2006年;Kislinger等人，2006年).

MitoCarta系列包括一些显著的成分，并突出了细胞器的重要调节功能。例如，该清单包括几种激酶、磷酸酶、RNA结合蛋白和疾病相关蛋白(MMACHC公司，自动变速箱)以前与线粒体无关(表S5B)。有趣的是，作为一个集合，与所有小鼠基因相比，MitoCarta基因的UTR和编码区明显较短，并且表达更高(图S10)。它们的启动子往往有CpG岛，缺乏TATA盒，这一特征与其他“内务处理”基因相同，可能是它们高表达的原因(Carninci等人，2006年)。此外，MitoCarta启动子富含八个保守序列基序，包括五个已知的线粒体转录因子结合位点和三个新元件(图S10).

除了增加已知线粒体蛋白的数量外，我们的清单还提供了评估组织间线粒体蛋白表达差异的机会(图4A)。我们使用MS总峰值强度评估了14个组织中每种线粒体蛋白质的相对丰度（见实验程序）。该指标在技术复制中具有高度可重复性(图S11)与mRNA表达密切相关（参见补充数据)。然而，由于我们的图谱仅包含每个组织的一个重复，我们注意到两个警告：首先，它不能用于评估组织间丰度的统计显著差异；其次，由于随机抽样，我们估计我们检测到每个组织中大约90%的蛋白质。

在单独的窗口中打开

图4

14个小鼠组织中线粒体蛋白的表达

（A）蛋白质丰度热图，用对数测量₁₀（MS总峰值强度），针对14个组织中1098个MitoCarta基因。基因按组织数量和总强度排序。白色背景表示其蛋白产物未被MS/MS检测到，但根据之前的注释、计算或显微镜检查，其为线粒体的基因。

（B）蛋白质在选定途径中的组织分布。勾号表示（A）中相应蛋白质的位置，灰色阴影表示检测到该蛋白质的组织总数（0-14）。

（C）通过MS/MS在每个组织中检测到的线粒体蛋白质的相关矩阵，分层聚集。对角线上的计数表示通过MS/MS鉴定的线粒体蛋白的数量。

（D）通过细胞色素ELISA测量评估每个组织的线粒体数量c（c）从整个组织裂解物中提取。

我们利用这个蛋白质图谱来研究组织之间线粒体途径的差异。我们发现大约1/3的线粒体基因是所有样本组织中的核心线粒体成分，包括大多数OXPHOS亚基和TCA循环(图4B)。然而，大多数线粒体基因显示出一定程度的组织特异性(图4A)。有趣的是，这些包括线粒体核糖体的大部分和复合物IV的一半亚单位，其中一些亚单位以前已经证实组织特异性表达(Huttemann等人，2003年)。此外，酮生成和尿素循环途径的酶在比预期更广泛的组织中表达，包括大脑和胎盘(图S12)。通常，我们发现线粒体平均每个组织表达约760个独特的基因产物（范围554-797，图4C)成对组织通常共享～75%的蛋白质（范围63-88%）。此外，使用细胞色素c（c）ELISA，我们估计线粒体量在由19种组织组成的小组中，变化幅度达30倍(图4D)。总之，这些分析揭示了线粒体数量和组成的组织多样性，并证明了我们的概要如何可以作为未来研究组织特异性线粒体生物学的资源。

通过系统发育分析鉴定复合物I相关蛋白

扩大后的线粒体简编还提供了一个机会，可以发现细胞器内通路的新成分。近300个基因（占我们基因库的26%）与GO生物过程无关。为了将其中的一个子集与已知通路联系起来，我们进行了系统发育分析，该分析使用共享的进化历史来识别功能相关的蛋白质(Pellegrini等人，1999年)。鉴于线粒体在真核生物进化早期从类立克次体内共生体下降的独特进化历史，这种方法可能特别适用于线粒体(Andersson等人，1998年).

为了探索线粒体系统发育分析的实用性，我们首先在500个完全测序物种中鉴定了小鼠MitoCarta蛋白的同源物(图5A，表S13)。我们发现，目前75%的线粒体成分具有明确的细菌祖先（BlastP预计<1e-3），57%具有细菌最佳双向同源性，这比所有小鼠蛋白质高出三倍以上(图5C)。系统发育图谱证实，功能相关的线粒体蛋白往往具有相似的进化历史。例如，参与脂肪酸代谢、柠檬酸循环和叶酸代谢的大多数蛋白质都有古老的起源(图5B)。相反，线粒体蛋白质输入机制和线粒体载体是最近的创新(图5B)。因此，有可能使用共享的进化历史将未标记的线粒体蛋白质与已知途径联系起来。

在单独的窗口中打开

图5

线粒体蛋白质的祖先

（A） 500个完全测序生物体中1098个线粒体蛋白质的存在/缺失矩阵。蓝色方块表示小鼠蛋白质（行）与目标物种（列）内的蛋白质的同源性。

（B）来自选定组的线粒体蛋白质的祖先。勾号表示蛋白质在（A）中的位置。

（C）比较MitoCarta蛋白质祖先与所有小鼠蛋白质，仅考虑最佳双向点击。基于超几何分布和Bonferroni多重假设修正的P值：*P=6e^-64，**p=4e^-78，***p=2e^-232.

由于呼吸链复合物I（CI）在能量代谢和疾病中的重要作用，我们将此策略的重点放在识别对其至关重要的因素上。目前，这种大分子复合物只有三种已知的组装因子，尽管临床数据表明，它的组装和活性需要许多未知的因子(Janssen等人，2006年)。这些因素可能存在于线粒体中，因此我们的线粒体简编有助于对候选者进行优先排序。此外，5种酵母的CI进化史最近被证明有助于识别组装因子NDUFA12L，支持这种系统发育方法(Gabaldon等人，2005年;Ogilvie等人，2005年).

为了建立CI更广泛的系统发育谱，我们首先建立了42种真核生物的根系统发育树(图6C，实验程序）。该树对不同的系统发育重建方法具有鲁棒性，除了三个深分支原生物种的一些定位不确定性（参见补充数据)。我们观察到，一组15个CI蛋白不仅在几种酵母中缺失，而且是祖先细菌的亚单位，在真核生物进化中独立丢失了至少四次(图6A，表S14)。丢失CI的物种很可能也丢失了组装和功能所需的蛋白质。只有19种其他的线粒体蛋白质与CI具有相同的特征，现在是CI功能关联的有力候选蛋白(图6B)。这19个线粒体蛋白质，被称为COPP（Complex One系统发育谱），以及一组具有较弱系统发育特征的扩展蛋白质，列于表S14。COPP集合包括两种经过深入研究的参与支链氨基酸降解的蛋白质(静脉注射，Mccc2型)和四种参与脂质分解的蛋白质(Dci公司，菲，阿玛克，AF397014型)这提出了一个有趣的假设，即这些途径与复杂I活性之间存在关联。

在单独的窗口中打开

图6

通过系统发育分析鉴定复合物I相关蛋白

（A） 42种真核生物44个呼吸链CI亚基和3个组装因子的存在/缺失矩阵。蓝色方块表示小鼠蛋白质（行）与目标物种蛋白质（列）的同源性。

（B）在进化过程中，与CI亚基亚群的系统发育特征相匹配的线粒体蛋白质至少独立丢失了四次。星号表示通过RNAi测试的候选人（D-F）。

（C）重建了系统发育真核生物树，红色文本表示失去CI的物种。

（D）候选基因敲除对人成纤维细胞CI水平的影响。在慢病毒介导传递针对GFP（阴性对照）、NDUFAF1（已知CI组装因子）和四个CI候选物的空载体或发夹后，对全细胞裂解物中的肌动蛋白和CI亚单位进行免疫印迹。

（E）通过实时qPCR测量的对照组（灰色条）或候选CI（蓝色条）实现的mRNA表达的敲除百分比。

（F）对照组（灰色条）和四个候选组（蓝色条）的成纤维细胞裂解物的CI活性分析（如D所示）。误差条表示重复分析的范围。

我们通过使用慢病毒介导的RNAi在人类成纤维细胞中产生稳定的敲除，测试了我们的四个COPP基因是否参与CI活性(Root等人，2006年)。鉴于我们对这些预测的临床相关性感兴趣，我们选择测试候选小鼠的人类直系同源物。通过定量实时PCR检测，我们实现了3个COPP基因的80%敲除和第四个基因的50%敲除(图6E)。接下来，我们使用针对CI亚单位的免疫印迹评估CI丰度，并使用基于免疫捕获的活性分析评估CI活性（参见实验程序和图S15)。击倒C8或38与已知的CI组装因子NDUFAF1相比，CI丰度和活性下降幅度最大(图6D-F)。这些数据强烈表明C8或38以前与任何生物过程或亚细胞位置都没有关联，对内源性CI的活性和/或组装至关重要。其他三个候选敲除系显示CI活性降低了20-40%(图6F)对CI丰度有可变影响(图6D)。CI活性的适度降低并不能提供与CI相关的确切证据，但我们注意到CI活性测定仅测量NADH脱氢酶活性，即使CI的其他模块组装不当，NADH的脱氢酶活性仍可能基本保持不变。因此，我们通过实验验证了一个COPP基因的重要性，为其他三个COPP蛋白基因提供了提示性证据，并优先考虑了十几个额外的蛋白质，以供将来研究复合物I。

中的突变C8或38导致人类遗传复合物I缺乏

上述19个MitoCarta COPP基因是临床CI缺乏症潜在基因的有力候选基因。我们将这些候选基因与纯合子作图相结合，在黎巴嫩远亲父母所生的两个患有严重孤立CI缺乏症的兄弟姐妹（女性和男性）中寻找致病基因突变(图7A)。这对兄弟姐妹分别在10个月和7个月时出现局灶性右手抽搐，运动和力量减弱，共济失调和僵硬。两人都有持续性乳酸酸中毒，神经影像学与Leigh综合征一致。受影响的女孩在肌肉、肝脏和成纤维细胞中发现CI缺乏，其他复合物和柠檬酸合成酶活性正常或升高(图7B)。她在34个月大时因肺炎入院后心脏呼吸停止而死亡。受影响的男孩在成纤维细胞中有一个孤立的CI缺陷，目前年龄为22个月。

在单独的窗口中打开

图7

发现C8或38遗传复合物I缺陷的突变

（A）一个黎巴嫩近亲家庭的家系，有两个孩子患有Leigh综合征和复合I缺乏症。每个家族成员下面的字母代表了该家族中c.296A>G突变的基因型C8或38.探针用箭头指示。

（B）呼吸链酶活性，对照线粒体基质标记酶柠檬酸合酶进行标准化，表示为平均值的百分比（括号中的正常范围）。最后一列列出柠檬酸合成酶活性（相对于总蛋白）为正常对照平均值的%（见实验程序）。

（C）使用（A）中家庭成员的DNA进行纯合子映射的结果。列出了受影响兄弟姐妹而非父母或未受影响兄弟姊妹共享的八个纯合子区间，以及每个区间不同类别中的基因数量（CI，已知复合物I基因；COPP，复合物1系统发育分析候选）。

（D）的序列跟踪C8或38来自（A）中的每个家庭成员和一个健康对照，在两个受影响的兄弟姐妹中证明了c.296A>G突变的纯合性。

由于潜在的分子缺陷可能是隐性突变，我们对从五个家族成员中分离的DNA进行了纯合子作图，并确定了八个纯合子染色体区域，这些区域仅由受影响的兄弟姐妹共享(图7C和实验程序）。总的来说，这些区域包含857个基因，包括4个CI结构亚基和一个COPP基因：C8或38(图7C)。两个CI结构亚基基因的测序显示没有突变，但C8或38(NM_152416)在第2外显子中发现与该家族疾病分离的c.296A>G突变(图7D)。该突变导致脊椎动物中一个完全保守的残基发生Gln99Arg替代，并可能由于其位于外显子2的3′端而导致剪接缺陷(图7D)。EST数据库、SNP数据库或测试的100条黎巴嫩染色体中均未出现这种突变。C8orf38在线粒体的定位及其CI缺乏症的RNAi表型(图6F)和隔离C8或38高度保守残基的突变一起强烈证明C8或38是人类CI疾病基因。

结论

我们构建了一个高质量的线粒体蛋白质简编，使用比较基因组学预测未标记蛋白质在CI生物学中的作用，并使用细胞模型和人类遗传学验证了这些预测。我们的1098个线粒体基因及其在14个组织中的蛋白表达清单代表了迄今为止最全面的细胞器特征，并为解决线粒体生物学中的主要问题提供了一个框架。

我们利用我们的纲要来发现适当的复合物I活性所必需的蛋白质。尽管CI在能源生产中至关重要，在罕见和常见的人类疾病中发挥着广泛作用，但人们对其结构、组装和活性的许多方面了解甚少。通过系统发育分析，我们确定了另外19个可能与CI相关的基因，最显著的是C8或38，我们进一步证明在遗传性CI缺乏症中发生突变。C8或38在这项研究中首次显示为线粒体，之前与任何生物功能无关。C8orf38的结构域表明参与了植物烯代谢，可能与其他COPP蛋白Phyh、Amacr和AF397014型其余COPP基因现在是其他CI缺陷的主要候选基因，可能有助于解开CI的组装和成熟程序。

除了推动我们在这里提出的发现外，MitoCarta清单还可以立即用于其他疾病相关项目。正如我们在当前报告中所证明的那样，线粒体简编可以帮助突出任何孟德尔线粒体疾病连锁区域内的特定候选者。MitoCarta还可以帮助阐明常见退行性疾病的发病机制，这些疾病最近与线粒体基因表达下降和活性氧产生增加有关(霍斯蒂斯等人，2006年;Mootha等人，2003b;Schon和Manfredi，2003年)。重要的是，线粒体也可以作为基本线粒体生物学的基础。由两个基因组编码的线粒体成分被精心转录、翻译和组装成功能正常的组织特异性细胞器，这是一项了不起的壮举，但仍有很多未知之处。我们的蛋白质简编提供了一个框架，用以解释这些组织特异性程序。

实验程序

蛋白质质谱

发现阶段

通过Percoll密度梯度纯化从C57BL/6小鼠组织中分离出线粒体（参见补充数据详细信息），并使用抗钙网蛋白（钙生物化学）、VDAC1（Abcam）和8 KDa-CI亚单位（线粒体）的抗体评估纯度。为了进一步证明纯度，一组更广泛的细胞器标记抗体被用于线粒体制剂的子集(图S2)。每个样品用4-12%双三梯度SDS-PAGE进行大小分离，分离成20个凝胶片，然后还原、烷基化，并进行凝胶内胰蛋白酶消化。使用LTQ-Orbitrap（Thermo Scientific）通过反相LC-MS/MS分析每个切片中提取的肽。在LTQ中收集Orbitrap测量扫描中观察到的前十个最强烈离子的数据相关MS/MS，使用动态排除排除最近为串联MS/MS选择的重采样峰值（60 s间隔内）。筛选MS/MS光谱以获得光谱质量，从所有14个组织中汇总，并使用Spectrum Mill MS Proteomics Workbench对RefSeq小鼠蛋白质数据库进行搜索。我们要求蛋白质具有至少2个检测到的独特肽，其中至少有一个肽能将匹配基因与所有其他小鼠Entrez基因区分开来。使用任何剪接形式的最高MS值在基因水平上聚合数据。丰度通过覆盖率（具有MS证据的氨基酸百分比）进行跨蛋白质比较，并通过总峰值强度（与蛋白质匹配的所有序列识别肽的MS峰面积之和）进行跨组织比较。

减法相位

从10个组织中收集到匹配的粗线粒体和高纯度线粒体。样品蛋白质被还原、烷基化，然后用胰蛋白酶溶液消化。如上所述获得并搜索MS/MS谱，但蛋白质只需要≥1个肽谱，因为这些结果仅影响通过发现MS/MS检测到的蛋白质。蛋白质仅存在于粗提物中，或发现粗提取物中的峰强度比纯提取物高出两倍以上，则被视为粗富集（与纯富集类似）。

数据组合

使用似然比为蛋白质分配综合MS/MS评分L（左）(d、秒)=P（P）(d、秒|吨_米托)/P（P）(d、秒|吨_∼_米托)其中d日是发现MS/MS丰度水平（覆盖范围），秒是减去MS/MS富集类别，以及吨_米托和吨_∼_米托是训练集。请参见补充数据了解完整的详细信息。

老鼠和人类数据集

小鼠RefSeq Release 20蛋白被映射到23640 NCBI Entrez基因标识符(ftp.ncbi.nih.gov/gene/DATA公司/，2006年12月12日），不包括映射到非参考组装体或伪基因的蛋白质（Entrez注释，2007年6月21日）。人-鼠同源基因来自同源基因(ftp.ncbi.nih.gov/pub/HomoloGene公司2007年1月26日）。训练集(表S5)包括吨_米托：591个来自线粒体P2或基因本体（GO）数据库的带有线粒体注释的基因，这些基因是手动筛选的，用于哺乳动物线粒体定位的实验证据，不包括仅由大规模蛋白质组学调查支持的基因；吨_{～有丝分裂}：所有2519个带有GO亚细胞定位注释的基因（类型“通过直接分析推断”），不包括线粒体和无信息类别(Calvo等人，2006年)。来自Pfam的蛋白质结构域(ftp.sanger.ac.uk/pub/databases/Pfam（2006年11月22日）使用HMMER进行识别（预期参数=0.1，可信阈值截止值）。

基因组规模数据集的集成

使用Maestro naive Bayes分类器整合了7种确定线粒体定位的方法(Calvo等人，2006年)。训练集(吨_米托和吨_∼_米托)用于转换每个特征得分(秒₁..秒₇)对数似然比，定义为对数₂[P（P）(秒₁..秒₇|吨_米托) /P（P）(秒₁..秒₇|吨_{～有丝分裂})]. 对于转录或蛋白质水平的得分，该基因继承了所有剪接形式中得分最高的一种。七种基因组特征的得分是在预定义的范围内计算的（参见表S7)如下（参见补充数据详细信息）：

蛋白质组学：中显示的12个类别之一图2D或NA（如果未检测到）
目标序列：TargetP v1.1置信度得分(伊曼纽尔森等人，2000年)
蛋白质结构域：分类得分（M+，M-，M±，NA）表示存在一个蛋白质结构域，该结构域仅为线粒体，仅为非线粒体，不明确，或在任何注释的SwissProt真核蛋白中不存在。
酵母同源性：如果最好，则为1酿酒酵母同源物（BlastP预计<1e-3，覆盖率>50%的较长基因）是线粒体（酵母基因组数据库，2006年12月27日），否则为0
祖先：BlastP期望值来自普氏立克次体同源物，或NA，如果预期>1e-3
共同表达：N50分（数量吨_米托在61个小鼠组织的GNF1M图谱中，在基因的50个最近的转录共表达邻居中发现的基因(Su等人，2004年)
归纳：线粒体增殖细胞模型中mRNA表达的折叠变化（小鼠肌管中PGC-1α的过度表达）与对照组相比(Calvo等人，2006年;Mootha等人，2004年)

由于训练集的大小不同，因此使用修正的错误发现率来评估预测的准确性吨_米托和吨_{～有丝分裂}与我们之前对线粒体与非线粒体细胞蛋白质比例的预期不符(Calvo等人，2006年)。我们定义cFDR=（1−SP）/（1−的SP+SN×O（运行）_先前的)其中TP、TN、FP、FN代表真/假阳性和阴性，特异性SP=TN/（TN+FP），敏感性SN=TP/（TP+FN），以及O（运行）_先前的= 1500/21000.

比较每种方法的性能(图3A)，我们选择了以下阈值：MS/MS纯富集，或覆盖率>25%的非决定性；靶点P≥1；感应≥1.5；域M+；共表达≥5；酵母同源性1；祖先≤1e-3；迈斯卓≥4.56。

用GFP和显微镜进行表位标记

人类Orfeome收集的cDNA(Lamesch等人，2007年)克隆到C端GFP载体pcDNA6.2/C-EmGFP-DEST（Invitrogen）中。约4×10^三HeLa细胞在使用Lipofectamine LTX（Invitrogen）转染前24小时接种在100μL培养基（含10%FBS的DMEM，1×GPS）中的96周成像板（Falcon）中。转染后48小时，用含有50 nM MitoTracker Red CMXRos和1:1000稀释的Hoechst 33258（分子探针）的培养基对细胞进行染色，清洗、固定并成像（参见补充数据)。线粒体定位是通过GFP和MitoTracker信号的重叠来确定的。

细胞色素c ELISA测定

新鲜小鼠组织在冷藏PBS中制备（参见补充数据)。均质后，将组织裂解物重新悬浮在含有0.5%Triton X-100洗涤剂和蛋白酶抑制剂（Roche）的PBS中，并在台式离心机中以最大速度旋转至4°C，持续30分钟。取出上清液，在液氮中快速冷冻，并在-80°C下储存直至使用。细胞色素c（c）按照制造商的方案，使用ELISA试剂盒（Quantikine）测量两次水平。

系统发育分析

500个完全测序物种中小鼠蛋白质的同源性(表S13)由BlastP定义，预计<1e-3。具有≤1个细菌同源物的小鼠基因被称为“真核创新”。我们建立了42个真核生物物种和一个细菌外群的根系统发育树(大肠杆菌)使用PhyML(Guindon和Gascuel，2003年)（JTT矩阵，4个替代率类别）基于6种高度保守的小鼠蛋白质（Rps16、Ak2、Drg1、Dpm1、Cct7、Psmc3）的ClustalW多重比对，这些蛋白质被串联并手动编辑以删除比对不良的区域。COPP基因通过以下图谱进行鉴定：11个物种中没有COPP基因(葡萄球菌、棉子球菌、光滑梭菌、酿酒梭菌、人型梭菌、微小梭菌、恶性疟原虫3D7、环状梭菌、细小梭菌、蓝氏梭菌、小梭菌)，存在于细菌基因组中，存在于≥1个类植物物种中(A.thaliana、O.sativa、D.discoideum、C.merolae)并存在于2个以上的其他酵母中(溶脂酵母菌、白色念珠菌、针叶炎酵母菌和汉森酵母菌)，其中存在由BlastP定义，预计<1e-3。请参见补充数据和表S14了解详细信息。

复合物I丰度和活性分析

编码短发夹序列的慢病毒载体（pLKO.1）来自Broad RNAi Consortium（TRC）(Root等人，2006年)。根据TRC协议，使用Fugene（Roche）将这些载体与包装质粒（pCMV-dR8.91）和VSV-G包膜质粒（pMD2.G）转染到293T细胞中(www.broad.mit.edu/genemo_bio/trc/publicProtocols.html)。转染后24小时和48小时收集含病毒培养基。感染前一天，将大约30000 MCH58人成纤维细胞接种在24孔板上。为了感染细胞，将150μl含病毒培养基与350μl含8μg/ml聚brene的低抗生素培养基混合，添加到每个孔中，并在37°C下以2250 rpm旋转90分钟。旋转后，用DMEM（5%FBS，1×GPS）替换培养基12-24小时，然后切换到用2μg/ml嘌呤霉素的DMEM，持续1-2周，以筛选稳定感染的细胞。从每个细胞系（Qiagen RNEasy）提取RNA并用于1^标准链cDNA合成（Invitrogen）。然后使用实时PCR（ABI Taqman Assays）评估敲除效率，使用HPRT作为内源性对照。对于CI和肌动蛋白的免疫印迹分析，在4-12%凝胶（Invitrogen）上分离10μg清除的全细胞裂解液，并转移到pvdf膜上。用抗β-肌动蛋白（Sigma）抗体和8kDa CI亚单位（线粒体）检测膜。按照制造商的方案（Mitosciences），使用基于免疫捕获的分析对15μg细胞裂解液进行CI活性分析。使用BioRad GS-800扫描仪扫描结果，并使用Quantity One软件进行分析。

线粒体酶测定

呼吸链复合物I、II、III和IV加上线粒体标记酶柠檬酸合成酶，通过分光光度法在骨骼肌和肝匀浆以及富集的成纤维细胞线粒体制剂中进行测定，如前所述(Kirby等人，1999年;Rahman等人，1996年)。呼吸链酶测定测定了NADH:辅酶Q1还原酶（CI）、琥珀酸：辅酶Q1还原酶（CII）、癸基苄基喹啉：细胞色素c还原酶（CIII）和细胞色素c氧化酶（CIV）。酶活性表示为相对于柠檬酸合成酶的比率，然后表示为正常对照平均值的百分比。

纯合性映射

使用Affymetrix GeneChip Mapping 50K XbaI SNP阵列对五个家族成员的DNA进行分析。使用Affymetrix软件（GDAS v.3.0.2.8、CNAT v.2.0.0.9和IGB v.4.56）检测杂合区域缺失。

补充材料

01

单击此处查看。^{（588K，文档）}

02

单击此处查看。^{（813K，拉链）}

致谢

我们感谢J.Jaffe、K.Clauser、P.Matsudaira的建议；D.Arlow、S.Silver、O.Goldberger、T.Gilbert和T.Hirozane-Kishikawa提供技术援助；M.McKee，用于执行电子显微镜；E.A.Shoubridge提供MCH58细胞系；以及A.Ting、D.Altshuler和J.Hirschorn对手稿的评论。电子显微镜是在系统生物学中心的显微镜核心进行的，该中心得到了炎症性肠病拨款DK43351和波士顿地区糖尿病和内分泌研究中心奖DK57521的支持。这项工作得到了澳大利亚NHMRC授予D.R.T.的主要研究奖学金的支持。，以及生物医学领域的Burroughs Wellcome基金职业奖、霍华德·休斯医学研究所颁发的早期职业奖、医学科学领域的Charles E.Culpeper奖学金，以及美国国立卫生研究院授予V.K.M的一笔赠款（GM077465）。

脚注

出版商免责声明：这是一份未经编辑的手稿的PDF文件，已被接受出版。作为对客户的服务，我们正在提供这份早期版本的手稿。手稿在以最终可引用的形式出版之前，将经过编辑、排版和校对结果证明。请注意，在制作过程中可能会发现可能影响内容的错误，适用于该期刊的所有法律免责声明均适用。

工具书类

Anderson S、Bankier AT、Barrell BG、de Bruijn MH、Coulson AR、Drouin J、Eperon IC、Nierlich DP、Roe BA、Sanger F等。人类线粒体基因组的序列和组织。自然。1981;290:457–465.[公共医学][谷歌学者]
Andersson SG、Zomorodipour A、Andersson JO、Sicheritz-Ponten T、Alsmark UC、Podowski RM、Naslund AK、Eriksson AS、Winkler HH、Kurland CG。普氏立克次体基因组序列与线粒体起源。自然。1998;396:133–140.[公共医学][谷歌学者]
Calvo S、Jain M、Xie X、Sheth SA、Chang B、Goldberger OA、Spinazzola A、Zeviani M、Carr SA、Mootha VK。通过整合基因组学系统鉴定人类线粒体疾病基因。Nat Genet。2006;38:576–582.[公共医学][谷歌学者]
Carninci P、Sandelin A、Lenhard B、Katayama S、Shimokawa K、Ponjavic J、Semple CA、Taylor MS、Engstrom PG、Frith MC等。哺乳动物启动子结构和进化的全基因组分析。Nat Genet。2006;38:626–635.[公共医学][谷歌学者]
Carroll J、Fearnley IM、Skehel JM、Shannon RJ、Hirst J、Walker JE。牛复合体I是由45个不同亚基组成的复合体。生物化学杂志。2006;281:32724–32727.[公共医学][谷歌学者]
Devenish RJ，Prescott M，Roucou X，Nagley P.通过酵母线粒体酶复合物亚基的分子遗传操作深入了解ATP合成酶的组装和功能。Biochim生物物理学报。2000;1458:428–442.[公共医学][谷歌学者]
DiMauro S，Schon EA公司。线粒体呼吸系统疾病。新英格兰医学杂志。2003;348:2656–2668.[公共医学][谷歌学者]
Emanuelsson O，Nielsen H，Brunak S，von Heijne G。基于蛋白质N端氨基酸序列预测蛋白质的亚细胞定位。分子生物学杂志。2000;300:1005–1016.[公共医学][谷歌学者]
Fontanesi F，Soto IC，Horn D，Barrientos A.线粒体细胞色素c氧化酶的组装，这是一个复杂且高度调控的细胞过程。美国生理学杂志。2006;291：C1129–1147。[公共医学][谷歌学者]
Forner F，Foster LJ，Campanaro S，Valle G，Mann M。肌肉、心脏和肝脏线粒体的定量蛋白质组学比较。分子细胞蛋白质组学。2006;5:608–619.[公共医学][谷歌学者]
Foster LJ、de Hoog CL、Zhang Y、ZhangY、Xie X、Mootha VK、Mann M.通过蛋白质相关分析绘制的哺乳动物细胞器图。单元格。2006;125:187–199.[公共医学][谷歌学者]
Gabaldon T，Rainey D，Huynen MA。追踪真核生物中大蛋白复合物NADH的进化：泛醌氧化还原酶（复合物I）分子生物学杂志。2005;348:857–870.[公共医学][谷歌学者]
Guda C，Fahy E，Subramaniam S.MITOPRED：预测细胞核编码线粒体蛋白的基因组尺度方法。生物信息学。2004;20:1785–1794.[公共医学][谷歌学者]
Guindon S，Gascuel O。一种简单、快速、准确的算法，用于通过最大似然估计大型系统发育。系统生物学。2003;52:696–704.[公共医学][谷歌学者]
Houstis N、Rosen ED、Lander ES。活性氧在多种形式的胰岛素抵抗中起着因果作用。自然。2006;440:944–948.[公共医学][谷歌学者]
Huh WK、Falvo JV、Gerke LC、Carroll AS、Howson RW、Weissman JS、O'Shea EK。芽殖酵母中蛋白质定位的全局分析。自然。2003;425:686–691.[公共医学][谷歌学者]
Huttemann M，Jaradat S，Grossman LI。哺乳动物的细胞色素c氧化酶包含一种睾丸特异性的VIb亚单位亚型，与睾丸特异性细胞色素c？分子繁殖和发育。2003;66:8–16.[公共医学][谷歌学者]
Jansen R、Yu H、Greenbaum D、Kluger Y、Krogan NJ、Chung S、Emili A、Snyder M、Greenblatt JF、Gerstein M。从基因组数据预测蛋白质相互作用的贝叶斯网络方法。科学（纽约州纽约市。2003;302:449–453.[公共医学][谷歌学者]
Janssen RJ、Nijtmans LG、van den Heuvel LP、Smeitink JA。线粒体复合体I：结构、功能和病理。遗传性代谢病杂志。2006;29:499–515.[公共医学][谷歌学者]
Johnson DT、Harris RA、French S、Blair PV、You J、Bemis KG、Wang M、Balaban RS。哺乳动物线粒体蛋白质组的组织异质性。美国生理学杂志。2007;292：C689–697。[公共医学][谷歌学者]
Kirby DM、Crawford M、Cleary MA、Dahl HH、Dennett X、Thorburn DR。呼吸链复合物I缺乏：一种诊断不足的能量生成障碍。神经病学。1999;52:1255–1264.[公共医学][谷歌学者]
Kislinger T、Cox B、Kannan A、Chung C、Hu P、Ignatchenko A、Scott MS、Gramolini AO、Morris Q、Hallett MT等。小鼠器官和细胞器蛋白表达的全球调查：蛋白质组学和转录组学联合分析。单元格。2006;125：173–186。[公共医学][谷歌学者]
Kumar A、Agarwal S、Heyman JA、Matson S、Heidtman M、Piccirillo S、Umansky L、Drawid A、Jansen R、Liu Y等。酵母蛋白质组的亚细胞定位。基因发育。2002;16:707–719. [PMC免费文章][公共医学][谷歌学者]
Lamesch P、Li N、Milstein S、Fan C、Hao T、Szabo G、Hu Z、Venkatesan K、Bethel G、Martin P等人。hORFeome v3.1：代表10000多个人类基因的人类开放阅读框架资源。基因组学。2007;89：307–315。 [PMC免费文章][公共医学][谷歌学者]
Lopez MF、Kristal BS、Chernokalskaya E、Lazarev A、Shestopalov AI、Bogdanova A、Robinson M.使用亲和力分离和自动化对线粒体蛋白质组进行高通量分析。电泳。2000;21：3427–3440。[公共医学][谷歌学者]
Lowell BB，Shulman GI。线粒体功能障碍和2型糖尿病。科学（纽约州纽约市。2005;307:384–387.[公共医学][谷歌学者]
Mootha VK、Bunkenborg J、Olsen JV、Hjerrild M、Wisniewski JR、Stahl E、Bolouri MS、Ray HN、Sihag S、Kamal M等。小鼠线粒体蛋白质组成、组织多样性和基因调控的综合分析。单元格。2003年a；115:629–640.[公共医学][谷歌学者]
Mootha VK、Handschin C、Arlow D、Xie X、St Pierre J、Sihag S、Yang W、Altshuler D、Puigserver P、Patterson N等。Erralpha和Gabpa/b指定糖尿病肌肉中改变的PGC-1alpha依赖性氧化磷酸化基因表达。美国国家科学院院刊。2004;101:6570–6575. [PMC免费文章][公共医学][谷歌学者]
Mootha VK、Lindgren CM、Eriksson KF、Subramanian A、Sihag S、Lehar J、Puigserver P、Carlsson E、Ridderstrale M、Laurila E等。参与氧化磷酸化的PGC-1α应答基因在人类糖尿病中协调下调。自然遗传学。2003年b；34:267–273.[公共医学][谷歌学者]
Ogilvie I、Kennaway NG、Shoubridge EA。线粒体复合物I组装的分子伴侣在进行性脑病中发生突变。临床研究杂志。2005;115:2784–2792. [PMC免费文章][公共医学][谷歌学者]
Pellegrini M，Marcotte EM，Thompson MJ，Eisenberg D，Yeates TO。通过比较基因组分析分配蛋白质功能：蛋白质系统发育图谱。美国国家科学院院刊。1999;96:4285–4288. [PMC免费文章][公共医学][谷歌学者]
Prokisch H、Andreoli C、Ahting U、Heiss K、Ruepp A、Scharfe C、Meitinger T.MitoP2：线粒体蛋白质组数据库——现在包括小鼠数据。核酸研究。2006;34：D705–711。 [PMC免费文章][公共医学][谷歌学者]
Rahman S、Blok RB、Dahl HH、Danks DM、Kirby DM、Chow CW、Christodoulou J、Thorburn DR.Leigh综合征：临床特征、生化和DNA异常。神经病学年鉴。1996;39:343–351.[公共医学][谷歌学者]
Reinders J、Zahedi RP、Pfanner N、Meisinger C、Sickmann A.关于完整酵母线粒体蛋白质组：线粒体蛋白质组的多维分离技术。蛋白质组研究杂志。2006;5:1543–1554.[公共医学][谷歌学者]
Root DE，Hacohen N，Hahn WC，Lander ES，Sabatini DM。慢病毒RNAi文库的基因组尺度功能丧失筛查。自然方法。2006;三:715–719.[公共医学][谷歌学者]
Saada A、Edvardson S、Rapoport M、Shaag A、Amry K、Miller C、Lorberboum-Galski H、Elpeleg O。C6ORF66是线粒体复合物I的组装因子。美国人类遗传学杂志。2008;82:32–38. [PMC免费文章][公共医学][谷歌学者]
夏皮拉AH。线粒体在帕金森病的病因和发病机制中的作用。柳叶刀神经学。2008;7:97–109.[公共医学][谷歌学者]
Schon EA，Manfredi G.神经元变性和线粒体功能障碍。临床研究杂志。2003;111:303–312. [PMC免费文章][公共医学][谷歌学者]
Sickmann A、Reinders J、Wagner Y、Joppich C、Zahedi R、Meyer HE、Schonfisch B、Perschil I、Chacinska A、Guiard B等。酿酒酵母线粒体的蛋白质组。美国国家科学院院刊。2003;100:13207–13212. [PMC免费文章][公共医学][谷歌学者]
Su AI、Wiltshire T、Batalov S、Lapp H、Ching KA、Block D、Zhang J、Soden R、Hayakawa M、Kreiman G等。小鼠和人类蛋白编码转录体的基因图谱。美国国家科学院院刊。2004;101:6062–6067. [PMC免费文章][公共医学][谷歌学者]
Taylor SW、Fahy E、Zhang B、Glenn GM、Warnock DE、Wiley S、Murphy AN、Gaucher SP、Capaldi RA、Gibson BW等。人类心脏线粒体蛋白质组的表征。国家生物技术。2003;21:281–286.[公共医学][谷歌学者]
Vogel RO、Janssen RJ、Ugalde C、Grovenstein M、Huijbens RJ、Visch HJ、van den Heuvel LP、Willems PH、Zeviani M、Smeitink JA等。人类线粒体复合物I组装由NDUFAF1介导。FEBS期刊。2005;272:5317–5326.[公共医学][谷歌学者]
华莱士特区。代谢性和退行性疾病、衰老和癌症的线粒体范式：进化医学的曙光。遗传学年度回顾。2005;39:359–407. [PMC免费文章][公共医学][谷歌学者]