High-throughput, pooled sequencing identifies mutations in NUBPL and FOXRED1 in human complex I deficiency

Sarah E Calvo; Elena J Tucker; Alison G Compton; Denise M Kirby; Gabriel Crawford; Noel P Burtt; Manuel A Rivas; Candace Guiducci; Damien L Bruno; Olga A Goldberger; Michelle C Redman; Esko Wiltshire; Callum J Wilson; David Altshuler; Stacey B Gabriel; Mark J Daly; David R Thorburn; Vamsi K Mootha

doi:10.1038/ng.659

自然遗传学。作者手稿；PMC 2011年4月1日提供。

以最终编辑形式发布为：

自然遗传学。2010年10月；42(10): 851–858.

2010年9月5日在线发布。数字对象标识：10.1038/ng.659

PMCID公司：项目经理2977978

美国国立卫生研究院：美国国立卫生研究院228290

PMID：20818383

高通量联合测序可识别NUBPL公司和FOXRED1系列人类复合物I缺乏

萨拉·卡尔沃,^1,^2,^三，^* 埃琳娜·塔克,^4,^5,^* 艾莉森·康普顿,^4,^* 丹尼斯·M·柯比,⁴ 加布里埃尔·克劳福德,^三诺埃尔·P·伯特,^三曼努埃尔·里瓦斯,^1,^三坎迪斯·吉杜奇,^三达米安·布鲁诺,⁴ 奥尔加·A·戈德伯格,^1,² 米歇尔·雷德曼,^三埃斯科·威尔特郡,^6,⁷ Callum J Wilson公司,⁸ 大卫·阿特舒勒,^1,^三，⁹ 斯泰西·B·加布里埃尔,^三马克·J·戴利,^1,^三大卫·R·托本,^4,^5,^†和瓦姆西·K·穆塔^1,^2,^三，^†

萨拉·卡尔沃

¹马萨诸塞州波士顿马萨诸塞总医院人类基因研究中心

²哈佛医学院系统生物学系，马萨诸塞州波士顿

^三哈佛大学布罗德学院和麻省理工学院，马萨诸塞州剑桥

查找文章依据萨拉·卡尔沃

埃琳娜·塔克

⁴澳大利亚墨尔本皇家儿童医院默多克儿童研究所和维多利亚临床遗传学服务

⁵澳大利亚墨尔本墨尔本大学儿科

查找文章依据埃琳娜·塔克

艾莉森·康普顿

⁴澳大利亚墨尔本皇家儿童医院默多克儿童研究所和维多利亚临床遗传学服务

查找文章依据艾莉森·康普顿

丹尼斯·M·柯比

⁴澳大利亚墨尔本皇家儿童医院默多克儿童研究所和维多利亚临床遗传学服务

查找文章依据丹尼斯·M·柯比

加布里埃尔·克劳福德

^三哈佛大学和麻省理工学院博德学院，马萨诸塞州剑桥

查找文章依据加布里埃尔·克劳福德

诺埃尔·P·伯特

^三哈佛大学和麻省理工学院博德学院，马萨诸塞州剑桥

查找文章依据诺埃尔·P·伯特

曼努埃尔·A·里瓦斯

¹马萨诸塞州波士顿马萨诸塞总医院人类基因研究中心

^三哈佛大学和麻省理工学院博德学院，马萨诸塞州剑桥

查找文章依据曼努埃尔·A·里瓦斯

坎迪斯·吉杜奇

^三哈佛大学和麻省理工学院博德学院，马萨诸塞州剑桥

查找文章依据坎迪斯·吉杜奇

达米安·布鲁诺

⁴澳大利亚墨尔本皇家儿童医院默多克儿童研究所和维多利亚临床遗传学服务

查找文章依据达米安·布鲁诺

奥尔加·A·戈德伯格

¹马萨诸塞州波士顿马萨诸塞总医院人类基因研究中心

²哈佛医学院系统生物学系，马萨诸塞州波士顿

查找文章依据奥尔加·A·戈德伯格

米歇尔·雷德曼

^三哈佛大学和麻省理工学院博德学院，马萨诸塞州剑桥

查找文章依据米歇尔·雷德曼

埃斯科·威尔特郡

⁶新西兰惠灵顿奥塔哥惠灵顿大学儿科和儿童健康系

⁷新西兰惠灵顿首都和海岸地区卫生局中央区域遗传服务

查找文章依据威尔特郡埃斯科

Callum J Wilson公司

⁸新西兰奥克兰Starship儿童医院国家代谢服务

查找文章依据Callum J Wilson公司

大卫·阿特舒勒

¹马萨诸塞州波士顿马萨诸塞总医院人类基因研究中心

^三哈佛大学和麻省理工学院博德学院，马萨诸塞州剑桥

⁹马萨诸塞州波士顿哈佛医学院遗传学系

查找文章依据大卫·阿特舒勒

斯泰西·B·加布里埃尔

^三哈佛大学和麻省理工学院博德学院，马萨诸塞州剑桥

查找文章依据斯泰西·B·加布里埃尔

马克·J·戴利

¹马萨诸塞州波士顿马萨诸塞总医院人类基因研究中心

^三哈佛大学和麻省理工学院博德学院，马萨诸塞州剑桥

查找文章依据马克·J·戴利

大卫·R·托本

⁴澳大利亚墨尔本皇家儿童医院默多克儿童研究所和维多利亚临床遗传学服务

⁵澳大利亚墨尔本墨尔本大学儿科

查找文章依据大卫·R·托本

Vamsi K Mootha公司

¹马萨诸塞州波士顿马萨诸塞总医院人类基因研究中心

²哈佛医学院系统生物学系，马萨诸塞州波士顿

^三哈佛大学和麻省理工学院博德学院，马萨诸塞州剑桥

查找文章依据Vamsi K Mootha公司

作者信息版权和许可证信息 PMC免责声明

关联数据

补充资料: 1
NIHMS2228290-补充-1.pdf（762K）
GUID:CBC5A16B-F138-4934-9792-A66378F7405D
2
NIHMS228290-补充-2.xls（104K）
GUID:0AD9C5B1-30CE-404D-8DD7-A02F6EF2CEF7

数据可用性声明: 补充表2提供了所有经验证的患者变体的详细数据，并可根据要求提供7个合并序列数据文件（BAM格式）。

摘要

鉴于线粒体和核基因都涉及大量基因，发现线粒体呼吸链疾病的分子基础具有挑战性。我们报告了一种聚焦候选基因预测、高通量测序和实验验证的策略，以揭示线粒体复合物I（CI）疾病的分子基础。我们从103名患者的队列中创建了五个DNA库，然后对103个候选基因进行了深度测序，以发现151个预测会影响蛋白质功能的罕见变异。我们使用验证性实验对22%的未解决病例进行了基因诊断，并发现NUBPL公司和FOXRED1系列可能导致CI缺乏。我们的研究表明，大规模测序，结合功能预测和实验验证，可以揭示单个患者中新的致病突变。

线粒体呼吸链复合物I（CI）是由核基因组和线粒体基因组编码的45个蛋白亚基组成的~1MDa大分子机器。CI是呼吸链的主要入口点，催化电子从NADH转移到泛醌，同时泵送质子穿过线粒体内膜。CI活性缺陷是人类呼吸链疾病中最常见的类型，其总发病率为5000例活产婴儿中的1例¹CI缺乏症可出现在婴儿期或成年早期，表现出广泛的临床表现，包括Leigh综合征、骨骼肌肌病、心肌病、张力减退、中风、共济失调和乳酸酸中毒²^–⁴鉴于CI缺乏症的临床和遗传异质性，其诊断具有挑战性，通常依赖于活检材料的生化评估⁵^,⁶估计表明，大约15-20%的孤立CI缺乏症病例是由线粒体DNA突变引起的，而其余的可能是由核缺陷引起的⁷^,⁸尽管这些突变中的大多数仍然未知。

迄今为止，已经通过候选基因测序、连锁分析或纯合子作图确定了25个人类CI缺乏症基因。这些包括复合体的19个亚单位（7个mtDNA基因，12个核基因）和6个核编码的辅助因子，它们是复合体正确组装、稳定或成熟所必需的(补充表1). 组装较小的复合物IV所需的20个因素表明，可能需要更多的组装因素⁹以及通过队列研究，估计只有一半的CI患者的已知基因发生突变¹⁰^–¹³.

CI活性所需的其他蛋白质可能存在于线粒体中，并有助于其组装和调节。为了系统地预测这些蛋白质，我们结合了线粒体蛋白质的MitoCarta最新清单¹⁴通过系统发育分析进行功能预测¹⁵^,¹⁶Ogilvie及其同事最初使用系统发育分析来确定CI组装因子NDUFAF2型¹⁷。我们将此方法推广到34个其他候选对象¹⁴其中三个已被证明含有导致遗传性CI缺乏症的突变¹⁴^,¹⁸^,¹⁹剩余的预测，结合所有已知的CI结构亚单位和组装因子，组成了一组103个人类CI缺乏候选基因(补充表1).

最近的技术进步²⁰提供了在具有CI缺乏的临床和生物化学证据的患者队列中对所有103个候选基因进行测序的前景。这种“大规模并行”测序技术在每次运行中都会产生大量序列，远远超过在单个患者中查询103个候选基因所需的数量。因此，我们使用混合测序方法来评估许多个体的候选基因外显子。我们从约20个个体、选定的靶区创建了DNA库，测序到很深的深度，并检测到每个库中存在的新变体(图1). 然后，我们使用基因分型技术在所有患者中对这些新发现的变异以及之前报道的致病突变进行分型。最后，我们使用包括患者成纤维细胞中cDNA拯救在内的分子方法确认了优先变体的致病性。

在单独的窗口中打开

图1

Mito10K项目的示意图概述。

在这里，我们报告了我们项目的结果，我们称之为“Mito10K”，反映了103名CI缺乏患者中103个候选基因的序列。

结果

使用混合测序在CI患者中发现新变异

根据生化评估，我们的103名患者队列中存在“明确的”孤立CI缺乏症。该队列包括60名之前缺乏分子诊断的患者以及43名已建立分子诊断的对照患者(表1和补充表2). 我们还对欧洲HapMap收集的42个健康对照进行了测序。我们将这些个体的DNA组合成5个CI患者池和2个HapMap对照池，每个池包含20或21个个体的DNA。对于每个池，我们进行PCR扩增以捕获145 Kb的目标序列，其中包括653个核编码外显子（138 Kb）和两个mtDNA区域（7 Kb）。PCR反应成功捕获97%的靶碱基。将952个成功的PCR扩增产物以等摩尔数组合，串联，然后剪切以构建文库。使用单个Illumina Genome Analyzer流式细胞对7个库进行测序，每个通道一个池（见方法）。

表1

患者队列的临床和其他特征

	患有以下疾病的患者：
临床诊断	线粒体DNA突变	核突变	未知突变
Leigh综合征	11	6	15
其他线粒体脑病	三	1	13
心肌病/脑病	0	2	12
LIMD有限公司	2	6^一	9
熔化物	6	0	0
线粒体肌病	2	0	5
线粒体细胞病	1	0	三
线粒体肝病	0	三	2
VCFS/DiGeorge Plus公司	0	0	1
总计	25	18	60
血缘关系	0	7	6
家族史^b条：确定，可能	7, 9	9, 0	9, 9
成纤维细胞缺陷^c（c）（测试次数）	17 (20)	10 (15)	18 (32)

在单独的窗口中打开

^一2名患者受到影响，终止了产前诊断，并假设诊断与先证者相同。

^b条线粒体疾病的家族史

^c（c）患者成纤维细胞中存在CI酶缺陷

缩写：LIMD，致死性婴儿线粒体疾病；MELAS、线粒体脑病、乳酸中毒、中风样发作；VCFS，Velo-Cardio-Faci综合征；

高通量测序为每个池生成了大量高质量数据(补充表3). 我们以≥100倍的覆盖率捕获了90%的核目标区域，每个池的平均覆盖率为3359倍，相当于每个人的平均覆盖度为168倍(补充图1). 大约10%的核目标区域覆盖不良，主要是由于GC含量偏斜(补充图1). mtDNA靶区显示出更高的覆盖率（10144X中位数覆盖率）。然而，由于全基因组扩增带来的偏差，合并样本中的线粒体DNA在患者中的分布并不均匀(补充图2). 例如，在一个群体中，96%的线粒体DNA来自单个患者。尽管如此，mtDNA的深度覆盖允许在一些代表性较差的样本中发现变异。

接下来，我们的目标是在混合样本中识别低频单核苷酸变体（SNV）和小插入/缺失变体（indels）。考虑到个别Illumina读数估计有1%的错误率，检测1:40染色体中的等位基因具有内在的挑战性。因此，我们开发了一种称为Syzygy的方法，以经验估计每个基准的错误率，从而自信地识别罕见的变体（Rivas等.，手稿正在准备中，以及补充说明). 使用此方法，我们在患者群中检测到652个高置信度变体(表2). 为了提高灵敏度，我们额外应用了特别的识别每个链上至少3个读取支持的246个低置信度变体的方法(表2). 我们共鉴定出898个高、低置信度变异。

表2

在共用测序发现屏幕中检测到的变体数。

变量类型	高置信度变量调用			低置信度变量调用
变量类型	在患者中检测到	可能有害	已验证	在患者中检测到	可能有害	已验证
美国国家数据局
胡说	三	2	1	5	5	1
错义	131	60	51	97	86	9
剪接	78	28	22	40	16	2
同义的	92	0	0	33	0	0
UTR公司	214	0	0	71	0	0
编码索引	三	三	三	0	0	0
线粒体DNA
胡说	0	0	0	0	0	0
错义	37	14	12	0	0	0
同义的	85	0	0	0	0	0
非编码	9	2	2	0	0	0
总计	652	109	91	246	107	12

在单独的窗口中打开

接下来，我们使用患者对照组和HapMap对照组中已知的基因型评估了这898个变异的准确性²¹总的来说，我们对存在于≥100个读数的核DNA位点的对照SNV实现了92%的灵敏度和99.6%的特异性（见方法和补充表3). 我们注意到，这种高灵敏度是由于许多HapMap控制变异体的深序列覆盖和相对较高的等位基因频率所致(补充图3). 然而，正如预期的那样，我们观察到对罕见核变异的敏感性较低：双核体86%，单核体66%。对于mtDNA变体，我们在HapMap对照组的基因组DNA中获得了较高的敏感性和特异性（分别为96%和100%），但由于mtDNA在每个库中的分布不均匀，因此对患者对照组的敏感性要低得多（32%）。根据读取计数估计的次要等位基因频率与HapMap库中的预期频率密切相关（R²=0.96），表示混合测序协议的高保真度(补充图3).

接下来，我们对898个已发现的变异体进行了优先排序，以将我们的注意力集中在那些可能构成罕见且破坏性表型的变异上(图2a). 简单地说，我们筛选出：（i）健康个体中存在的变异，基于HapMap对照，dbSNP²²，mtDB²³，以及1000基因组项目的试点数据，（ii）同义变体，以及（iii）非编码变体，除非它们对应于tRNA或剪接位点。利用人类基因突变数据库（HGMD）中8189个疾病相关剪接变异体的训练数据，选择了8个剪接位点位置²⁴(图2b). 此外，我们在进化保守性低的位点筛选出错义变体，因为根据训练数据，这些位点的致病性突变频率降低(图2c). 有关详细信息，请参见方法。使用这些过滤器，我们优先对109个被认为“可能有害”的高置信变异体和107个低置信变异物进行基因分型。

在单独的窗口中打开

图2

在混合测序发现屏幕中检测到的“可能有害”变体的定义。（a）高置信和低置信变异体的条形图，按预测的有害后果分类。（b） HGMD中注释的已知疾病相关剪接变异体直方图²⁴根据最近剪接供体和剪接受体外显子（黑色矩形）的相对位置。虚线表示频率阈值，星号表示“可能有害”的拼接位置。（c）为训练数据显示的氨基酸保护分数直方图（44个对齐脊椎动物外显子中氨基酸相同的物种数量）：HGMD中注释为疾病相关的错义变体（红色曲线）或dbSNP128中出现的错义变异体（蓝色曲线）。虚线表示“可能有害”变体所需的最小保护。

总之，在我们的CI患者对照组中，发现筛查和“可能有害”变体的严格定义捕获了18/23（78%）的因果核变体和7/25（28%）的原因线粒体DNA变体。该方法在发现筛选中漏掉了4个核和17个mtDNA变体，并筛选出1个位于4bp内含子的核剪接变体和1个mtDNA错义变异体，该变异体位于一个保守性较差的位点(补充表2).

CI患者先前已知和新发现的变异基因分型

我们的下一个目标是对每个患者样本中发现的“可能有害”变异以及之前已知的疾病变异进行基因分型(补充表4和方法）。基因分型有多种用途。首先，有必要从共用发现屏幕验证新变体。其次，它使我们能够搜索之前已知的CI缺乏的突变，这些突变由于缺乏能量而没有在我们的发现屏幕中检测到（例如mtDNA变体）。第三，它允许我们将变体分配给单个患者。

在新发现的“可能有害”变体中，我们验证了84%的高置信度变体，正如预期的那样，只有11%的低置信度变体(补充表4). ‘根据101个额外的高置信度变异基因型，不太可能有害的变异具有较高的96%验证率(补充表4). 由于Sequenom基因型对极为罕见的变异的假阳性率估计为11%，因此我们使用Sanger测序进一步验证了特别感兴趣的SNV(补充说明). 在我们识别出感兴趣的杂合变异体的一个子集中，我们使用桑格测序法对基因进行完全重测序。

总的来说，我们验证了151种“可能有害”的患者变异，对应于115个独特的基因座（91个高置信度，12个低置信度，和12个在发现筛选中遗漏的致病性变异）。详细数据见补充表2我们发现，与欧洲对照组相比，我们的患者队列中“可能有害”变体的频率更高，尽管这种富集可能是由于血统差异所致(补充说明).

CI患者中新发现的突变等位基因

有了Mito10K序列数据，我们接下来在60名未确诊患者的队列中寻找纯合子、复合杂合子和致病性mtDNA变体(图3). 我们预计许多患者在已知的疾病相关基因中会有纯合子或两个杂合子变体，这与隐性遗传一致。我们将这些变体称为“隐性型”。

在单独的窗口中打开

图3

60名CI缺乏症患者，之前未经基因诊断，按每个基因检测到的“可能有害”变体类型进行分类。红色表示可能存在致病性变体的患者，蓝色表示存在显著性不确定变体（VUS）的患者，灰色表示没有“可能有害”变体的患者。方框中列出了每个患者中包含“可能有害”变体的基因。黑色三角形表示新的实验确定的基因诊断。^{a、 b条}指出受影响的兄弟姐妹对。

只有3名患者之前报告过致病性线粒体DNA突变，只有8名患者在已知疾病基因中有隐性突变，包括5个新突变和2个先前报告的突变(表3). 有趣的是，2名患者的候选疾病基因存在隐性突变(NUBPL、FOXRED1) (表3). 其余患者包括3名临床意义不明的线粒体DNA“可能有害”变异，17名临床意义未知的杂合子“可能有害的”核变异，27名无“可能有害“变异(补充表2).

表3

13例CI缺乏症的新基因诊断

病人	临床诊断	遗传诊断	纯合子变体	杂合变体	支持性证据
DT58型	恩茨山	公司（ND3 het.）		ND3:m.10197G>A，p.A47T	已知疾病变体²⁵，血液中约90%的突变负荷
DT55型	LS（负载感应）	公司（ND5 het.）		ND5:m.13094T>C，第V253A页，C2或56:c.208C>G，p.P70A	已知疾病变体²⁶，肌肉中约60%的突变负荷
DT20型	LIMD有限公司	公司（MT-TW hom.）	MT-TW:m.5567T>C，ND2:m.4890A>G，p.I141V，ND5:m.13676A>G，p.N447S	TMEM22:c.500G>A，p.R167Q	已知疾病变体²⁶，血液、肌肉、肝脏和成纤维细胞中100%同质
DT37型^一	LS（负载感应）	公司（NDUFS4 cmpd het.）	DCI:c.392T>c，p.L131P	NDUFS4:c.462delA，p.K154NfsX34，NDUFS4：c.99-1G>A，p.S34IfsX4，NDUFS2:c.96-3C>T，GAD1:c.990A>T，p.E330D	已知疾病变体¹⁰,30、重新设置、拼接
DT38型^一	LS（负载感应）	公司（NDUFS4 cmpd het.）		NDUFS4:c.462delA，p.K154NfsX34，NDUFS4：c.99-1G>A，p.S34IfsX4，GAD1:c.990A>T，p.E330D DCI:c.392T>c，p.L131P	已知疾病变体¹⁰,30，重新设置，拼接，NDP
DT107型	LS（负载感应）	公司（NDUFS4 cmpd het。^*)		NDUFS4:c.351-2A>G^*，NDUFS4:c.99-1G>A，p.S34IfsX4	已知疾病变体¹⁰、seg、reseq、拼接、保护、NDP
数字67^b条	LS（负载感应）	公司（NDUFAF2 hom。^*)	NDUFAF2：约103delA，p.I35SfsX17^*	GPAM:c.1340C>T，p.T447M	NDP、重新铺设、拼接、保护
DT68型^b条	LS（负载感应）	公司（NDUFAF2 hom。^*)	NDUFAF2：约103delA，p.I35SfsX17^*	GPAM:c.1340C>T，p.T447M	NDP、重新铺设、拼接、保护
数据传输16	LS（负载感应）	公司（NDUFA2 hom。^*)	NDUFAF2:c.221G>A，p.W74X^*		NDP，250K SNP，重新铺设，拼接
数据传输3	LIMD有限公司	可能（NDUFV1 hom。^*)	NDUFV1:c.1129G>A，第E377K页^*	C20或7:c.412G>A，p.V138I	250K SNP，保留。NADH 4Fe-4S域
DT61型	Mt enc公司	可能（NDUFS8 hom。^*)	NDUFS8:c.460G>A，第G154S页^*	NDUFV3:c.826G>A，p.E276K	Fer4域中的seg，reseq，守恒
DT35型	Mt enc公司	公司（NUBPL cmpd het。^*)		[NUBPL:c.166G>答，p.G56R^*+NUBPL:c.815-27T>c，p.D273QfsX31^*]，[chr14:g.（30932976_30953766）_（31193278_31194846）del^*+chr14：克（31211800_31212780）_（31345080_31350225）dup^*],NDUFB9:c.290A>G，p.Y97C	救援、重置、保护、拼接
DT22型	LS（负载感应）	公司（FOXRED1 cmpd het。^*)		FOXRED1:c.694C>T，第Q232X页^*，FOXRED1:c.1289A>G，p.N430S^*,NIPSNAP1:c.215A>G，p.Y72C	救援、重置、保护、拼接

在单独的窗口中打开

^{a、 b条}受影响的兄弟姐妹对

^*新变体，以前未报道

粗体表示可能的因果变量。

缩写：线粒体脑病；LS，Leigh综合征；致死性婴儿线粒体疾病；高阶模。，纯合/同质；高度。，杂合/异质，cmpd het。，复合杂合子；抢救患者成纤维细胞CI缺陷证实其致病性；SDS-PAGE和western blot检测无蛋白NDP；分离，变异与家族疾病分离；基因组DNA Sanger测序证实的Reseq变异；患者成纤维细胞cDNA+/−CHX中观察到剪接、剪接缺陷；保护，氨基酸在≥30/44种脊椎动物中得到保护；250K SNP，Affymetrix 250K纯合区标准普尔SNP芯片。

在已知疾病基因中建立11个患者诊断

接下来，我们评估了3例mtDNA突变患者中检测到的变异体的致病性ND3号机组²⁵,ND5型²⁶、和MT-TW公司²⁶)以及之前报道的CI疾病基因中具有隐性变异的8名患者：NDUFS4型¹⁰^,²⁷^–³¹,NDUFAF2型¹⁷,NDUFV1型³²、和NDUFS8型³³(表3). 除下文所述外，所有其他患者和已测序的HapMap样本中均未发现患者突变。

我们确定了一部小说和两部之前报道的小说NDUFS4型3例Leigh综合征患者的基因突变(表3和补充图4). 兄弟姐妹DT37和DT38是报告突变c.462delA的复合杂合子（p.K154NfsX34）³⁰和c.99-1G>A（p.S34IfsX4）¹⁰无血缘关系的患者DT107是同一c.99-1G>A突变和一个新突变c.351-2A>G的复合杂合子，分别遗传自其父亲和母亲。生物信息学RT-PCR分析表明，c.99-1G>A和c.351-2A>G突变均改变NDUFS4型拼接。DT107基因组DNA中检测到杂合c.351-2A>G突变，但在cDNA+/-环己酰亚胺（CHX）中未检测到该突变，表明mRNA高度不稳定。对DT38和DT107患者的成纤维细胞进行Western blot分析，未检测到NDUFS4蛋白。这是关于c.99-1G>A突变的第二次报道¹⁰和第三个c.462delA突变²⁸^,³⁰不仅仅是暗示NDUFS4型显示了Leigh综合征的复发突变，但该基因中可能存在一些以前未被识别的创始突变。

我们还发现了新的纯合突变NDUFAF2型3名Leigh综合征患者(表3和补充图5). 一名近亲患者DT16在6.3Mb纯合子区域（由Affymetrix 250K确定）内含有纯合c.221G>A突变（p.W74X）标准普尔SNP芯片）。兄弟姐妹DT67和DT68携带纯合子c.103delA突变（p.I35SfsX17）。患者成纤维细胞的cDNA分析表明NDUFAF2型含有这些突变的转录本是稳定的。此外，DT16的c.221G>A无义突变（位于外显子3的4bp处）导致外显子2偶尔跳跃，这也产生了一个编码截短蛋白的转录物（p.A73GfsX5）。通过western blot分析，所有三名患者均缺乏任何可检测到的NDUFAF2蛋白，这表明截短的蛋白产物是不稳定的。

一种新型纯合子NDUFV1型突变（c.1129G>A，p.E377K）在2.1Mb纯合子区域被鉴定（由Affymetrix 250K测定标准普尔SNP芯片）在一名患有致命婴儿线粒体疾病（LIMD）的黎巴嫩血缘患者DT3中(表3和补充图6). 未受影响的父母都是杂合携带者。这种突变在铁硫结合位点（pfam10589）的共识基序中引入了一个带正电的残基，该位点在真核生物物种中高度保守。

我们发现了一种新的纯合子NDUFS8型苏丹DT61患者线粒体脑病突变（c.460G>A，p.G154S）(表3和补充图7). 这种突变影响一种高度保守的氨基酸，并改变高度保守的Fer4 4Fe-4S铁硫簇结合域（pfam00037）内的极性。该突变与该家族的疾病分离，受影响的兄弟姐妹也是纯合的，而未受影响的父母都是杂合携带者。

潜在CI缺乏的新基因：NUBPL公司和FOXRED1系列

在我们的60名患者中，我们还发现了两个以前与CI缺乏症无关的基因的隐性突变：NUBPL公司和FOXRED1系列.

患者DT35表现为线粒体脑肌病，并被发现含有明显的纯合子NUBPL公司：c.166G>A突变(补充图8). 我们没有在204条其他患者染色体或84条已测序的HapMap控制染色体中检测到这种突变。据预测，这种突变会导致精氨酸（p.G56R）取代高度保守的甘氨酸残基，精氨酸是TargetP预测的线粒体靶向序列切割位点的18个氨基酸(补充图8). 虽然患者的父亲是这种突变的杂合基因，但母亲没有携带这种突变(补充图8). 为了确定母亲是否传播了涉及外显子2这一部分的缺失，我们对DT35的DNA进行了基于Affymetrix阵列的细胞遗传学分析。我们检测到一个复杂的染色体重排，包括一个240Kb的缺失，该缺失跨越了结节和涉及第7外显子的a~130Kb重复NUBPL公司如所示补充图8接下来，我们评估了NUBPL公司DT35中存在mRNA物种。RT-PCR显示全长转录物的表达非常低，而主要的mRNA物种是一个较短的片段(补充图8). 测序结果表明，较短的片段是由外显子10跳跃引起的，它含有c.166G>A突变，表明它是父系等位基因。没有证据表明母体等位基因表达。为了确定外显子10跳跃的原因，我们对外显子十和侧翼内含子区域（之前高通量序列覆盖率低的区域）进行了Sanger测序。发现一个c.815-27T>c突变，该突变预计会消融一致性分支序列。这种突变存在于2/232条白种人控制染色体中。因此，DT35包含一个NUBPL公司包含跨外显子1-4缺失的等位基因和包含p.G56R错义突变和可能导致外显子10跳跃的c.815-27T>c突变的第二个等位基因。

我们进行了一项互补实验，以评估将野生型cDNA引入患者成纤维细胞是否挽救了CI活性的缺陷。该患者的成纤维细胞表现出强烈的CI缺陷，用分光光度酶分析法测定时仅有19%的残余CI活性，用试纸酶分析法检测时仅有40%的残余CI活动。使用慢病毒表达系统，我们用野生型cDNA转导了患者成纤维细胞。野生型的表达NUBPL公司抢救患者的CI活动NUBPL公司突变，但未改变对照成纤维细胞或患者成纤维细胞的CI活性FOXRED1系列突变(图4a)，建立NUBPL公司作为本例的致病基因。

在单独的窗口中打开

图4

NUBPL公司和FOXRED1系列患者成纤维细胞CI缺陷的cDNA修复。条形图显示CI活性，通过CIV活性标准化，在用野生型转导之前和之后在对照和患者成纤维细胞中测量NUBPL-V5信使核糖核酸（a）或野生型FOXRED1-V5mRNA（b）。条形图表示3个生物复制的平均值，误差条形图表示±1 s.e.m。星号表示p<0.01。代表性的量油尺分析如下所示。

尽管我们已经证明了这一点NUBPL公司在该患者的复合物I缺乏症的基础上，我们尚未确定个体突变的致病性。由于其在对照组中流行，c.815-27T>c分支位点突变可能是一个伪缺陷等位基因，如果纯合子产生足够的全长NUBPL公司NUBPL功能的成绩单。然而，当与DT35等位基因为空的基因遗传时，这种突变可能是致病性的。或者，p.G56R错义突变可以消除NUBPL公司功能或可能与分支突变协同作用导致疾病。

患者DT22表现为Leigh综合征，被发现为两种基因突变的复合杂合子FOXRED1系列，c.694C>T（p.Q232X）和c.1289A>G（p.N430S）(补充图9). 在发现筛查中检测到c.694C>T突变，而在204条其他患者染色体或84条HapMap控制染色体中未检测到该突变。c.1289A>G突变位于低覆盖率区域，但随后通过Sanger测序确定FOXRED1系列通过RFLP分析筛选出的102条欧洲祖先的控制染色体中不存在。对用CHX治疗以抑制无义介导的衰变的成纤维细胞的cDNA进行分析，证明存在这两种突变。然而，在没有CHX的情况下，含有c.694C>T（p.Q232X）的转录本无法检测到，而含有c.1289A>G突变的转录本为优势种，这与复合杂合性一致(补充图9). c.1289A>G突变是从患者母亲遗传来的，预计会导致高度保守的天冬酰胺残基被丝氨酸取代（p.N430S）(补充图9). 父亲的DNA无法用于基因分型。患者cDNA的RT-PCR分析还显示，第6外显子偶尔跳跃（包含c.694C>T），这导致一个转录本预计缺少40个内部残基(补充图9).

如上所述，我们在患者成纤维细胞中进行了一项互补实验，以评估狐狸红1CI活动中。该患者的成纤维细胞表现出明显的CI缺陷，用分光光度酶法测定时仅有9%的残余CI活性，用试纸酶法测定则有15%的残余CI活力。我们能够使用慢病毒介导的野生型cDNA拯救这些成纤维细胞中的缺陷FOXRED1系列cDNA，这种拯救是针对这种细胞系的(图4b).

突变数据和互补实验共同支持NUBPL公司和FOXRED1系列作为真诚地分别在DT35和DT22个体中发现CI疾病相关基因。

CI缺乏的突变谱

本文报告的60名患者的大规模发现和验证研究，除了之前在我们的诊断实验室对所有43名其他明确的孤立CI缺乏症患者进行的分子诊断外，还提供了迄今为止最大的CI缺乏症系统测序研究。我们的103名患者队列包括94名无关个体；52%的人现在有明确的基因诊断，包括线粒体DNA突变（29%）、隐性突变（22%）和X连锁突变（1%）导致的诊断(图5). 其中33%存在CI结构亚基突变，6%存在已建立的CI组装因子突变（包括NUBPL公司)线粒体DNA翻译所需的tRNA突变占7%，其他辅助因子（线粒体DNA复制蛋白）突变占4%POLG公司和C10或2、和TAZ公司通过维持线粒体内膜内的心磷脂池维持CI稳定性所需的蛋白质）³⁴，1%的人有非特征性基因突变(FOXRED1系列).

在单独的窗口中打开

图5

94例非血缘患者的基因诊断，按潜在基因功能分组，明确、孤立的复合物I缺乏症。红色表示患者已确认基因诊断，灰色表示没有基因诊断。患者是具有代表性的队列，被选为103名患者序列中的所有无关个体。

讨论

基因组测序技术的进步为解决疾病的遗传基础提供了一个新的机会，甚至从个别病例开始。也许人类遗传学向前发展的主要挑战将是区分致病性等位基因和个体之间过多的良性序列差异。即使在基因组的蛋白质编码部分，每个人也携带大约400-500个蛋白质修饰的罕见变异³⁵^,³⁶最近的几个全基因组测序项目通过使用多个受影响个体来筛选感兴趣的区域，检测了孟德尔病的因果变异，并通过识别具有相同表型的无关个体中的不同突变来确定致病性³⁶^,³⁷虽然这种方法有广泛的用途，但它可能不容易适用于个别的零星病例。

在当前的Mito10K项目中，我们演示了一种替代方法。我们根据功能线索对候选基因进行优先排序，对患者队列进行汇总DNA测序，并确定我们预测有害的新变体。我们方法成功的关键是疾病细胞模型的可用性，利用该模型，我们可以在单个患者中确定新突变的致病性。这种策略原则上可以应用于任何存在细胞表型的疾病。

我们的方法成功地发现了新的致病作用NUBPL公司和FOXRED1.NUBPL公司（核苷酸结合蛋白样），也称为印度1，最近被证明是CI的集合因子³⁸类似于其在酵母中的作用溶脂酵母，人类NUBPL公司对铁/硫簇并入CI亚单位至关重要，其敲除导致CI外周臂组装不当、CI活性降低和线粒体形态异常³⁸^,³⁹。我们现在报告第一个NUBPL公司CI缺乏症患者的突变，2岁时出现发育迟缓、白细胞营养不良和CSF乳酸升高的男性（见补充说明完整的临床描述）。肌肉活检和皮肤成纤维细胞中观察到明显的CI缺乏（相对于对照组，37%和19%的正常活动）。对该患者的DNA进行测序，发现明显的纯合子

NUBPL:p.G56R错义突变，该突变在所有36种脊椎动物中都是保守的。然而，进一步的分析表明，该患者实际上是复合杂合子：一个等位基因同时包含p.G56R错义突变和导致外显子10跳跃的分支位点突变，另一等位基因包含复杂的染色体重排，包括外显子1-4的缺失和外显子7的重复NUBPL公司这位患者强调了2的局限性^第世代排序。未检测到大的缺失，分支位点突变等变异可能被遗漏或忽略。然而，患者成纤维细胞中的CI缺陷通过表达野生型等位基因NUBPL公司从而确立了致病作用NUBPL公司CI缺乏突变。

我们还发现了FOXRED1系列，这是一种无特征的蛋白质，其名称来源于F类依赖AD公牛国际开发组织红色果糖酶蛋白结构域。该基因仅根据其线粒体定位被选为候选基因⁴⁰与CI亚单位共享系统发育图¹⁴。我们检测到FOXRED1系列一名出生时患有先天性乳酸酸中毒并在6岁时被诊断为Leigh综合征的男性婴儿的突变（参见补充说明完整的临床描述）。肌肉活检和成纤维细胞中观察到严重的CI缺乏（相对于柠檬酸合成酶，这两个样品中的CI均为正常对照平均值的9%）。对该患者进行测序发现复合杂合子狐狸红1突变：保守氨基酸中的p.Q232X无义突变和p.N430S错义突变。与NUBPL公司以上，cDNA救援建立FOXRED1系列作为一种新的疾病相关基因。目前的功能FOXRED1系列尚不清楚，尽管它有四个人类同源物(DMGDH公司,萨尔德,PIPOX公司,产品开发审查)在氨基酸分解代谢中进行氧化还原反应，表明氨基酸代谢和CI之间存在潜在联系。

而Mito10K项目在103名CI缺乏症患者中成功识别或证实了一半的致病突变(图5)值得注意的是，我们无法确定其余一半的“吸烟枪”突变。我们的结果与最近一项X连锁精神发育迟滞的测序研究相当⁴¹虽然在一些未确诊的CI患者中，我们检测到可能有助于发病的“可能有害”变体，但大多数患者不包含此类变体。未解决病例中的真正因果变异可能（i）存在于非靶向基因中，（ii）存在于无靶向区域，例如调节区域或未命名外显子，（iii）由于缺乏敏感性而未被检测到，特别是在线粒体DNA中，（iv）包含我们的方法无法检测到的完整外显子或基因缺失，或（v）出现在我们的发现筛查中，但被我们严格的标准过滤掉。此外，在一些患者中，疾病可能是由复杂遗传或表观遗传机制引起的。需要更广泛的测序，结合功能验证，以充分阐明这些剩余病例的分子基础。

在线方法

CI患者和对照

根据前面描述的标准解释的分光光度酶分析，60名患者和43名患者对照组明确诊断为孤立性CI缺乏⁵^,⁴²简单地说，CI活性与柠檬酸合成酶或与复合物II相关的比率要求≤25%的正常值，复合物II、III和IV的归一化活性要求至少比CI活性高两倍(补充图10). 该队列包括1992年至2007年在墨尔本确诊的所有此类患者，但9名患者没有合适的DNA用于测序。

DNA制备和汇集

使用核子DNA提取试剂盒从培养细胞中分离DNA，或通过蛋白酶K消化和盐析从患者组织（骨骼肌或心肌和肝脏）中分离DNA。使用带有100ng输入DNA的QIAGEN REPLI-g™试剂盒对每个患者样本进行全基因组扩增。HapMap样本未进行全基因组扩增。DNA浓度通过在Thermo Scientific Varioskan Flash上检测到的Quant-iT™PicoGreen®dsDNA试剂进行测量。基于两轮量化和稀释，DNA浓度标准化为20ng/μL，得出平均19.2ng/μL浓度（1.56标准偏差）。我们允许10%的偏差，因为这是PicoGreen®定量的精度极限。使用Packard Multiprobe II HT EX自动执行标准化步骤。在整个装置和所有步骤中使用相同的机器人自动化，以确保均匀的移液误差。20或21个样品，然后以等摩尔量汇集。每个患者库包含诊断未知、已知mtDNA突变和已知核突变的患者，计数如下：Pool1=12,5,4；池2=13，5，3；池3=12,5,4；池4=12，5，3；池5=11,5,4。请参见补充说明用于HapMap样本标识符。

目标选择

目标包括来自103个基因位点的111个RefSeq转录本（第29版）的2个mtDNA区域和编码及UTR外显子(补充表1). 使用PRIMER3软件对hg17参考序列（扩增子长度150–600bp，无缓冲区）进行重复设计，并使用三次设计迭代在3个HapMap CEU样本上进行验证。不是我添加尾部是为了为下游串联提供识别站点。使用20 ng全基因组扩增DNA、1×HotStar缓冲液、0.8 mM dNTPs、2.5 mM MgCl对靶区进行PCR扩增₂、0.2单位HotStar酶（Qiagen）和0.25μM正向和反向引物，反应体积为10-μl。PCR循环参数为：一个95°C循环15分钟；35次循环，95°C持续20秒，60°C持续30秒，72°C持续1分钟；然后进行72°C的一个循环，持续3分钟。按照上述要求分别对PCR产物进行量化、归一化和汇总。通过在2%琼脂糖E凝胶上对1kb DNA梯架上的一个PCR产物柱进行测试，以观察PCR产物的大小，从而确定二次确认。然后使用Packard Multiprobe II HT EX将PCR产物汇集到DNA样本池中。

排序

每个合并样本的PCR产物使用不是我适配器并如前所述剪切成碎片⁴³.文库是通过修改的Illumina单端文库协议构建的，通过225–275bp凝胶大小选择和14个PCR周期的PCR富集，然后在Illumiana基因组分析仪上用76个周期进行单端测序。使用MAQ算法将76 bp的读数与基因组对齐⁴⁴在Picard分析管道内，并使用SAMtools软件进行进一步处理⁴⁵和自定义脚本。

变量发现

使用Syzygy算法在目标碱基上检测每个集合样本中的高置信SNV，至少有100个高质量的对齐读取（碱基质量≥20，映射质量>0，每条链上的读取≥30）。高置信度SNV的对数比值（LOD）得分≥3，股特异性LOD>-1.5或Fisher链偏差精确测试>0.1（参见补充说明). 每条链上至少有3个读取支持低自信SNV（基本质量≥20，映射质量>0，每条链上≥200个读取）。从未对齐的读序列中识别出索引，并且在与目标外显子精确匹配20bp之前包含插入/缺失的每条链上有≥10个未对齐读序列支持索引，不包括与均聚物序列相邻的索引（参见补充说明).

根据基因型数据估计发现筛查的敏感性，使用库中≥1个个体与hg18相比含有变异的位点，而在所有个体均含有hg18参考等位基因的位点计算特异性。

根据以下任何标准，变异被标注为“可能有害”：i）根据人工管理和人类基因突变数据库（HGMD）专业版2009.1，以前报告为疾病变异²⁴; ii）存在于线粒体tRNA基因中；iii）存在于5′UTR中并改变上游ORF的存在⁴⁶; iii）存在于剪接位点（剪接受体位点−1、−2、−3和剪接供体位点−1,1,2,3,5，根据包含所有8189个HGMD疾病相关剪接变异体的训练数据选择）；iv）编码索引；v）无义变体；vi）根据从UCSC基因组浏览器下载的多z44向基因组比对，在10个以上的脊椎动物物种中保守的氨基酸的错义变体⁴⁷（请参见补充说明)或PolyPhen-2.0预测为“破坏性”（HumVar训练数据）⁴⁸（请参见补充说明). 如果在42个HapMap对照（dbSNP）中存在先前与疾病无关的变异，则将其排除²²，1000个基因组试点1，或在mtDB中出现>0.005个次要等位基因频率²³基于致病性线粒体DNA突变无症状携带者的频率⁴⁹保护阈值选自训练数据：2009年1月版HGMD中所有与疾病相关的错义变体，以及注释为非同义的所有dbSNP128位点，不包括HGMD中存在的位点。

基因分型

使用Sequenom MassARRAY®iPLEX™GOLD化学分析103例CI患者的全基因组扩增DNA中的SNV⁵⁰在Integrated DNA Technologies，Inc.合成寡核苷酸并进行质谱QCed。所有SNV均在由AssayDesigner v.3.1软件设计的20–38次分析的复合池中进行基因分型，从每个池10ng DNA开始~将7 nl反应加载到预加载有7 nl基质（3-羟基吡啶甲酸）的384孔SpectroCHIP的每个位置。SpectroCHIPs通过MassArray MALDI-TOF Compact系统和固相激光质谱仪在自动模式下进行分析（Bruker Daltonics Inc.，2005）。我们在至少有一个SNV的所有样本中获得了高质量的数据（>95%的基因型呼叫率，HWE P值>0.001，MAF>1%）。变体由实时SpectroCaller算法调用，由SpectroTyper v.4.0软件分析，并手动审查罕见变体。

根据制造商的协议，使用ABI 3130XL和BigDye v3.1终止子（Applied Biosystems）对基因组DNA进行Sanger重测序，以验证缺失和选择的SNV。

克隆

这个FOXRED1系列开放阅读框（ORF）是在pDONR223载体（克隆ID:3956972，开放生物系统）中购买的，并通过网关克隆（Invitrogen）克隆到pLEX TRC970（V5 C末端标记）中。使用该载体的初始实验没有挽救CI活性，因此根据制造商的说明，使用QuikChange II XL定点突变试剂盒（Stratagene）进行定点突变，将密码子343从CCA（脯氨酸）（dbSNP rs17855445）改变为hg18参考密码子GCA（丙氨酸）（引物列于补充表5)生成RefSeq FOXRED1-V5 pDest矢量。通过RT-PCR结合Gateway适配器从MCH58细胞中扩增出全长NUBPL ORF，然后通过Gateways克隆克隆到pLEX TRC970（V5 C末端标记）中，生成NUBPL-V5 pDest载体。

病毒颗粒的产生和转导

HEK-293T细胞在10cm平板上生长至60%汇合，并与包装质粒（pCMV-δ8.91）、假分型质粒（pMD2-VSVg）和NUBPL-V5-pDest或FOXRED1-V5-pDest共转染。根据制造商的方案，使用效应试剂（Qiagen）进行转染。转染后16小时将新鲜培养基应用于细胞，24小时培养后，收集含有包装病毒的上清液，并通过0.45μM膜过滤器过滤。

患者成纤维细胞在6孔板中生长到80%的汇合处，然后在8.75mL总培养基中添加62.5μL NUBPL-V5或125μL FOXRED1-V5病毒颗粒和最终浓度为5μg/ml的聚brene。在更换培养基之前，将平板以2500rpm的转速旋转90分钟，并在37°C下培养24小时。细胞在无抗生素培养基中培养30小时，然后使用含有1μg/mL嘌呤霉素的选择培养基。经过12-20天的选择，收集细胞进行试纸分析。

油尺酶活性测定

根据制造商的方案（Mitosciences），分别对10μg和15μg清除的细胞裂解液进行CI和Complex IV（CIV）试纸活性分析。使用Hamamatsu ICA-1000免疫色谱试纸阅读器进行密度测定。使用双向重复测量方差分析（ANOVA）对各组进行比较，然后使用Bonferroni方法进行事后分析，以确定具有统计学意义的差异。

纯合度映射

利用SNP定位基因芯片确定纯合度标准普尔250 k阵列（Affymetrix），由澳大利亚基因组研究机构执行。使用GCOS客户端软件（Affymetrix）的杂合性丢失（LOH）分析工具对数据进行分析。

逆转录聚合酶链反应

使用RNAspin Mini Kit（Illustra）从培养的患者成纤维细胞中提取RNA，并根据制造商的协议使用SuperScript III第一链合成试剂盒（Invitrogen）生成cDNA。为了分析无义介导的衰变和mRNA剪接，在制备RNA之前，在含有100ng/μL CHX的培养基中培养成纤维细胞24小时⁵¹.PCR引物(补充表5)设计用于在一个PCR产物或重叠片段中扩增整个cDNA。PCR产物要么按照制造商的协议使用ABI 3130XL和BigDye v3.1终止子（Applied Biosystems）直接测序，要么使用MinElute凝胶提取试剂盒（Qiagen）进行凝胶纯化。

SDS-PAGE和western印迹

在含有蛋白酶抑制剂鸡尾酒（Roche）的RIPA缓冲液（50mM Tris pH 8.0，150mM NaCl，1%NP-40，0.5%脱氧胆酸钠和0.1%SDS）中溶解主要对照组和患者成纤维细胞。每个泳道在10%NuPAGE Bis-Tris凝胶（Invitrogen）上运行25-50μg清除的裂解物，将蛋白质转移到PVDF膜（Millipore）上，封闭（PBS含有5%脱脂奶粉，0.05%吐温-20），并与一级抗体在4°C下孵育过夜（一级抗体详细信息和浓度见补充方法). 清洗后，在抗鼠或兔中培养膜^{人力资源计划}二级抗体（以1:10000使用的DakoCytomation）在室温下1小时，并使用ECL或ECL Plus检测试剂开发（Amersham Bioscience）。

RFLP屏幕（FOXRED1:c.1289A>G和NUBPL:c.815-27T>c）

第11外显子FOXRED1系列或第10外显子NUBPL公司PCR扩增(补充表5)从100ng的患者gDNA中，通过凝胶电泳检查产物，用AflIII型或NlaIV公司（新英格兰生物实验室），然后用1%琼脂糖凝胶溶解。

蛋白质印迹抗体

抗体包括1:1000的NDUFS4（MS104，线粒体）、1:10000的Porin（529534，钙生物化学）、复合物II 70kD亚基（A-1142）。分子探针）1:1000，NDUFAF2（来自维多利亚州本杜拉拉筹伯大学Mat McKenzie博士和Michael Ryan教授的礼物）1:5000。

微阵列DNA拷贝数分析

根据制造商的说明，使用Affymetrix GeneChip 2.7M阵列进行全基因组微阵列分析。使用染色体分析套件（ChAS）软件v1.2（Affymetrix）进行数据分析。

数据可用性

补充表2提供了所有经验证的患者变体的详细数据，并可根据要求提供7个合并序列数据文件（BAM格式）。

补充材料

1

单击此处查看。^{（762K，pdf）}

2

单击此处查看。^{（104K，xls）}

致谢

我们感谢S.Tregoning、A.Laskowski和S.Smith在酶分析和DNA制备方面提供的帮助，感谢M.McKenzie和M.Ryan提供的NDUFAF2抗体，感谢J.Boehm提供的慢病毒表达载体，感谢S.Flynn提供的人类受试者方案方面的协助，感谢R.Onofrio设计PCR引物，感谢K.Ardlie和S。Mahan负责协助DNA样品制备，J.Wilkinson和L.Ambrogio负责Illumina序列项目管理，T.Fennel负责序列比对，L.Ziaugra负责基因分型协助，M.Cabili负责工具评估，J.Flannick负责协助汇总序列分析，I.Adzhubei和S。Sunyaev善意地提供PolyPhen-2.0预测，M.DePristo、E.Banks、A.Sivachenko提供序列数据分析建议，M.Garber提供进化保护分析帮助，J.Pirruccello、R.Do和S.Kathiresan提供数据和控制数据分析，还有许多医生介绍患者并协助这些研究。这项工作得到了澳大利亚国家卫生与医学研究委员会授予DRT的一笔赠款（436901）和首席研究员奖学金、澳大利亚EJT研究生奖和美国国立卫生研究院授予VKM的一笔拨款（GM077465）的支持。作者们希望把这篇文章献给我们的合著者丹尼斯·柯比，一位杰出的科学家和亲爱的同事，他在编写这份手稿时去世。

脚注

作者贡献

本研究由SEC、DRT和VKM构思和设计，MJD和SBG提供输入。队列的酶诊断由DMK协调。EW和CJW提供了临床互动并协助样本采集。样品由DMK、EW和CJW收集，并由AGC和EJT制备。联合测序方案由DA、MJD和SBG在Broad Institute设计和建立。项目管理由SEC、NPB和CG执行。GC执行池。MCR和CG进行基因分型。SEC在EJT、AGC和MR的协助下设计并执行了计算分析。所有实验都由EJT、AGC和OAG设计和执行。DLB进行了基于Affymetrix阵列的细胞遗传学分析。Syzygy由MR和MJD开发和运行。手稿由SEC、EJT、AGC、DRT和VKM撰写。研究的所有方面都由DRT和VKM监督。

工具书类

1Skladal D、Halliday J、Thorburn DR。儿童线粒体呼吸链疾病的最低出生流行率。大脑。2003;126:1905–12.[公共医学][谷歌学者]

2Distelmaier F等。线粒体复合物I缺乏：从细胞器功能障碍到临床疾病。大脑。2009;132:833–42.[公共医学][谷歌学者]

三。Janssen RJ、Nijtmans LG、van den Heuvel LP、Smeitink JA。线粒体复合体I：结构、功能和病理学。J继承元疾病。2006;29:499–515.[公共医学][谷歌学者]

4Lazarou M、Thorburn DR、Ryan MT、McKenzie M.线粒体复合物I组装与疾病缺陷。Biochim生物物理学报。2009;1793:78–88.[公共医学][谷歌学者]

5Bernier FP等。成人和儿童呼吸链疾病的诊断标准。神经病学。2002;59:1406–11.[公共医学][谷歌学者]

6Morava E等。线粒体疾病标准：在儿童中的诊断应用。神经病学。2006;67:1823–6.[公共医学][谷歌学者]

7McFarland R等人。线粒体ND3基因的从头突变是婴儿线粒体脑病和复合物I缺乏症的原因。Ann Neurol公司。2004;55:58–64.[公共医学][谷歌学者]

8Dimauro S、Davidzon G.线粒体DNA与疾病。医学年鉴。2005;37:222–32.[公共医学][谷歌学者]

9.Fontanesi F，Soto IC，Horn D，Barrientos A.线粒体细胞色素c氧化酶的组装，这是一个复杂且高度调控的细胞过程。美国生理学杂志《细胞生理学》。2006;291：C1129–47。[公共医学][谷歌学者]

10Benit P等。在呼吸链复合物I缺陷的近交系/多交系家族中假定疾病位点的基因分型微卫星DNA标记可以快速识别Leigh综合征NDUFS4基因中的一种新无义突变（IVS1nt-1）。人类遗传学。2003;112:563–6.[公共医学][谷歌学者]

11Bugiani M等。复杂I缺乏症儿童的临床和分子表现。Biochim生物物理学报。2004;1659:136–47.[公共医学][谷歌学者]

12Lebon S等。呼吸链缺陷患者线粒体DNA的复发性从头突变。医学遗传学杂志。2003;40:896–9. [PMC免费文章][公共医学][谷歌学者]

13Smeitink J、Sengers R、Trijbels F、van den Heuvel L.人类NADH：泛醌氧化还原酶。生物能生物膜杂志。2001;33:259–66.[公共医学][谷歌学者]

14Pagliarini DJ等。线粒体蛋白简编阐明了复合物I疾病生物学。单元格。2008;134:112–23. [PMC免费文章][公共医学][谷歌学者]

15Marcotte EM，Pellegrini M，Thompson MJ，Yeates TO，Eisenberg D.蛋白质功能全基因组预测的组合算法。自然。1999;402:83–6.[公共医学][谷歌学者]

16Pellegrini M，Marcotte EM，Thompson MJ，Eisenberg D，Yeates TO。通过比较基因组分析分配蛋白质功能：蛋白质系统发育图谱。美国国家科学院院刊。1999;96:4285–8. [PMC免费文章][公共医学][谷歌学者]

17Ogilvie I、Kennaway NG、Shoubridge EA。线粒体复合物I组装的分子伴侣在进行性脑病中发生突变。临床投资杂志。2005;115:2784–92. [PMC免费文章][公共医学][谷歌学者]

18Saada A等人。编码NDUFAF4（C6ORF66）相互作用复合物I组装蛋白的NDUFAF 3（C3ORF60）突变会导致致命的新生儿线粒体疾病。Am J Hum基因。2009;84:718–27. [PMC免费文章][公共医学][谷歌学者]

19Sugiana C等。C20orf7突变破坏复合物I组装并导致致命的新生儿线粒体疾病。Am J Hum基因。2008;83:468–78. [PMC免费文章][公共医学][谷歌学者]

20Bentley DR等人。使用可逆终止剂化学进行精确的全人类基因组测序。自然。2008;456:53–9. [PMC免费文章][公共医学][谷歌学者]

21Frazer KA等人。第二代人类单倍型图谱，包含310多万个SNP。自然。2007;449:851–61. [PMC免费文章][公共医学][谷歌学者]

22Sherry ST等人。dbSNP：NCBI遗传变异数据库。核酸研究。2001;29:308–11. [PMC免费文章][公共医学][谷歌学者]

23.Ingman M，Gyllensten U.mtDB：人类线粒体基因组数据库，人口遗传学和医学资源。核酸研究。2006;34：D749–51。 [PMC免费文章][公共医学][谷歌学者]

24Stenson PD等人，《人类基因突变数据库：2008年更新》。基因组医学。2009;1:13. [PMC免费文章][公共医学][谷歌学者]

25.Kirby DM等。NDUFS6突变是致死性新生儿线粒体复合物I缺乏症的新病因。临床投资杂志。2004;114:837–45. [PMC免费文章][公共医学][谷歌学者]

26Valente L等。五名线粒体脑肌病患者新突变的鉴定。Biochim生物物理学报。2009;1787:491–501.[公共医学][谷歌学者]

27Budde SM等。与核编码NDUFS4基因突变相关的酶复合物I和III联合缺失。生物化学与生物物理研究委员会。2000;275:63–8.[公共医学][谷歌学者]

28Leshinsky-Silver E等。NDUFS4突变导致Leigh综合征，主要累及脑干。分子遗传学。2009;97:185–9.[公共医学][谷歌学者]

29Petruzzella V等人。编码复合物I的18 kDa（AQDQ）亚单位的NDUFS4基因中的无义突变在类Leigh综合征患者中取消了复合物的组装和活性。人类分子遗传学。2001;10:529–35.[公共医学][谷歌学者]

30.Anderson SL等人。NDUFS4中的一种新突变导致一个德系犹太家庭出现Leigh综合征。J继承元疾病。2008[公共医学][谷歌学者]

31van den Heuvel L等。人类复合物I缺乏症中新致病性突变的证明：编码18-kD（AQDQ）亚单位的核基因中的5 bp重复。Am J Hum基因。1998;62:262–8. [PMC免费文章][公共医学][谷歌学者]

32Schuelke M等人。线粒体复合体I的突变NDUFV1亚单位导致脑白质营养不良和肌阵挛性癫痫。自然遗传学。1999;21:260–1.[公共医学][谷歌学者]

33Loeffen J等。Leigh综合征患者的第一个核编码复合物I突变。Am J Hum基因。1998;63:1598–608. [PMC免费文章][公共医学][谷歌学者]

34McKenzie M、Lazarou M、Thorburn DR、Ryan MT。Barth综合征患者线粒体呼吸链超复合体不稳定。分子生物学杂志。2006;361:462–9.[公共医学][谷歌学者]

35.Choi M等。通过整个外显子组捕获和大规模并行DNA测序进行遗传诊断。美国国家科学院院刊。2009;106:19096–101. [PMC免费文章][公共医学][谷歌学者]

36Ng SB等。12个人类外显子的靶向捕获和大规模平行测序。自然。2009;461:272–6. [PMC免费文章][公共医学][谷歌学者]

37Ng SB等。外显子组测序确定孟德尔病的病因。自然遗传学。42:30–5. [PMC免费文章][公共医学][谷歌学者]

38Sheftel AD等人，人类ind1，一种呼吸复合体I的铁硫簇组装因子。分子细胞生物学。2009;29:6059–73. [PMC免费文章][公共医学][谷歌学者]

39Bych K等。铁硫蛋白Ind1是有效复合物I组装所必需的。Embo J。2008;27:1736–46. [PMC免费文章][公共医学][谷歌学者]

40Calvo S等人，通过整合基因组学对人类线粒体疾病基因进行系统鉴定。自然遗传学。2006;38:576–82.[公共医学][谷歌学者]

41Tarpey PS等。精神发育迟滞患者X染色体编码外显子的系统、大规模重测序筛查。自然遗传学。2009;41:535–43. [PMC免费文章][公共医学][谷歌学者]

42.Kirby DM等。呼吸链复合物I缺乏：一种未被诊断的能量生成障碍。神经病学。1999;52:1255–64.[公共医学][谷歌学者]

43Gnirke A等。用超长寡核苷酸进行大规模平行靶向测序的溶液杂交选择。国家生物技术。2009;27:182–9. [PMC免费文章][公共医学][谷歌学者]

44.Li H，Ruan J，Durbin R.使用绘图质量分数绘制短DNA测序读取和调用变体。基因组研究。2008;18:1851–8. [PMC免费文章][公共医学][谷歌学者]

45Li H等。序列比对/地图格式和SAMtools。生物信息学。2009;25:2078–9. [PMC免费文章][公共医学][谷歌学者]

46.Calvo SE、Pagliarini DJ、Mootha VK。上游开放阅读框导致蛋白质表达普遍减少，并且在人类中具有多态性。美国国家科学院院刊。2009;106:7507–12. [PMC免费文章][公共医学][谷歌学者]

47Karolchik D、Hinrichs AS、Kent WJ。UCSC基因组浏览器。当前协议生物信息学。2009;第1章（14号机组） [PMC免费文章][公共医学][谷歌学者]

48Dimmic MW，Sunyaev S，Bustamante CD。使用进化、结构和计算方法推断SNP函数。太平洋交响乐生物计算机。2005:382–4.[公共医学][谷歌学者]

49Cree LM、Samuels DC、Chinnery PF。致病性线粒体DNA突变的遗传。Biochim生物物理学报。2009;1792:1097–102. [PMC免费文章][公共医学][谷歌学者]

50Gabriel S，Ziaugra L，Tabbaa D.使用Sequenom MassARRAY iPLEX平台进行SNP基因分型。当前协议人类基因。2009;第2章（第二单元）：12。[公共医学][谷歌学者]

51Lamande SR等。VI型胶原减少导致Bethlem肌病：杂合COL6A1无义突变导致mRNA衰退和功能单倍体不足。人类分子遗传学。1998;7:981–9.[公共医学][谷歌学者]