基因型质量和再现性
我们对来自99种常用小鼠衍生细胞系的117个样本进行了基因分型(附加文件1)以及来自245个不同遗传背景的503个参考样本,包括最常用的自交系和广泛的远缘个体样本(附加文件2). 使用两代小鼠通用基因分型阵列MUGA进行基因分型[16](7800标记)和MegaMUGA[17](78 k标记)。MegaMUGA已投入商业使用,并将很快过渡到正在开发的第三代GigaMUGA阵列(144 k标记)(JPD、FPMV、Andrew P Morgan、Leonard McMillan、Ping Fu、Katy Kao尚未出版)。
仅考虑到两个阵列之间共有6212个SNP标记,参考样本的平均调用率为94.6%。正如预期的那样,呼叫率差异很大(范围:52.1%–99.5%),并且取决于样本的特定和亚种源[18](附加文件三). 当只考虑小家鼠-衍生样本,参考样本的调用率(平均值:95.5%,范围:91.7-99.5%)显著高于(t检验,对 = 0.001)和较少变量(F检验,对 = 1.8×10-5)与细胞系样本相比(平均值:94.1%,范围:71.0-98.6%)。
我们测量了基因型再现性,作为标记在重复之间完全一致的分数。MUGA和MegaMUGA的平均再现性分别为0.968(39株,范围:0.924–0.997)和0.986(44株,范围:0.970–0.997)。我们为错误分配概率(PIA)计算中使用的错误率选择了保守值0.032(参见方法);然而,我们预计,当仅考虑通过下面描述的严格质量阈值的标记时,真实错误率要低得多(<0.001)。
小鼠细胞系鉴定方法的建立
我们开发了一个名为Cell Line Authentication by SNP Profiling(CLASP,附加文件4)方法中对此进行了描述。我们使用CLASP的分析开发功能选择符合以下标准的标记:1)在常染色体上;2) 通话率>80%;3) 次要等位基因频率>0(即单个等位基因不固定);4) 所有重复样本完全一致(无论基因分型平台如何);和5)与相邻标记的连锁不平衡(LD)(第页2 < 0.25)或与任何链接标记不同的应变分布模式(SDP)。这产生了一组3552个高质量的信息标记。标记物均匀分布在整个常染色体上。SNP间距离遵循泊松分布,中值约为500 kb(附加文件5). 尽管23%的相邻标记对位于LD第页2值低(0.156,附加文件6)并且没有对具有相同的SDP。
在近交系对中,平均比对得分[8](具有相同基因型的标记分数)为0.495(范围:0.215–0.999,图1和其他文件7). 几乎所有12090个成对比较在10个或更多标记处都不同(对应于PIA<1.1×10-15). 差异小于10的11对由子串组(BALB/c、C57BL/6、C3H/He、DBA/1、SJL)组成,这些子串组仅因基因漂移而不同M.M.锥体被困在附近地点的小鼠(IN17和IN47)。我们注意到,在MegaMUGA阵列的设计中,区分密切相关子串的能力是一个关键考虑因素。使用全套MegaMUGA标记,我们比较了我们的分析难以区分的每组中的两个或三个不同的亚序列,发现任何一对差异最小为45个标记(附加文件8).
在我们的参考样本中,有来自三个远交种的九个个体,包括CD-1和SW种的四个重复个体。在分析开发的第三步(一致性检查)中,未考虑这些样品。相反,我们鉴定了1652个标记的子集,这些标记在远交系的重复中是一致的。近交系和近交系/野生小鼠之间比较的比对分数分布(平均比对分数:0.564,范围:0.204–0.953,附加文件9)与近交系/野生小鼠相似。
细胞系的成对分析
117个细胞系样本之间所有成对比较的平均比对分数为0.501(范围:0.116–1.0,图1). 在具有相同细胞系名称的样本对之间,基因型差异的绝对数量相对较高(平均值:21.3)。这反映了我们从多个存储库和/或不同的传代中获取样本的事实,并表明某些细胞系中存在基因组不稳定性。相反,来自同一培养物(TC-1,Beverly Koller实验室)的三个重复物彼此相同(比对得分为1.0)。
应变背景验证
我们创建了6105生物信息学111个所有成对组合基因型插补的交叉样本小M参考样本,产生了21.7 M个额外基因型。接下来,我们确定了与所有参考样品(原始组织和生物信息学,平均值:0.927,范围:0.665–1.0,图1和2). 平均而言,最佳匹配比任何其他参考样本(范围:1–1059)少109个基因型差异,对应于1.15×10的平均PIA-54.卡斯特罗等。(2012)表明,0.96或更高的比对分数表示相同的样本。我们发现三分之二的细胞系样本与同一性至少为0.96的参考样本相匹配(附加文件1). 其中,除了一个细胞系外,所有细胞系的最佳匹配是报告的来源菌株,或者在我们的数据库中没有报告的背景或指定不准确的情况下(例如,报告的是一个菌株家族,而不是特定的子系),是一个密切相关的菌株。单一例外,Ba/F3,最匹配的C3H/HeJ,而不是报告的BALB/c。我们将这一差异告知了Ba/F3细胞系的经销商RIKEN,他们证实了我们的发现[19]. 他们还将Ba/F3的细胞形态与其他C3H衍生细胞系进行了比较,发现Ba/F3是一种独特的细胞系,而不是交叉污染的结果。
大多数校准分数较低的细胞系都来自于远交系或野生个体,因此预计不会与我们数据库中的任何参考样本紧密匹配。来自远交系的每个细胞系与平均同一性为0.86的远交系参考样品最匹配,与复制的远交参考样品的配对同一性相似。每一个野生来源的细胞系都与最接近原始小鼠的参考样品最匹配[20,21]. 我们无法确定14个细胞系的单一最佳匹配参考样品(附加文件1).
回交和渐渗
我们试图确定为什么我们的分析未能确定与上述14个细胞系的匹配。首先,我们测试了不匹配的基因型是否是由于第二个遗传背景的贡献。我们确定了五个报告的交叉起源系(AtT-20、B6x129-1、CAKB3、IM3和OB1xB3),这些系在细胞系衍生之前似乎已经回交(图2). 对于这些品系,最佳总体匹配和最佳次要匹配均为报告的交叉背景中的一个或两个,比对得分为0.7或更高(OB1xB3的比对得分略低,因为已知中国仓鼠卵巢饲养细胞的污染,来自Rosann Farber的个人通信,附加文件1). 此外,这些细胞系表现出不一致标记的非随机基因组分布,这表明在细胞系衍生之前存在渗入,而不是污染[22](附加文件10). 这留下了9个不匹配的单元格行(附加文件1).
交叉污染
被不同遗传背景的细胞污染的细胞培养物(图三A) 可以与未受污染的样品区分开来(图三B) 通过目视检查其B等位基因频率(BAF),两个等位基因探针的杂交强度值之比[23]). 受污染样品显示出大量标记,其等位基因比率超出预期范围。我们开发了一种计算方法来估计每个细胞系中的污染程度(如果有的话)(参见方法)。我们的方法基于我们计算的每个标记的强度分布[23]使用我们的参考样品。我们从参考交叉样本中推导出纯合子和杂合子呼叫的BAF阈值(T型
高阶模
=0.02和T
赫特
= 0.46).
我们使用Phoenix(起源于129S6/SvEvTac的未受污染细胞系)和未知来源的饲养细胞系(我们将其视为污染物)之间的稀释系列(比率从1:1到200:1),模拟了不同比例的污染对等位基因比率的影响。我们发现纯Phoenix细胞和混合样品之间的成对比对分数随着污染物浓度呈指数下降(附加文件11). 受污染的样品显示出与预期BAF分布的一致偏差(附加文件12A) 污染物浓度与偏差大小之间有很强的相关性(第页 = 0.988).
我们通过将每个细胞系样品与预期BAF分布的平均偏差拟合到从稀释系列导出的模型(附加文件12B) ●●●●。在9个不匹配的样本中,我们的方法预测有8个样本以1:6到1:1的比例交叉污染(图2和其他文件1). 我们估计,观察到与预期BAF分布的显著偏差所需的最低污染水平,MUGA约为0.1(1:10比率),MegaMUGA为0.05(1:20比率)。
拷贝数畸变
与预期BAF分布的偏差也可能是由拷贝数更改引起的。例如,当两个同源物中的一个被复制(三体)时,复制染色体上的等位基因出现的频率将是未复制染色体上等位基因的两倍;因此,在杂合标记中,可以观察到2:1的比率(BAF=0.33或0.66)。细胞系拷贝数变异的检测因两个因素而变得复杂。首先,对于拷贝数变体,细胞培养物可能是异质的,导致比固定变体的信号强度更低。仅存在于一小部分细胞中的变体可能不会产生可与噪声区分的强度信号变化。第二,在提取DNA之前未经历G1期阻滞的细胞中的基因组区域,根据其所经历的细胞周期阶段,等位基因的数量可能会有所不同。
我们使用了genoCNA算法[24]识别细胞株样本中的拷贝数畸变(CNA)(附加文件1). 我们发现,平均预测拷贝数小于1.5且大于2.1表示显著的负对数比和正对数比(LRR,观测强度和预期强度之间的比值的对数变换[23])分别跨越染色体的大部分。据预测,大约一半的细胞系样本具有某种程度的非整倍体,其中包括分别来自正常组织和癌组织的24%和62%的细胞系(图2). 总的来说,有192条染色体的拷贝数发生了变化,在丢失和获得事件之间大致均匀地分裂(分别为89条和103条,图4). 然而,在大多数情况下,只有一小部分细胞受到影响。只有24条染色体显示出完全缺失(拷贝数小于1.25)或获得(拷贝数大于2.75)的证据,包括三条染色体显示多拷贝丢失或获得(附加文件1和图三C) ●●●●。所有常染色体在一定程度上表现出CNA(平均值:10.1个事件),尽管每个染色体的事件分布是不均匀的(χ2检验,对 = 0.02,图4).
我们通过对强度图的目视检查验证了所有预测的CNA(图三). 在大多数情况下,超出指定阈值的平均拷贝数与可与背景噪声区分的染色体宽LRR偏移相关。在少数情况下,我们发现染色体可能是非整倍体,尽管在细胞培养中频率较低,但算法无法识别(假阴性,在附加文件中以黄色突出显示1). 在一些情况下,只有一部分染色体表现出CNA(即结构变异,而不是整个染色体的丢失或增加)。最后,我们评估了假阳性是罕见的,并且大多发生在呈现交叉污染的样本中。
在9个不匹配的细胞系中,5个有多个明显的拷贝数变化事件(平均值:每个样本6个事件,范围:2-10)。这五条管线也是污染证据最少的管线。其中两种来源于肿瘤(Ehrlich-Lettre腹水株E和Y-1),因此非整倍体的存在并不奇怪。其他三个品系(Nmu3li、SV40 MES 13和YAMC)来自原始组织,因此观察到的非整倍体可能发生在培养中。总之,基于基因型和强度的分析相结合,使我们能够区分无法验证细胞系背景的多种可能原因。