跳到主要内容

小鼠细胞系的SNP阵列分析可确定其来源菌株,并揭示交叉污染和广泛的非整倍体

摘要

背景

几十年来,错误识别和污染细胞系的危机一直困扰着生物研究界。一些知识库和期刊已经响应了对人类细胞系进行强制性认证的呼吁,然而,尽管小鼠细胞系在赞助研究中很重要,但对其的错误识别却很少得到宣传。短串联重复序列(STR)分析是标准验证方法,但它可能无法区分来自同一近交系小鼠的细胞系。此外,STR分析并没有揭示某些高攻击株系中发生的核型变化,可能会产生功能性后果。单核苷酸多态性(SNP)分析被认为是STR分析的更准确和通用的替代方法;然而,尚未描述基于SNP的小鼠细胞系高通量认证方法。

结果

我们开发了基于经济高效的SNP阵列的细胞系鉴定和拷贝数分析的计算方法(SNP轮廓细胞系鉴定,CLASP),并提供了常用小鼠菌株和细胞系的参考数据库。我们表明,CLASP很容易区分不同分类起源的细胞系,包括来自单个近交系、杂交或野生捕获小鼠的多个细胞系。CLASP还能够检测浓度低至5%的污染物。在我们测试的99个细胞系中,有15个与报告的遗传背景有很大差异。在所有情况下,我们都能够区分身份验证失败是否是由于错误识别(一个细胞系,Ba/F3)、存在多个菌株背景(五个细胞系)、被其他细胞污染和/或存在非整倍体染色体(九个细胞株)。

结论

小鼠细胞系的错误识别和污染可能和人类细胞培养中一样普遍。这可能对依赖于细胞培养的预期背景的研究产生重大影响。实验室可以通过定期验证其细胞培养物来降低这些风险。我们的结果表明,SNP阵列剖析是一种有效的对抗细胞系错误识别的方法。

背景

几十年来,错误识别和污染的细胞系一直是浪费研究努力和资金以及文献中虚假主张的一个引人注目的原因[1]. 在最近对人类和小鼠细胞系的分析中,分别有至少13%和4%的样本被错误鉴定[4,5]. 越来越多的人要求对资助研究中使用的所有细胞系进行验证[]一些期刊和存储库也注意到了这一呼吁[1,2].

多重短串联重复序列(STR)分析是目前鉴定人类细胞系的标准[6],最近也应用于鼠标[7]. 虽然这些分析能够区分遗传上不同的个体和近交系,但培养细胞中STR的长期稳定性仍存在疑问[8]. 此外,STR分析可能无法区分来自密切相关近交系的细胞系[5]或确定部分污染,例如在细胞系衍生之前发生的远缘繁殖。最后,STR标记不能可靠地识别培养中发生的染色体拷贝数畸变,可能具有功能意义[911]. 基于SNP的分析是STR分析的一种有吸引力的补充或替代方法,有可能解决这些局限性[8,1215]. 在这里,我们描述了一种基于SNP的综合且经济高效的解决方案,以解决小鼠细胞系错误识别、交叉污染和拷贝数畸变问题。

结果

基因型质量和再现性

我们对来自99种常用小鼠衍生细胞系的117个样本进行了基因分型(附加文件1)以及来自245个不同遗传背景的503个参考样本,包括最常用的自交系和广泛的远缘个体样本(附加文件2). 使用两代小鼠通用基因分型阵列MUGA进行基因分型[16](7800标记)和MegaMUGA[17](78 k标记)。MegaMUGA已投入商业使用,并将很快过渡到正在开发的第三代GigaMUGA阵列(144 k标记)(JPD、FPMV、Andrew P Morgan、Leonard McMillan、Ping Fu、Katy Kao尚未出版)。

仅考虑到两个阵列之间共有6212个SNP标记,参考样本的平均调用率为94.6%。正如预期的那样,呼叫率差异很大(范围:52.1%–99.5%),并且取决于样本的特定和亚种源[18](附加文件). 当只考虑小家鼠-衍生样本,参考样本的调用率(平均值:95.5%,范围:91.7-99.5%)显著高于(t检验, = 0.001)和较少变量(F检验, = 1.8×10-5)与细胞系样本相比(平均值:94.1%,范围:71.0-98.6%)。

我们测量了基因型再现性,作为标记在重复之间完全一致的分数。MUGA和MegaMUGA的平均再现性分别为0.968(39株,范围:0.924–0.997)和0.986(44株,范围:0.970–0.997)。我们为错误分配概率(PIA)计算中使用的错误率选择了保守值0.032(参见方法);然而,我们预计,当仅考虑通过下面描述的严格质量阈值的标记时,真实错误率要低得多(<0.001)。

小鼠细胞系鉴定方法的建立

我们开发了一个名为Cell Line Authentication by SNP Profiling(CLASP,附加文件4)方法中对此进行了描述。我们使用CLASP的分析开发功能选择符合以下标准的标记:1)在常染色体上;2) 通话率>80%;3) 次要等位基因频率>0(即单个等位基因不固定);4) 所有重复样本完全一致(无论基因分型平台如何);和5)与相邻标记的连锁不平衡(LD)(第页2 < 0.25)或与任何链接标记不同的应变分布模式(SDP)。这产生了一组3552个高质量的信息标记。标记物均匀分布在整个常染色体上。SNP间距离遵循泊松分布,中值约为500 kb(附加文件5). 尽管23%的相邻标记对位于LD第页2值低(0.156,附加文件6)并且没有对具有相同的SDP。

在近交系对中,平均比对得分[8](具有相同基因型的标记分数)为0.495(范围:0.215–0.999,图1和其他文件7). 几乎所有12090个成对比较在10个或更多标记处都不同(对应于PIA<1.1×10-15). 差异小于10的11对由子串组(BALB/c、C57BL/6、C3H/He、DBA/1、SJL)组成,这些子串组仅因基因漂移而不同M.M.锥体被困在附近地点的小鼠(IN17和IN47)。我们注意到,在MegaMUGA阵列的设计中,区分密切相关子串的能力是一个关键考虑因素。使用全套MegaMUGA标记,我们比较了我们的分析难以区分的每组中的两个或三个不同的亚序列,发现任何一对差异最小为45个标记(附加文件8).

图1
图1

基因型可唯一识别小鼠菌株和细胞系。A)参考样品之间(紫色)和细胞系之间(绿色)所有成对比较的对齐分数密度图,以及与所有参考样品相比每个细胞系的最大对齐分数(橙色)。比对分数范围从0.0(无共同基因型)到1.0(基因相同)。在一些两两细胞系比较中,高度一致性是由于包含重复。B)单元格行(列)和参考样本(行)之间所有比较的热图。根据基因型的细胞系聚类对列进行排序,如图顶部的树状图所示(分支长度是任意的)。

在我们的参考样本中,有来自三个远交种的九个个体,包括CD-1和SW种的四个重复个体。在分析开发的第三步(一致性检查)中,未考虑这些样品。相反,我们鉴定了1652个标记的子集,这些标记在远交系的重复中是一致的。近交系和近交系/野生小鼠之间比较的比对分数分布(平均比对分数:0.564,范围:0.204–0.953,附加文件9)与近交系/野生小鼠相似。

细胞系的成对分析

117个细胞系样本之间所有成对比较的平均比对分数为0.501(范围:0.116–1.0,图1). 在具有相同细胞系名称的样本对之间,基因型差异的绝对数量相对较高(平均值:21.3)。这反映了我们从多个存储库和/或不同的传代中获取样本的事实,并表明某些细胞系中存在基因组不稳定性。相反,来自同一培养物(TC-1,Beverly Koller实验室)的三个重复物彼此相同(比对得分为1.0)。

应变背景验证

我们创建了6105生物信息学111个所有成对组合基因型插补的交叉样本小M参考样本,产生了21.7 M个额外基因型。接下来,我们确定了与所有参考样品(原始组织和生物信息学,平均值:0.927,范围:0.665–1.0,图12). 平均而言,最佳匹配比任何其他参考样本(范围:1–1059)少109个基因型差异,对应于1.15×10的平均PIA-54.卡斯特罗等。(2012)表明,0.96或更高的比对分数表示相同的样本。我们发现三分之二的细胞系样本与同一性至少为0.96的参考样本相匹配(附加文件1). 其中,除了一个细胞系外,所有细胞系的最佳匹配是报告的来源菌株,或者在我们的数据库中没有报告的背景或指定不准确的情况下(例如,报告的是一个菌株家族,而不是特定的子系),是一个密切相关的菌株。单一例外,Ba/F3,最匹配的C3H/HeJ,而不是报告的BALB/c。我们将这一差异告知了Ba/F3细胞系的经销商RIKEN,他们证实了我们的发现[19]. 他们还将Ba/F3的细胞形态与其他C3H衍生细胞系进行了比较,发现Ba/F3是一种独特的细胞系,而不是交叉污染的结果。

图2
图2

小鼠细胞系受到污染,非整倍体广泛存在。基于3552个SNP标记基因型的117个细胞系样本的邻接树。节点颜色根据100次重采样显示每个分支的支持(浅蓝色=较低支持,深蓝色=较高支持)。标记为红色的样本来自Ba/F3细胞系,据报道该细胞系起源于BALB,但实际上来自C3H。星号表示已知来源于癌组织的(*)细胞系和未知来源的(**)细胞系。四个圆形轨迹(从内到外)显示了排列分数(蓝色)、次级遗传背景(橙色)、交叉污染水平(紫色)和染色体数量,以及拷贝数变化的证据(红色=丢失,绿色=增加)。标签识别来自经典近交系(129,A,BALB,C3H,C57BL,DBA)、杂交(C57BL-Hybr=C57BL-与另一背景的杂交,CCF1=两个合作杂交(CC)创始株之间的杂交)、瑞士小鼠(包括商业远交种)、小肌M.MM.M.锥体原产地(M.M.mus,中国科学院),野生老鼠在非-小M起源(其他物种)和其他背景(Ma/MyJ和PL/J是经典的近交系,IL6211是CC系,JR4来源于129xCAST杂交种)。

大多数校准分数较低的细胞系都来自于远交系或野生个体,因此预计不会与我们数据库中的任何参考样本紧密匹配。来自远交系的每个细胞系与平均同一性为0.86的远交系参考样品最匹配,与复制的远交参考样品的配对同一性相似。每一个野生来源的细胞系都与最接近原始小鼠的参考样品最匹配[20,21]. 我们无法确定14个细胞系的单一最佳匹配参考样品(附加文件1).

回交和渐渗

我们试图确定为什么我们的分析未能确定与上述14个细胞系的匹配。首先,我们测试了不匹配的基因型是否是由于第二个遗传背景的贡献。我们确定了五个报告的交叉起源系(AtT-20、B6x129-1、CAKB3、IM3和OB1xB3),这些系在细胞系衍生之前似乎已经回交(图2). 对于这些品系,最佳总体匹配和最佳次要匹配均为报告的交叉背景中的一个或两个,比对得分为0.7或更高(OB1xB3的比对得分略低,因为已知中国仓鼠卵巢饲养细胞的污染,来自Rosann Farber的个人通信,附加文件1). 此外,这些细胞系表现出不一致标记的非随机基因组分布,这表明在细胞系衍生之前存在渗入,而不是污染[22](附加文件10). 这留下了9个不匹配的单元格行(附加文件1).

交叉污染

被不同遗传背景的细胞污染的细胞培养物(图A) 可以与未受污染的样品区分开来(图B) 通过目视检查其B等位基因频率(BAF),两个等位基因探针的杂交强度值之比[23]). 受污染样品显示出大量标记,其等位基因比率超出预期范围。我们开发了一种计算方法来估计每个细胞系中的污染程度(如果有的话)(参见方法)。我们的方法基于我们计算的每个标记的强度分布[23]使用我们的参考样品。我们从参考交叉样本中推导出纯合子和杂合子呼叫的BAF阈值(T型 高阶模 =0.02和T 赫特 = 0.46).

图3
图3

CLASP识别细胞系中的污染和拷贝数畸变。全基因组强度分布的可视化A)交叉污染样品(W4/129S6);B)初级组织的正常样本(CAST/EiJ x a/J);C)非整倍体样本(OB1xB3)。热门曲目:B等位基因频率。每个数据点代表一个标记,并按基因型命名、AA(蓝色)、AB(紫色)或BB(红色)着色。中间轨迹:对数R比率。红线是平滑的平均LRR,上下波段分别表示大于和小于平均值的一个标准偏差。红色标记的值超出范围[-2,2]。下部轨迹:由genoCNA确定的拷贝数间隔。颜色代表不同的HMM状态(参见Sun等人[24]).

我们使用Phoenix(起源于129S6/SvEvTac的未受污染细胞系)和未知来源的饲养细胞系(我们将其视为污染物)之间的稀释系列(比率从1:1到200:1),模拟了不同比例的污染对等位基因比率的影响。我们发现纯Phoenix细胞和混合样品之间的成对比对分数随着污染物浓度呈指数下降(附加文件11). 受污染的样品显示出与预期BAF分布的一致偏差(附加文件12A) 污染物浓度与偏差大小之间有很强的相关性(第页 = 0.988).

我们通过将每个细胞系样品与预期BAF分布的平均偏差拟合到从稀释系列导出的模型(附加文件12B) ●●●●。在9个不匹配的样本中,我们的方法预测有8个样本以1:6到1:1的比例交叉污染(图2和其他文件1). 我们估计,观察到与预期BAF分布的显著偏差所需的最低污染水平,MUGA约为0.1(1:10比率),MegaMUGA为0.05(1:20比率)。

拷贝数畸变

与预期BAF分布的偏差也可能是由拷贝数更改引起的。例如,当两个同源物中的一个被复制(三体)时,复制染色体上的等位基因出现的频率将是未复制染色体上等位基因的两倍;因此,在杂合标记中,可以观察到2:1的比率(BAF=0.33或0.66)。细胞系拷贝数变异的检测因两个因素而变得复杂。首先,对于拷贝数变体,细胞培养物可能是异质的,导致比固定变体的信号强度更低。仅存在于一小部分细胞中的变体可能不会产生可与噪声区分的强度信号变化。第二,在提取DNA之前未经历G1期阻滞的细胞中的基因组区域,根据其所经历的细胞周期阶段,等位基因的数量可能会有所不同。

我们使用了genoCNA算法[24]识别细胞株样本中的拷贝数畸变(CNA)(附加文件1). 我们发现,平均预测拷贝数小于1.5且大于2.1表示显著的负对数比和正对数比(LRR,观测强度和预期强度之间的比值的对数变换[23])分别跨越染色体的大部分。据预测,大约一半的细胞系样本具有某种程度的非整倍体,其中包括分别来自正常组织和癌组织的24%和62%的细胞系(图2). 总的来说,有192条染色体的拷贝数发生了变化,在丢失和获得事件之间大致均匀地分裂(分别为89条和103条,图4). 然而,在大多数情况下,只有一小部分细胞受到影响。只有24条染色体显示出完全缺失(拷贝数小于1.25)或获得(拷贝数大于2.75)的证据,包括三条染色体显示多拷贝丢失或获得(附加文件1和图C) ●●●●。所有常染色体在一定程度上表现出CNA(平均值:10.1个事件),尽管每个染色体的事件分布是不均匀的(χ2检验, = 0.02,图4).

图4
图4

非整倍体在细胞培养中普遍存在。基因CNA将每条染色体分类为染色体丢失阈值以下(平均拷贝数1.5,深灰色)或染色体增加阈值以上(2.1,浅灰色)的频率。

我们通过对强度图的目视检查验证了所有预测的CNA(图). 在大多数情况下,超出指定阈值的平均拷贝数与可与背景噪声区分的染色体宽LRR偏移相关。在少数情况下,我们发现染色体可能是非整倍体,尽管在细胞培养中频率较低,但算法无法识别(假阴性,在附加文件中以黄色突出显示1). 在一些情况下,只有一部分染色体表现出CNA(即结构变异,而不是整个染色体的丢失或增加)。最后,我们评估了假阳性是罕见的,并且大多发生在呈现交叉污染的样本中。

在9个不匹配的细胞系中,5个有多个明显的拷贝数变化事件(平均值:每个样本6个事件,范围:2-10)。这五条管线也是污染证据最少的管线。其中两种来源于肿瘤(Ehrlich-Lettre腹水株E和Y-1),因此非整倍体的存在并不奇怪。其他三个品系(Nmu3li、SV40 MES 13和YAMC)来自原始组织,因此观察到的非整倍体可能发生在培养中。总之,基于基因型和强度的分析相结合,使我们能够区分无法验证细胞系背景的多种可能原因。

讨论

我们基于MUGA基因分型阵列,为数百种常用的小鼠近交系和细胞系编译了一个SNP图谱数据库,该阵列可在市场上买到且价格合理(约100美元)。当前版本的阵列(MegaMUGA)比初始版本的密度大一个数量级。尽管来自两个阵列的数据是兼容的,但在MegaMUGA上对本研究中使用的样本进行重新分型将提供至少1-2个数量级的更大的区分能力。我们提供软件(CLASP),其中包括管理基因型数据库、快速准确地识别菌株背景和验证细胞系身份以及识别污染物和CNA的功能。虽然我们开发这种方法是为了进行细胞系鉴定,但我们预计它还将有其他应用,例如监测生物医学研究中使用的老鼠种群[25]和取证应用程序(CLASP可以轻松容纳人类基因型数据)。

我们发现,与匹配的参考样品相比,细胞系具有更高的呼叫率可变性和更低的再现性。这种变异可能是由于核型重排或培养物中积累的其他突变,这些突变可以改变杂交强度[18]从而产生不同通道的基因型呼叫。或者,变异性可能是由于细胞系相对于原始组织的DNA复制加速(导致等位基因比率不平衡)。研究表明,DNA分离程序可以极大地影响下游数据的质量,并且在DNA提取之前诱导细胞G1停滞可以改善结果[26,27]. 最后,将连续强度数据转换为离散的基因型调用可以减少噪声,但也会丢弃重要信息。直接处理强度数据的方法的最新进展将使基于阵列的分析具有更好的区分能力[28].

我们发现,虽然大多数细胞系与他们报告的来源菌株(98/99)正确匹配,但有相当一部分细胞系有交叉污染和/或非整倍体的证据。我们的发现是,42%的受试细胞系显示出非整倍体的证据(图2和其他文件1)与之前在ES细胞中的发现一致[10,29]. 此外,24%来自正常组织的细胞系中存在明显的非整倍体,这表明这是细胞培养中普遍存在的问题,而不仅仅是癌细胞系的特征。我们承认,在应用我们的数据集算法时存在固有的局限性,这些算法旨在为100000个或更多标记物的人类肿瘤数据集建模。首先,MUGA平台的相对低密度放大了噪声的影响。基因CNA算法在MUGA基因型的细胞系中识别出的不同拷贝数区域之间的转换比在MegaMUGA上基因型的相同细胞系中更多。其次,小鼠细胞系可能来源于近交系,其纯合度明显高于人类的预期。第三,目前没有一种算法能够同时建模样本异质性、交叉污染和拷贝数畸变,所有这些都可能存在于非克隆细胞培养中。而genoCNA的输出与我们对强度曲线的视觉评分很好地对应(图),我们没有对任何预测的CNA进行细胞遗传学验证。因此,预测的CNA应被视为有必要进行进一步调查。

结论

小鼠细胞系的错误识别和污染可能与人类细胞培养中的一样普遍。这可能对以细胞培养的预期遗传背景为条件的研究产生重大影响。实验室可以通过定期验证其细胞培养物来降低这些风险。我们对未来在细胞系鉴定中使用SNP图谱的建议如下。实验室应定期测试其细胞培养物,并报告传代之间发生的变化。理想情况下,将使用CLASP的客户机-服务器功能维护和访问中央数据库。数据库维护人员应从独立实验室获取每个细胞系的多个样本,并确定每个细胞系中的自然变异性,以便建立细胞系特定的鉴别阈值。期刊和资助机构应要求研究中使用的每个细胞系的真实性证明,作为考虑的先决条件。此外,我们鼓励加强对非整倍体和细胞系结构变异的功能影响的研究。虽然通过遗传手段确定细胞系的真实性是确定研究结果有效性的一个重要而必要的步骤,但我们假设这可能还不够,验证基因组的结构完整性也可能是必要的。

随着基于STR和SNP的分析方法的广泛应用,科学界必须借助工具来解决长期而艰难的运动,以结束对误认人类细胞系的“丑闻”使用[30]. 我们希望我们在这里提供的资源将有助于将这些进展推广到小鼠和其他模型生物。

方法

生物样品

我们从99个不同的细胞系中获得了117个颗粒状样本(附加文件1). 对于三种细胞系(Ba/F3、E14.Tg2a和NIH/3 T3),我们从多个来源获得了样本。DNA或组织来自总共245个不同的遗传背景(附加文件2). 这些材料来自89个经典近交系、80个杂交系(两个近交系杂交的后代)、28个野生近交系,3个远交系和45只野生小鼠。

DNA分离和制备

使用QiAmp DNA Micro Kit(Cat:56304)进行DNA分离。简言之,将细胞颗粒在65°C的300μl裂解缓冲液中孵育过夜。将上清液转移到300μl异丙醇和0.5μl糖原的混合物中,通过离心分离DNA。丢弃上清液后,在70%乙醇中清洗DNA颗粒,然后在去离子水中重新悬浮,旋转并在55°C下培养一小时。使用ND8000(纳米滴)测定DNA浓度,并将其调节至50–150 ng/μl。然后随机抽取样本,将每个样本中的10μl装入96孔板中进行基因分型。

SNP基因分型

所有基因分型均使用两种版本的小鼠通用基因分型阵列(MUGA)进行。最初的MUGA阵列具有7810个均匀间隔的SNP标记。阵列的当前版本(MegaMUGA)具有77808个SNP标记。阵列处理和基因型调用由GeneSeek/Neogen执行(http://neogen.com)如前所述[16].

通过按样本类型和物种/亚种对H和N呼叫率进行聚类并删除异常值,进行基因型QC。对于参考样本,异常值被定义为超出四分位范围的1.5倍。对于细胞系,我们无法估计预期的H和N比率;因此,我们仅通过目视检查消除了极端异常值样本。其次,我们计算了Kolmogorov-Smirnov统计量()将每个样本的总强度分布与从更大的参考样本集估计的参考分布进行比较。每个双等位基因探针的总强度为I=X+Y,其中X(X)Y(Y)是两个等位基因的归一化强度值。的异常值分为两类:左移分布和正态分布,但在我~0。前者被认为是基因分型失败并被消除,而后者与除小M。后期分布中的“尖峰”是意料之中的,因为它代表的探针序列在其他物种中没有足够的保守性,因此导致了杂交信号的缺失。

剔除劣质数组后,我们的数据库包含620个样本的基因型。为了便于数据整合和解释,仅使用两种阵列共有的6212个常染色体SNP进行分析;然而,数据库中有完整的基因型。

稀释系列

我们从Phoenix细胞系(Anne Latour和Beverly Koller未发表)的颗粒和未指明的小鼠胚胎成纤维细胞“饲养”细胞系的颗粒中分离出DNA小M背景。我们使用Qubit荧光计(Invitrogen)将两个样品的浓度标准化为~15 ng/μl。然后,我们制作了七种凤凰/馈线混合物,每种混合物的最终体积为100μl,如下所示:100/0、90/10、75/25、50/50、25/75、10/90、0/100。这些混合物的基因型如上所述。

夹子

R软件包的文档中提供了CLASP框架的完整描述。简单地说,CLASP提供了三个主要功能,它们不知道基因型数据的起源或编码的细节(附加文件4). 1) 基因型数据被重新编码并与样本和SNP注释一起导入SQLite关系数据库(http://www.sqlite.org). 可以选择扩展数据库以包括生物信息学通过参考样本基因型的两两组合插补产生的交叉。2) 对基因型数据进行分析,以确定SNP标记子集,这些标记最可靠且信息量最大,可用于认证目的。可靠性由重复样本中基因型的一致性决定,而信息性则由等位基因频率决定。这一步骤由许多参数控制,包括基于Hardy-Weinberg平衡(HWE)和连锁不平衡(LD)的过滤标准。3) 同时分析所有参考和细胞系样本数据,以确定每个实验样本的最佳匹配。此外,当杂交强度数据可用时,CLASP可以使用genoCNA算法[24]确定细胞系中的等位基因失衡和拷贝数变化。

来自远交系小鼠的样本需要特别考虑,因为尽管每个远交系个体在基因上都是唯一的,但个体并不是唯一的。CLASP并没有排除同一近交系样本中不一致的标记,而是保留了一份在近交系中一致的标记子集的单独列表。这个较小的标记列表仅用于将一个近交系与另一个样本进行比较。

经验证的实验样品可以添加到数据库中,以供将来应用该分析时参考。可以合并多个数据库,使实验室能够轻松共享结果。或者,可以将软件配置为在客户端-服务器环境中运行,以使中央机构能够维护规范的数据库。

统计

对于法医应用,随机匹配概率(RMP)[31]是检测区分能力的标准量度。然而,当分析必须区分不同但高度相关的遗传背景(例如近交系小鼠的姊妹系)时,RMP是一个不够的指标。例如,考虑一组1000个未链接的标记。该标记集的RMP为3×10-1000(基本上为零)。然而,两个仅存在0.1%标记差异的姊妹系将具有仅存在单个标记差异的单倍型。区分这两个品系的能力完全取决于观察到的单倍型完全准确地反映真实单倍型的概率。

我们提出了一种新的度量方法,错误分配概率(PIA)。PIA取决于两个变量:基因型数据的错误率(E类)和一个成对单倍型差异矩阵(H(H))对于所有要比较的样本。一对样本的PIA(i、 j个)是区分两个样本的所有基因型都被错误确定的概率。CLASP为每个匹配项分配一个PIA,该PIA只是该样本与中所有其他样本相比的最大PIAH(H):

巴基斯坦国际航空公司 =妈妈 x个 j个 = 1 n个 , j个 E类 H(H) , j个

对于每个匹配结果,CLASP还返回一个比对分数,这只是实验样本和最接近的匹配参考样本之间的单倍型一致性百分比。当比对分数低于指定阈值时,CLASP试图仅使用与最接近的匹配参考样本不一致的基因型来确定第二个遗传背景的贡献(由于杂交、渗入或污染)。

强度归一化

杂交强度数据受到多种噪声的影响,这些噪声可以通过归一化过程进行衰减。我们对BAF和LRR采用了两个标准化步骤(这些值可以由Illumina BeadStudio软件自动计算,但它们在我们的数据文件中不可用)。首先,我们使用阈值分位数归一化(tQN)来校正染料偏差,这是Illumina平台特有的[32]. 其次,我们调整了“基因组波”——由局部DNA数量差异引起的强度变化,并由GC含量指示[33]–使用PennCNV的genomic_wave.pl脚本[34].

等位基因失衡

当AA、AB和BB基因型的等位基因分别以2:0、1:1或0:2的预期比率存在时,BAF在[0,1]范围内,并且在0、0.5和1左右正态分布(标准偏差由样本噪声确定)。当污染物引入额外的等位基因,并且具有与宿主样本不同的基因型时,它会改变等位基因比率。如果污染程度足够高,则可以将偏差与背景噪声区分开来。

给定阈值T型 高阶模 T型 赫特 代表纯合子和杂合子BAF值的正常范围,我们首先转换每个标记的BAF值。接下来,我们计算每个样本与预期BAF分布的偏差,即转换的非零BAF之和除以标记总数(M):

燃油附加费'=最小值 燃油附加费 , 1 - 燃油附加费
燃油附加费"= T型 赫特 - 燃油附加费 ' , 如果 0.25 < 燃油附加费 ' < T型 赫特 0 , 否则 燃油附加费 ' - T型 高阶模 ' , 如果 T型 高阶模 < 燃油附加费 ' < 0.25
开发= 文学士 F类 " 文学士 F类 " > 0 M(M)

拷贝数畸变

我们使用genoCN R软件包的genoCNA功能[24]鉴定CNA(染色体区域的扩增或缺失)。此函数需要两个平台特定的参数,distThreshold(相邻SNP之间的最大距离,单位为bp)和geno.error(估计的基因分型错误率)。我们将MUGA和MegaMUGA的distThreshold设置为750000和100000,将geno.error设置为0.03和0.01。该算法的输出是可以推断拷贝数的基因组间隔列表。在genoCNA不能预测拷贝数的区间,我们假设拷贝数为2。

支持数据的可用性

CRAN中提供了CLASP R包(http://cran.r-project.org). 支持数据已存放在无花果存储库中(http://dx.doi.org/10.6084/m9.图1185417).

缩写

BAF(曝气生物滤池):

B等位基因频率

加拿大国家航空航天局:

拷贝数偏差

劳埃德:

连锁不平衡

LRR公司:

对数R比

个人信息账户:

错误赋值的概率

可持续发展计划:

应变分布模式

SNP公司:

单核苷酸多态性

可疑交易报告:

短串联重复。

工具书类

  1. 性质:身份危机。自然。2009, 457: 935-936.

    谷歌学者 

  2. 美国类型培养物收集标准开发组织工作组ASN-0002:细胞系错误识别:结束的开始。Nat Rev癌症。2010, 10: 441-448. 10.1038/nrc2852。

    第条 谷歌学者 

  3. Podolak E:《通过切断研究人员来结束细胞系污染》,《生物技术在线新闻》(2010年)。

  4. Capes-Davis A、Theodosopoulos G、Atkin I、Drexler HG、Kohara A、MacLeod RAF、Masters JR、Nakamura Y、Reid YA、Reddel RR、Freshney RI:检查您的文化!交叉污染或错误识别的细胞系列表。国际癌症杂志。2010, 127: 1-8. 10.1002/ijc.25242。

    第条 中国科学院 公共医学 谷歌学者 

  5. Yoshino K、Saijo K、Noro C、Nakamura Y:开发一种简单的方法来确定培养细胞系来源的小鼠菌株。跨学科生物中心。2010, 2: 1-9.

    第条 谷歌学者 

  6. Masters JR、Thomson JA、Daly-Burns B、Reid YA、Dirks WG、Packer P、Toji LH、Ohno T、Tanabe H、Arlett CF:短串联重复序列分析为人类细胞系提供了国际参考标准。美国国家科学院院刊2001,98:8012-8017。10.1073/pnas.121616198。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  7. Almeida JL、Hill CR、Cole KD:小鼠细胞系鉴定。细胞技术。2014, 66: 133-147. 2007年10月17日/10616-013-9545-7。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  8. Castro F,Dirks WG,Fähnrich S,Hotz Wagenblatt A,Pawlita M,Schmitt M:全球人类群体基因和地理相似性的定量比较。基于高通量SNP的人类细胞系认证。2012年,无。

    谷歌学者 

  9. Phillips JL、Hayward SW、Wang Y、Vasselli J、Pavlovich C、Padilla-Nash H、Pezullo JR、Ghadimi BM、Grossfeld GD、Rivera A、Linehan WM、Cunha GR、Ried T:染色体非整倍体对前列腺癌细胞系模型中基因表达谱的影响。《癌症研究》,2001年,61:8143-8149。

    中国科学院 公共医学 谷歌学者 

  10. Rebuzzini P、Neri T、Zuccotti M、Redi CA、Garagna S:培养过程中三种小鼠胚胎干细胞系的染色体数量变化。哺乳动物基因组。2008, 58: 17-23.

    谷歌学者 

  11. Peterson SE、Westra JW、Rehen SK、Young H、Bushman DM、Paczkowski CM、Yung YC、Lynch CL、Tran HT、Nickey KS、Wang Y-C、Laurent LC、Loring JF、Carpenter MK、Chun J:正常人多能干细胞系表现出普遍的镶嵌非整倍体。《公共科学图书馆·综合》。2011年6月:e23018-10.1371/journal.pone.0023018。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  12. Petkov PM、Cassell MA、Sargent EE、Donnelly CJ、Robinson P、Crew V、Asquith S、Haar RV、Wiles MV:开发用于实验室小鼠遗传监测的SNP基因分型小组。基因组学。2004, 83: 902-911. 2016年10月10日/j.ygeno.2003.11.007。

    第条 中国科学院 公共医学 谷歌学者 

  13. Demichelis F、Greulich H、Macoska JA、Beroukhim R、Sellers WR、Garraway L、Rubin MA:SNP小组鉴定试验(SPIA):一种基于基因的细胞系鉴定试验。《核酸研究》2008,36:2446-2456。10.1093/nar/gkn089。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  14. Pakstis AJ、Speed WC、Fang R、Hyland FCL、Furtado MR、Kidd JR和Kidd KK:通用个人识别面板的SNP。哼哼,基因。2010, 127: 315-324. 10.1007/s00439-009-0771-1。

    第条 公共医学 谷歌学者 

  15. Gibbs JR,Singleton A:全基因组单核苷酸多态性分型的应用:简单关联和超越。公共科学图书馆-遗传学。2006年,2:e150-10.1371/journal.pgen.0020150。

    第条 公共医学中心 公共医学 谷歌学者 

  16. 协作交叉联盟:协作交叉小鼠遗传参考群体的基因组结构。遗传学。2012, 190: 389-401.

    第条 公共医学中心 谷歌学者 

  17. Rogala AR、Morgan AP、Christensen AM、Gooch TJ、Bell TA、Miller DR、Godfrey VL、Pardo-Manuel de Villena F:协作交叉作为人类疾病建模资源:CC011/Unc,一种新的自发性结肠炎小鼠模型。哺乳动物基因组。2014, 25: 95-108. 10.1007/s00335-013-9499-2。

    第条 公共医学中心 公共医学 谷歌学者 

  18. Didion JP,Yang H,Sheppard K,Fu C-P,McMillan L,Pardo-Manuel de Villena F,Churchill GA:基因分型阵列中新变体的发现提高了基因型保留率并减少了确定偏差。BMC基因组学。2012, 13: 34-10.1186/1471-2164-13-34.

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  19. 关于Ba/F3(RCB0805)的信息。[http://www.brc.riken.jp/lab/cell/english/rcb0805_announce.shtml]

  20. Shimada T,Aplin KP,Suzuki H:缅甸中部的鳞蝇(鼠科,啮齿动物)是一个独特的物种,具有潜在的重大进化和生物地理学意义。动物园科学。2010, 27: 449-459. 10.2108/zsj.27.449。

    第条 公共医学 谷歌学者 

  21. Didion JP,Pardo-Manuel de Villena F:解构宝石蝇:了解实验室小鼠基因组的祖先、结构和变异的进展。哺乳动物基因组。2013, 24: 1-20. 10.1007/s00335-012-9441-z。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  22. Yang W,Tempelman RJ:全基因组预测的贝叶斯前相关模型。遗传学。2012, 190: 1491-501. 10.1534/genetics.111.131540。

    第条 公共医学中心 公共医学 谷歌学者 

  23. Peiffer DA、Le JM、Steemers FJ、Chang W、Jennies T、Garcia F、Haden K、Li J、Shaw CA、Belmont J、Cheung SW、Shen RM、Barker DL、Gunderson KL:使用Infinium全基因组分型对染色体畸变进行高分辨率基因组剖析。《基因组研究》2006,16:1136-1148。10.1101克/克5402306。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  24. Sun W、Wright FA、Tang Z、Nordgard SH、Loo PV、Yu T、Kristensen VN、Perou CM:使用高密度SNP阵列对拷贝数状态和基因型调用进行综合研究。《核酸研究》,2009年,37:5365-5377。10.1093/nar/gkp493。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  25. Fahey JR、Katoh H、Malcolm R、Perez AV:生物医学研究中使用的小鼠和大鼠的基因监测案例。哺乳动物基因组。2013, 24: 89-94. 2007年10月7日/00335-012-9444-9。

    第条 公共医学中心 公共医学 谷歌学者 

  26. Manukjan G、Tauscher M、Ripperger T、Schwarzer A、Schlegelberger B、Steinemann D:诱导快速分裂细胞G1期阻滞提高了阵列CGH生成的基因组图谱的质量。生物技术。2012, 53: 245-248.

    第条 中国科学院 公共医学 谷歌学者 

  27. van Heesch S、Mokry M、Boskova V、Junker W、Mehon R、Toonen P、de Bruijn E、Shull JD、Aitman TJ、Cuppen E、Guryev V:DNA拷贝数的系统性偏差源自分离程序。基因组生物学。2013年第14期:R33-10.1186/gb-2013-14-4-R33。

    第条 公共医学中心 公共医学 谷歌学者 

  28. Fu C-P,Welsh CE,Pardo-Manuel de Villena F,McMillan L:使用微阵列探针强度推断混合种群的祖先。12号BCB。2012年,美国纽约,纽约:ACM出版社,105-112。

    第章 谷歌学者 

  29. Sugawara A,Goto K,Sotomaru Y,Sofuni T,Ito T:日本使用的小鼠胚胎干细胞系染色体异常的现状。《比较医学》,2006年,56:31-34。

    中国科学院 公共医学 谷歌学者 

  30. 大师JR:细胞线认证:结束虚假细胞线丑闻。自然。2012, 492: 186-186.

    第条 中国科学院 公共医学 谷歌学者 

  31. Kidd KK、Pakstis AJ、Speed WC、Grigorenko EL、Kajuna SLB、Karoma NJ、Kungulilo S、Kim J-J、Lu R-B、Odunsi A、Okonofua F、Parnas J、Schulz LO、Zhukova OV、Kidd JR:为个人法医鉴定建立SNP小组。《法医科学国际》,2006年,164:20-32。2016年10月10日/j.forscinint.2005.11.017。

    第条 中国科学院 公共医学 谷歌学者 

  32. Staaf J、Vallon-Christerson J、Lindgren D、Juliusson G、Rosenquist R、Höglund M、Borgá、RingneréR M:Illumina Infinium全基因组SNP数据的标准化改进了拷贝数估计和等位基因强度比。BMC生物信息学。2008, 9: 409-10.1186/1471-2105-9-409.

    第条 公共医学中心 公共医学 谷歌学者 

  33. Diskin SJ,Li M,Hou C,Yang S,Glessner J,Hakonarson H,Bucan M,Maris JM,Wang K:全基因组SNP基因分型平台信号强度中基因组波的调整。《核酸研究》2008,36:e126-10.1093/nar/gkn556。

    第条 公共医学中心 公共医学 谷歌学者 

  34. Wang K,Li M,Hadley D,Liu R,Glessner J,Grant SFA,Hakonarson H,Bucan M:PennCNV:一种用于全基因组SNP基因分型数据中高分辨率拷贝数变异检测的集成隐马尔可夫模型。基因组研究2007,17:1665-1674。10.1101/gr.6861907。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

下载参考资料

致谢

我们感谢谢丽尔·阿克特·比克内尔、詹妮弗·布伦南、戴尔·考利、罗莎恩·法伯、安妮·拉图尔、贝弗利·科勒、罗恩·科尔斯坦杰、特里·马格努森、史蒂夫·默里和蒂姆·威尔特郡为我们提供细胞系样品,也感谢弗朗索瓦·邦霍姆、贝蒂娜·哈尔、迈克尔·纳奇曼、,Annie Orth和Alex Hon-Tsen Yu为我们提供了野生老鼠样品。我们还感谢Mark Callaway、Justin Gooch和Darla Miller对基因分型样本的管理和处理。我们感谢Wei Sun博士和Tatiana Popova博士分别协助使用genoCN和GAP软件。Ping Fu、Catie Welsh、Katy Kao和Leonard McMillan为MUGA和MegaMUGA阵列的设计做出了贡献。这项工作得到了NIH、国家变态反应和传染病研究所(ZN,HCM)的校内研究计划以及NIH培训拨款GM067553-04(JPD)的部分支持。日本国防部还得到了国家卫生研究院向FPMV提供的P50 HG006582/MH090338赠款的部分支持。NIH拨款U54A157157(FPMV)和大学癌症研究基金(UNC)提供了额外支持。

作者信息

作者和附属机构

作者

通讯作者

通信至赫伯特·C·莫尔斯三世费尔南多·帕尔多·马努埃尔·德维莱纳.

其他信息

竞争性利益

作者声明,他们没有相互竞争的利益。

作者的贡献

JPD开发了这些方法并撰写了手稿。RJB对样本进行基因分型。JPD和RJB分析了数据。ZH在HCM的监督下创建和维护细胞培养物。DWT提供的细胞系。FPMV和HCM构思了这项研究。JPD和FPMV参与了基因分型阵列的设计。所有作者都批准了手稿的最终版本。

电子辅助材料

12864_2014_6544_MOESM1_ESM.xlsx

附加文件1:117个细胞系样本的分析。两个工作表显示1)611 CLASP的分析结果和2)第一个工作表(XLSX 116 KB)的列注释

12864_2014_6544_MOESM2_ESM.xlsx

附加文件2:503个参考样品的分析。四份工作表列出了从1)近交系、2)远交系、3)两个近交系之间的F1杂种和4)野生小鼠获得的参考样品。第五个工作表总结了生物/技术复制之间的一致性水平。(XLSX 89 KB)

12864_2014_6544_MOESM3_ESM.pdf

附加文件3:呼叫率取决于样本的类型和分类。620个样本6212个标记中的杂合(H)呼叫率(x轴)和No-call(N)速率(y轴)。颜色表示样本类型:基本(蓝色)或细胞线(橙色)。形状表示示例分类:小M(圆形)或其他(方形)。插图:主要样本的H呼叫率变化较大,但N呼叫率通常较低(不包括非-小M样品)。(PDF 3 MB)

12864_2014_6544_MOESM4_ESM.pdf

附加文件4:CLASP软件概述。闭合矩形:进程;圆柱体:数据库;开放矩形:输入数据集;梯形:输出数据集。(PDF 46 KB)

12864_2014_6544_MOESM5_ESM.pdf

附加文件5:MUGA具有亚染色体分辨率,可检测污染和拷贝数变化。3552个信息标记所有相邻对之间距离的密度图。大多数SNP之间的距离都小于2 Mb,这意味着MUGA可以检测到污染物并以十个碱基的顺序复制数量变体。(PDF 240 KB)

12864_2014_6544_MOESM6_ESM.pdf

附加文件6:大多数MUGA标记对是未链接的。的直方图第页2所有相邻的3552个信息标记对的值。用于分类联系不平衡的典型阈值为0.3–0.7。(PDF 185 KB)

12864_2014_6544_MOSM7_ESM.pdf

附加文件7:大多数参考样品由SNP剖面唯一识别。参考样品之间成对比较的热图。每一个点代表这一对之间基因型差异的数量(3552个)。(PDF 140 KB)

附加文件8:MegaMUGA基因型姐妹株差异的配对比较。(XLSX 38 KB)

12864_2014_6544_MOESM9_ESM.pdf

附加文件9:外来种群与近交系在基因上有区别。九个远交个体和156个近交系之间的配对比对分数直方图。(PDF 5 KB)

12864_2014_6544_MOESM10_ESM.pdf

附加文件10:来自渗入背景的细胞系与最佳匹配参考样品存在非随机差异。细胞系基因型与A)CAKB3(一种来源于混合(即非纯近交系)遗传背景动物的细胞系)和B)W4129(一种明显受污染的细胞系的报告来源株不匹配的标记的物理位置。(PDF 2 MB)

12864_2014_6544_MOESM11_ESM.pdf

附加文件11:校准分数与污染水平呈负相关。上图显示了稀释系列实验中Phoenix细胞系(蓝色)和污染馈线(黄色)的相对浓度。底部面板显示混合物和纯Phoenix细胞系样本(最左侧样本,即“Phoenix_100_Feeder_0”)之间的H(灰色)和N(绿色)调用率(左y轴)和对齐分数(红线,右y轴)。(PDF 326 KB)

12864_2014_6544_MOESM12_ESM.pdf

附加文件12:BAF偏差准确预测了污染物的比例。A) 在稀释系列中,污染物的比例(即供给线)与BAF相对于预期分布的偏移之间存在直接关系。B) 根据稀释序列(红色圆圈)导出的模型可以根据BAF偏差预测MUGA(蓝色钻石)和MegaMUGA(绿色方块)基因型细胞系中的污染分数。(PDF 300 KB)

作者提交的原始图像文件

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,只要您对原始作者和来源给予适当的信任,提供指向Creative Commons许可证的链接,并指出是否进行了更改。

本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中,除非材料的信用额度中另有说明。如果文章的知识共享许可证中没有包含材料,并且您的预期用途不被法律法规允许或超出了允许的用途,则您需要直接获得版权所有者的许可。

要查看此许可证的副本,请访问https://creativecommons.org/licenses/by/4.0/.

知识共享公共领域专用豁免(https://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非数据的信贷额度中另有规定。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Didion,J.P.,Buus,R.J.,Naghashfar,Z。等。小鼠细胞系的SNP阵列分析可确定其来源菌株,并揭示交叉污染和广泛的非整倍体。BMC基因组学 15, 847 (2014). https://doi.org/10.1186/1471-2164-15-847

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • DOI程序:https://doi.org/10.1186/1471-2164-15-847

关键词