摘要
背景
结果
结论
背景
生物信息学中的软件测试问题
变形测试
我们的贡献
结果
案例研究1:GNLab测试
-
1 边的权重表示调节器(边尾部的节点)对目标基因(边所指的节点)的影响。 -
2 边的权重应介于-1和1之间(包括-1和1),其中正权重表示激活,负权重表示抑制。 -
三。 如果两个节点没有通过有向路径连接,则这两个节点的表达动力学应该是独立的。
1.添加节点
-
(a) 添加断开连接的节点 .给定网络 克 ,我们向其添加一个节点 P(P) ,未连接到中的任何节点 克 新网络称为 G’ .的输出 克 应完全包含在 G’ 即,(的输出 G’ )=(输出 克 )+(输出 P(P) ). -
(b) 添加非调节器节点 .给定网络 克 ,我们向其添加一个节点 P(P) ,它不是中任何节点的调节器 克 新网络称为 G’ .的输出 克 应完全纳入 G’ 即,(的输出 G’ )=(输出 克 )+(输出 P(P) ).
2.添加边缘
-
(a) 添加具有正权重的边 .给定网络 克 和非调节器节点 P(P) 在里面 克 ,我们添加一条边,该边指向 P(P) 具有正权重。 新网络称为 G’ .在输出中 G’ ,仅输出 P(P) 将增加,而其他节点的输出应保持不变。 -
(b) 添加具有负权重的边 .给定网络 克 和非调节器节点 P(P) 在里面 克 ,我们添加一条边,该边指向 P(P) 重量为负。 新网络称为 G’ 。在的输出中 G’ ,仅输出 P(P) 将减少,而其他节点的输出应保持不变。 -
(c) 添加权重为零的边 .给定网络 克 和一个节点 P(P) 在里面 克 ,我们添加一条边,该边指向 P(P) 重量为零。 新网络称为 G’ .的输出 G’ 应与的输出相同 克 .
3.删除节点
-
(a) 删除非调节器节点 .给定网络 克 和非调节器节点 P(P) 在里面 克 ,我们删除 P(P) 从 克 建立一个新的网络 G’ .的输出 G’ 应完全纳入 克 也就是说,(的输出 G’ )=(输出 克 )-(输出 P(P) ). -
(b) 删除调节器节点 .给定网络 克 和调节器节点 P(P) 在里面 克 ,我们删除 P(P) 从 克 建立一个新的网络 G’ 。此类删除应影响与所有 P’ 秒 子节点 ,而输出与 P’ 秒 非后代节点 应保持不变。
4.网络复制
5.边重修改
-
(a) 边缘重量增加 .给定网络 克 ,一个节点 P(P) 在里面 克 和边缘 E类 定向到 P(P) ,我们增加了 E类 。此类修改应增加与 P(P) . -
(b) 边缘重量减少 .给定网络 克 ,一个节点 P(P) 在里面 克 和边缘 E类 指向 P(P) ,我们减少了 E类 。这样的修改应该会减少与 P(P) .
案例研究2:SeqMap测试
1.读数的变化 T型
-
(a) 添加不匹配项 。给定一组序列读取 T型 = { t吨 1 , t吨 2 , ..., t吨 n个 },一个基因组 第页 以及最大数量的不匹配 e(电子) ,我们绘制地图 T型 到 第页 并将可映射读取集表示为 T型 米 = ,其中 k个 ≤ n个 .定义子集 M(M) 属于 T型 米 ,其中 M(M) = { 米 1 , 米 2 , ..., 米 q个 }和 q个 ≤ k个 。对于任何 米 我 ∈ M(M) ,假设 我 作为其中一个不匹配的数字。 我们任意选择 l’ ,因此 我 < l’ ≤ e(电子) ,并介绍( l’ - 我 )上的新不匹配 米 我 (表示为 ). 然后 仍应可以映射到 第页 。此外,应至少存在一个用于 米 我 和 . -
(b) 消除不匹配 。给定一组序列读取 T型 = { t吨 1 , t吨 2 , ..., t吨 n个 },一个基因组 第页 以及最大数量的失配 e(电子) ,我们绘制地图 T型 到 第页 并将可映射读取集表示为 T型 米 = ,其中 k个 ≤ n个 .定义子集 M(M) 属于 T型 米 ,其中 M(M) = { 米 1 , 米 2 , ..., 米 q个 }和 q个 ≤ k个 。对于任何 米 我 ∈ M(M) ,假设 我 作为其中一个不匹配的数字。 我们任意选择 l’ ,使得0≤ l’ < 我 、和删除( 我 - l’ )上的不匹配 米 我 (表示为 ). 然后 仍应可以映射到 第页 。此外,应至少存在一个用于 米 我 和 . -
(c) 更改不匹配的类型 。给定一组序列读取 T型 = { t吨 1 , t吨 2 , ..., t吨 n个 },一个基因组 第页 以及最大数量的不匹配 e(电子) ,我们绘制地图 T型 到 第页 并将可映射读取的集合表示为 T型 米 = ,其中 k个 ≤ n个 .定义子集 M(M) 属于 T型 米 ,其中 M(M) = { 米 1 , 米 2 , ..., 米 q个 }和 q个 ≤ k个 。对于任何 米 我 ∈ M(M) ,假设 我 作为其中一个不匹配的数字。 我们任意用不同类型的不匹配替换几个不匹配 米 我 (表示为 ),同时保持与相同的不匹配总数 我 (例如,可以用删除替换替换,而不影响不匹配的数量)。 然后 仍应可以映射到 第页 此外,应至少存在一个用于 米 我 和 .
2.变更 第页
-
(a) 读取子集的级联 。给定一组序列读取 T型 = { t吨 1 , t吨 2 , ..., t吨 n个 }和基因组 第页 ,我们选择序列读取的子集 TS公司 ⊂ T型 并将此读取子集连接到 第页 形成新的基因组 p’ .映射后 T型 到两者 第页 和 p’ 独立地,以下关系应该成立:(1)所有读入 T型 可映射到的 第页 也应该可以映射到 p’ 和(2)各读入 TS公司 可以映射到 第页 应在的部分至少有一个附加映射位置 p’ ,对应于连接的字符串。(3)每个读入 TS公司 无法与匹配 第页 应在的部分至少映射一次 p’ ,对应于连接的字符串。 -
(b) 删除 第页 。给定一组序列读数 T型 = { t吨 1 , t吨 2 , ..., t吨 n个 }和基因组 第页 ,我们形成了一个新的基因组 p’ 通过删除 第页 .映射后 T型 到两者 第页 和 p’ 独立阅读 T型 无法与匹配的 第页 也应该不可映射到 p’ .
3.两者的变化 第页 和 T型
-
(a) 反转输入 第页 和 T型 。给定一组序列读取 T型 = { t吨 1 , t吨 2 , ..., t吨 n个 }和基因组 第页 ,我们形成一组新的序列读取 T英尺 = 和 p’ 这样每个字符串 是的反向字符串 t吨 我 对于1≤ 我 ≤ n个 、和 p’ 是的反向字符串 第页 .字符串 s’ 是的反向字符串 秒 如果的第一个字符 s’ 是的最后一个字符 秒 和的第二个字符 s’ 是的倒数第二个字符 秒 等等。我们绘制地图 T型 到 第页 并独立绘制地图 T英尺 到 p’ .应保持以下关系:(1) t吨 我 可映射到 第页 当且仅当 可映射到 p’ 对于1≤ 我 ≤ n个 、和(2) t吨 我 无法映射到 第页 当且仅当 无法映射到 p’ 对于1≤ 我 ≤ n个 . -
(b) 字母的排列 。给定一组序列读取 T型 = { t吨 1 , t吨 2 , ..., t吨 n个 },一个基因组 第页 ,以及字母集上的一对一置换函数, Permute公司 。对于任何字符串 秒 , Permute公司 ( 秒 )用于表示置换后的字符串。 我们定义了一组新的序列读取 T英尺 = 和 p’ 这样的话 = 静音 ( t吨 我 )对于所有1≤ 我 ≤ n个 、和 p’ = Permute公司 ( 第页 ). 我们绘制地图 T型 到 第页 并独立绘制地图 T英尺 到 p’ 以下关系应成立:(1) t吨 我 可映射到 第页 当且仅当 可映射到 p’ 对于1≤ 我 ≤ n个 、和(2) t吨 我 无法映射到 第页 当且仅当 无法映射到 p’ 对于1≤ 我 ≤ n个 .
4.最大不匹配数的变化( e(电子) )
-
(a) 减少 e(电子) 。给定一组序列读取 T型 = { t吨 1 , t吨 2 , ..., t吨 n个 },一个基因组 第页 ,以及最大不匹配数 e(电子) ,我们创建了一个新的 e’ 使0≤ e’ < e(电子) .我们绘制地图 T型 到 第页 带参数 e(电子) 并将可映射读取集表示为 M(M) .我们独立绘制地图 T型 到 第页 带参数 e’ 并将可映射读取的集合表示为 M’ 。应保持以下关系: M’ ⊆ M(M) . -
(b) 增加 e(电子) 。给定一组序列读取 T型 = { t吨 1 , t吨 2 , ..., t吨 n个 },一个基因组 第页 ,以及最大不匹配数 e(电子) ,我们创建了一个新的 e’ 使0≤ e(电子) < e’ .我们绘制地图 T型 到 第页 带参数 e(电子) 并将可映射读取集表示为 M(M) .我们独立绘制地图 T型 到 第页 带参数 e’ 并将可映射读取集表示为 M’ 。应保持以下关系: M(M) ⊆ M’ .
GNLab和SeqMap的突变分析
讨论
变形测试在生物信息学中的适用性
机器翻译是一种缓解预言机问题的通用技术
机器翻译可以根据程序的预期行为测试程序
MT可以与特殊测试用例结合使用
机器翻译简单且自动化
机器翻译允许使用实际输入作为测试用例
MT适合生物信息学程序员
机器翻译对于测试不同类型的程序很有用
限制
生物信息学的更多示例
系统发育学
微阵列分析
生物数据库检索
结论
方法
GNLab规范
SeqMap规范
GNLab和SeqMap的执行
突变分析
工具书类
贝克J、桑顿J:生物信息学中的软件工程挑战。 《软件工程国际会议论文集》,2004年12月15日。 Weston P:生物信息学软件工程:提供有效的应用程序。 2004年,威利 贝泽尔B:软件测试技术。 1990年,Van Nostrand Reinhold Ammann P,Offutt J:软件测试简介。 2008年,剑桥大学出版社 Chen T,Kuo FC,Liu Y,Tang A:变形测试和特殊值测试。 第五届软件工程、人工智能、网络和并行/分布式计算国际会议论文集(SNPD’04)。 2004, 128-134. 陈天勇、谢霆、周志强:无需神谕的基于错误的测试。 Inform Software Tech.2003,45:1-9。 Bergmann FT,Sauro HM:比较支持SBML的模拟器的仿真结果。 生物信息学。 2008, 24 (17): 1963-1965. Evans TW、Gillespie CS、Wilkinson DJ:SBML离散随机模型测试套件。 生物信息学。 2008, 24 (2): 285-286. Knight JC,Leveson NG:对多版本编程中独立性假设的实验评估。 IEEE软件工程汇刊。1986,12:96-109。 Chen TY,Cheung SC,Yiu SM:变形测试:生成下一个测试用例的新方法。 技术代表HKUST-CS98-01。 1998年,香港科技大学计算机科学系,香港 Chen TY,Feng J,Tse TH:偏微分方程程序的变形测试:案例研究。 第26届国际计算机软件和应用年会(COMPSAC 2002)会议记录。 2002年,IEEE Computer Society Press,Los Alamitos,California,327-333。 Gotlieb A,Botella B:自动变形测试。 第27届国际计算机软件和应用年会(COMPSAC 2003)会议记录。 2003年,IEEE Computer Society Press,Los Alamitos,California,34-40。 Chen TY,Kuo FC,Zhou ZQ:终端用户程序员的一种有效测试方法。 《终端用户软件工程第一次研讨会论文集》,2005,1-5。 Ho JWK,Charleston MA:GNLab:大规模基因网络分析的计算管道。 2008, [ 网址:http://www.cs.usyd.edu.au/ ~mcharles/software/gnlab/index.html ] 姜浩,王文华:SeqMap:将大量寡核苷酸映射到基因组。 生物信息学。 2008, 24 (20): 2395-2396. Ho JWK,Charleston MA:基因调控网络进化建模。 第八届系统生物学国际会议论文集。 2007, 44- Guelzim N,Bottani S,Bourgine P,KéPèS F:酵母转录调控网络的拓扑和因果结构。自然遗传学。 2002, 31 (1): 60-63. Salgado H、Gamma-Castro S、Peralta-Gil M、Díaz-Peredo E、Sánchez-Solano F、Santo-Zavaleta A、Martínez-Flores I、Jiménez-Jacinto V、Bonavides-Martinez C、Segura-Salazar J、Martánez-Nonio A、Collado-Vides J:RegulonDB(5.0版):大肠杆菌K-12转录调控网络、操纵子组织和生长条件。 核酸研究,2006,34(数据库问题):D394-D397。 Xing Y,Stoilov P,Kapur K,Han A,Jiang H,Shen S,Black DL,Wong WH:MADS:利用外显子芯片分析差异选择性剪接的一种新的改进方法。 RNA。 2008, 14 (8): 1470-1479. Andrews JH,Briand LC,Labiche Y:突变是测试实验的合适工具吗?。 第27届国际软件工程会议论文集(ICSE05)。 2005, 402-411. 伍德沃德先生(Woodward MR)、海伍德(Halewood K):从弱者到强者,交易还是活着? 一些突变测试问题的分析。 在软件测试、验证和分析第二次研讨会的会议记录中。 1988, 152-158. Chen TY,Tse TH,Zhou ZQ:半营利:基于全局符号评估和变形测试的集成方法。 ACM SIGSOFT软件测试与分析国际研讨会会议记录(ISSTA 2002)。 2002年,ACM出版社,纽约,191-195年。 Barus AC,Chen TY,Grant D,Kuo FC,Lau MF:启发式方法的测试:贪婪算法的案例研究。 第三届IFIP中欧和东欧软件工程技术会议论文集(CEE-SET 08)。 2008, 267-280. Murphy C、Kaiser G、Hu L、Wu L:变形测试中使用的机器学习应用程序的特性。 在第20届软件工程和知识工程国际会议论文集(SEKE08)上。 2008, 867-872. 陈天勇,黄德华,谢霆,周志强:变质测试中有用关系选择的案例研究。 第四届伊比利亚-美国软件工程和知识工程研讨会论文集(JIISIC 2004)。 2004年,西班牙马德里:马德里理工大学,569-583。 Felsenstein J:推断系统发育。 2004年,Sinauer Associates Smyth GK:评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。 统计应用基因分子生物学。 2004年3月:第3条- Ho JWK,Stefani M,dos Remedios CG,Charleston MA:基因表达差异性分析及其在人类疾病中的应用。 生物信息学。 2008年,24(13):i90-i398。 Eisen MB、Spellman PT、Browndagger PO、Botstein D:全基因组表达模式的聚类分析和显示。 美国国家科学院院刊1998,95(25):14863-14868。 Subramanian A、Tamayo P、Mootha VK、Mukherjee S、Ebert BL、Gillette MA、Paulovich A、Pomeroy SL、Golub TR、Lander ES、Mesirov JP:基因集富集分析:解释全基因组表达谱的基于知识的方法。 美国国家科学院院刊2005,102(43):15545-15550。 Friedman N,Linial M,Nachman I,Peer D:使用贝叶斯网络分析表达数据。 计算机生物学杂志。 2000, 7 (3-4): 601-620. Ogata H、Goto S、Sato K、Fujibuchi W、Bono H、Kanehisa M:KEGG:《京都基因和基因组百科全书》。 《核酸研究》1999,27(1):29-34。 Keseler I、Collado-Vides J、Gama-Castro S、Ingraham J、Paley S、Saulsen I、Peralta-Gil M、Karp P:EcoCyc:大肠杆菌综合数据库资源。 《核酸研究》2005,33(数据库问题):D334-D337。 Salwinski L、Miller CS、Smith AJ、Pettit FK、Bowie JU、Eisenberg D:相互作用蛋白质数据库:2004年更新。 核酸研究,2004,32(数据库问题):D449-D451。 Hill AV:血红蛋白分子聚集对其解离曲线的可能影响。 生理学杂志。 1910年,第40页:iv-vii。 Hofmeyr JHS,Cornish-Bowden A:可逆希尔方程:如何将协同酶纳入代谢模型。 计算应用生物科学。 1997, 13 (4): 377-385. Mendes P,Sha W,Ye K:分析算法客观比较的人工基因网络。 生物信息学。 2003年,19补充2:ii122-ii129。
致谢
作者信息
作者和附属机构
通讯作者
其他信息
作者的贡献
权利和权限