功能存储库资源:

DNA对齐绘图

源笔记本

生成DNA序列比对的可视化

供稿人: 杰西卡·施

资源函数[“DNA对齐图”][字符串1,字符串2]

生成适合于两个输入DNA序列长度的序列比对的视觉效果。

详细信息和选项

使用的序列比对方法是全局比对或Needleman-Wunsch比对。
默认情况下,如果序列少于1000个碱基,则会生成一对一对齐视觉效果,其中红色表示不匹配,绿色表示序列对齐后的匹配。连字符代替删除突变,即深红。浅红代表替换。每个底座ATGC都有自己的颜色,以便于查看。
默认情况下,如果序列大于1000,则会生成颜色链。它描述了在小于10000时以100为分组,在大于10000时以1000为分组的对齐方式。将序列划分为区段后,执行相同的对齐方法,并计算公共基的数量。
颜色链的刻度为红色表示相似性较小,绿色表示相似性较大。它也可以被视为序列的该部分中在比对后相似的碱基的百分比。
资源函数[“DNA对齐图”]接受以下选项:
方法自动指定是使用一对一还是颜色链方法
“组大小”自动指定分组打印的分组大小

示例

基本示例(3) 

生成ATGC的随机序列:

在[1]中:=
随机[n]:=StringJoin@RandomChoice[{“A”,“T”,“G”,“C”},n]

为少于1000个碱基的序列创建一对一对齐图:

在[2]中:=
资源函数[“DNAAlignmentPlot”][随机[900],随机[900]]
输出[2]=

为超过1000个碱基的序列创建颜色链:

在[3]中:=
资源函数[“DNAAlignmentPlot”][random[2000],random[20000]]
输出[3]=

选项(5) 

方法(3) 

生成ATGC的随机序列:

在[4]中:=
随机[n]:=StringJoin@RandomChoice[{“A”,“T”,“G”,“C”},n]

为少于1000个碱基的序列创建颜色链:

在[5]中:=
资源函数[“DNAAlignmentPlot”][random[900],random[900],Method->“ColorChain”]
输出[5]=

创建一个由1000多个碱基组成的序列的一对一绘图:

在[6]中:=
资源函数[“DNAAlignmentPlot”][random[1200],random[1200m],Method->“OneOnOne”]
输出[6]=

组大小(2) 

生成ATGC的随机序列:

在[7]中:=
随机[n]:=StringJoin@RandomChoice[{“A”,“T”,“G”,“C”},n]

指定分组打印的分组大小:

在[8]中:=
资源函数[“DNAAlignmentPlot”][random[2000],random[2000],“GroupSize”->50]
输出[8]=

应用程序(2) 

比较人类和黑猩猩的胰岛素基因:

在[9]中:=
资源函数[“DNAAlignmentPlot”][实体[“基因”,{“INS”,{“物种”->“智人”}}][“ReferenceSequence”],\\(\*NamespaceBox[“语言助手”,DynamicModuleBox[{Typeset`query$$=“黑猩猩胰岛素基因”,Typeset`boxes$$=TemplateBox[{“\”insulin\“”,行框[{“实体”,“[”,行框[{“\”基因\“”,“,”,行框[{“{”,行框[{“\”INS\“”,“,”,行框[{“{”,行框[{“\”物种\“”,“->”,“\”PanTroglodytes\“”}],“}”}]}],“]”}],“\”实体[\\“基因\\”,{\\“INS\\”“,{\\\”物种\\“->\\”PanTroglodytes\\“}}]\”“,”“基因\”“},”实体“],类型集所有假设$$={},类型集假设$$={}.jsp“->0.504462,”消息“->{}}},动态框[ToBoxs[AlphaIntegration `LinguisticAssistantBoxes[“”,4,自动,动态[Typeset`query$$],动态[Typeset`boxes$$],动态[Typeset `allassumptions$$],动态[Typeset `假设$$],动态[Typeset `open$$],动态[Typeset `querystate$$]],StandardForm],ImageSizeCache->{112.25,{8.125,17.125}},TrackedSymbols:>{类型集`query$$,类型集`boxes$$,型号集`allassumptions$$,类别集`assumptions$$,字体集`open$$,种类集`querystate$$}],动态模块值:>{},UndoTrackedVariables:>{Typeset `open$$}],BaseStyle->{“部署”},删除内容->True,可编辑->假,选择WithContents->True]\)[“ReferenceSequence”]]
输出[9]=

可视化牛和狗的lalba基因之间的序列比对:

在[10]中:=
资源函数[“DNAAlignmentPlot”][实体[“基因”,{“LALBA”,{“物种”->“BosTaurus”}}][“ReferenceSequence”],实体[“Gene”,{“LALBA”,{“Species”->“CanisLupus Familiaris”}][“引用序列”]]
输出[10]=

出版商

杰西卡·施

版本历史记录

  • 1.0.0 –2019年10月16日

相关资源

作者注释

特别感谢我在Wolfram夏令营的导师Lauren Cooper和Katja DellaLibera在此次活动中对我的帮助。

许可证信息