估计初始分支长度

图书馆(日期)
图书馆(潘戈恩)

理想情况下,为了进行系统发育年代分析,我们需要一些初始分支长度的估计。

日期期限这是通过从中提取DNA序列数据来实现的粗体。

功能make_bold_otol_tree()做所有这些工作:

生成文件夹目录树(输入= “犬科动物”)

为了举例说明该功能如何在引擎盖下工作,我们将使用DNA中提供的序列比对数据集潘戈恩包裹:

数据(劳拉西亚瑟)
劳拉西亚瑟(Laurasiatherian)
#>47个序列,3179个字符,1605个不同位点模式。
#>州是一个中心
公用名(_N)<- 姓名(劳拉西亚瑟)
公用名(_N)
#>[1]“鸭嘴兽”“Wallaro”“Possum”“Bandicoot”“Opposum”
#>[6]“犰狳”“大象”“食蚁兽”“Tenrec”“刺猬”
#>[11]“Gymnure”“Mole”“Shrew”“Rbat”“FlyingFox”
#>[16]“RyFlyFox”“FruitBat”“LongTBat”“Horse”“Donkey”
#>[21]“白犀牛”“印第安人”“猪”“羊驼”“牛”
#>[26]“绵羊”“河马”“鳍鲸”“蓝鲸”“抹香鲸”
#>[31]“兔子”“皮卡”“松鼠”“睡鼠”“几内亚猪”
#>[36]“老鼠”“田鼠”“犬”“狒狒”“人类”
#>[41]“Loris”“Cebus”“Cat”“Dog”“HarbSeal”
#>[46]“FurSeal”“GraySeal”

从常用名称中获取科学名称:

出租车名称<-征税::通信2sci(公用名)
长度(出租车名称)
#> [1] 47

为空(_E)<- 重叠地(出租车名称,长度)== 0

出租车名称[is_empty]<- “不适用”

分类名<- 未列出的(出租车名称)
姓名(分类名[为空])
#>[1]“Wallaro”“Possum”“Bandicoot”“Opposum”“大象”
#>[6]“食蚁兽”“Tenrec”“刺猬”“Gymnure”“鼹鼠”
#>[11]“悍妇”“Rbat”“飞狐”“RyFlyFox”“果蝠”
#>[16]“LongTBat”“WhiteRhino”“IndianRhin”“Hippo”“FinWhale”
#>[21]“蓝鲸”“抹香鲸”“琵琶”“松鼠”“睡鼠”
#>[26]“GuineaPig”“Vole”“CaneRat”“Loris”“Cebus”
#>[31]“HarbSeal”、“FurSeal”“GraySeal”

手动添加未使用找到的学名征税:

#植物学::taxa_common_to-scientic(common_names)
分类名[“瓦拉罗”]<- “粗壮大蠊”
分类名[“负鼠”]<- “口蘑”
分类名[“班迪科”]<- “佩拉梅莱斯”
分类名[“Opposum”(机会)]<- “Didelphis有袋动物”
分类名[“大象”]<- “大象”
分类名[“食蚁兽”]<- “Orycteropus afer”
分类名[“Tenrec”]<- “半身人”
分类名[“刺猬”]<- “棘皮动物”
分类名[“健身房”]<- “紫锥菊”
分类名[“鼹鼠”]<- “塔尔巴”
分类名[“悍妇”]<- “索蕾斯”
分类名[“Rbat”(Rbat)]<- “北腊肠”
分类名[“飞狐”]<- “亚历山大凤蝶”
分类名[“RyFlyFox”]<- “高羊茅”
分类名[“水果蝙蝠”]<- “圆形Desmodus rotundus”
分类名[“长TBat”]<- “结核黄颡鱼”
分类名[“白犀牛”]<- “Ceratotherium simum”
分类单元名称[“印度莱茵河”]<- “犀牛独角兽”
分类名[“河马”]<- “河马两栖类”
分类名[“鳍鲸”]<- “草蛉”
分类名[“蓝鲸”]<- “小巴拉翅目”
分类名[“抹香鲸”]<- “黑头雉”
分类名[“皮卡犬”]<- “眼球”
分类名[“松鼠”]<- “Sciurini”
分类名[“睡鼠”]<- “格列虫科”
分类名[“吉尼亚猪”]<- “Cavia porcellus”
分类名[“田鼠”]<- “罗非鱼科”
分类名[“藤条”]<- “三个月”
分类单元名称[“洛里斯”]<- “洛里西奈”
分类名[“Cebus”]<- “Cebus”
分类名[“钢印”]<- “鲸鲨”
分类名[“FurSeal”]<- “耳蝇科”
分类名[“灰色密封”]<- “海狮(Halichoerus grypus)”

获取日期生活查询数据:

查询<-日期期限::制造日期查询2(输入=分类名)
#>--->物理处理“输入”。
#>*“输入”不是系统发育。
#>--->运行TNRS以匹配参考分类ott。
#>
  |================================================================| 100%
数据帧(查询$cleaned_names,查询$tnrs名称)
#>query.cleaned_names查询.tnrs_names
#>1 anatinus Ornithorhynchus anatinus
#>2大鲵Osphranter robustus
#>3三叉毛
#>4 Perameles Perameles公司
#>5迪德尔菲斯有袋动物
#>6蚤科蚤科
#>7大象
#>8 Orycteropus afer Orycterapus afer
#>9个半翅目半翅目
#>10棘属
#>11紫锥菊
#>12塔尔帕塔尔帕
#>13 Sorex索蕾斯
#>14北沙蜥
#>15狐蝠
#>16高羊茅
#>17圆形花纹
#>18结核小球藻
#>19野马
#>20亚洲马
#>21西姆角鲨
#>22犀牛独角兽
#>23个Sus scrofa
#>24维古纳帕科斯
#>25 Bos金牛Bos金牛座
#>26奥维斯·阿里斯
#>27两栖河马
#>28鳞翅目鳞翅目
#>29小巴拉翅目
#>30黑头蛇
#>31小黄鼠
#>32眼花
#>33西乌里尼·西乌里尼
#>34格列虫科
#>35茯苓茯苓
#>36小家鼠
#>37阿维科
#>38三个三个三
#>39 Papio Papio Papio
#>40智人智人
#>41科氏Lorisinae Corixinae
#>42 Cebus Cebus公司
#>43猫
#>44犬狼疮
#>45鲸鲨
#>46耳蝇科耳蝇科
#>47黑猩猩

获取拓扑:

拓扑<-旋转::tol导入子树(ott_ids(ot_ids)=查询$ott_id,标签格式(_F)= “id”)
#>
进度[---------------------------------]0/350(0) ?
进度[==============================]350/350(100)0秒
                                                            
拓扑名称<-旋转::tol导入子树(ott ID=查询$ott_id,标签格式(_F)= “名称”)$提示标签
#>
进度[---------------------------------]0/350(0) ?
进度[==============================]350/350(100)0秒
                                                            
拓扑<-::折叠.单打(拓扑)
指数<- 比赛(拓扑$提示标签,粘贴0(“奥特”,查询$ott_id))
数据帧(拓扑$tip.label,查询$ott_id[索引])
#>拓扑.tip.label查询.ott_ids.index。
#>1 ott542509 542509
#>2 ott664070 664070
#>3 ott744000 744000
#>4 ott692681 692681
#>5 ott649553 649553
#>6年4月25409日425409
#>7 ott864596 864596
#>8 ott644237 644237
#>9 ott513904 513904
#>10 ott770315 770315
#>17260年2月11日217260
#>12 ott70819 70819
#>13 ott490099 490099
#>14 ott276851 276851
#>15 ott226193 226193
#>16 ott226190 226190
#>17 ott510762 510762
#>18 ott730013 730013
#>19 ott906301 906301
#>20 ott1068202 1068202
#>10月21日1068218 1068218
#>22 ott1034198 1034198
#>23 ott1087496 1087496
#>24 ott970126 970126
#>25 ott61860 61860
#>26 ott238431 238431
#>27 ott813028 813028
#>28 ott3613485 3613485
#>29 ott698422 698422
#>30 ott1040694 1040694
#>31 ott749638 749638
#>电话:32 ott247333 247333
#>33 ott563166 563166
#>34 ott226394 226394
#>35 ott222367 222367
#>36 ott1027567 1027567
#>37 ott541928 541928
#>38 ott222356 222356
#>39 ott542053 542053
#>40 ott561087 561087
#>41 ott273244 273244
#>42 ott372367 372367
#>43 ott323243 323243
#>44电话683256 683256
#>45 ott919176 919176
#>46 ott962377 962377
#>47 ott571895 571895
<-查询$已清理名称%单位:%查询$已清理名称[索引]
查询$已清理名称[!【a】
#>字符(0)

数据帧(查询$清理名称[索引],分类名称[索引]])
#>query.cleaned_names.index。分类名称索引。
#>小白鼠
#>田鼠天牛科天牛科
#>几内亚猪鱼子酱
#>CaneRat Thriyonomys Thriyomomys犬
#>松鼠Sciurini-Sciurini
#>睡鼠格列虫科
#>兔(Oryctolagus cuniculus)
#>鼠兔
#>巴布亚狒狒
#>人类智人智人
#>Cebus Cebus公司
#>绵羊绵羊绵羊绵羊
#>牛Bos金牛座Bos金牛
#>抹香鲸
#>须鲸(Balanoptera physalus)
#>蓝鲸小须鲸
#>河马河马两栖
#>猪Sus scrofa Sus scorfa
#>羊驼Vicugna pacos Vicugna-pacos
#>驴马
#>马匹卡巴勒斯
#>白犀牛Ceratotherium simum Ceratotherium simum
#>印度犀牛独角兽
#>LongTBat结核小球藻
#>北沙蜥蜴
#>圆形果蝙蝠
#>飞狐
#>红狐
#>HarbSeal鲸鲨
#>灰海豹灰海豹
#>毛皮海豹Otariidae Otariidae
#>犬犬狼疮
#>猫科动物猫科动物
#>荆棘Sorex Sorex
#>摩尔塔尔帕塔尔帕
#>裸鲤
#>大象大象
#>刺猬棘
#>Tenrec半球体
#>阿德瓦克(Aardwark Orycteropus)afer Orycterapus afer
#>Armadillo Dasypodidae大蠊科
#>大力士(Wallaro Macropus robustus)
#>三毛负鼠
#>佩拉梅莱斯班迪科特
#>Opposum Didelphis有袋动物
#>鸭嘴兽
#>Loris Lorisinae洛里西亚纳
拓扑$提示标签<- 姓名(分类名[索引])

获取NJ树:

#获取NJ树
糖尿病<- dist.hamming公司(劳拉西亚瑟)
tree_nj(树名)<- 新冠肺炎(分)
#节俭(tree_nj,Laurasiatherian)
情节(tree_nj)
NJ树
NJ树

使用ACCTRAN算法获取分支长度(deltran不可用在R中):

#姓名(Laurasiatherian)
树_ acctran<-潘贡::阿克川(树=tree_nj、,
                                  数据=Laurasiatherian)
情节(tree_acctran,cex公司= 0.8)
ACCTRAN树
ACCTRAN树

优化分支长度以获得最大可能性:

pml(pml)<-潘戈恩::pml(pml)(tree_acctran,数据=Laurasiatherian)
树_pml<-潘戈恩::最佳.pml(百万分之一,数据=Laurasiatherian)
#>优化边权重:-207130.4-->-92073.04
#>优化边权重:-92073.04-->-60586.86
#>优化边权重:-60586.86-->-54303.67
#>优化边权重:-54303.67-->-54303.67
情节(tree_pml,cex公司= 0.8)
优化的树
优化的树
数据帧(新泽西州=::分支次数(tree_nj),
           阿克川=::分支次数(tree_acctran),
           最佳ml=::分支次数(树_pml$树))
#>nj acctran optimpml
#> 48 0.075159106   321.0  0.107064350
#> 49 0.074663666   284.0  0.102593327
#> 50 0.073681576   244.0  0.097146781
#> 51 0.072808761   230.0  0.092561163
#> 52 0.071237434   160.0  0.080246326
#> 53 0.070852888   184.0  0.085875992
#> 54 0.072402082   222.0  0.094843463
#> 55 0.070159654   175.0  0.086331259
#> 56 0.070158809   149.0  0.079683763
#> 57 0.068402201    71.5  0.061969166
#> 58 0.066330555   143.0  0.074316747
#> 59 0.066063222   116.5  0.072728795
#> 60 0.063112914    79.0  0.062921450
#> 61 0.062316865    89.5  0.058590132
#> 62 0.060984052    27.5  0.053168778
#> 63 0.059516822    -1.0  0.049363834
#> 64 0.060010969    70.0  0.060093467
#> 65 0.058745717    34.5  0.052868434
#> 66 0.068287715   121.0  0.079088325
#> 67 0.067707842   131.5  0.070542031
#> 68 0.057316264   -25.0  0.038478291
#> 69 0.055307172   -85.0  0.029719556
#> 70 0.055854838   -11.0  0.041133191
#> 71 0.053485916  -141.0  0.021404320
#> 72 0.061528553    91.0  0.054118927
#> 73 0.054099932    18.5  0.045794155
#> 74 0.052307954   -68.5  0.035347826
#> 75 0.052921072   -39.0  0.034727448
#> 76 0.062130184   205.0  0.072165304
#> 77 0.061680356    98.5  0.056499524
#> 78 0.053837166    24.0  0.045532404
#> 79 0.038484053  -124.0  0.015848828
#> 80 0.039374093  -119.5  0.013503246
#> 81 0.036273689  -103.0  0.008657362
#> 82 0.034213936  -249.5 -0.009260506
#> 83 0.047525047   -53.0  0.034485225
#> 84 0.042017855   -74.5  0.020045102
#> 85 0.024609363  -154.0  0.005832687
#> 86 0.025461698   -60.0  0.011005829
#> 87 0.037238301    70.0  0.030054865
#> 88 0.016952218  -311.0 -0.027997263
#> 89 0.016785633  -195.0 -0.010363564
#> 90 0.011732705  -253.5 -0.017033589
#> 91 0.009098229  -317.5 -0.028687772
#> 92 0.001053604  -385.5 -0.048094863

使用OpenTree拓扑:

#类人猿::comparePhylo(x=tree_nj,y=tree_acctran)

奥托勒·阿克川<-潘戈恩::阿克川(树=::解开根(拓扑),
                                  数据=Laurasiatherian)

#获取acctran分支长度和对齐的可能性
otol_pml公司<-潘戈恩::pml(pml)(otol_acctran,数据=Laurasiatherian)
#优化分支长度
otol_optim公司<-潘戈恩::优化.pml(otol_pml)
#>优化边权重:-207130.4-->-106097.5
#>优化边权重:-106097.5-->-106096.6
#>优化边权重:-106096.6-->-106096.6

数据帧(奥托勒·阿克川=::分支次数(otol_acctran),
           otol_optim_pml=::分支次数(otol_optim$树))
#>otol_acctran otol_optim_pml
#>ott244265 136.0 8.100226e-02
#>ott229558-48.0 6.705178e-02
#>电话:683263-163.0 6.705177e-02
#>ott5334778-205.0 6.345339e-02
#>ott392222-264.5 4.802316e-02
#>mrcaott42ott29157-317.5 4.802315e-02
#>mrcaott42ott10477-363.0 4.802313e-02
#>38834-426.5 3.757718e-02中的42位
#>mrcaott102ott739-565.0-1.873340e-02
#>mrcaott38834ott45520-51.0-5.291179e-02
#>ott44559-412.5 3.042209e-02
#>ott644242-407.0-8.945198e+01
#>ott386195-396.5-1.319520e+02
#>mrcaott786ott83926-491.0-2.264520e+02
#>ott392223-250.5 4.934326e-02
#>mrcaott1548ott4697-290.0 3.508578e-02
#>mrcaott1548ott6790-325.0 2.671321e-02
#>mrcaott1548ott3021-353.0 1.838742e-02
#>ott622916-411.0 5.608031e-03
#>mrcaott1548ott21987-457.0-1.45455e-03
#>mrcaott1548ott5256-511.0-1.051769e-02
#>ott768677-589.0-4.083177e-02
#>ott7655791-556.0-2.006278e-02
#>mrcaott5256ott44568-658.0-5.017645e-02
#>mrcaott44568ott226190-721.5-6.958462e-02
#>ott541948-397.0 6.043458e-03
#>ott541951-476.5-2.445224e-02
#>ott1034218-458.5-1.304954e-02
#>ott574724-386.0 1.230833e-02
#>mrcaott6790ott6794-462.5-6.137077e-03
#>mrcaott10323ott61857-508.0-8.318380e-02
#>ott813030-488.5-2.606782e-02
#>mrcaott4697ott6940-349.0 2.214181e-02
#>ott827263-408.0 1.153504e-02
#>mrcaott22064ott95364-486.0-1.026178e-02
#>mrcaott22064ott6145546-561.5-3.342281e-02
#>mrcaott3285ott17250-321.0-5.802449e-02
#>mrcaott3285ott60434-359.0-1.005802e+01
#>mrcaott72667ott180375-239.0 4.144542e-02
#>ott746703-318.0-2.134463e-03
#>加拿大中部地区82081ott292026-418.5-1.005021e+02
#>ott922729-508.5-1.005021e+02
#>mrcaott6735ott29033-259.0-2.109329e+02
#>mrcaott6735ott70811-321.0-2.109329e+02
#>mrcaott6735ott44497-385.0-2.109329e+02
情节(otol_pml,主要=“ACCTRAN分行”,cex公司= 0.8)#顶部=默认
ACCTRAN树
ACCTRAN树
情节(otol_optim,主要=“优化的分支”,化学需氧量= 0.8)#底部=优化的分支长度
优化的树
优化的树