云中的生物导体
目录
概述 预加载AMI 第一时间步 启动AMI 使用SSH连接到您的AMI 使用HTTP和Rstudio连接到AMI AMI ID 使用Bioconductor实例的场景 使用Rgraphviz 使用并行包进行并行化 将AMI用作集群 安装StarCluster 配置StarCluster 启动群集 连接到群集 终止群集 集群场景 使用BiocParallel和Sun Grid引擎 使用SSH作为后端 使用MPI作为后端 创建Bioconductor AMI的自定义版本 配置虚拟机或物理机以与Bioconductor一起使用 在Bioconductor AMI实例中移动数据 问题
概述
您不想在自己的机器上安装Bioconductor。 您有一个长时间运行的任务,不希望它占用您自己机器上的CPU。 您有一个可并行化的任务,希望运行它(在一台机器上的多个CPU上,或者在多台机器的集群中)。 您希望在web浏览器中运行R(使用RStudio Server)。 AMI包含许多包,这些包可能非常 难以安装和配置。
预加载AMI
组织* 英国基因组* TxDb(发送日期)*
如何使用
第一时间步骤
创建密钥对
启动AMI
选择AMI 选择要运行的Bioconductor版本。 选择实例类型 当前的AMI是由具有4个核心和16GiB内存的实例创建的。 配置实例 默认值通常是可以的。 添加存储 只有当您想在实例中存储大文件时才需要。 标记实例 指定要分配给图像的任何标记(键值对)。 配置安全组 为SSH指定端口22(默认),并为http(Rstudio)访问添加端口80。 审查和发布
使用SSH连接到您的AMI
ssh-i生物导体-bob-mylapop.pem ubuntu@ec2-50-16-120-30.compute-1.amazonaws.com
ssh-X-i生物导体-bob-mylapop.pem ubuntu@ec2-50-16-120-30.compute-amazonaws.com
使用HTTP和RStudio连接到您的AMI
AMI ID
使用Bioconductor实例的场景
使用Rgraphviz
ssh-X-i生物导体-bob-mylapop.pem ubuntu@ec2-50-16-120-30.compute-1.amazonaws.com
库(“Rgraphviz”) 种子(123) V<-字母[1:10] M<-1:4 g1<-随机图(V,M,0.2) 绘图(g1)
使用并行包进行并行化
库(并行) mclapply(1:30,形式)
将AMI用作集群
SSH(SSH) 磁粉探伤 太阳网格引擎
无密码SSH 共享磁盘空间(使用NFS) 主机名的方便别名(如master和node001) 作业调度程序的配置(Sun Grid Engine)
安装StarCluster
配置StarCluster
星团帮助
选项: -------- [1] 显示StarCluster配置模板 [2] 将配置模板写入/home/user/.starcluster/config [q] 退出
AWS凭据和连接设置部分
定义EC2键盘部分
星团createkey--帮助
[密钥mykey]
KEY_LOCATION=~/.ssh/mykey.rsa
定义群集模板部分
更改的值 凯恩(KEYNAME) 到密钥对的名称 (请参阅上面的密钥对部分)。 可选择更改 群集_大小 你的机器数量 希望启动。 这个数字包括主节点,因此 默认值2表示一个主节点和一个辅助节点。 我们 建议从2开始,直到你熟悉为止 使用StarCluster和Bioconductor。 更改 群集_用户 到 乌班图 。 取消对行的注释 DNS_PREFIX=真 。这使您的群集 使用AWS控制台或 命令行工具。 更改 节点_IMAGE_ID 到要使用的AMI的AMI-ID 这将列在 AMI ID 本文档的第节。 请注意,StarCluster仅适用于Bioconductor的AMI 2.14及更高版本。 可选择更改 节点_安装_类型 到另一个实例类型。 请参阅 实例类型页面 了解更多信息。 线下读数 #许可=ssh,http ,添加行 权限=http (注意小写)。 这与安全有关 组权限(下面详细介绍)。
配置安全组权限部分
[权限http] IP_PROTOCOL=tcp 起始端口=80 TO_PORT=80
启动群集
星簇启动小簇
连接到群集
使用RStudio Server连接
星团列表星团
星团液晶
----------------------------------------------- smallcluster(安全组:@sc-smallcluster) ----------------------------------------------- 发布时间:2014-06-16 09:57:54 正常运行时间:0天,02:19:56 区域:美国东部-1b Keypair:生物默认 EBS卷:不适用 群集节点: 运行i-46a76c6d ec2-54-91-23-93.compute-1.amazonaws.com的smallcluster-master smallcluster-node001运行i-47a76c6c ec2-54-224-6-153.compute-1.amazonaws.com 节点总数:2
使用SSH连接
starcluster sshmaster--user=ubuntu smallcluster
终止群集 **重要**
星簇终止小簇
集群场景
使用BiocParallel和Sun Grid引擎
库(BatchJobs)
集群功能:SGE
库(BatchJobs) 库(BiocParallel) param<-BatchJobsParam(2,resources=list(ncpus=1)) 寄存器(参数) 趣味<-功能(i)系统(“主机名”,intern=TRUE) xx<-bplapply(1:100,FUN) 表(未列出(xx))
smallcluster-master smallcluster-node001 50 50
使用SSH作为后端
库(BatchJobs) 库(BiocParallel) cluster.functions<-makeClusterFunctionsSSH( makeSSHWorker(nodename=“smallcluster-master”), makeSSHWorker(nodename=“smallcluster-node001”) ) param2<-BatchJobsParam(2,resources=list(ncpus=1), cluster.functions=集群.functions) 寄存器(参数2) 趣味<-功能(i)系统(“主机名”,intern=TRUE) xx<-bplapply(1:10,趣味) 表(未列出(xx))
smallcluster主机smallcluster-node001 5 5
使用MPI作为后端
图书馆(Rmpi) mpi.universe.size()
趣味<-功能(i)系统(“主机名”,intern=TRUE)
param3<-SnowParam(mpi.universe.size()-1,“mpi”) 寄存器(参数3)
xx<-bplapply(1:10,趣味) 表(未列出(xx))
创建Bioconductor AMI的自定义版本
密码ubuntu
配置虚拟机或物理机以与Bioconductor一起使用
在Bioconductor AMI实例中移动数据
在计算机上打开终端或命令提示符窗口 使用“cd”,切换到密钥对(.pem)文件所在的目录 发出如下命令(您的密钥对名称和AMI实例的主机名将不同;您可以通过在 AWS控制台 ):
scp-i生物导体-bob-mylaptop.pem ubuntu@ec2-50-16-120-30.compute-1.amazonaws.com :~/myfile/some/directory