• 语料库ID:34552495

Ray:新兴人工智能应用的分布式框架

@文章{Moritz2017RayAD,title={Ray:新兴AI应用程序的分布式框架},author={菲利普·莫里茨(Philipp Moritz)、罗伯特·西哈拉(Robert Nishihara)、斯蒂芬妮·王(Stephanie Wang)、阿列克谢·图马诺夫(Alexey Tumanov)、理查德·刘(Richard Liaw)、埃里克·梁(Eric Liang)、威廉·保罗(William Pa,日志={ArXiv},年份={2017年},体积={abs/1712.05889},网址={https://api语义scholar.org/语料库ID:34552495}}
本文提出了一种体系结构,该体系结构使用分片存储系统和一种新型的自下而上分布式调度器在逻辑上集中系统的控制状态,该调度器可加速具有挑战性的基准测试,并可自然地和性能地适配新兴的强化学习应用程序和算法。

询问这篇论文
AI供电

资源约束和共享环境中的人工智能

本文展望了一个即将到来的“人工智能系统”研究时代,在这个时代,减少资源消耗、推理瞬态资源可用性、权衡资源消耗以获得准确性以及管理专用硬件的争用将成为社区的主要研究重点。

超现实系统:用于分布式深层强化学习的全集成堆栈

SURREAL算法的学习性能为OpenAI Gym和Robotics Suites任务建立了最新的技术水平,可以轻松扩展到1000个CPU内核和100个GPU。

使用Reactor模型的高效并行强化学习框架

本研究提出了一种实现反应器模型的解决方案,该解决方案强制一组参与者具有固定的通信模式,从而允许调度程序消除同步所需的工作,例如获取和释放每个参与者的锁,或发送和处理与协调相关的消息。

Ray:机器学习生态系统的分布式执行引擎

该模型采用了串行编程中常见的概念,即函数和类,并将其推广到分布式世界,从而统一了无状态和有状态分布式计算,并实现为一个名为Ray的开源系统。

Ray RLlib:分布式强化学习框架

这项工作主张通过采用适用于自顶向下分层控制的算法以可组合的方式分布RL组件,从而将并行性和资源需求封装在短时间运行的计算任务中,并通过在基于任务的框架上构建RLlib来证明这一原理。

Cray XC上的可扩展强化学习

描述了一个典型的RL应用程序工作流,并介绍了加州大学伯克利分校RISELab开发的Ray分布式执行框架,其中包括用于执行分布式强化学习应用程序的RLlib库。

Rosella:一种用于异构集群的自驱动分布式调度程序

提出了一种新的自驱动分布式异构集群任务调度方法Rosella,它将双选择幂算法推广到处理异构工作人员,将先前算法获得的最大队列长度O(logn)减少为O(logn)。

使用光线和韵律的混合自动机的并行和增量验证

本文提出了一种并行算法,解决了计算离散转换的关键瓶颈,并利用了无锁可达树的并发构造,使用动态Ray过程,并表明新的可达集和仿真算法的性能增益随着内核数量的增加和模型中的不确定性而增加。

云服务支持跨异构资源的高效AI引导模拟工作流

这项工作通过将FaaS系统和数据传输功能与管理人员和工人之间通过引用传递数据的系统以及隐藏数据传输延迟的用户配置指导算法集成,实现了对等。

Ray中用于分布式深度学习的柔性基元

有人认为,Ray提供了一组灵活的分布式计算原语,当与现代深度学习库结合使用时,可以实现适用于不同计算环境的广泛梯度聚合策略。
...

实时机器学习:缺失的部分

据称,这种ML应用需要一种新的分布式执行框架,并提出了一种候选方法,该方法具有概念证明体系结构,相对于代表性应用的最新执行框架,性能提高了63倍。

分布式优先体验重播

这项工作提出了一种用于大规模深度强化学习的分布式体系结构,使代理能够从数量级的数据中有效地学习到比以前可能更多的数据,并大大改进了Arcade学习环境的最新技术。

Naiad:一个及时的数据流系统

研究表明,许多功能强大的高级编程模型可以建立在Naiad的低级原语之上,从而实现流数据分析、迭代机器学习和交互式图形挖掘等多种任务。

ELF:一个用于实时策略游戏的广泛、轻量级和灵活的研究平台

ELF是一个用于基础强化学习研究的广泛、轻量级和灵活的平台,它被提出,并表明具有Leaky ReLU和批量规范化的网络,再加上长期训练和渐进课程,在Mini RTS的整个游戏中,超过70%的时间击败了基于规则的内置人工智能。

进化策略作为强化学习的可扩展替代方案

这项工作探索了进化策略(ES)的使用,这是一类黑箱优化算法,作为基于MDP的流行RL技术(如Q-learning和Policy Gradients)的替代方法,并强调了ES作为黑箱优化技术的几个优点。

街机学习环境:一个通用代理评估平台

通过为强化学习和规划使用成熟的人工智能技术设计的领域相关代理的开发和基准测试,说明了ALE的前景,并提出了ALE可能实现的评估方法。

深度强化学习的大规模并行方法

这项工作提出了第一个用于深度强化学习的大规模分布式体系结构,使用分布式神经网络表示价值函数或行为策略,并使用分布式经验存储来实现深度Q网络算法。

Omega:用于大型计算集群的灵活、可扩展的调度器

这项工作提出了一种新的方法来解决规模不断扩大和快速响应不断变化的需求,使用并行、共享状态和无锁乐观并发控制来解决整体集群调度器体系结构。

小雨:大规模快速适应性水流处理

毛毛雨是一种将处理间隔与用于容错和适应性的协调间隔解耦的系统,具有更好的适应性,从故障中恢复的速度比Flink快4倍,而恢复期间的延迟则低13倍。

麻雀:分布式、低延迟调度

研究表明,分散随机抽样方法在避免集中设计的吞吐量和可用性限制的同时,提供了接近最佳的性能。
...