下蒙蒙细雨

毛毛雨:快速和适应性强的大规模溪流处理。大规模流媒体系统的目标是提供高吞吐量和低延迟。它们通常用于运行任务关键型应用程序,并且必须全天候可用。因此,此类系统需要适应故障和工作负载的固有变化,对延迟和吞吐量的影响最小。不幸的是,现有的解决方案要求运营商在正常运行期间实现低延迟和在适应过程中产生最小影响之间进行选择。连续运营商流媒体系统,如Naiad和Flink,在正常执行期间提供低延迟,但在适应(例如,恢复)期间会产生较高的开销,而诸如Spark streaming和FlumeJava等微批处理系统在正常操作期间以高延迟为代价快速适应。我们的主要观察结果是,虽然流式工作负载需要毫秒级的处理,但工作负载和集群属性的更改频率较低。基于此,我们开发了毛毛雨,一个将处理间隔与用于容错和适应性的协调间隔解耦的系统。我们在128节点EC2集群上的实验表明,在Yahoo流媒体基准测试平台上,毛毛雨可以实现小于100ms的端到端记录处理延迟,并且可以获得比Spark低2-3倍的延迟。毛毛雨还具有更好的适应性,从故障中恢复的速度比Flink快4倍,同时恢复过程中的延迟降低了13倍。

此软件的关键字

这里的任何内容都将在支持canvas元素的浏览器上被替换