Dask可以很容易地扩展您熟悉和喜爱的Python库,如NumPy、pandas和scikit。
将任何Python代码与Dask Futures并行,让您可以缩放任何函数和for循环,并在任何情况下为您提供控制和功能。
从笔记本电脑开始,但无论您使用什么基础设施,都可以扩展到集群。Dask部署在Kubernetes、云或HPC上,而Dask库可以方便地根据需要使用尽可能多或少的计算。
Dask在整个PyData生态系统中都有使用,目前包括在许多库中,如Xarray、Prefect、RAPIDS和XGBoost。
Python已经成为数据分析和通用编程领域的主导语言。这一增长得益于NumPy、pandas和scikit-learn等计算库。然而,这些包的设计并不是为了扩展到单个机器以外。开发Dask是为了在数据集超出内存时将这些包和周围的生态系统本地扩展到多核机器和分布式集群。
数据专业人士有很多理由选择Dask。
与Python代码本地集成,以确保一致性并最大限度地减少摩擦
可扩展到内部、云中或HPC集群上的数千节点集群,无需重写代码
允许用户操作笔记本电脑上的100GB+数据集或工作站上的1TB+数据集
支持用于统计或机器学习、时间序列或本地操作或定制并行应用程序的高级算法
使用户能够通过交互式仪表板快速识别和解决错误和性能问题
与其他GPU加速数据分析和机器学习框架集成
不需要配置或设置
支持使用TLS/SSL证书进行加密和身份验证
优雅地处理工作节点故障
利用动态添加的新节点
以低开销和低延迟运行以实现高性能
可以使用自定义业务逻辑构建您自己的并行计算系统
已被全球数千名数据专业人员使用
许多软件项目与Dask集成或使用Dask为其基础设施的组件供电。Dask支持熊猫、NumPy、scikit-learn、PyTorch、XGBoost、Xarray、Prefect和RAPIDS等。