软件搜索-zbMATH Open

×

截止日期

swMATH编号：	23393
软件作者：	Daniel Adler、Christian Gläser、Oleg Nenadic、Jens Oehlschlägel、Walter Zucchini
描述：	R包ff：大数据在磁盘上的高效内存存储和快速访问功能。ff包提供了存储在磁盘上的数据结构，但通过透明地映射主内存中的一个部分（页面大小）（每个ff对象的有效虚拟内存消耗），它们的行为（几乎）就像在RAM中一样。ff支持R的标准原子数据类型“double”、“logical”、“raw”和“integer”，以及非标准原子类型boolean（1位）、quad（2位unsigned）、nibble（4位unsigned）、byte（1字节带NAs符号）、ubyte（1字节无符号）、short（2字节带NAs符号）、ushort（2个字节不带符号）、single（4字节浮点带NAs）。例如，“quad”可以将基因组数据作为“A”、“T”、“G”、“C”因子进行有效存储。无符号类型支持“循环”算法。还支持接近原子类型“factor”、“ordered”、“POSIXct”、“Date”和自定义接近原子类型。ff不仅对向量、矩阵和具有灵活数据顺序（主要列顺序、主要行顺序和数组的泛化）的数组提供了本机C支持。还有一个与data.frames和csv文件的导入/导出过滤器类似的ffdf类。ff对象以本机编码将原始数据存储在二进制平面文件中，并用存储在R中的元数据作为物理和虚拟属性进行补充。ff对象具有定义良好的混合复制语义，通过虚拟化可以提高某些性能。ff对象可以存储并跨R会话重新打开。ff文件可以由同一进程中的多个ff R对象共享（使用不同的数据编解码方案），也可以由多个R进程共享，以利用并行性。终结器选项的广泛选择允许使用“永久”文件，以及创建/删除对用户完全透明的“临时”ff文件。在某些OS/Filesystem组合上，由于使用了稀疏文件分配，因此创建ff文件没有明显的延迟。实现了几种访问优化技术，如混合索引预处理和虚拟化，以获得良好的性能，即使使用大型数据集，例如无需接触磁盘上的单个字节即可进行虚拟矩阵转置。此外，为了减少磁盘I/O，“逻辑”和非标准数据类型以本机方式存储并压缩在二进制平面文件中，即逻辑占用正好2位来表示TRUE、FALSE和NA。除了基本访问功能外，ff包还提供了兼容性功能，这些功能有助于为ff和ram对象编写代码，并支持对ff对象（例如as.ram、as.ff、ffapply）进行批处理。ff与包“bit”的功能紧密相连：分块循环、快速位操作和可以存储下标信息的不同对象之间的强制（“bit“、“bitwich”、ff“boolean”、ri范围索引、hi混合索引）。这允许与大型数据集的选择交互工作，并快速修改选择标准。可根据要求提供进一步的高性能增强功能。
主页：	https://cran.r-project.org/web/packages/ff/index.html
源代码：	https://github.com/cran/ff
依赖项：	R（右）
相关软件：	R（右）;雪;晶格;多芯;勒库耶;mvtnorm公司;第一条溪流;Hadoop公司;doMPI（doMPI）;数据库;多斯诺;biglm公司;大代数;同步性;伯克希尔哈撒韦;增强C++库;Rmpi公司;Matlab语言;SAS公司;do并行
引用于：	1文件

1位作者引用

1	克里斯托弗·海·贾汉斯

0连载引用

在1个字段中引用

1	统计学（62-XX）

按年份列出的引文

© 2024FIZ卡尔斯鲁厄股份有限公司隐私政策法律声明条款和条件