×

截止日期

swMATH编号: 23393
软件作者: Daniel Adler、Christian Gläser、Oleg Nenadic、Jens Oehlschlägel、Walter Zucchini
描述: R包ff:大数据在磁盘上的高效内存存储和快速访问功能。ff包提供了存储在磁盘上的数据结构,但通过透明地映射主内存中的一个部分(页面大小)(每个ff对象的有效虚拟内存消耗),它们的行为(几乎)就像在RAM中一样。ff支持R的标准原子数据类型“double”、“logical”、“raw”和“integer”,以及非标准原子类型boolean(1位)、quad(2位unsigned)、nibble(4位unsigned)、byte(1字节带NAs符号)、ubyte(1字节无符号)、short(2字节带NAs符号)、ushort(2个字节不带符号)、single(4字节浮点带NAs)。例如,“quad”可以将基因组数据作为“A”、“T”、“G”、“C”因子进行有效存储。无符号类型支持“循环”算法。还支持接近原子类型“factor”、“ordered”、“POSIXct”、“Date”和自定义接近原子类型。ff不仅对向量、矩阵和具有灵活数据顺序(主要列顺序、主要行顺序和数组的泛化)的数组提供了本机C支持。还有一个与data.frames和csv文件的导入/导出过滤器类似的ffdf类。ff对象以本机编码将原始数据存储在二进制平面文件中,并用存储在R中的元数据作为物理和虚拟属性进行补充。ff对象具有定义良好的混合复制语义,通过虚拟化可以提高某些性能。ff对象可以存储并跨R会话重新打开。ff文件可以由同一进程中的多个ff R对象共享(使用不同的数据编解码方案),也可以由多个R进程共享,以利用并行性。终结器选项的广泛选择允许使用“永久”文件,以及创建/删除对用户完全透明的“临时”ff文件。在某些OS/Filesystem组合上,由于使用了稀疏文件分配,因此创建ff文件没有明显的延迟。实现了几种访问优化技术,如混合索引预处理和虚拟化,以获得良好的性能,即使使用大型数据集,例如无需接触磁盘上的单个字节即可进行虚拟矩阵转置。此外,为了减少磁盘I/O,“逻辑”和非标准数据类型以本机方式存储并压缩在二进制平面文件中,即逻辑占用正好2位来表示TRUE、FALSE和NA。除了基本访问功能外,ff包还提供了兼容性功能,这些功能有助于为ff和ram对象编写代码,并支持对ff对象(例如as.ram、as.ff、ffapply)进行批处理。ff与包“bit”的功能紧密相连:分块循环、快速位操作和可以存储下标信息的不同对象之间的强制(“bit“、“bitwich”、ff“boolean”、ri范围索引、hi混合索引)。这允许与大型数据集的选择交互工作,并快速修改选择标准。可根据要求提供进一步的高性能增强功能。
主页: https://cran.r-project.org/web/packages/ff/index.html
源代码:  https://github.com/cran/ff
依赖项: R(右)
相关软件: R(右);;晶格;多芯;勒库耶;mvtnorm公司;第一条溪流;Hadoop公司;doMPI(doMPI);数据库;多斯诺;biglm公司;大代数;同步性;伯克希尔哈撒韦;增强C++库;Rmpi公司;Matlab语言;SAS公司;do并行
引用于: 1文件

0连载引用

在1个字段中引用

1 统计学(62-XX)

按年份列出的引文