2.72.0版--------------新功能o在read_fasta_files.c中将IO缓冲区的大小从20001增加到200000和read_fastq_files.c.进行此更改后，readDNAStringSet（）和family支持行最多为200000个字符的FASTA/FASTQ文件。请参见https://github.com/Bioconductor/Biostrings/issues/59o将get_XStringSet_width（）添加到Biostrings C接口。用户可见的重大变化o pairwiseAlignment（）和related已移至新的pwalign包。现在在pwalign中实现的函数列表：-成对对齐-成对对齐-成对对齐单个主题-写入广播路线-对齐的图案-对齐主题-插入-删除-未对齐的-对齐-吲哚-宁德尔-内迪特-pid控制器-不匹配表-不匹配摘要-比较字符串-字符串距离-核苷酸替代矩阵-错误替换矩阵-质量替代矩阵请注意，它们仍在生物串中临时定义，但现在它们只调用pwalign中的相应函数。因为这是一个临时重定向，用户也会收到一条警告，告诉他们使用要调用的完全限定名称（例如pwalign:：pairwiseAlignment（））函数。o BLOSUM和PAM评分矩阵也移至新的pwalign包裹。现在位于pwalign中的评分矩阵列表：BLOSUM45、BLOSUM50、BLOSUM62、BLOSUSM80、BLOSUM100、PAM30、PAM40、PAM70、，PAM120、PAM250。弃用和弃用o取消matchprobes（）和longestConsecutive（）。o needwunsQS（）现在不起作用（在被弃用15年以上之后）。BUG修复o检测writeXStringSet（）中的缓冲区溢出并引发错误崩溃的原因。请参见https://github.com/Bioconductor/Biostrings/issues/20o确保read*StringSet（）完成后关闭所有输入文件句柄。请参见https://support.bioconductor.org/p/9157031/2.70.0版--------------新功能o现在是AAString/AAStringSet/AAString SetList对象的字符集强制执行（一个长期特性）。感谢Aidan Lakshman实现这一点。2.68.0版--------------新功能o彩色显示氨基酸序列（AAString/AAStringSet对象）。2.66.0版--------------新功能o向核苷酸SubstitutionMatrix（）添加选项，以使不对称核素替换矩阵。o从列表或list向任何XStringSetList具体子类添加强制。请注意，这些添加会自动在XStringSetList上启用[[<-衍生产品。用户可见的重大变化o pairwiseAlignment（）手册页中的几个说明：-明确函数接受相同的“主题”长度为“pattern”。-解释提供多个主题时的功能行为。o阐明一元compareStrings（）在手册页中的作用。BUG修复o重构DNAStringSet对象的seqinfo（）getter和setter2.64.0版--------------新功能o如果输入writeXStringSet（）是QualityScaledXStringSet对象。Felix Ernst供稿o当DNAStringSet（）删除输入对象的元数据列时发出警告。-到目前为止，B/DNA/RNA/AAStringSet（）构造函数已经在此情况下，会自动删除输入对象的元数据列对象是XStringSet派生。现在，当这样做。-还要强调使用readQualityScaledDNAStringSet（）的优点over readDNAStringSet（…，format=“fastq”，其中.qualities=TRUE）。参见第61期，了解这两个变化背后的动机。2.62.0版--------------BUG修复o修复当矩阵返回时寡核苷酸Frequency（）中的整数溢出包含个以上的INT_MAX元素。o当返回的字符串为空时，修复aligned（）getter中存在12年以上的错误。2.60.0版--------------新功能o findPalindromes（）：实现“min.looplength”和“allow.wobble”论据。埃里克·赖特撰稿。o为DNAStringSet对象添加seqinfo（）getter和setter。马塞尔·拉莫斯撰稿。用户可见的重大变化o改进XStringViews对象上as.data.frame（）的行为。版本2.58.0---------------此版本中没有重大更改。版本2.56.0--------------新功能o彩色显示DNA序列（DNAString/DNAStringSet对象）。版本2.54.0--------------新功能o readDNAStringSet（）现在可以长时间读取FASTQ文件。现在的读数可以达到2^31-1个基点（之前的限制是20000个基点）。用户可见的重大变化o findPalindromes（）的手册页中有一些小的澄清。还要去掉回文ArmLength（）中的省略号（…），回文LeftArm（）和回文RightArm（。）泛型和方法。它没有被使用，所以只是误导/混淆。o type（）泛型现在在BiocGenerics包中定义。BUG修复o将N50（）的输入强制为数字，以避免整数溢出。基兰·奥尼尔修复。2.10.0版--------------基本集装箱o添加了一组“强制”方法来转换任意XStringSet对象转换为BStringSet、DNAStringSet、RNAStringSet或AAStringSet实例（通过as（）函数）。o为XStringSet对象添加了“append”方法。一个重要的用例这是将一组短文及其反向补语放在一起在单个DNAStringSet对象中，然后将此对象转换为单个PDict对象（双PDict目标）。然后可以使用此双重PDict对象为了获得两条线的命中率（+和-）。o删除了XStringList类和系列。o移动了I范围、解锁I范围、锁定I范围、正常I范围，MaskCollection、Views和XInteger类及其新方法IRanges包。公用设施o添加了codons（）和translate（）泛型函数以及DNA字符串、RNAString、DNA字符串集、RNA字符串集、屏蔽DNA字符串和屏蔽RNAString对象。o添加了hasOnlyBaseLetters（）和uniqueLettes（）泛型函数和方法。o添加了fasta.info（）以快速提取存储在FASTA文件中的序列。还重命名为“strip.desc”readFASTA（）->“strip.descs”的参数。o重命名了replaceLetterAtLoc（）->replaceLetterAt（）并重命名了其“loc”参数->“at”。不推荐使用replaceLetterAtLoc（）。o添加了预定义的“RNA_GENETIC_CODE”对象。o移动用于导入掩码的实用程序函数（read.agpMask（），read.gapMask（）、read.liftMask（函数）添加到新的IRanges包。o移动了width（）、shift（）、restrict（）、narrow（）的泛型函数，reduce（）、gaps（）、reverse（），coverage（）、subject（）、views（）、trim（）和subviews（）更新为新的IRanges包。字符串匹配o使用XStringSet的方法添加了vcountPDict（）泛型函数物体。它是countPDict（）的矢量化版本，即主题必须是XStringSet对象。o为matchPattern（）、countPattern和vcountPattern（）（vmatchPattern（））将紧跟MIndex对象支持可变宽度匹配）。o添加了带有XStringSet对象的方法。它们是的矢量化版本matchPattern（）/countPatter（），即主题必须是XStringSet对象（不久将支持XStringViews对象）。o为XStringViews和屏蔽DNA字符串对象。o向ByPos_MIndex类添加“dups0”插槽：这允许在内存中更紧凑地表示ByPos_MIndex对象，该对象包含具有大量重复项的一组模式的命中率。好处是当模式在原始字典有很多点击量，这似乎是典型的将Solexa数据与其参考基因组进行匹配时发生的情况。在这个在这种情况下，使用新的“dups0”插槽可以使ByPos_MIndex对象大约为3更小倍。利用这个新的“dups0”插槽改进复制方式模式通过“PDict->matchPDict（）->MIndex”管道进行处理。这个新的战略是“尽早删除它们，并将它们放回原处越晚越好”。这会提高速度，也会减少内存需要将点击数存储在临时缓冲区中。o添加了带有XString对象方法的“whichPDict”泛型函数。o PDict类、子类和PDict（）构造函数的主要返工：-将CWdna_PDict和TBdna_PDict类合并到TB_PDict类中（PDict VIRTUAL类的子类），用于存储Trusted Band PDict对象。-现在有两种预处理类型：“ACtree”类型（默认）以及“Twobit”类型。-添加了MTB_PDict类（PDict VIRTUAL类的另一个子类），用于存储多可信带PDict对象的容器。-现在为PDict对象定义的方法有：长度、宽度、名称、，[[、head、tb、tb.width、tail、show、duplicated和patternFrequency。-更改了PDict（）构造函数的签名：不再使用“drop.head”和“drop.tail”参数，以及新的“tb.width”和“type”参数。看到了吗？PDict了解详细信息（尤其是每种类型的限制预处理）。字符串对齐o增加了对任意长度的字符向量和XStringSet对象的支持到pairwiseAlignment函数的模式参数。o添加了“subjectOverlap”和“patternOverlap”两两序列对齐。o增加了对两两序列比对中Solexa质量分数的支持计算。o增加了对基于质量的成对序列中模糊映射的支持路线。o添加了stringDist函数来计算Levenshtein编辑距离字符向量或XStringSet的元素之间。o为成对对齐对象添加了许多方法，包括as.matrix，compareStrings、consensusMatrix、consenussString、coverage、，不匹配摘要，不匹配表，nindel，nmatch，nmismatch，pattern，pid，rep、subject、summary、toString、Views。o删除了XStringAlign类并添加了类PairwiseAlignment，成对对齐摘要、对齐XStringSet、质量对齐XString集、，质量缩放XStringSet，质量缩放BStringSet，QualityScaledDNA字符串集，QualityScaledAAStringSet、XStringQuality、PhredQuality和SolexaQuality。2.8.0版-------------基本集装箱o增加2个容器，用于处理屏蔽序列：-用于存储可以用于屏蔽序列中的区域。-用于存储屏蔽序列的MaskedXString容器系列。o添加了新的容器来存储一组大序列：-XStringSet系列：BStringSet、DNAStringSet、RNAStringSet和AAStringSet（所有没有附加插槽的直接XStringSet子类型）。-XStringList系列：BStringList.、DNAStringList.RNAStringList和AAStringList（所有没有附加插槽的直接XStringList子类型）。从用户的角度来看，这两个族几乎相同，但内部表示和方法实现非常不同。XStringList系列首次尝试解决以高效的方式存储大量序列，但其性能结果令人失望。因此引入了XStringSet系列作为对XStringList容器性能不佳的回应。XStringList系列可能很快就会被删除。o添加了trim（）函数，用于修剪XStringViews对象。o添加了“限制”、“窄”、“减少”和“间隙”通用功能IRanges和XStringViews对象的方法。这些功能提供将IRanges对象基本转换为同一个班级。还添加了toNormalIRanges（）函数用于规范化IRanges对象。o添加了“start<-”、“width<-”和“end<-”泛型，以及解锁IRanges和Views对象。还为添加了“更新”方法UnlockedIRanges对象以提供组合多个对UnlockedIRanges对象的修改会将其转换为单个调用。o添加了intToRanges（）和intToAdjacentRanges用于创建IRanges实例。o添加了IRanges、UnlockedIRanges和Views、LockedIRranges和NormalIRanges类，用于表示一组整数范围+“isNormal”和带有IRanges对象方法的“whichFirstNotNormal”泛型函数（详见I范围）。更改了XStringViews类的定义，因此现在它派生自Views类。o通用构造函数RNAString（）（resp.DNAString）现在从将T替换为U（将U替换为T），从而将DNA转换为RNA（将RNA转换为DNA）试图模仿转录。仍在执行此转换而不复制序列数据，因此保持非常快。此外，将RNA与DNA进行比较的语义也被更改为保留与RNAString（）和DNAString。RNAString（“UUGAAAA-CUC-N”）被认为等于DNAString（“TTGAAAA-CC-N”）。o增加了对空XString对象的支持。o添加了XString（）通用构造函数（它是一个带有字符和XString对象的方法）。B字符串（）、DNA字符串（），RNAString（）和AAString（）构造函数现在基于它。o重命名了subBString（）->subXString（。o重命名了BStringViews类->XStringViews。o通过添加XString虚拟类：现在是BString、DNAString、RNAString和AAString类都是不带额外插槽的直接XString子类型。最重要的是，它们在新层次结构中都处于同一级别，即。DNAString、RNAString和AAString对象不再是BString对象。C级设施o启动Biostrings C接口（工作-生产）。请参阅inst/include/Biostrings_interface.h以了解如何在包中使用它。公用设施o为IRange、NormalIRanges、MaskCollection和屏蔽XString对象以及“补码”和“反向补码”方法用于MaskedDNAString和MaskedRNAString对象。o添加了coverage（）泛型函数和IRanges方法，MaskCollection、XStringViews、MaskedXString和MIndex对象。o为“硬屏蔽”序列添加了injectHardMask（）泛型函数。o添加了maskMotif（）泛型函数，用于按内容屏蔽序列。o添加了用于导入掩码的实用程序功能：-read.agpMask（）：从NCBI“agp”文件中读取掩码；-read.gapMask（）：从UCSC“间隙”文件读取掩码；-read.liftMask（）：从UCSC“lift”文件读取掩码；-read.rmMask（）：从RepeatMasker.out文件中读取掩码；-read.trfMask（）：从串联重复查找器.bed文件中读取掩码。o使用XString和屏蔽XString对象。o新增功能读取。BStringSet（），读取。DNAStringSet（），阅读。RNAStringSet（），读取。AAStringSet（）并写入。XStringSet（）。阅读。BStringSet（）和族现在优先于读取。XStringViews（）（字符串视图）用于将FASTA文件加载到R中。重命名的助手函数BStringViewsToFASTArecords（）->XStringSetToFASTArecords（）。o使用方法添加了replaceLetterAtLoc（）泛型函数DNAString对象（稍后可能会出现其他类型对象的方法）用于复制字母被新字母替换的序列在某些特定位置。o添加了chartr（）泛型函数和XString、XStringSet的方法和XStringViews对象。o为XString、XStringViews和XStringAlign对象创建“show”方法“getOption（'width'）aware”，以便用户可以控制他们生产的产品。o添加了二核苷酸Frequency（）和三核苷酸Frequenc（），寡核苷酸Frequency（）、strrev（）和mkAllStrings（）函数。o alphabetFrequency（）中有四处更改：（1）当与“baseOnly=TRUE”一起使用时，间隔字母（“-”）的频率不再返回（现在它被视为任何“其他”信件，即。任何非基本字母）；（2）添加了“freq”参数；（3）添加了“崩溃”参数；（4）使XStringSet和XStringViews对象的速度提高了1000倍。o为XStringAlign对象添加了“as.character”和“consmat”方法。o添加了patternFrequency（）泛型函数和方法CWdna_PDict对象（稍后将针对TBdna_PDict对象提供）。o为CWdna_PDict对象添加了“重复”方法（稍后将介绍TBdna_PDict对象）。o为XStringSet对象添加了“reverse”方法，以及“补码”和DNAStringSet和RNAStringSet对象的“reverseComplement”方法。他们都保留了名字。o reverse（）、complement（）和reverseComplement（）现在保留名称应用于XStringViews对象时。o作者：添加了dna2rna（）、rna2dna（）、转录（）和cDNA（）functions+RNAString对象的“reverseComplement”方法。o添加了mergeIUPACLetters（）实用程序函数。字符串匹配o matchPattern。Rnw渐晕图被大大改进的基因组搜索所取代。雷诺数小插曲（仍然是一部以工作为目的的电影）。o为XStringViews和MaskedXString对象添加了“matchPDict”方法（仅适用于DNA输入序列）。o在matchPDict（）中添加了对主题中IUPAC模糊性的支持，即在Trusted上使用“fixed=FALSE”调用时，将它们视为通配符带dict或在任何dict上使用“fixed=c（pattern=TRUE，subject=FALSE）”。o在matchPDict（）中添加了对字典与的不精确匹配的支持“受信任的前缀”。看到了吗`matchPDict-inact`了解详细信息。o实现了C函数CWdna_exact_search（）的“快捷方式功能”。使用此修补程序，使用matchPDict（）查找全人类基因组中的3.3M 32-mers字典染色体）大约比以前快2.5倍（大约需要20倍分钟和2小时取决于您的机器和比赛次数找到）。这使matchPDict（）与Vmatch软件处于同一级别(网址：http://www.vmatch.de/)这样大的字典。内存占用对于matchPDict（），从3.3M 32-mers字典。建造这棵树仍然很快（2或3分钟）（Vmatch需要60G的磁盘空间来构建其所有后缀数组，不知道这需要多长时间，不知道记忆是什么当它们被加载到内存中，但看起来像是为数GB）。matchPDict（）只适用于DNA模式字典，其中所有模式具有相同数量的核苷酸，并且它只精确现在匹配（Vmatch没有这种限制）。o matchPDict（）现在返回MIndex对象（新类）而不是列表整数向量的。然后，用户可以提取使用startIndex（）或endIndex（）进行匹配，提取匹配数使用countIndex（）为每个模式提取给定模式的匹配项使用[[，使用unlist（）或将所有匹配项放在单个IRanges对象中将此MIndex对象转换为原始主题的一组视图使用extractAllMatches（）。以后可以添加其他功能，以便提供更广泛的选择必要时使用提取/转换工具。警告：这仍然是一项工作-盈利。函数名称和语义还没有稳定下来！o添加了matchPDict（）和countPDict（或仅计算）任何模式的文本（主题）中的所有出现次数从一组模式（字典）。模式词典的类型当前支持的是等宽DNA字典（CWdna_PDict对象）和“可信前缀”DNA字典（“Trusted Band”DNA字典，由TBdna_PDict对象表示）。看到了吗？matchPDict了解详细信息（尤其是当前的限制）。o添加了对回文查找的基本支持：可以使用新的findPalindromes（）和findComplementedPalindrom（）函数。还添加了相关的实用函数palindromeArmLength（），回文左臂（），回文右臂（），互补回文ArmLength（）、互补回文LeftArm（）和补足了回文右臂（）。o通过新的matchPWM（）和countPWM（”）函数。还添加了相关的实用程序功能maxWeights（）、maxScore（）和PWMscore（）。o为XStringViews添加了“matchLRPatterns”和“matchProbePair”方法物体。o添加了nmismatchStartingAt（）、nmismatch EndingAt（”）和isMatching（）功能。o更改术语以符合既定实践：“模糊匹配”现在称为“不精确匹配”。此更改主要影响文档。它还影响API的唯一地方是现在必须使用“algo=”naive-infact“”而不是“algo=”naive-fuzzy“”调用matchPattern（）函数或任何其他支持algo参数。o重命名matchPattern（）的“mismatch”arg->“max.mismatch”，matchLRPatterns（）和matchPDict（）函数。其他o重命名了inst/extdata/中的一些文件，以便对使用相同的扩展名（.fa）所有FASTA文件。o将Exfiles/文件夹重命名为extdata/，并将fastaEx放回其中（来自生物串1）。o将许可证从LGPL更改为Artistic-2.02.6.0版-------------o添加了matchLRPatterns（）函数，用于在序列模式中查找由左部分和右部分定义的。看到了吗？matchLRPatterns了解详细信息。