2.72.0版--------------新功能o在read_fasta_files.c中将IO缓冲区的大小从20001增加到200000和read_fastq_files.c.进行此更改后,readDNAStringSet()和family支持行最多为200000个字符的FASTA/FASTQ文件。请参见https://github.com/Bioconductor/Biostrings/issues/59o将get_XStringSet_width()添加到Biostrings C接口。用户可见的重大变化o pairwiseAlignment()和related已移至新的pwalign包。现在在pwalign中实现的函数列表:-成对对齐-成对对齐-成对对齐单个主题-写入广播路线-对齐的图案-对齐主题-插入-删除-未对齐的-对齐-吲哚-宁德尔-内迪特-pid控制器-不匹配表-不匹配摘要-比较字符串-字符串距离-核苷酸替代矩阵-错误替换矩阵-质量替代矩阵请注意,它们仍在生物串中临时定义,但现在它们只调用pwalign中的相应函数。因为这是一个临时重定向,用户也会收到一条警告,告诉他们使用要调用的完全限定名称(例如pwalign::pairwiseAlignment())函数。o BLOSUM和PAM评分矩阵也移至新的pwalign包裹。现在位于pwalign中的评分矩阵列表:BLOSUM45、BLOSUM50、BLOSUM62、BLOSUSM80、BLOSUM100、PAM30、PAM40、PAM70、,PAM120、PAM250。弃用和弃用o取消matchprobes()和longestConsecutive()。o needwunsQS()现在不起作用(在被弃用15年以上之后)。BUG修复o检测writeXStringSet()中的缓冲区溢出并引发错误崩溃的原因。请参见https://github.com/Bioconductor/Biostrings/issues/20o确保read*StringSet()完成后关闭所有输入文件句柄。请参见https://support.bioconductor.org/p/9157031/2.70.0版--------------新功能o现在是AAString/AAStringSet/AAString SetList对象的字符集强制执行(一个长期特性)。感谢Aidan Lakshman实现这一点。2.68.0版--------------新功能o彩色显示氨基酸序列(AAString/AAStringSet对象)。2.66.0版--------------新功能o向核苷酸SubstitutionMatrix()添加选项,以使不对称核素替换矩阵。o从列表或list向任何XStringSetList具体子类添加强制。请注意,这些添加会自动在XStringSetList上启用[[<-衍生产品。用户可见的重大变化o pairwiseAlignment()手册页中的几个说明:-明确函数接受相同的“主题”长度为“pattern”。-解释提供多个主题时的功能行为。o阐明一元compareStrings()在手册页中的作用。BUG修复o重构DNAStringSet对象的seqinfo()getter和setter2.64.0版--------------新功能o如果输入writeXStringSet()是QualityScaledXStringSet对象。Felix Ernst供稿o当DNAStringSet()删除输入对象的元数据列时发出警告。-到目前为止,B/DNA/RNA/AAStringSet()构造函数已经在此情况下,会自动删除输入对象的元数据列对象是XStringSet派生。现在,当这样做。-还要强调使用readQualityScaledDNAStringSet()的优点over readDNAStringSet(…,format=“fastq”,其中.qualities=TRUE)。参见第61期,了解这两个变化背后的动机。2.62.0版--------------BUG修复o修复当矩阵返回时寡核苷酸Frequency()中的整数溢出包含个以上的INT_MAX元素。o当返回的字符串为空时,修复aligned()getter中存在12年以上的错误。2.60.0版--------------新功能o findPalindromes():实现“min.looplength”和“allow.wobble”论据。埃里克·赖特撰稿。o为DNAStringSet对象添加seqinfo()getter和setter。马塞尔·拉莫斯撰稿。用户可见的重大变化o改进XStringViews对象上as.data.frame()的行为。版本2.58.0---------------此版本中没有重大更改。版本2.56.0--------------新功能o彩色显示DNA序列(DNAString/DNAStringSet对象)。版本2.54.0--------------新功能o readDNAStringSet()现在可以长时间读取FASTQ文件。现在的读数可以达到2^31-1个基点(之前的限制是20000个基点)。用户可见的重大变化o findPalindromes()的手册页中有一些小的澄清。还要去掉回文ArmLength()中的省略号(…),回文LeftArm()和回文RightArm(。)泛型和方法。它没有被使用,所以只是误导/混淆。o type()泛型现在在BiocGenerics包中定义。BUG修复o将N50()的输入强制为数字,以避免整数溢出。基兰·奥尼尔修复。2.10.0版--------------基本集装箱o添加了一组“强制”方法来转换任意XStringSet对象转换为BStringSet、DNAStringSet、RNAStringSet或AAStringSet实例(通过as()函数)。o为XStringSet对象添加了“append”方法。一个重要的用例这是将一组短文及其反向补语放在一起在单个DNAStringSet对象中,然后将此对象转换为单个PDict对象(双PDict目标)。然后可以使用此双重PDict对象为了获得两条线的命中率(+和-)。o删除了XStringList类和系列。o移动了I范围、解锁I范围、锁定I范围、正常I范围,MaskCollection、Views和XInteger类及其新方法IRanges包。公用设施o添加了codons()和translate()泛型函数以及DNA字符串、RNAString、DNA字符串集、RNA字符串集、屏蔽DNA字符串和屏蔽RNAString对象。o添加了hasOnlyBaseLetters()和uniqueLettes()泛型函数和方法。o添加了fasta.info()以快速提取存储在FASTA文件中的序列。还重命名为“strip.desc”readFASTA()->“strip.descs”的参数。o重命名了replaceLetterAtLoc()->replaceLetterAt()并重命名了其“loc”参数->“at”。不推荐使用replaceLetterAtLoc()。o添加了预定义的“RNA_GENETIC_CODE”对象。o移动用于导入掩码的实用程序函数(read.agpMask(),read.gapMask()、read.liftMask(函数)添加到新的IRanges包。o移动了width()、shift()、restrict()、narrow()的泛型函数,reduce()、gaps()、reverse(),coverage()、subject()、views()、trim()和subviews()更新为新的IRanges包。字符串匹配o使用XStringSet的方法添加了vcountPDict()泛型函数物体。它是countPDict()的矢量化版本,即主题必须是XStringSet对象。o为matchPattern()、countPattern和vcountPattern()(vmatchPattern())将紧跟MIndex对象支持可变宽度匹配)。o添加了带有XStringSet对象的方法。它们是的矢量化版本matchPattern()/countPatter(),即主题必须是XStringSet对象(不久将支持XStringViews对象)。o为XStringViews和屏蔽DNA字符串对象。o向ByPos_MIndex类添加“dups0”插槽:这允许在内存中更紧凑地表示ByPos_MIndex对象,该对象包含具有大量重复项的一组模式的命中率。好处是当模式在原始字典有很多点击量,这似乎是典型的将Solexa数据与其参考基因组进行匹配时发生的情况。在这个在这种情况下,使用新的“dups0”插槽可以使ByPos_MIndex对象大约为3更小倍。利用这个新的“dups0”插槽改进复制方式模式通过“PDict->matchPDict()->MIndex”管道进行处理。这个新的战略是“尽早删除它们,并将它们放回原处越晚越好”。这会提高速度,也会减少内存需要将点击数存储在临时缓冲区中。o添加了带有XString对象方法的“whichPDict”泛型函数。o PDict类、子类和PDict()构造函数的主要返工:-将CWdna_PDict和TBdna_PDict类合并到TB_PDict类中(PDict VIRTUAL类的子类),用于存储Trusted Band PDict对象。-现在有两种预处理类型:“ACtree”类型(默认)以及“Twobit”类型。-添加了MTB_PDict类(PDict VIRTUAL类的另一个子类),用于存储多可信带PDict对象的容器。-现在为PDict对象定义的方法有:长度、宽度、名称、,[[、head、tb、tb.width、tail、show、duplicated和patternFrequency。-更改了PDict()构造函数的签名:不再使用“drop.head”和“drop.tail”参数,以及新的“tb.width”和“type”参数。看到了吗?PDict了解详细信息(尤其是每种类型的限制预处理)。字符串对齐o增加了对任意长度的字符向量和XStringSet对象的支持到pairwiseAlignment函数的模式参数。o添加了“subjectOverlap”和“patternOverlap”两两序列对齐。o增加了对两两序列比对中Solexa质量分数的支持计算。o增加了对基于质量的成对序列中模糊映射的支持路线。o添加了stringDist函数来计算Levenshtein编辑距离字符向量或XStringSet的元素之间。o为成对对齐对象添加了许多方法,包括as.matrix,compareStrings、consensusMatrix、consenussString、coverage、,不匹配摘要,不匹配表,nindel,nmatch,nmismatch,pattern,pid,rep、subject、summary、toString、Views。o删除了XStringAlign类并添加了类PairwiseAlignment,成对对齐摘要、对齐XStringSet、质量对齐XString集、,质量缩放XStringSet,质量缩放BStringSet,QualityScaledDNA字符串集,QualityScaledAAStringSet、XStringQuality、PhredQuality和SolexaQuality。2.8.0版-------------基本集装箱o增加2个容器,用于处理屏蔽序列:-用于存储可以用于屏蔽序列中的区域。-用于存储屏蔽序列的MaskedXString容器系列。o添加了新的容器来存储一组大序列:-XStringSet系列:BStringSet、DNAStringSet、RNAStringSet和AAStringSet(所有没有附加插槽的直接XStringSet子类型)。-XStringList系列:BStringList.、DNAStringList.RNAStringList和AAStringList(所有没有附加插槽的直接XStringList子类型)。从用户的角度来看,这两个族几乎相同,但内部表示和方法实现非常不同。XStringList系列首次尝试解决以高效的方式存储大量序列,但其性能结果令人失望。因此引入了XStringSet系列作为对XStringList容器性能不佳的回应。XStringList系列可能很快就会被删除。o添加了trim()函数,用于修剪XStringViews对象。o添加了“限制”、“窄”、“减少”和“间隙”通用功能IRanges和XStringViews对象的方法。这些功能提供将IRanges对象基本转换为同一个班级。还添加了toNormalIRanges()函数用于规范化IRanges对象。o添加了“start<-”、“width<-”和“end<-”泛型,以及解锁IRanges和Views对象。还为添加了“更新”方法UnlockedIRanges对象以提供组合多个对UnlockedIRanges对象的修改会将其转换为单个调用。o添加了intToRanges()和intToAdjacentRanges用于创建IRanges实例。o添加了IRanges、UnlockedIRanges和Views、LockedIRranges和NormalIRanges类,用于表示一组整数范围+“isNormal”和带有IRanges对象方法的“whichFirstNotNormal”泛型函数(详见I范围)。更改了XStringViews类的定义,因此现在它派生自Views类。o通用构造函数RNAString()(resp.DNAString)现在从将T替换为U(将U替换为T),从而将DNA转换为RNA(将RNA转换为DNA)试图模仿转录。仍在执行此转换而不复制序列数据,因此保持非常快。此外,将RNA与DNA进行比较的语义也被更改为保留与RNAString()和DNAString。RNAString(“UUGAAAA-CUC-N”)被认为等于DNAString(“TTGAAAA-CC-N”)。o增加了对空XString对象的支持。o添加了XString()通用构造函数(它是一个带有字符和XString对象的方法)。B字符串()、DNA字符串(),RNAString()和AAString()构造函数现在基于它。o重命名了subBString()->subXString(。o重命名了BStringViews类->XStringViews。o通过添加XString虚拟类:现在是BString、DNAString、RNAString和AAString类都是不带额外插槽的直接XString子类型。最重要的是,它们在新层次结构中都处于同一级别,即。DNAString、RNAString和AAString对象不再是BString对象。C级设施o启动Biostrings C接口(工作-生产)。请参阅inst/include/Biostrings_interface.h以了解如何在包中使用它。公用设施o为IRange、NormalIRanges、MaskCollection和屏蔽XString对象以及“补码”和“反向补码”方法用于MaskedDNAString和MaskedRNAString对象。o添加了coverage()泛型函数和IRanges方法,MaskCollection、XStringViews、MaskedXString和MIndex对象。o为“硬屏蔽”序列添加了injectHardMask()泛型函数。o添加了maskMotif()泛型函数,用于按内容屏蔽序列。o添加了用于导入掩码的实用程序功能:-read.agpMask():从NCBI“agp”文件中读取掩码;-read.gapMask():从UCSC“间隙”文件读取掩码;-read.liftMask():从UCSC“lift”文件读取掩码;-read.rmMask():从RepeatMasker.out文件中读取掩码;-read.trfMask():从串联重复查找器.bed文件中读取掩码。o使用XString和屏蔽XString对象。o新增功能读取。BStringSet(),读取。DNAStringSet(),阅读。RNAStringSet(),读取。AAStringSet()并写入。XStringSet()。阅读。BStringSet()和族现在优先于读取。XStringViews()(字符串视图)用于将FASTA文件加载到R中。重命名的助手函数BStringViewsToFASTArecords()->XStringSetToFASTArecords()。o使用方法添加了replaceLetterAtLoc()泛型函数DNAString对象(稍后可能会出现其他类型对象的方法)用于复制字母被新字母替换的序列在某些特定位置。o添加了chartr()泛型函数和XString、XStringSet的方法和XStringViews对象。o为XString、XStringViews和XStringAlign对象创建“show”方法“getOption('width')aware”,以便用户可以控制他们生产的产品。o添加了二核苷酸Frequency()和三核苷酸Frequenc(),寡核苷酸Frequency()、strrev()和mkAllStrings()函数。o alphabetFrequency()中有四处更改:(1) 当与“baseOnly=TRUE”一起使用时,间隔字母(“-”)的频率不再返回(现在它被视为任何“其他”信件,即。任何非基本字母);(2) 添加了“freq”参数;(3) 添加了“崩溃”参数;(4) 使XStringSet和XStringViews对象的速度提高了1000倍。o为XStringAlign对象添加了“as.character”和“consmat”方法。o添加了patternFrequency()泛型函数和方法CWdna_PDict对象(稍后将针对TBdna_PDict对象提供)。o为CWdna_PDict对象添加了“重复”方法(稍后将介绍TBdna_PDict对象)。o为XStringSet对象添加了“reverse”方法,以及“补码”和DNAStringSet和RNAStringSet对象的“reverseComplement”方法。他们都保留了名字。o reverse()、complement()和reverseComplement()现在保留名称应用于XStringViews对象时。o作者:添加了dna2rna()、rna2dna()、转录()和cDNA()functions+RNAString对象的“reverseComplement”方法。o添加了mergeIUPACLetters()实用程序函数。字符串匹配o matchPattern。Rnw渐晕图被大大改进的基因组搜索所取代。雷诺数小插曲(仍然是一部以工作为目的的电影)。o为XStringViews和MaskedXString对象添加了“matchPDict”方法(仅适用于DNA输入序列)。o在matchPDict()中添加了对主题中IUPAC模糊性的支持,即在Trusted上使用“fixed=FALSE”调用时,将它们视为通配符带dict或在任何dict上使用“fixed=c(pattern=TRUE,subject=FALSE)”。o在matchPDict()中添加了对字典与的不精确匹配的支持“受信任的前缀”。看到了吗`matchPDict-inact`了解详细信息。o实现了C函数CWdna_exact_search()的“快捷方式功能”。使用此修补程序,使用matchPDict()查找全人类基因组中的3.3M 32-mers字典染色体)大约比以前快2.5倍(大约需要20倍分钟和2小时取决于您的机器和比赛次数找到)。这使matchPDict()与Vmatch软件处于同一级别(网址:http://www.vmatch.de/)这样大的字典。内存占用对于matchPDict(),从3.3M 32-mers字典。建造这棵树仍然很快(2或3分钟)(Vmatch需要60G的磁盘空间来构建其所有后缀数组,不知道这需要多长时间,不知道记忆是什么当它们被加载到内存中,但看起来像是为数GB)。matchPDict()只适用于DNA模式字典,其中所有模式具有相同数量的核苷酸,并且它只精确现在匹配(Vmatch没有这种限制)。o matchPDict()现在返回MIndex对象(新类)而不是列表整数向量的。然后,用户可以提取使用startIndex()或endIndex()进行匹配,提取匹配数使用countIndex()为每个模式提取给定模式的匹配项使用[[,使用unlist()或将所有匹配项放在单个IRanges对象中将此MIndex对象转换为原始主题的一组视图使用extractAllMatches()。以后可以添加其他功能,以便提供更广泛的选择必要时使用提取/转换工具。警告:这仍然是一项工作-盈利。函数名称和语义还没有稳定下来!o添加了matchPDict()和countPDict(或仅计算)任何模式的文本(主题)中的所有出现次数从一组模式(字典)。模式词典的类型当前支持的是等宽DNA字典(CWdna_PDict对象)和“可信前缀”DNA字典(“Trusted Band”DNA字典,由TBdna_PDict对象表示)。看到了吗?matchPDict了解详细信息(尤其是当前的限制)。o添加了对回文查找的基本支持:可以使用新的findPalindromes()和findComplementedPalindrom()函数。还添加了相关的实用函数palindromeArmLength(),回文左臂(),回文右臂(),互补回文ArmLength()、互补回文LeftArm()和补足了回文右臂()。o通过新的matchPWM()和countPWM(”)函数。还添加了相关的实用程序功能maxWeights()、maxScore()和PWMscore()。o为XStringViews添加了“matchLRPatterns”和“matchProbePair”方法物体。o添加了nmismatchStartingAt()、nmismatch EndingAt(”)和isMatching()功能。o更改术语以符合既定实践:“模糊匹配”现在称为“不精确匹配”。此更改主要影响文档。它还影响API的唯一地方是现在必须使用“algo=”naive-infact“”而不是“algo=”naive-fuzzy“”调用matchPattern()函数或任何其他支持algo参数。o重命名matchPattern()的“mismatch”arg->“max.mismatch”,matchLRPatterns()和matchPDict()函数。其他o重命名了inst/extdata/中的一些文件,以便对使用相同的扩展名(.fa)所有FASTA文件。o将Exfiles/文件夹重命名为extdata/,并将fastaEx放回其中(来自生物串1)。o将许可证从LGPL更改为Artistic-2.02.6.0版-------------o添加了matchLRPatterns()函数,用于在序列模式中查找由左部分和右部分定义的。看到了吗?matchLRPatterns了解详细信息。