对于许多不同的数据挖掘任务来说,计算序列之间的相似性是一个非常重要的挑战。文献中有过多的序列相似性度量,其中大多数是为项目序列设计的。在这项工作中,我们研究了项目集序列之间的相似性度量问题。我们将重点放在公共子序列的概念上,以此来衡量由项目集列表组成的一对序列之间的相似性。我们给出了一个新的组合结果,用于有效地计算不同的和常见的子序列。这些理论结果是处理这个问题的有效动态规划方法的基石。此外,我们提出了一种近似方法来加速长序列的计算过程。我们将我们的方法应用于各种数据集:医疗轨迹、在线手写字符和合成责任编辑:123 Elias Egho等人的数据。我们的结果证实了我们的相似性度量产生了竞争性得分,并表明我们的方法适用于大规模序列数据分析。