本页收集了重构sage.combinat.words和实现平铺的想法。您可以订阅关联的邮件列表讨论这个问题。

如何实现我的语言？我的瓷砖？

例如，有不同的地方可以查看：

sage.categories.examples.languages：两个语言示例。回文语言（回文语言）和统一单体（{a，b}上包含a和b的自由幺半群的子幺半群）。
sage.monoids.free-monoid：自由monoid的实现。
sage.combint.languages.*：大多数语言的实现应该去哪里（目前只有一个_balancedlanguage和finite_word\language）

对于移位和平铺，（到目前为止）几乎什么都没有：

sage.类别.移位
sage.dynamics.symbolic.full_shift：全班

结构

当前代码的重构应该放在补丁中#12224这几乎完成了。到目前为止，Sage的代码有点被破坏了。。

概述

sage.categories：大多数通用代码都包含在这里。
- .languages：语言是A^*的子集，其中A是一个称为字母表的集合。它由N自然分级，分级称为长度。
- .shifts：移位A^G的范畴（其中G是一个半群，其操作x->gx对G中的任何G都是内射的，A是一个称为字母表的集合）
sage.combinat.words公司
- 有限和无限单词的数据结构
- 与以前版本的向后兼容性
- 态射（我们应该把它移到sage.monoids.free_moid_morphism吗？）
鼠尾草类群
- .free_monoid：自由monoid（替换sage.combint.words.words.words的一部分）
sage.dynamics.符号
- .full_shift：完整移位的实现（替换sage.combint.words.words的一部分）
sage.combinat.语言
- 不同语言的实现（平衡语言、有限词语言……）
- 特定的数据结构（后缀树/trie、rauzy图、返回树…）

有限单词类

所有有限单词的基类当前位于sage.combinat.words.finite_word中，称为FiniteWord（有限单词）一些泛型算法是在语言和阶乘语言类别中实现的。具体类别包括

sage.combinat.words.word_sequence
- Word_char：其底层数据结构是无符号字符的C数组的单词
- Word_python_object：上面专门用于字符串的子类
- 这两个类受益于纯C实现的算法，这些算法可以在sage.combinat.words.algorithms中找到
sage.combinat.words.lazy_word：
- FiniteWord（有限单词）_iterable：根据迭代器构建的单词
- FiniteWord（有限单词）_可调用：从函数构建的单词
- 级联有限元：单词构建为两个单词的串联（此类用于连接大型单词）

类别的好坏：

泛型代码的继承
对于想要找到方法实现的用户来说有点困惑
对于编写代码并问“我应该把这个放在哪里？”
...

我们保留什么？我们创建了哪些类别？我们是否在类别中提供了默认的_element_constructor_（如果是，它与facade高度不兼容）？

在下一个未来，我们应该考虑可变性/不变性。

算法和命名约定

==具有无限输入数据的算法的行为=

如何实现无限单词的相等？

应该做什么

鼠尾草：w1==w2

两种可能性：

测试前XXX个字母以找出差异。如果find-one返回False，则会引发错误，“似乎等于use.is_equal（force=True）启动无限测试”。
测试所有字母，如果相等，则不返回True

其他建议？

帕里克氏病媒、评估、变异

姓名阿贝尔化是最通用的。Parikh矢量是单词组合的标准。评价主要用于组合学。

请注意，评估在形式上是一种组合，换句话说，字母表应该是有限的和有序的。

模式匹配

模式匹配算法可以在子类中进行优化。因此，我们应该注意低水平和高水平的作用。

文森特建议对低级例程使用以下约定。由于在不久的将来在C中实现它们是个问题，因此这个问题至关重要：

x.find（y[，开始[，结束]]）：搜索x中第一个出现的y[开始：结束]。返回事件的位置，如果失败，返回-1。
x.rfind（y[，开始[，结束]]）：向后搜索x中第一个出现的y[start:end]。返回出现故障时的位置或-1（不适用于无限字）。
x.find_iter（y，[，start[，end]]）：返回x中y出现位置的迭代器[start:end]。
x.rfind_iter（y，[，start[，end]]）：同上但向后（不适用于无限字）。
x.find_all（y，[，开始[，结束]]）：返回y在x中出现的列表[start:end]。
x.count（y[，开始[，结束]]）：计数x中y的出现次数[开始：结束]。

还有多重匹配的问题，更普遍的是正则表达式的问题。

模式匹配的实际实现使用了Boyer-Moore算法，该算法需要对年：last_position_dict，前缀_function_table，good_suffix_table。所有这些预计算都是一个单词的cached_method，可能会占用内存，效率不高，因为以下代码实际上调用了两倍的预计算：

sage:w1=单词（'ababaabaaababa'，字母='ab'）sage:w2=单词（'ababaaaa'，字母='ab'）圣人：w1.find（'aa'）5圣人：w2.查找（'aa'）6

文森特建议将所有预计算移动到一个专用于模式匹配的模块中不使用缓存，除非用户想对年在许多不同的x个在这种情况下，我们应该这样做：

sage:w=单词（'ab'，字母表='ab'）sage:f=查找器（w）sage:f.match（单词（'ababababaababbabababbabababa'，字母='ab'））...

重复次数和指数

另请参见#

实际姓名

最小_周期
指数
有_周期
周期（[divide_length]）
秩序
临界指数
基本_长度
is_primitive（原始）
原始的
重叠（_O）

子项目

有限语言与因子集

它的大部分是由Franco（后缀树和后缀trie）实现的。我们希望对其进行增强，并为FiniteFactorial语言。请参阅#12225.

替代语言和adic语言

对于由一系列替换（称为指令词）描述的语言，有许多算法。形态语言和纯形态语言的特殊情况分别对应于周期性和纯周期性指令词。

因子枚举、去替代(#12227)
纯变形语言的因子复杂性(#12231)
纯形态语言的平等（遵循J.Honkala，CANT，第10章）

最终周期性语言/单词

它们将有助于最终定义adic语言的周期性指令词。请参见#12228.

TODO列表

对于#12224：

使用doc和tests更新阶乘语言：任务由蒂埃里·蒙蒂尔
在sage.categories.example.factorial_languages.py中实现阶乘语言的一个简单示例：任务由蒂埃里·蒙蒂尔
想想命名约定。例如，要获取语言L中长度为n的单词子集，您更喜欢L.subset（n=4）还是L.subsette（length=4）：task take by文森特德莱克索瓦
为回文闭包创建一个专用类
确保sage.categories.languages中的方法。元素方法尽可能少
wordspath（目前在sage.combint.words.paths中）必须修改以适应新的实现（问题：我们现在应该这样做吗？）
与以前的实现向后兼容（特别是在酸洗方面）
区分有限/无限/枚举/有序字母表（尤其是用特定类别初始化父字母表时）

对于其他门票：

特定数据结构rauzy图和返回树（Thierry）
有限型/sofic的一维子移位
n维有限字与n维移位
有限型n维子移位
n-dim代换子移位
细胞自动机
...添加您的呼声

天

sagedays-2014年马赛

语言和平铺