随机漫步-书证

缓慢的汽车追逐

本周的小提琴手这是一个关于概率的问题，也是一个缓慢的汽车追逐！

你和你的追赶者在相隔一个街区的红绿灯前停下，如下所示。对于这两辆车，到达每一个随后的指示灯都需要1分钟的时间，并且到达时任何指示灯都有50%的几率变为红色（与之前发生的情况无关）。如果灯是红色的，你必须等一分钟，然后它变绿。你到达城市极限而不被追捕者抓住的概率是多少？

额外学分
在与之前相同的场景中，想象有无限多的灯光。平均需要多少分钟才能被抓到？

我的解决方案：
[显示解决方案]

我们能在被抓住之前逃跑吗？

假设$P（n）$是我们的追捕者在$n^\text{th}$光处抓到我们的概率。要计算此概率，请考虑两辆车之间的间隙。最初，这个差距是1，每次我们到达一个新的灯时，取决于我们是否得到了红灯并必须等待，或者我们的追求者是否得到了红灯并必须等待，这个差距可能会改变。明确地，

如果我们都亮红灯或都亮绿灯，差距不会改变，这种情况发生的概率为$\frac{1}{4}+\frac}1}{4]=\frac[1}{2}$。
如果我们看到红灯，而我们的追赶者看到绿灯，差距就会缩小一个，这种情况发生的概率为$\tfrac{1}{4}$。
如果我们得到绿灯，而我们的追击者得到红灯，则差距会增加一，这种情况发生的概率为$\tfrac｛1｝｛4｝$。

最初，两辆车都有绿灯，因为我们被$n^\text{th}$灯困住了，所以我们的最后一盏灯必须是红色的，而追赶者的最后一盏灯必须是绿色的。这将留下$n-2$中间灯光，距离可以增加、减少或保持不变。如果距离只能增加或减少，则总路径数将由$C_{（n-2）/2}$给出，其中$C_n$是$n^\text{th}$加泰罗尼亚数字（见加泰罗尼亚数字解释为“计算山脉”）。

在我们的例子中，差距也可以保持不变，这使事情稍微复杂了一些。如果我们假设有$k$的“上涨”和$k$“下跌”，那么剩下$n-2-2k$的是“平仓”。因此，包括高原在内的山脉总数如下所示：
\[
\sum_｛k=0｝^｛\left\lfloor\tfrac｛n-2｝｛2｝\right\lfloor｝C_k\binom｛n-2｝｛2k｝
\]每个这样的路径都有发生的概率，这取决于平面数，即
\[
\左（\frac{1}{4}\右）^{2k+1}\左（\frac{1}}{2}\左）^{n-2-2k}
\]第一学期的2k+1$是因为我们必须考虑到这条道路尽头的“下跌”。将所有内容放在一起，用公式替换中的加泰罗尼亚数，我们得到：
\[
P（n）=\sum_{k=0}^{left\lfloor\tfrac{n-2}{2}\right\rfloor}
\压裂{1}{k+1}\binom{2k}{k}\binom{n-2}{2k{left（压裂{1{4}\right）^{2k+1}\ left（裂缝{1}{2}\rift）^{n-2-2k}
\]令人惊讶的是，这个和有一个封闭式的公式，这是我用Mathematica发现的。我们的追赶者在$n^\text{th}$光处捕获的概率由以下公式给出：

$\显示样式
P（n）=\开始{cases}
\显示样式\frac{1}{4^n\bigl（n-\tfrac{1'{2}\bigr）}\binom{2n}{n}&\text{表示}n=2,3,4，\dots\\[1mm]
0&\text{否则}
\结束{cases}
$

我们可以通过验证$\sum_{n=2}^\infty P（n）=1$来双重检查这是一个合法的概率分布。换句话说，我们最终会被抓住，这只是时间问题。我用Mathematica计算了无穷和，它实际上等于一！

如果我们在到达城市极限之前还有$n$盏灯，那么我们在被抓到之前逃跑的概率是$1-\sum_{k=2}^n P（k）$，或者换句话说：
\[
\text{Prob}（\text{escape}）=1-\sum_{k=2}^n\frac{1}{4^k\bigl（k-\tfrac{1'{2}\bigr）}\binom{2k}{k}
\]令人惊讶的是，这个也有一个封闭式表达式……再次感谢Mathematica，它由以下公式给出：

$\显示样式
\text{Prob}（\text{escape}）=\begin{cases}
\显示样式\frac{2}{4^n}\binom{2n}{n}&\text{表示}n=2,3,4，\dots\\[1mm]
0&\text{否则}
\结束{cases}
$

这是一个令人尴尬的简单表达，所以可能还有一个更优雅的解决方案等待找到。该解决方案包括一个分母$4^n$，它是将$\{text{red}、\text{green}$分配给每个$2n$灯的方法总数。分子是$2\binom{2n}{n}$，它必须是不导致捕获的灯光分配数。如果你能弄清楚这一点，请在评论中告诉我！

在最初的问题中，我们前面有5盏灯，所以用$n=5$代入，我们得到了$\frac{63}{128}$的逃逸概率，约为49.2%。

我们还可以检查我们的公式在数值上是否成立。在下面的图中，我比较了运行1000000个蒙特卡洛模拟的经验概率和上面生成的解析公式，我们发现我们有一个完美的匹配。

注意：这个问题有点类似于2017年关于赛马的一个老谜语问题。你可以结账我的书面报告如果你感兴趣的话！

额外学分：被捕前的时间

每个灯至少需要一分钟才能看到所有的灯（可能更多，取决于我们为红灯停车的次数）。因此，无论何时我们最终被抓到，经过的分钟数必须至少与我们看到的灯光数相同。

我们需要计算捕获之前的预期时间。基于上述论点，我们必须：
\[
\mathbb｛E｝（\text｛在捕获之前看到的灯光｝）\leq
\mathbb{E}（\text{time until capture}）
\]让我们计算一下左手边。我们已经计算了$P（n）$，这是我们看到$n$个灯光后被捕获的概率。因此，左侧等于$\sum_{n=2}^infty n P（n）$。结果是这个总数不会收敛！。为了了解原因，我们可以使用以下渐近公式(来源)，保存为$n\to\infty$。
\[
\二进制{2n}{n}\sim\frac{4^n}{\sqrt{\pin}}
\]这使我们得出了近似值
\[
P（n）\sim\frac{1}{\bigl（n-\tfrac{1'{2}\bigr）\sqrt{\pin}}
\]现在我们看到为什么没有收敛性…函数$nP（n）$像$\frac{1}{\sqrt{n}$一样衰减，因此不可求和（它是一个$p$-系列$p=\tfrac{1}{2}$）。由于预期的灯光数量是无限的，因此捕获之前的时间也必须是无限的。

但这有意义吗？没有平均值的概率分布？对！一般来说，一些力矩是无界的分布称为重尾分布，并且有许多著名的例子。特别是，具有无界第一矩（平均值不存在）的分布示例包括柯西分布，的帕累托分布和上面定义的$P（n）$。

翻身走向胜利

本周的Riddler经典关于一个自相矛盾的造币游戏：

你有两个公平的硬币，标记为A和B。当你掷硬币A时，如果正面朝上，你得到1分，但如果反面朝上，则你失去1分。硬币B的价值是硬币B的两倍——当你掷硬币B时，如果它正面朝上，你会得到2分，但如果它反面朝上，则你会失去2分。

要玩这个游戏，你总共要做100次翻转。对于每一次翻转，你可以选择其中一枚硬币，并且你知道之前所有翻转的结果。为了获胜，你必须以正总分结束比赛。在你看来，以2分结束比赛就像以200分结束比赛一样好——任何积极的分数都是一场胜利。（同样，以0或-2分结束比赛与以-200分结束比赛一样糟糕。）

如果你优化策略，你会赢得多少比赛？（记住，一场比赛由100次掷硬币组成。）

额外学分：如果硬币A不公平（但硬币B仍然公平）怎么办？也就是说，如果硬币A的正面概率为p，并且你优化了策略，那么你会赢得多少比赛？

这是我的解决方案：
[显示解决方案]

起初，问题似乎是在问不可能的事情。在公平的硬币上翻来翻去，除了赢得一半的时间之外，还能带来什么？这里的关键是，“获胜”只需要获得积极的分数。如果我们看100次投掷后的“预期总分”，无论使用什么策略，这都是0（你可以通过应用期望线性). 但由于我们计算的是积极结果的数量，而不是总分，所以平均有一半以上的时间是有可能获胜的。

作为一个简单的例子，考虑一个你掷骰子的游戏。如果你得到1，你就会损失5美元。但如果你得到其他东西，你就赢了1美元。游戏中的预期分数是$\tfrac{1}{6}（-5）+\tfrac}5}{6{（+1）=0$。然而，如果“赢”仅仅意味着获得一个正分数，那么我们就赢了$\tfrac{5}{6}$。翻转游戏是类似的；我们的总分可以平均为零，即使在超过一半的时间里都是正数。实际上，这意味着当我们真的输了，我们就会损失惨重。

假设最优游戏的获胜概率

假设我们正在进行$N$翻转，我们在以下两个选项中进行选择：

投币$A$：以概率$A$赢$+1$，以概率$1-A$赢$-1$。
投币$B$：以大约$B$赢得$+2$，以大约$1-B$赢得$-2$。

我们的任务是确定如果我们优化策略，我们将赢得的比赛的百分比。一种方法是使用动态规划基本思想是，我们在比赛中任何时候的最佳动作都应该取决于（1）我们当前的得分和（2）我们还剩多少步。因此，我们定义：
\[
V_t（s）=\left\{\begin{aligned}
&\文本{如果我们玩得最优，我们获胜的概率}\\
&\文本{从这里开始，考虑到我们当前的分数}\\
&\text{is}s\text{我们现在轮到}t\text{of}N
\结束｛对齐｝\右。
\]我们可以将每个$V_t$视为一个向量，该向量由$s\in\{dots，-1,0,1，\dots\}$索引，这是我们的当前分数。我们的想法是通过从最后一步开始反向计算，直到达到$V_0$，即我们在每个不同的起始分数中获胜的概率，来求解每个$V_t$。最终，问题是要求我们计算$V_0（0）$。

终端分布简单地由我们在获得给定最终分数的情况下获胜的概率给出。在这种情况下，结果很简单，因为在这一点上没有任何动作可以做：
\[
V_N（s）=\开始{cases}
0&\text{if}s\leq 0\\
1&\text{if}s>0
\结束{cases}
\]在前面的每一步中，我们都会选择最有可能获胜的硬币。这导致了$t=n-1，\dots，2,1$的递归公式：
\[
V_{t-1}（s）=\最大\左\{a V_t（s+1）+（1-a）V_t
\]我找不到一种方法来计算封闭形式的表达式，但用数字计算它是相当简单的。这里有一个高效的Python代码，它为$（a，b，N）$的任何选择计算$V_0（0）$。

将numpy导入为np#如果硬币A的概率为+1，而（1-A）的概率为-1，则获胜概率为，#硬币B的概率为+2，（1-B）的概率为-2，我们总共翻转了N次def compute_win_prob（a，b，N）：#移动索引，使“s”的分数位于索引v[s+2*N]v=np.零（4*N+1）#初始化（时间=N）v[：2*N]=0v[2*N+1:]=1#当我们向后递归到time=0时覆盖结果#此代码效率很高：使用矢量化并覆盖过去的结果对于范围（N）内的t：硬币A=A*v[3:4*N]+（1-A）*v[1:4*N-2]币_B=B*v[4:4*N+1]+（1-B）*v[0:4*N-3]v[2:4*N-1]=np.最大值（coin_A，coin_B）#返回假设我们以0分开始的获胜概率返回v[2*N]

当我们使用$a=b=0.5$和$N=100$运行此脚本时，我们获得了大约0.6403$的获胜概率。我们可以得到准确的使用以下Mathematica代码回答：

计算WinProb[a_，b_，n]：=(v=常数阵列[0,4n+1]；v[2n+2；；4n+1]]=1；对于[t=0，t<n，t++，CoinA=a v[[4；；4n]]+（1-a）v[[2；；4n-2]]；硬币b=b v[[5；；4n+1]]+（1-b）v[[1；；4n-3]]；v[[3；；4n-1]]=映射线程[Max，{CoinA，CoinB}]；];v[[2n+1]]）计算机WinProbe[1/2,1/2100]

这为我们提供了准确的结果：
\[
\text{Prob}（\text{win}）=\tfrac{811698796376000066208208781649}{126765060022929401496703205376}\约0.640317
\]

做更多的翻转有帮助吗？

如果我们做100次翻转，我们可以赢得64%的时间，但如果我们做1000次或更多翻转怎么办？我们能继续增加获胜的机会吗？情况似乎并非如此。当我们做越来越多的翻转（增加$N$）时，获胜的概率会略有增加，但只会达到一个极限。为了看到这一点，我解决了高达100000次翻转的$N$问题。以下是我的发现：

考虑到函数增长的速度有多慢，似乎应该有一个有限的限制，这个限制大约在$\frac{2}{3}$（图上的最后一点是$0.6658$）。但有没有其他方法可以计算这个极限呢？

限制大量翻转的行为

情况$a=b=\tfrac{1}{2}$的最佳策略是在得分为正时掷硬币a，在得分为负时掷硬币b。如果我们使用这种策略，我们将以$N\to.infty$的身份赢得游戏的频率是多少？

我们可以在随机行走众所周知，在1D线上的随机行走（每一步向左或向右移动的概率相等）将在足够的时间内访问每个整数无数次。众所周知，在行走首次返回其起点之前，预期的步数是无限的。因此，随着$N$变大，我们可以预计分数将只花费接近0的时间的极小部分。

我们可以将此过程建模为马尔可夫链带有状态：
\[
\点，-8，-6，-4，-2,0,1,2,3,4，\点
\]当我们的分数为$\leq 0$时，我们将掷硬币B并移动$\pm 2$。当我们的分数是$\gt 0$时，我们将掷硬币A并移动$\pm 1$。请注意，状态$-3、-5、-7、\dots$永远无法到达，因为当分数为负时，我们只移动$\pm 2$。基于上面的随机游走论证，我们可以预计马尔可夫链的大部分时间都会有较大的分数（无论是正面还是负面）。

作为近似值，我们可以想象，一旦我们达到$+2$，我们将花费大量时间在积极的方面（赢得分数），然后再回到$1$。同样，一旦我们达到了0美元，我们将在回来之前花费大量时间在消极方面（失分）。由于这个无限马尔可夫链的正半部和负半部具有相同的概率分布，我们可以预计在这两个半部上花费的时间相等。我们通过截断马尔可夫链条并指定一个转移概率$\gamma\gg 0$，一旦到达该转移概率，就可以对这种情况进行建模。以下是生成的截断马尔可夫链：

该马尔可夫链的转移矩阵为：
\[
A=\开始{bmatrix}
\gamma&&frac｛1｝｛2｝\0\\
0&0&1-\伽马\\
1-\gamma和\frac｛1｝｛2｝和\gamma
\结束{bmatrix}
\]稳态分布（对应于$1$特征值的右特征向量）由$\begin{bmatrix}\tfrac{1}{2}&1-\gamma&1\end{bmattrix}$给出。正如预期的那样，由于$\gamma到1$，与中间状态1相关的概率越来越小。在极限状态下，在获胜状态下花费的时间比例为
\[
\text｛Probe｝（\text｛win-as｝N\to\infty）=\frac｛1｝｛\trac｛1｝｛2｝+1｝=\frac｛2｝｛3｝
\]因此，这证明了为什么我们在上面的数值模拟中发现获胜概率趋向于$\tfrac{2}{3}$。

作为旁白，@电气设备在来自的一些帮助下@DarkAdonisSA公司找到了一个计算获胜概率的公式，该概率是$N$的函数。这个公式是：

$\显示样式
\text{Prob}（\text{win in}N\text{steps}）=\frac{2}{3}+\frac{（-1）^N}{2^N}
\left[\frac｛1｝｛3｝+\sum_｛k=1｝^｛N-1｝（-1）^k\binom｛k｝｛\lfloor k/2\rfloor｝\right]
$

到目前为止，我们还没有公式的证明，但当$N=100$时，它确实给出了确切的答案，并且它也清楚地揭示了$\tfrac{2}{3}$的极限，因为第二项往往为零，即$N\to-infty$。似乎也没有一种有意义的方法来简化这个公式。

更改概率

我们还可以检查当我们尝试改变$a=b=\tfrac{1}{2}$的概率时会发生什么。使用上面显示的Python函数，这是一个简单的练习。以下是我们假设硬币B是公平的，而硬币A是不公平的：

正如预期的那样，当硬币A的概率较低时，最佳策略是将硬币B掷得更多，这只会导致0.5的获胜概率。随着硬币A的概率增加，我们获胜的机会也增加了。我们还可以看到当我们增加$a$或$b$时会发生什么（这两种硬币都不是公平的硬币）。以下是我们获得的结果：

再一次，我努力为上述任何一种情况（$a$和/或$b$变化）找到封闭式表达式。即使对于较简单的实例，解决方案也会很快变得复杂。例如，当游戏只持续4次翻转时，$b=\tfrac{1}{2}$作为$a$函数的获胜概率为：
\[
\text{Prob}（\text{win}）=\begin{cases}
\裂缝{1}{8}（a+4）&0\leq-a\leq\tfrac{1}}{2}\\
-\压裂{1}{8}\左（16a^4-32a^3+20a^2-11a-1\右）&\tfrac{1}}{2}\leqa\leq\gamma\\
-\压裂{1}{2}a\左（6a^3-11a^2+6a-3\右）&\gamma\leqa\leq1
\结束{cases}
\]其中$\gamma\approx 0.7328$是$8\gamma^3-4\gamma ^2-1=0$的根之一。（这是使用上面包含的Mathematica函数发现的）。每次我们增加翻转次数时，分段多项式中的部分数量可能会加倍。因此，当我们到达$N=100$时，我们似乎不太可能有一个简单的封闭式表达式！

疯狂的鸭子

本周的Riddler经典是关于晶格上的随机行走：

两只神志不清的鸭子在池塘里很难找到彼此。池塘里正好有一个3×3的岩石网格。

每分钟，每只鸭子都会独立于另一只鸭子随机地从一块岩石游到邻近的岩石，以3×3的网格排列——向上、向下、向左或向右，但不是对角。因此，如果一只鸭子在中间的岩石上，它接下来会游到四块岩石中的一块，概率为1/4。它从一块侧岩游向两块相邻的角岩中的一块，或游回中间的岩石，每一块概率为1/3。从一块角石上，它将以1/2的概率游向两块相邻的边石中的一块。

如果鸭子都从中间的岩石开始，那么平均需要多长时间才能再次到达同一岩石？（当然，在第一分钟后，他们有1/4的机会朝同一方向游，在这种情况下，他们只需要一分钟就可以再次到达同一块岩石。但如果他们碰巧一直彼此错过，可能需要更长的时间。）

额外学分：如果有三只或更多的鸭子怎么办？如果他们都从中间的岩石开始，平均需要多长时间才能再次回到同一岩石上？

这是我的解决方案：
[显示解决方案]

一只鸭子

我们将从一个更简单的问题开始，逐步解决这个问题。让我们考虑一下岩石网格上的一只鸭子。在每一步中，鸭子都会随机移动到附近的一块石头上。我们可以使用马尔可夫链每种状态都是不同的岩石，有向边缘标有转移概率。下面是马尔可夫链的图：

如果我们以与上述相同的方式对状态进行编号，则该马尔可夫链的转移矩阵为：
\[
P=\开始{bmatrix}
0&\tfrac12&0&\ttrac12&0&0&0&0\\
\tfrac13&0&\tfrac13&0&\tfrac13&0&0&0\\
0&\tfrac12&0&0&\ttrac12&0&0&0\\
\tfrac13&0&0&0&\tfrac13&0&\tfrac13&0&0\\
0&\tfrac14&0&\ttrac14&0&\tfrace14&0\\
0&0&\tfrac13&0&\t frac13&0&0&\tfrac13\\
0&0&0&\tfrac12&0&0&\tfrac12&0\\
0&0&0&0&\tfrac13&0&\ttrac13&0-\tfrac13\\
0&0&0&0&0＆\tfrac12&0&\tfrac12-0\\
\结束{bmatrix}
\]解释这个矩阵的方法是$P_{ij}$是我们将从$i$转换到$j$的概率。这解释了为什么行的总和为1（矩阵为右旋橡胶). 我们可以使用矩阵乘法巧妙地将这个事实表示为：$P\mathbf{1}=\mathbf{0}$，其中$\mathbf1}$和$\mat血红蛋白{1}$分别是全零和全一的列向量。数学上，我们可以通过矩阵乘法通过这个马尔可夫链传播概率分布。例如，如果我们在各州有一些初始分布$\mathbf{a}$
\[
\mathbf{a}^\mathsf{T}=\begin{bmatrix}\tfrac12&\tfrac12&0&0&0&0&0-0&0\end{bmatricx}
\]也就是说，我们很可能处于状态1或状态2。然后在下一步中，概率分布将使用
\[
\mathbf｛b｝^\mathsf｛T｝=\mathbf｛a｝^\mathsf{T} P（P）=\begin{bmatrix}\tfrac16&\tfrac14&\tfrac16&\tfrace4&\tfraca16&0&0&0结束{bmatricx}
\]因此，在下一步中，我们可能处于状态1、2、3、4、5中，并具有上述相关概率。

区分很重要状态例如$\{1,2，\dots，9\}$来自状态分布，这是概率向量，例如上面使用的$\mathbf{a}$和$\mathbf{b}$。如果跨州分布退化的，即完全集中在一个特定的状态$s$上，然后我将使用以下符号表示状态上的相应分布：
\[
\左（\mathbf{e} _秒\右）i=\begin{cases}1&\text{if}i=s\0&\text}otheric}\end{cases{
\]例如，$\mathbf{e} _2^\mathsf{T}=\begin{bmatrix}0&1&0&0&0-0&0\end{bmatricx}$。

停止时间

我们对预期的击球时间，这是从某个初始状态$s$到某个目标状态$t\in\mathcal{t}$的平均步骤数。为了保持这种通用性，我假设可以有多个目标状态，由集合$\mathcal{T}$表示。让我们定义$\mathbf{q} _秒$是从状态$s$到终端集$\mathcal{T}$中任何状态的预期命中时间。结果是$\mathbf{q}$满足递归关系：
\[
\马特布夫{q} _秒=\开始{cases}
0&\text{if}s\in\mathcal{T}\\
1+\sum_{i}P_{si}\mathbf{q} _ i&\text{否则}
\结束{cases}
\]第一种情况很清楚：如果我们从终端集合开始，那么我们已经到达了，所以命中时间为零。如果我们在终端集之外，那么预期的命中时间将是$1$加上下一个过渡后我们最终到达的位置的命中时间的加权总和。上面的递归本质上是贝尔曼方程从动态规划.

定义向量$\mathbf{t} i（_i）=\begin{cases}0&\text{if}i\in\mathcal{T}\\1&\text}otherwise}\end{cases{$。
我们可以用简明的向量形式将上述方程改写为：
\[
\mathbf{q}=\textrm{diag}（\tathbf{t}）\left（\tatbf{1}+P\tathbf{q}\right）
\]利用$\textrm｛diag｝（\mathbf｛t｝）\mathbf｛1｝=\mathbf｛t｝$这一事实，我们可以进一步简化并获得：
\[
\左（I-\textrm{diag}（\mathbf{t}）P\right）\mathbf{q}=\mathbf1}
\]对于一只鸭子的情况，如果我们将终端集设置为$\mathcal{T}=\{5\}$，那么我们将上面的$\mathbf{T}=\begin{bmatrix}1&1&0&1&1\end{bmatricx}^\mathsf{T}$替换为：
\[
\开始{bmatrix}
1&-\tfrac12&0&-\ttrac12&0&0&0&0\\
-\tfrac13&1&-\tfrac13&0&-\ttrac13&0&0&0\\
0&-\tfrac12&1&0&0-\tfrac12&0&0\\
-\tfrac13&0&0&1&-\tfrac13&0&-\tfrac13&0&0\\
0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \\
0&0&-\tfrac13&0&-\tfrac13&1&0&0&-\tfrac13\\
0&0&0&-\tfrac12&0&0&1&-\ttrac12&0\\
0&0&0&0&-\tfrac13&0&-\frac13&1&-\trac13\\
0&0&0＆0&0&-\tfrac12&0&-\tfrac12&1\\
\结束{bmatrix}
\开始{bmatrix}\mathbf{q} _1个\vphantom{\tfrac12}\\mathbf{q} _2\vphantom{\tfrac12}\\mathbf{q} _3个\vphantom{\tfrac12}\\
\马特布夫{q} _4个\vphantom{\tfrac12}\\mathbf{q} _5个\vphantom{\tfrac12}\\mathbf{q} _6个\vphantom{\tfrac12}\\
\马特布夫{q} _7个\vphantom{\tfrac12}\\mathbf{q} _8个\vphantom{\tfrac12}\\mathbf{q} _9个\vphantom{\tfrac12}\end{bmatrix}
=\开始{bmatrix}
1\vphantom{\tfrac12}\\1\vphantom{\tfrac12}\\1\vphantom{\tfraca12}\\2\vphantiom{\tflac12}\\
0\vphantom｛\trac12｝\\1\vphantom｛\trac12｝\\1\vphantom｛\trac12｝\\1\vphantom｛\trac12｝\\1\vphantom｛\trac12｝
\结束{bmatrix}
\]反转此矩阵并求解$\mathbf{q}$，以下是数组形式的结果：
\[
\开始{array}{c|c|c}\hline
\马特布夫{q} _1个=6&\mathbf{q} _2=5&\mathbf{q} _3个=6线
\马特布夫{q} _4个=5&\mathbf{q} _5个=0&\mathbf{q} 6个=5线
\马特布夫{q} _7个=6&\mathbf{q} _8个=5&\mathbf{q} _9个=6线
\结束{数组}
\]因此，如果我们从节点1开始，平均需要6次移动才能到达节点5。显然，预期的命中时间应该是整数，因为它们表示无限多条可能路径上的平均路径长度。在这种情况下，它们只是整数。这里观察到的对称性也有意义，我们可以利用它将问题简化为只有3个状态的马尔可夫链，但我将把它留给读者练习！（我从一开始就没有这样做的原因是，我想简单地推广到多鸭子的情况，那里的对称性更复杂）。

我们从原点开始的变量如何，但我们想知道返回原点需要多少时间？在这种情况下，我们只需从第二步开始计算，然后在答案中加上1即可解释跳过的动作。如果我们从节点5开始，即我们的初始分布是$\mathbf{e} _5个^\mathsf{T}$，那么第二回合的分配是$\mathbf{e} _5个^\mathsf{T}P$，因此从5开始并返回到5的预期移动次数为：$\mathbf{e} _5个^\mathsf{T}P\mathbf{q}+1=6$。

两只鸭子

乍一看，两杯咖啡的版本可能比一杯咖啡的更具挑战性。正如我们将看到的那样，一旦我们以正确的方式看待问题，问题本质上是一样的。关键是想象一个马尔可夫链，其中状态不是${1,2，点，9}$，而是${（1,1），（1,2），点，（9,9）}$。换句话说，有81个状态，由所有可能的对$（s_1，s_2）$组成，其中$s_i\In\{1,2，\dots，9\}$是鸭子$i$的位置。

这种马尔可夫链的转移矩阵是什么？转换概率$（a_1，a_2）\到（b_1，b_2）$简单地是$P_{a_1，b_1}P_{a_2，b_2}$，即每个鸭子的相应转换概率的乘积。这意味着如果我们先按照第一只鸭子来排列我们的州(字典序)，则该增广马尔可夫链的转移矩阵为$P\otimesP$，其中$\otime$是克罗内克产品.

所以我们可以用非常相似的方式解决这个问题。这一次，我们的终端集由所有节点$（s_1，s_2）$组成，其中$s_1=s_2$。有9个这样的节点，我们可以通过计算$\mathbf{t}=\mathbf来形成关联的$\mathbf{t{${1}-\textrm{vec}（I）$，其中$\mathrm{vec{$是矢量化的通过枚举列获得的矩阵版本。例如：
\[
\mathrm{vec}\开始{bmatrix}一个_{11} &a{12}&a{13}\\
a{21}、a{22}和a{23}\\
a{31}、a{32}和a{33}
\结束{bmatrix}=
\开始{bmatrix}
a{11}\\a{21}\\a{31}\\ a{12}\\a{22}\\a{32}\\a_a{13}\\a_23}\\a_{33}\\end{bmatrix}
\]$\mathcal{q}$的新方程是$\bigl可以按照与单鸭子案例中相同的逻辑进行计算。即$\mathbf{电子}_{（5,5）}^\mathsf{T}（P\otimesP）\mathbf{q}+1$。

注意事项

虽然这似乎是一个简单的代数，但我忽略了一个主要问题：可逆性。当我们在单鸭子情况下求解$\mathbf{q}$的方程时，方程看起来像$A\mathbf{q}=\mathbf-{t}$，解是$\mathbf{q{=A^{-1}\mathbf1{t}$。但如果$A$不是可逆的呢？这对应于马尔可夫链未连接的情况。因此，如果你从一个岛出发，而终点站在另一个岛上，你永远不会到达那里；停止时间是无限的。这不会发生在一只鸭子身上，但它做发生在两只鸭子身上！这是因为每次鸭子移动到一块新石头上时，石头的奇数变为偶数，反之亦然。因此，如果一只鸭子开始在岩石1上，另一只开始在岩石2上，它们会从未满足。

从线性代数的观点来看，这仅仅意味着即使矩阵不可逆，如果我们将注意力限制在两个鸭子具有相同奇偶性的“岛”（即子空间）上，那么该岛的相关转移矩阵将是可逆的，一切都会好起来。从实际角度来看，上述方程仍然可以求解；我们只需要用伪逆，并忽略$\mathbf{q}$中两个组件具有不同奇偶校验的所有组件。稍后详细介绍…

计算

我使用以下Matlab代码计算结果：

%一只鸭子的转移矩阵P=[0 1/2 0 1/2 0 0 0 01/3 0 1/3 0 1/3 0  0  0  00 1/2 0  0  0 1/2 0  0  01/3 0  0  0 1/3 0 1/3 0  00 1/4 0 1/4 0 1/4 0 1/4 0 1/4 0 1/4 00  0 1/3 0 1/3 0  0  0 1/30  0  0 1/2 0  0  0 1/2 00  0  0  0 1/3 0 1/3 0 1/30  0  0  0  0 1/2 0 1/2 0 ];T=克朗（P，P）；%转移矩阵t=1-vec（眼睛（9））；%终端状态%起始分布s=克朗（[0 0 0 0 1 0 0 0]，[0 0.0 0 1 0.0 0]）'；%将停止时间计算为有理数stop_time=s'*T*（（眼睛（81）-诊断（T）*T）\T）+1大鼠（停止时间）

由此产生的预期停止时间为$\frac{363}{74}$，或大约4.905$步。我们还可以通过模拟找到近似答案。以下是通过模拟一百万次试验得到的结果：

概率的交错减少是一种实际效果；这不是近似误差的结果！

许多鸭子

如果我们有$n$ducks，我们可以很明显地概括上面使用的方法。这一次，转换矩阵将是$\下大括号{P\otimes\cdots\otimesP}_{n\text{times}}$。这里的问题是，我们的转换矩阵将非常大：精确地说，$9^n乘以9^n$。减少州数的一种方法是回到平等的概念。我们的转换矩阵之所以大是因为它描述了全部的所有可能的鸭子配置之间的转换。因为我们知道所有鸭子都从同一个节点开始，并且奇偶校验将被保留，所以我们只需要担心所有鸭子具有相同奇偶校验的状态子集。也就是说，将有$5^n$奇数状态和$4^n$偶数状态。所以我们可以把自己限制在一个较小的$（5^n+4^n）\次（5^n+4 ^n）$转换矩阵。这仍然很大，但这是一个改进。我们还将利用转移矩阵是稀疏的这一事实，这将有助于计算。

完成所有这些工作后，我们得到了以下结果（最多6只鸭子）：

这些值如下：

鸭子的数量	预计rendez-vous时间
2	4.9054
三	18.4360
4	66.7420
5	237.3955
6	825.3364

很明显，预期的渲染时间呈指数级增长，但我还没有找到一种实用的方法来近似或限制它。不幸的是，很难将我的方法扩展到$n=6$ducks以外。为了让您了解规模，我们简单的转换矩阵应该有$9^6=531441$行和列。经过我们的缩减程序，我们降到了5^6+4^6=19721$。转换矩阵是稀疏的（大约98.5%的条目是零），但仍有大约600万个非零条目，这使得计算$\mathbf{q}$成为一个挑战。

如果我们利用对称性，就可能进一步减少。假设我们有两只鸭子。如果我们不做任何削减，则有9^2=81$个州。如果我们使用偶数/奇数奇偶校验进行缩减，则会降至$5^2+4^2=41$。

从停止时间的角度来看，唯一重要的是每块石头上有多少只鸭子；哪只鸭子在哪块石头上并不重要。这立即使我们可以将$5^n+4^n$减少到${n+4\choose4}+{n+3\choose 3}$，这是一个显著的改进。在两杯咖啡的情况下，这将使我们达到25美元。
更深层的对称性也会出现。例如，通过旋转对称性，1和3上的一对鸭子相当于7和9上的一双鸭子。在两周的情况下，这将我们带到$8$的州。计算和记账这些状态可能需要一些群论…

最终，这些减少将产生显著效果，将缩放比例从指数减少到多项式。我没有实施任何额外的削减，因为在这一点上（最高$n=6$），指数趋势是明确的。我不认为进一步扩大这一趋势会特别有启发性。

幸运的德比

本着肯塔基赛马的精神谜题是关于一种特殊类型的赛马。

号角响起，20匹马向第一届年度幸运赛马会的出发门驶去。这些马都是在神秘的谜语人马厩训练的，很特别。每一秒，每一匹经过Riddler训练的马都要迈一步。每一步正好一米长。但这些马表现出的精确性，它们缺乏方向感。大多数时候，他们的步伐是向前的（朝向终点线），但其余时间他们是向后的（远离终点线）。作为Lucky Derby的狂热粉丝，您对这20位参赛者进行了详尽的研究。你知道，一号马前进52%，二号马54%，三号马56%，以此类推，直到最喜欢的小雌马，二十号马，90%的时间都在前进。马步是相互独立的，终点线距离起点200米。

阻止这场比赛并下注！换言之，每匹马获胜的几率是多少（百分之一是好的）？

这是我的完整推导（长！）：
[显示解决方案]

让我们看看一匹特殊的马。每一步，假设它以概率$q>\frac{1}{2}$向前移动，或以概率$1-q$向后移动。这匹马从$0$的位置开始，我们想知道它在2k$的步长内到达2n$位置的概率。$2$因子的原因是，要达到偶数位置（如问题陈述中的$200$），马必须采取偶数步数。我们把这个概率称为$P（n，k，q）$。

这种情况称为一维随机游走，过去处理类似想法的帖子包括致命的棋盘游戏和赌徒的废墟然而，这个问题有点不同，因为我们关心所需移动次数的分布（不仅仅是预期的移动次数）。

回到手头的任务：确定$P（n，k，q）$。如果我们在$2k$的移动中达到$2n$的位置，那么很明显我们有$k\ge n$。接下来，我们可以推断，我们必须向前移动$（k+n）$次，向后移动$（k-n）$倍。发生这种情况的概率是$q^{n+k}（1-q）^{n-k}$。这里最棘手的部分是处理秩序我们采取步骤。我们采取的最后一步必须始终向前，因此我们将限制注意力安排剩余的2k-1$步。总共有2k-1美元\choose k-n$种方法可以做到这一点，但这不是我们要找的数字！其中一些路径将提前到达$2n$，因此我们将计算这些路径并减去它们。

我们正在计算的数量与加泰罗尼亚数字，我们可以借用类似的证明技术（即安德烈反射法)从而得出解决方案。这里有一个论点：想象这条路是一条“山脉”，每一个2k-1$的台阶都是向右移动，或者向上或向下移动，这取决于台阶是向前还是向后移动。下图显示了$n=2$和$k=5$的有效路径。请注意，我们可以消极对待！

我们希望排除在早些时候达到$n$的“坏路径”。考虑出现这种情况的第一个点，并反映关于行$y=2n$的路径的其余部分。这将导致一条新路径，该路径具有$（k+n）$向前步骤、$（k-n-1）$向后步骤，并以$2n+1$而不是$2n-1$结束。有关反射方法的说明，请参见下图。

坏路径和长度为$2k-1$且达到$2n+1$的无约束路径之间存在一对一的对应关系。因此，有效路径的总数（总路径减去坏路径）由下式给出：
\[
{2k-1 \选择k-n}-{2k-1\选择k-n-1}=\压裂{n}{k}{2k\选择k-n}
\]简化如下：(这些身份)，但也可以使用代数轻松推导。综上所述，一匹马以2k$的步幅首次达到2n$的概率由以下公式给出：

$\显示样式
P（n，k，q）=\frac{n}{k}{2k\选择k-n}q^{k+n}（1-q）^{k-n}，\quad\text{表示}k=n，n+1，\dots
$

我们可以为我们的利息情况绘制分布图，即$n=100$，$q$从0.52$（对于Horse$1$）到0.90$（对于Horse$20$）不等。以下是一些马的分布图：

正如我们所看到的，这些分布是正态分布到非常好的近似值。尽管它们具有操作表达式的挑战性，但这项任务并不超出Mathematica的能力！事实上，我们可以验证$P$是一个合法的概率质量函数，并且我们还可以计算它在$\tfrac{1}{2}情况下的均值和方差：
\开始{align}
\sum_{k=n}^\infty P（n，k，q）&=1&\text{（和为1）}\\
\sum_{k=n}^\infty k\，P（n，k，q）&=\tfrac{n}{2q-1}&&\text{（计算平均值）}\\
\sum_{k=n}^\infty\bigl（k-\tfrac{n}{2q-1}\bigr）^2P（n，k，q）&=\tfrac[2nq（1-q）}{（2q-1）^3}&\text{（计算方差）}
\结束{align}此处是一些马的平均值和标准偏差：
\开始{align}
\文本{马4}&\约1250\pm 218\\
\文本{马8}&\约625\pm 74\\
\文本{马12}&\约417\pm 37\\
\文本{马16}&\约313\pm 21\\
\文本{马20}&\约250\pm 12
\结束{对齐}注：我们必须将上述公式的平均值和标准偏差加倍，因为这些公式跳过奇数长度（这是不可能的）。在进行连续近似时，我们希望填充这些空格！

我们马上注意到的一件事是，分布是非常分离的（这是对数刻度！）。唯一有可能击败20匹马的马是紧随其后的马。让我们再按线性比例绘制一次分布图，但仅限于顶级马匹：

如果马$i$以$h_i$步完成，计算马$i$s获胜的概率等于找到所有$i\nej$的$h_i>h_j$的概率。我们可以将其近似为：
\开始{align}
\mathbb{P}（h_i>h_j\，\对于所有i\ne j）
&\近似值\int_{-\infty}^\infty \mathbb{P}（h_i=x）\prod_{j\nei}\mathbb{P}（h_j>x）\，\mathrm{d}x\\
&=\int_{-\infty}^\infty \frac{1}{\sigma_i}\varphi_i（z_i）\prod_{j\nei}\left（1-\Phi（z_ j）\right）\，\mathrm{d}x\\
\结束{align}其中$\varphi$和$\Phi$是标准的概率密度（pdf）和累积分布（cdf）正态分布$zk=\tfrac{x-\muk}{\sigmak}$是为$k^\text{th}$horse计算的标准正常偏差（$\muk$和$\sigma k$是前面计算的平均值和标准偏差）。

这是一个非常复杂的积分，它不存在封闭解，所以我们必须用数值计算它。关于解决方案，请继续阅读！

对于tl；博士，答案是：
[显示解决方案]

马的编号	赢得比赛的可能性
20	71.27%
19	21.54%
18	5.605%
17	1.268%
16	0.2595%
15	0.05085%
14	0.01018%
13	0.002212%

致命的棋盘游戏

这个Riddler经典拼图涉及决策和概率的组合。

当你在仲裁王国旅行时，你被指控犯有令人发指的罪行。仲裁庭不是通过法庭系统，而是通过棋盘游戏来决定谁有罪或无罪。它是在一个简单的板上播放的：一个带有从0到1000的连续空格的曲目。零位标记为“开始”，您的代币放在上面。您将获得一个六面骰子和三枚硬币。您可以将硬币放在三个不同（非零）的空格上。硬币一旦放置，就不能移动。

放置三枚硬币后，你掷骰子并将令牌向前移动适当数量的空格。如果移动令牌后，它落在一个有硬币的空格上，则您将被释放。如果没有，请再次滚动并继续前进。如果您的令牌通过了所有三个硬币而没有落在一个硬币上，那么您将被处决。你应该把硬币放在哪三个空格上，以最大化你的生存机会？

额外积分：假设有一条额外的规则，你不能把硬币放在相邻的空格上。现在理想的位置是什么？最糟糕的广场怎么办？如果你在玩殉道游戏，你应该把硬币放在哪里？

这是我的解决方案：
[显示解决方案]

让我们假设这条赛道的长度为$N=1000$（这无关紧要！）。我们将首先解决一个更简单的问题，即我们只能放置一枚硬币，然后我们将解决两枚硬币、三枚硬币等的版本。

一枚硬币

让我们称$p_k$为如果硬币放在$k$上，我们生存的概率。换句话说，$p_k$是我们降落在标记为$k$的空间上的概率。显然$p_1=\tfrac{1}{6}$，但对于较大的$k$，它会变得更复杂。关键是要认识到我们可以计算$p_k$递归地例如，要计算一些$p_k$，请注意，如果我们的第一次掷骰是1，那么为了生存，我们现在必须用剩余的掷骰掷总共$k-1$。如果我们的第一卷是2卷，那么我们必须在剩余的卷中滚动总共$k-2$，依此类推。因此我们得出结论：
\[
pk=\压裂{1}{6}\左（p{k-1}+p{k-2}+\点+p{k-6}\右）
\]事实上，只要我们适当地选择初始条件，这就适用于所有的$k$。我们知道$p_1=\tfrac{1}{6}$，因此我们可以通过选择以下选项来实现所需的循环：
\[
p_0=1，\quad\text{和}\quad p_{k}=0\text{对于}k<0\]现在我们有了一种简单的递归方法来计算所有$p_k$。事实上，我们正在处理一个常系数线性递推关系，因此我们可以使用特征多项式找到$pk$的公式。结果是：
\[
p_k=\frac{1}{7}\左（2+\eta_1^k+\ta_2^k+\bar{\eta}_2^k+\ta_3^k+\bar{\ta}_3^k\右）
\]其中，$\eta_1\约为-0.670332$，$\eta_2约为-0.375695+0.570175i$，$\ eta_3\约为0.294195+0.668367i$。这里，$\bar{\eta}$表示$\eta$的复共轭。不幸的是，我们找不到一个精确的表达式，因为特征多项式是六阶的，即使我们在1处计算出平凡根，我们也会得到一个五次多项式，它将通常没有封闭式解决方案然而，这个公式告诉我们，落在离我们很远的硬币上的概率是$p\infty=\frac{2}{7}$，干净！

好了，回到正题上来。$p_k$的公式并没有那么有用，但我们仍然有一种通过递归精确计算$p_k$的有效方法。下面是$p_k$的图：

请注意，在极限中，我们按照预期接近$\tfrac{2}{7}\大约0.285714$。我们可以读出硬币的位置，要么最大化生存，要么最小化生存（殉难）。结果如下表所示。

一枚硬币的致命游戏	最佳硬币位置	精确生存概率	近似概率
殉道	1	$\压裂{1}{6}$	0.166667
生存	6	$\压裂{16807}{46656}$	0.360232

两枚硬币

由于一枚硬币的问题很难解决，因为我们必须计算所有的概率，然后选择最大和最小的概率，所以我们不能指望两枚硬币问题会变得更容易。也就是说，我们可以利用我们已经完成的工作。让我们称$q_{k，m}$为如果硬币放在$k$和$m$上，我们生存的概率。我们可以使用包容性原则也就是说，
\开始{align}
&P（\text{降落在}k\text{或}m）\\
&\qquad\qquad=P（\text{降落在}k上）+P（\text{降落在}m上）-P（\text{降落在}k上\text{和}m）
\结束{align}平台在$k$和$m$上需要先在$k$$上着陆（假设为$k\le-m$），然后在$m$着陆，假设我们在$k$s上。这只是$p_{m-k}$。总之，如果$k\le m$，我们有：
\[
q{k，m}=pk+pm-pkp{m-k}
\]计算每对$（k，m）$的$q$值，我们可以在3D中可视化概率：

景观比以前更加复杂。对角线（对应于$k=m$）是凹陷的，因为这是两枚硬币放在同一个方块上的时候（生存概率低得多！）。结果如下表所示：

两枚硬币的致命游戏	最佳硬币位置	精确生存概率	近似概率
殉难	1、2	$\压裂{1}{3}$	0.333333
生存	5, 6	$\压裂{2401}{3888}$	0.617541

如果我们禁止相邻货币，我们将获得：

殉难	1, 7	$\压裂{16807}{46656}$	0.360232
生存	4, 6	$\压裂{4459}{7776}$	0.573431

三枚硬币

这种情况类似于两枚硬币的情况，只是解决方案空间现在是三维的，因此更难以可视化。如果我们让$r_{k，m，n}$作为我们在$k$，$m$和$n$上放置硬币时生存的概率，并且我们假设$k\lem\len$，我们可以再次使用inclusion-exclusion计算概率：
\[
r{k，m，n}=pk+pm+pn-pkp_{m-k}-pkp_{n-k}-pmp_{n-m}+pkp_{m-k}p_{n-m}
\]下表给出了这种情况的结果。

三枚硬币的致命游戏	最佳硬币位置	精确生存概率	近似概率
殉难	1, 2, 7	$\压裂{3697}{7776}$	0.475437
生存	4, 5, 6	$\压裂{343}{432}$	0.793981

如果我们禁止相邻货币，我们将获得：

殉难	1, 3, 7	$\压裂{3913}{7776}$	0.503215
生存	6, 8, 10	$\压裂{1198777}{1679616}$	0.713721

请注意，将硬币彼此相隔很远从来都不符合我们的最佳利益。所有“有趣”的行为（非常大或非常小的概率）都发生在开始的附近。以三枚硬币为例；如果我们把硬币放在远离起点和彼此远离的地方，每个硬币都将以$\tfrac{2}{7}$的概率落地，并且它们将大致独立。这意味着：
\[
\textrm{P（生存）}约1-（1-\tfrac{2}{7}）^3\约0.635569
\]这使我们直接处于上表中的殉难概率和生存概率之间。换言之，无论我们是想赢还是想输，分发硬币都没有任何好处……N=1000$是在转移注意力！

带端点的随机行走

这个谜语人帖子因为今天是一场酒吧游戏，你掷硬币，根据结果向前或向后移动。问题是：

考虑一个热门的新酒吧游戏。它是用一枚硬币在你和朋友之间玩的，在一条从负无穷到正无穷的数字线上。（这是一个非常非常长的条。）你被分配了一个中奖号码，负整数-X，而你的朋友被分配了自己的中奖号码（正整数+Y）。一个标记被放置在数字行的零处。然后，硬币被反复翻转。每次硬币正面落地时，标记都会向正方向移动一个整数。每次硬币落在尾部时，标记都会向负方向移动一个整数。如果硬币先达到-X，你就赢了，而如果硬币先达到+Y，你的朋友就赢了。（胜利者保留硬币。）

你能在酒吧里扔硬币坐多久？换句话说，在一场完整的比赛中，预期的掷硬币次数是多少？

这是我的解决方案：
[显示解决方案]

这个问题众所周知赌徒的毁灭这是一个一维的例子随机游走在典型的赌徒破产设置中，你反复掷硬币，根据结果，要么获得1美元，要么失去1美元。你有一个固定的起始预算和一个期望的目标金额。你继续玩，直到你达到了你的目标金额，或者你用完了钱。我们在这里看到的酒吧游戏正是赌徒的毁灭，但却发生了变化，你从0美元开始，到你涨到Y美元或负债X美元结束。

这里有一个可能的解决方案。让我们将$E_n$定义为一个完整游戏中预期的掷硬币次数，假设标记开始于数字行上的$n$位置。我们想找到$E_0$。假设在每次翻转时，我们以概率$p$向前移动，以概率$q$向后移动（其中$p+q=1$）。如果我们目前处于$n$，那么概率为$p$，我们来自$n-1$，概率为$q$，我们从$n+1$。不管怎样，我们又发生了一次翻转。因此，我们可以写出预期硬币翻转次数的以下递推关系：

\开始{align}
E_{-X}&=0\\
E_n&=pE_{n-1}+qE_{n+1}+1\qquad\text{代表}-X<n<Y\\E_Y&=0\结束{对齐}在矩阵形式下，这些方程如下所示：\[\开始{bmatrix}1&-q&0&\点&0\\-p&1&-q&\ddots&\vdots\\0&&-p1&\dots&0\\\vdots&\ddots&\ ddots＆\ ddots&\ddot&-q\\0&\点&0&-p&1\结束{bmatrix}\开始{bmatrix}E_｛-X+1｝\\E_｛-X+2｝\\vdots\\E_｛Y-2｝\\E_｛Y-1｝\结束{bmatrix}=\开始{bmatrix}1\\\\vdots\\1\\1\结束{bmatrix}\]这个方程组的结构很好；左边的矩阵都是对角和特普利茨.人们可以解出这个方程组使用特殊形式的高斯消去例如。

虽然这些方程有一个封闭的解，但它相当混乱。相反，我将展示如何在$p=q=\tfrac{1}{2}$的情况下手动得出答案。最后一个方程可以用$E_{Y-2}$求解$E_{Y-1}$：

\[
E_{Y-1}=\tfrac{1}{2}E_{Y-2}+1
\]

然后，我们可以将其代入第二个方程，并用$E_{Y-3}$求解$E_{Y2}$：

\[
E_{Y-2}=\tfrac{2}{3}E_{Y-3}+2
\]

代入第三个方程，用$E_{Y-4}$求解$E_{Y3}$：

\[
E_{Y-3}=\tfrac{3}{4}E_{Y-4}+3
\]

模式现在很清楚了（如果你愿意，可以用归纳法证明它）。继续这种方式，直到我们到达起点，

\[
E_{1}=（1-\tfrac{1}{Y}）E_{0}+Y–1
\]

我们可以做类似的事情，但要从另一端开始。例如，用$e_{-X+2}$求解$e_{-X+1}$，然后用$e_{-X+3}$求解$e_{-X+2}$，依此类推。这一次，我们得到了结果：

\[
E_{-1}=（1-\tfrac{1}{X}）E_0+X–1
\]

现在，我们可以将我们的劳动成果与唯一尚未使用的方程式结合起来，该方程式涉及$E_0$、$E_1$和$E_{-1}$。结果是：

\开始{align}
E_0&=\tfrac{1}{2}E_{-1}+\tfrac}1}{2]E_1+1\\
&=\tfrac{1}{2}\左\\
&=\tfrac{1}{2}\左
\结束{对齐}

重新排列并求解$E_0$，我们得到：

$\显示样式
E_0=\压裂{Y+X}{\tfrac{1}{X}+\tfrac}{1}}{Y}}=XY
$

可以使用类似的方法计算每个玩家获胜的概率。为了做到这一点，让$P^Y_n$作为我们首先到达$Y$的概率，假设我们当前处于$n$，并且类似地定义$P^X_n$。然后递归如下所示：

\开始{align}
P^Y_｛-X｝&=0\\
P^Y_n&=P P^Y_{n-1}+q P^Y_{n+1}\qquad\text{代表}-X<n<Y\\P^Y_Y&=1\结束{对齐}用矩阵表示，这个问题和求期望值的唯一区别是方程的右边！使用类似的递归方法，我们可以求解方程，并获得：

$\显示样式
P_0^X=\压裂{Y}{X+Y}\qquad\text{和}\qquid P_0^Y=\压裂}{X+Y}
$

因此，实际上，如果我们必须在数字线上走两倍于对手的距离，那么我们赢得比赛的可能性是对手的一半。为了好玩，我画了一些图，展示了如果你不使用公平的硬币，预期价值和获胜概率是如何变化的。图中显示了$X+Y=50$的情况。例如，40%的曲线意味着硬币在40%的时间里朝你的方向翻转。

如果您对案例$p\ne\tfrac{1}{2}$的解决方案的推导感兴趣，这里有一组写得很好的注释在这里.

这里有一个更巧妙的解决方案，由丹尼尔·罗斯:
[显示解决方案]