期望线性-书证

把尺子切成碎片

本周的Riddler经典这是一个关于把尺子切成小块的矛盾问题。

最近，长尺的生产出现了问题。似乎每把尺子都被意外地沿着尺子随机切割了三个点，结果变成了四块。从好的方面来看，这意味着现在统治者的数量是现在的四倍，只是长度不同而已。包含6英寸标记的碎片平均有多长？

四次切割后，每片平均长度为3英寸，但这不是答案，对吗？

我们将考虑这个问题的以下更一般的版本。

假设长度为$L$的标尺在标尺一端的分数“$a$”处标记。现在假设沿标尺长度随机选择$N-1$次切割，将标尺分割成$N$个较小的块。包含标记的工件的预期长度是多少？

在最初的问题中，$L=12\text{inches}$、$a=\tfrac{1}{2}$和$N=4$。

我们将从考虑一个更简单的问题开始。假设我们在区间$[0，b]$上随机且独立地均匀选择$k$个数。$\min_{1\leqi\leqk}x_i$的预期值是多少？我们可以使用以下事实进行计算：
\开始{align}
\mathbb{E}\左（\min_{1\leqi\leqk}x_i\right）&=\int_0^b\mathbf{Prob}（\min（x_i）\geqt）\，\mathrm{d} 吨 \\
&=\int_0^b\mathbf{Prob}（x_1\geqt，\dots，x_k\geq t）\，\mathrm{d} 吨 \\
&=\int_0^b\mathbf{Prob}（x_1\geqt）\cdots\mathbf}（x_k\geq t）\，\mathrm{d} 吨 \\
&=\int_0^b\mathbf{Prob}（x_1\geqt）^k\，\mathrm{d} 吨 \\
&=\int_0^b\left（\frac｛b-t｝｛b｝\right）^k\mathrm{d} 吨 \\
&=\压裂{b}{k+1}
\结束{align}第一个等式来自这样一个事实，即期望可以写成互补累积分布函数的积分(wiki链接). 然后，我们使用$x_i$是相互独立和相同分布的事实。

回到我们最初的问题，我们可以将其分为几个案例，具体取决于左边的削减数量与右边的削减数量。假设我们在$a$的左边削减$k$，剩下的$N-k-1$削减在右边。那么，包含$a$的片段的预期长度是“左部分”和“右部分”的预期长度之和。这些碎片中的每一个都可以根据上述初步结果进行计算，我们得到：
\[
左（frac{a}{k+1}+frac{1-a}{N-k}\right）
\]注意，当$k=0$时，此公式给出了正确的答案；它返回左半部分（整个间隔）的长度$a$。接下来，我们必须计算这种实际发生的概率；左边是$k$的削减，右边是$N-k-1$的削减。由于这些事件发生的概率分别为$a$和$1-a$，并且它们是相互独立的，因此我们有一个二项分布。因此，$k$削减到$a$左边的概率为：
\[
\二进制{N-1}{k} 一个^k（1-a）^{N-k}
\]结合这两个事实，我们寻求评估的期望值可以写成总和：
\[
\sum_{k=0}^{N-1}L\左（\压裂{a}{k+1}+\压裂{1-a}{N-k}\右）\binom{N-1{{k} 一个^k（1-a）^{N-k-1}
\]我们可以将其分为两个单独的金额。对于第一个，
\开始{align}
&\sum_{k=0}^{N-1}\frac{La}{k+1}\binom{N-1{{k} 一个^k（1-a）^{N-k-1}\\
&=\sum_{k=0}^{N-1}\frac{L}{N}\binom{N}{k+1}a^{k+1}（1-a）^{N-k-1}\\
&=\sum_{k=1}^{N}\压裂{L}{N}\binom{N}{k} 一个^{k} （1-a）^｛N-k｝\\
&=\压裂{L}{N}\左（1-（1-a）^N\右）
\结束{align}其中我们使用了二项式定理在最后一步中计算总和。对总和的另一半使用类似的参数，我们得到$\frac{L}{N}\left（1-a^N\right）$。结合这两部分，我们找到了包含标记的工件预期长度的最终公式：

$\显示样式
\压裂｛L｝｛N｝\Bigl（2-a^N-（1-a）^N\Bigr）
$

特别是，对于原始问题语句，$L=12\text{inches}$、$a=\tfrac{1}{2}$和$N=4$。所以最后的答案是$\frac{45}{8}=5.625\text{inches}$。这比每块的平均长度（3英寸）要长得多。

我注意到了对这一事实的几种解释，因此我将在这里转达几点。
评论员盖伊·D·摩尔指出，这是一个选择偏差。我的同事李康旭也指出，这种现象正是检查悖论来自概率论。

下面是一个直观的解释，解释为什么真正的答案比3大得多。长度较长的尺子更有可能包含6英寸的标记。事实上，任何长度超过6英寸的尺子都是放心包含6英寸标记！虽然这样的棋子很少见，但我们的条件是我们的棋子上有6英寸的标记，所以我们更有可能挑选出这些较长的棋子，所以平均棋子长度会更长。

限制案例

作为一个健全性检查，让我们看看当我们考虑公式的极限行为时会发生什么。

如果$N=1$（仅一块），则公式简化为$L$，这是有意义的。在这种情况下，不会进行切割，因此所有工件都包含标记，并且所有工件的长度都为$L$。
如果$a=0$或$a=1$（标记位于标尺的两端），则公式简化为$\frac{L}{N}$，即平均工件长度。这是有道理的，因为第一块总是包含标记，没有理由第一块应该比平均块长或短。
如果$N$变得很大，而$0\lta\lt1$，则公式趋向于$\frac{2L}{N}$。因此，含有标记的碎片的平均长度是平均碎片的两倍。

这里有一个图，显示了标记的标尺与平均长度$\frac{L}{N}$相比要长多少。我们可以直观地确认三种极限情况：当$N=1$时，我们只得到平均长度；如果$a=0$或$a=1$，我们也得到平均长度，而作为$N\to.infty$，我们确实倾向于$2$。原始问题的解决方案（$a=\tfrac{1}{2}$和$N=4$）产生的比率为$1.875$，该比率乘以平均长度$\frac{L}{N}=\fracc{12}{4}=3$得到我们上面报告的答案$5.625$。

圆形难题

本周的Riddler公司问题很简单：

如果N个点是在圆周长的随机位置生成的，那么您选择一个直径，使所有这些点都只位于新减半的圆的一侧的概率是多少？

这是我的解决方案：
[显示解决方案]

啤酒乒乓球

这个有趣的游戏转折点啤酒榜出现在Riddler博客。在这里：

球的编号为1到N。还有一组N个杯子，标记为1到N，每个杯子可以容纳无限数量的乒乓球。比赛分回合进行。一轮由抛撒和修剪两个阶段组成。

在投掷阶段，球员从无限供应中随机取球，一次一个，并将其掷向杯子。当每个杯子里至少有一个乒乓球时，投掷阶段就结束了。接下来是修剪阶段。在这一阶段，球员将遍历每个杯子中的所有球，并移除任何数量与容纳杯子不匹配的球。每一个抽到的球都有一个统一的随机数，每一个球都落在一个统一的随机杯子里，每一次投球都落在某个杯子里。当一轮比赛结束后，没有空杯子时，比赛就结束了。

你预计需要打多少局才能完成这场比赛？你预计需要多少个球才能完成这场比赛？

这是我的解决方案：
[显示解决方案]

我们将首先解决第二个问题：你预计需要多少个球才能完成比赛？对于这个问题，轮次根本不重要。一旦每个杯子中至少有一个正确的球，比赛就会结束，而每轮结束时的修剪阶段只会删除错误的球，因此我们可以有效地忽略它。

每次投球，都有1美元/N$的机会落在正确的杯子里。这是一个经典优惠券收集器问题（请参阅我在卡片收集完成问题了解更多背景）。解决方案基于这样一个事实，即如果某项试验以$p$的概率成功，那么在我们获得第一次成功之前，我们必须平均进行$1/p$的试验。我们的第一个正确球落地的概率是$1/N$，因此平均需要$N$次抛球。下一个正确球的落地概率新的正确的球（在不同的杯子里）是$\tfrac{1}{N}\cdot\tfrac}N-1}{N/$。这平均需要$\tfrac{N^2}{N-1}$次投掷。以这种方式继续下去，将所有的间歇时间相加，直到每个杯子都装满了水，预计的总抛掷次数为：

$\显示样式
T_\text{tot}=N^2\sum_{k=1}^N\压裂{1}{k}\近似N^2（\log N+\gamma）
$

其中$\gamma\大约0.5772$是Euler-Mascheroni常数.

现在让我们把注意力转向第一个问题：你希望打多少回合才能完成这场比赛？这是一个复杂得多的问题，为了说明这种方法，我将针对$N=3$的情况解决它。首先，我们将把每一轮分为若干阶段，这些阶段跟踪杯子装满时的进度。在下图中，每个杯子要么是空的（没有球），要么是红色的（错误的球），或者是绿色的（正确的球）。我们还可以计算出所有的转移概率，并将它们写在箭头上。

在该图中，自循环具有所需的任何概率，因此输出箭头的总和为$1$。这是一个示例马尔可夫链。我们从左边开始（所有杯子都是空的），然后向右边走（所有杯子是满的）。当我们从上到下和从左到右排列状态时，$N=3$的转换矩阵如下所示：
\[
A类=
\开始{bmatrix}
0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
2/3 & 2/9 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
1/3 & 1/9 & 1/3 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
0 & 4/9 & 0 & 4/9 & 0 & 0 & 0 & 0 & 0 & 0 \\
0 & 2/9 & 4/9 & 2/9 & 5/9 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 2/9 & 0 & 1/9 & 2/3 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 2/9 & 0 & 0 & 1 & 0 & 0 & 0 \\
0 & 0 & 0 & 1/9 & 2/9 & 0 & 0 & 1 & 0 & 0 \\
0和0和0和1/9和2/9和0和0和1和0\\
0 & 0 & 0 & 0 & 0 & 1/9 & 0 & 0 & 0 & 1
\结束{bmatrix}
\开始{array}{c}
（k=0，j=0）\\
（k=1，j=0）\\
（k=1，j=1）\\
（k=2，j=0）\\
（k=2，j=1）\\
（k=2，j=2）\\
（k=3，j=0）\\
（k=3，j=1）\\
（k=3，j=2）\\
（k=3，j=3）\\
\结束｛数组｝
\]请注意，这些列的总和为$1$，因为所有传出概率的总和必须为$1$。问题是：我们最终到达每个可能终点的概率是多少？（最后四个州）。这称为极限分布在我们的例子中，我们可以很容易地计算它。首先，我们可以通过归一化消除自循环。这是可行的，因为我们实际上并不关心每个阶段花费了多少时间。有关此规范化的说明，请参见下文。

下面是归一化后的转换矩阵
\[
A_\text{标准}=
\开始{bmatrix}
0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
2/3 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
1/3 & 1/7 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
0 & 4/7 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\
0 & 2/7 & 2/3 & 2/5 & 0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 1/3 & 0 & 1/4 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 2/5 & 0 & 0 & 1 & 0 & 0 & 0 \\
0 & 0 & 0 & 1/5 & 1/2 & 0 & 0 & 1 & 0 & 0 \\
0 & 0 & 0 & 0 & 1/4 & 2/3 & 0 & 0 & 1 & 0 \\
0 & 0 & 0 & 0 & 0 & 1/3 & 0 & 0 & 0 & 1
\结束{bmatrix}
\开始{array}{c}
（k=0，j=0）\\
（k=1，j=0）\\
（k=1，j=1）\\
（k=2，j=0）\\
（k=2，j=1）\\
（k=2，j=2）\\
（k=3，j=0）\\
（k=3，j=1）\\
（k=3，j=2）\\
（k=3，j=3）\\
\结束{数组}
\]再一次，这些列的总和为$1$，但这次只有吸收态具有自回路。找到极限分布就等于找到极限$\lim_{t\to\infty}A_\text{normal}^t$。由于$A_\text｛norm｝$的左上块是幂零的（对角线为零），矩阵的幂最终将是常数。它足以计算$A_{\text{normal}}^{2N}$。提取最后的N+1行和对应于状态$\{1,3,6，\dots，\tfrac{（N+1）（N+2）}{2}}$的列（其中杯中正好有$k$个正确球的状态，对于$k=0,1，\dotes，N$），我们得到了一轮比赛的关键。以下是我们在$N=3$的情况下得到的结果：
\[
P=\开始{bmatrix}
16/105 & 0 & 0 & 0 \\
41/105 & 1/3 & 0 & 0 \\
5/14 & 1/2 & 2/3 & 0 \\
1/10 & 1/6 & 1/3 & 1
\结束{bmatrix}
\开始{array}{c}
（k=0）\\
（k=1）\\
（k=2）\\
（k=3）\\
\结束{数组}
\]换言之，$P_{ij}$是这样的概率：如果我们目前在杯子里有$j$个正确的球，那么在下一轮比赛结束后，我们将有$i$个。从这里开始，我们的下一个任务是计算从$k=0$到$k=N$所需的预期轮数。这可以计算如下：如果我们将$E_k$称为从$k$开始的预期轮数，那么我们有：
\开始{align}
E_0&=1+P_{00}E_0+P_{10} E_1（E_1）+\cdots+P_｛N0｝电子 \\
E_1&=1+P_{01}E_0+P_{11} E_1（E_1）+\cdots+P_{N1}E_N \\
&\视频短片\\
E_{N-1}&=1+P_{0，N-1}E_0+P_｛1，N-1｝E_1+\cdots+P_{N，N-1}E_N\\
E_N&=0
\结束{align}或，在矩阵-向量表示法中：$E=\mathbb{1}–E_N+P^\mathsf{T}E$。这可以通过简单的矩阵反演来解决。然后，我们可以从解决方案中提取$E_0$，这是从所有空杯子开始的预期回合数。就我所知，似乎没有一种简单的方法来提取解析公式，但上述所有步骤都很容易进行数值计算。以下是$N$小值的结果图：

我还叠加了通过蒙特卡洛模拟使用1000美元的模拟游戏。这表明，分析结果与仿真结果吻合良好。以下是进一步的数值结果，这次扩展到$N=100$：

似乎所需的轮数与$N$近似线性增长，而所需的球数则呈二次增长。后一个结果是可以预期的，因为我们知道在这种情况下的公式大约为$N^2\log N$。

群岛

图论问题Riddler博客。在这里：

你生活在里德利亚火山群岛上。你的群岛通过桥梁网络相连，形成了一个统一的社区。为了保护资源，建造这个网络的古代Riddlerians选择不在已经与社区相连的任何两个岛屿之间建造桥梁。因此，从一个岛到另一个岛只有一条路。

每个岛屿正好有一座火山。你知道，如果一座火山爆发，地下压力变化会很大，火山会自行坍塌，导致其岛屿和所有相连的桥梁坍塌入海。值得注意的是，其他岛屿将幸免于难，除非它们自己的火山爆发。但如果有足够多的桥梁倒塌，你曾经统一的群岛社区可能会分裂成几个较小的、相互脱节的社区。

如果群岛中原本有N个岛屿，而每座火山都独立喷发，概率为p，那么当你返回时，你预计会发现多少个支离破碎的群落？p的什么值使这个数字最大化？

这是我的解决方案：
[显示解决方案]

以下是一个可能有$N=9$岛屿的群岛示例：

当然，有很多可能的方法连接岛屿之间的桥梁，但事实证明，这并没有改变问题的答案！思考这个问题的一个有用方法是使用图论在这里，我们假设群岛是一个图，其中岛屿是顶点，桥梁是边。下面是使用图形术语重写的问题：

我们得到了树。移除每个顶点的概率为$p$，移除顶点时，所有入射边也会移除。预计的数量是多少连接的组件在结果中森林？

我们现在可以利用森林的一个关键属性：
\[
（\text{边数}）+（\text}连接组件数}
\]特别是，如果一个森林有$N$个顶点和$N-1$个边，那么它必须有一个连接的组件，即它是一棵树！您可以使用上面显示的树进行检查；它有$9$的顶点和$8$的边。

此属性非常强大，因为它准确地告诉我们从树中删除边和/或顶点时会发生什么：删除边会使连接的组件数量增加一个，如果删除孤立的顶点（没有关联边的顶点），则连接的组件数会减少一个。

我们现在拥有解决问题所需的一切。我们可以写：
\开始{align}
&\mathbb{E}（\text{connectedcomponents}）\\
&=\mathbb{E}（\text{vertices}）-\mathbb{E}（\text}edges}）\\
&=（N-\mathbb{E}（\text{删除顶点}））-（N-1-\mathbb{E}（\text}删除边}）\\
&=1+\mathbb{E}\\
&=1+（N-1）\mathrm{Prob}（\text{删除一条边}）-N\，\mathrm{Prob{（\text删除一个顶点}）\\
&=1+（N-1）（2p-p^2）-Np\\
&=（1-p）（1-p+Np）
\结束{align}输入我们用的是倒数第三行期望的线性。每个顶点被删除的概率相同（$p$），每条边被删除的几率也相同，即其相邻顶点被删除或一减去其两个顶点均未被删除的可能性：$1-（1-p）^2=2p-p^2$。

你可能会想：但任何两条边消失的概率是相关的！它还取决于连接模式！对的！但这并不影响预期。期望的线性适用于任何随机变量的总和，即使这些变量是相关的。

最后的结果是：

$\显示样式
\mathbb{E}（\text{#ofcommunities}）=（1-p）（1-p+Np）
$

最大化社区数量

首先，这个问题有意义吗？让我们做一个思维实验。当$p$较低时，火山很少，因此群岛不会受到太多干扰（将保持高度连通），因此我们应该获得少量社区。当$p$较高时，大多数岛屿都消失了，所以我们又留下了一小部分社区。人们可能会期望，通过$p$的中间值，我们可以最大限度地增加社区的数量。我们之前推导的公式是$p$的凹二次函数，通过将一阶导数设置为零（或完成平方），我们可以使其相对于$p$最大化。我们获得：

$\显示样式
\underset{p}{\mathrm{max}}\，\，\mathbb{E}（\text{#ofcommunities}）=\frac{N^2}{4（N-1）}，
\qquad p_{\text{max}}=\frac{N-2}{2（N-1）}
$

随着$N$变得非常大，限制行为看起来像：

$\显示样式
\underset{p}{\mathrm{max}}\，\，\mathbb{E}（\text{#ofcommunities}）\approx\frac{N}{4}，
\qquad p_｛\text｛max｝｝\近似值\frac｛1｝｛2｝
$

因此，对于一个非常大的群岛来说，使群落数量最大化的火山爆发概率是$\tfrac{1}{2}$，预计群落数量将与我们最初拥有的岛屿数量线性增长。

分布而不是期望如何？

计算出预期的社区数量后，我们自然会问分布社区。换句话说，获得不同规模社区的概率是多少？事实证明，这个问题没有任何意义，除非我们知道这些岛屿是如何连接的。例如，考虑四个岛屿的简单情况，以及连接它们的两种可能方式：

在右边的图中，如果删除顶点$A$，我们将剩下$3$个社区。但在左边的图中，无论我们删除哪种顶点组合，都不可能获得$3$社区。这个简单的示例表明，社区的分布必须取决于顶点连接的特定方式。然而，令人惊讶的是，无论图是如何连接的，预期的社区数量都是相同的。

收卡完成

这个谜题这是一个经典的概率问题：一个人要等多久才能拿到整套卡片？

我儿子最近开始收集Riddler League足球卡片，并告诉我他计划收集每张卡片。这让我很自然地想知道，为了实现他的目标，他需要花多少零用钱。他最喜欢的一套卡片是Riddler Silver；由100张卡片组成的一套，编号为1到100。这些卡只以包含10张随机卡的包装出售，没有重复卡，每个卡号都有同等的机会成为一个包装。

每包可以花1美元购买。如果他的零用钱是每周10美元，我们预计他需要多长时间才能拿到整套？

如果他决定收集更大的Riddler Gold牌组，其中有300张不同的牌，会怎么样？

这是我的解决方案：
[显示解决方案]

这个问题是对经典问题的扭曲优惠券收集器问题在这个问题中，一个篮子里有$n$不同的优惠券。只要一美元，我们就可以从篮子里随机挑选一张优惠券。然后，我们将优惠券退回购物篮。我们一直这样做，直到我们看到每个$n$不同的优惠券至少一次。我们平均要花多少美元？

更简单的版本：一包一个

让我们从解决标准优惠券收集器问题开始。首先，我们需要以下事实：如果一枚硬币出现正面的概率为$p$，那么在获得第一个正面之前，我们必须将其平均翻转$1/p$次。为了了解原因，让$x$是预期的翻转次数。如果第一次翻转是正面（概率$p$），那么我们已经执行了1次翻转，然后我们停止。如果第一次翻转是Tails（概率为$1-p$），那么我们已经执行了1次翻转，但平均需要执行$x$以上。从数学上讲，这相当于：
\[
x=p\cdot 1+（1-p）\cdot（1+x）
\]求解$x$得到$x=1/p$。您也可以使用递归来解决这个问题，就像我对怪物宝石拼图.

我们可以通过询问在选择下一张之前需要多少次抽奖来考虑优惠券收集问题新的优惠券。我们的第一张优惠券总是新的（概率为1），将接受1次抽奖。选择下一张新优惠券的概率是$\tfrac{n-1}{n}$，因为剩下的$n-1$优惠券都可以，这将需要平均$\tfrac{n}{n-1{$的抽奖。接下来，我们的概率是$\tfrac{n-2}{n}$，它取$\tfrac{n}{n-2{$的平均抽奖次数，依此类推。因此，为了选择所有$n$优惠券，预期抽奖次数$C_n$为：
\开始{align}
C_n（_n）
&=\压裂{n}{n}+\压裂{n}{n-1}+\裂缝{n}{n-2}+\cdots+\压裂}n}{1}\\
&=n\left（1+\frac{1}{2}+\cdots+\frac{1}}{n}\right）\\
&\大约n（log n+gamma）
\结束{align}位置$\gamma\approx 0.5772$是Euler-Mascheroni常数近似值精确到$n\to\infty$。这是一个谐波和它已经在过去的几个问题中浮出水面(熊,骆驼,矮人).

完整版：多包

现在假设我们一次从购物篮中提取$m$优惠券，其中包含$n$不同的优惠券。这正是最初的问题（$m=10$和$n=100$）。假设我们已经收集了$k$优惠券，那么我们称$X_k$为获得所有$n$优惠票所需的预期额外抽奖次数。我们可以幸运地在抽奖时获得几张新的优惠券，也可以剔除所有的重复优惠券。一般来说，有$\binom{k}{m-i}\binom}n-k}{i}$方法可以获得$i$新优惠券（从$\binom{n}{m}$可能的总抽奖中），因为我们可以从剩余的$n-k$可能的新优惠票中选择$i$，从$k$已经存在的七张优惠券中选择$m-i$。在提取$i$新优惠券时，我们必须再提取$X_{k+i}$。因此，我们有递归：
\[
X_k=1+\sum_{i=0}^m\frac{\binom{k}{m-i}\binom}n-k}{i}}{\binom{n}{m}}X_{k+i}
\]注意到$X_k$出现在两边，我们可以简化并获得：
\[
X_k=\frac｛1｝｛\binom｛n｝{米}-\二进制{k}{m}}\左（二进制{n}{m{+sum{i=1}^m\二进制{k{m-i}\二进制{n-k}{i}X{k+i}\右）
\]现在每个$X_k$依赖于$X_{k+1}、X_{k+2}、\dots$，并且我们有终端条件$X_n=0$。所以我们可以反向计算，首先计算$X_{n-1}$，然后计算$X{n-2}$，依此类推，直到得到$X_0$，这是我们寻求的最终答案。作为补充说明，上述概率总和为$1$是以下因素的结果范德蒙德的身份，我在上的帖子中讨论过重复计数.

$X_0$似乎没有一个很好的封闭式表达式，但只要注意$n$和$m$变大时导致整数溢出的二项式，就可以直接用数字来表示。我们也可以很好地近似解决方案：$m=1$情况（每包一张卡）需要大约$n（\log（n）+\gamma）$packs可以收集所有卡片，因此人们可能会预计，如果每个pack有$m$张卡片，那么收集所有卡片的速度可能会快大约$m$倍。这是一个很好的近似值！

在下面的图中，我计算了准确的期望值，并显示了近似值$\tfrac{n}{m}（\log（n）+\gamma）$。

数值解

最初的问题陈述询问了每包$m=10$cards的情况，其中$n=100$或$n=300$总共有不同的卡。这里是朱莉娅快速评估解决方案的代码：

#朱莉娅0.6.4#为n的大值定义二项式（使用无限精度）二项（n，m）=二项（big（n），m）函数expected_draws（n，m）X=零（n+m+1）对于k=n-1:-1:0q0=二进制数（n，m）/（二进制数（n，m）-二进制数（k，m））q=[1中i的二进制（k，m-i）*二进制（n-k，i）/（二进制（n，m）-binom（k，m））]X[k+1]=q0+总和（q.*X[k+2:k+1+m]）结束X【1】结束println（“100张卡，每包10张：包数=”，expected_draws（100,10））println（“300张卡，每包10张：抽奖次数=”，expected_draws（300,10））

上述代码的输出为：

100张卡，每包10张：包数=49.94456605666412300张卡，每包10张：抽奖次数=186.0851712198894

因此，收集100张卡组中的所有卡片平均需要大约50包（允许5周），收集300张卡组大约需要186包（允许18.6周）。如果我们使用近似值$\tfrac{n}{m}（\log（n）+\gamma）$，我们实际上非常接近精确的答案：

100/10*（对数（100）+γ）=51.8238585088962300/10*（对数（300）+γ）=188.429944186732

Hoop hop决战

这个谜题这是一个呼喊YouTube视频一个叫做“Hoop hop决战”的游戏。

以下是其规则的理想列表：

孩子们站在N个篮球圈的两端。
在比赛开始时，两端各有一个孩子开始以每秒一个篮圈的速度跳跃，直到他们在相邻的篮圈或同一个篮筐中相遇。
在这一点上，他们以每秒一局的速度玩石头剪刀，直到其中一个孩子获胜。
失败者回到了他们的终点，一个新的孩子立即站到了终点，而胜利者和新的球员跳到了一起，直到他们撞到了一起。
这个过程一直持续到有人到达相反的终点。那个运动员的队赢了！

你刚被聘为Riddler小学的体育老师。你今天过得很糟糕，你想确保孩子们在整个课堂上都有时间。如果你放下八个篮球，比赛平均能持续多久？如果你想让比赛平均持续30分钟，你应该打多少圈？

以下是我如何解决问题的推导过程：
[显示解决方案]

注：问题中的措辞在一些细节方面有点模棱两可。例如，运动员是从外侧开始，然后在开始时跳入第一个篮筐，还是从内侧开始？比赛是在最后一圈获胜时结束，还是在一秒钟后跳出时结束？我做出了我认为合理的假设来阐述这个问题。虽然问题细节上的微小变化可能会改变最终答案，但仍应采用相同的一般解决方法。

有$N$个篮球，但有$k=1,2，\点，2N-1$种可能的方式，两个孩子可以停下来进行摇滚剪纸（RPS）比赛。这是因为这两个孩子可以在同一个篮筐或相邻的篮筐中落地。下面是$N=3$的图表，显示了所有可能的对：

下面是一个简单场景中游戏的示例：

比赛开始时，两个孩子都不在球场上。2秒钟后，我们以$k=3$的情况结束。
假设蓝色赢了。然后一秒钟后，我们得到$k=5$。
假设橙色获胜。然后一秒钟后，我们得到$k=2$。
假设橙色获胜。然后一秒钟后，我们得到了$k=1$。
假设橙色获胜。然后游戏结束。

让我们将此过程推广到任意数量的环。如果我们当前处于$k$状态，我们将调用$f（k）$等待游戏结束的预期秒数。如果我们处于$k$状态，以下是选项：

如果orange赢得RPS，则在$\left\lfloor\frac｛k+2｝｛4｝\right\lfloor$秒后的$\left\lfloor\frac｛k｝｛2｝\right\lfloor$状态下进行下一场决战，除非$k=1$，在这种情况下游戏结束。
如果蓝色赢得RPS，下一场决战将在$\left\lfloor\frac{2N+k+1}{2}\right\rfloor$秒后的状态$\left \lfloor \frac{2N-k+2}{4}\right \rfloor$进行，除非$k=2N-1$，在这种情况下游戏结束。

请注意，我们使用的符号是$\left\lfloor x\right\rfloor$，它是楼层功能（将$x$四舍五入到最接近的整数）。我们还必须计算RPS游戏的平均持续时间。我们把这个叫做$r$。有九场同样可能的比赛，其中三分之一以平局告终（所以我们必须再次比赛）。所以游戏持续时间满足：$r=1+\frac{1}{3} 第页$. 换句话说，我们有$r=\frac{3}{2}$。综上所述，函数$f（k）$满足：
\开始{multline}
f（k）=\frac｛3｝｛2｝+\frac｛1｝｛2｝\left（\left\lfloor\frac｛k+2｝｛4｝\right\lfloor+f\biggl（\left\lfloor\frac｛k｝｛2｝\right\lfloor\biggr）\right）\\
+\frac{1}{2}\left（\left\lfloor\frac{2N-k+2}{4}\right\rfloor+f\biggl（\left \lfloor \frac{2 N+k+1}{2}\right \rfloor right）\biggr）
\结束{multline}与边界条件$f（0）=f（2N）=0$。这些实际上是变量$f（k）$中的线性方程，其中$k=0,1，\点，2N$。最终，我们想知道游戏的平均持续时间。第一场决战总是在$N$状态下进行，之前是$\left\lfloor\frac{N+1}{2}\right\rfloor$hops。因此，我们最终希望找到：
\[
T_\text{avg}=\left\lfloor\frac{N+1}{2}\right\rfloor+f（N）
\]下面是在$N=3$的情况下如何解决问题。与不同$f（k）$相关的方程式可以以矩阵-矢量形式写出：
\[
\开始{bmatrix}
1&0&0&-\tfrac{1}{2}&0\\
-\tfrac{1}{2}&1&0&-\tfrac{1}{2}&0\\
-\tfrac{1}{2}&0&1&0&-\tfrac{1}{2}\\
0&-\tfrac{1}{2}&0&1&-\tfac{1{2}\\
0&-\tfrac{1}{2}&0&0&1
\结束{bmatrix}
\开始{bmatrix}
f（1）\（2）\（3）\（4）\（5）
\结束{bmatrix}
=\开始{bmatrix}
2\\tfrac{5}{2}\\tfrac{5}{2}
\结束{bmatrix}
\]解这些方程得到$f（3）=11.5$，因此$T_text{avg}=13.5\text{sec}$。当我们添加更多的环（增加$N$）时，过程是类似的，我们可以编写代码来快速求解这些方程，以获得广泛的$N$值……但我们可以做得更好！

注意，我们实际上并不关心$f（k）$的其他值。我们只需要知道中间的一个，$f（N）=f（3）$。还要注意，除了中间的列外，矩阵的所有列总和都为零……因此，如果我们对所有列求和（相当于将所有方程求和在一起），我们可以得到：
\[
f（3）=2+\tfrac{5}{2}+\tfrac{5}{2}+\tfrac}5}{2}+2=11.5
\]这与我们通过求解整个系统得出的答案相同！事实上，这种模式对所有$N$都适用。我们的矩阵将始终具有维度$（2N-1）\次（2N-1）$，除中间的列外，所有列的总和都将为零！因此，一般来说，我们可以将$N$hoops的解决方案写成：
\开始{align}
T_\text{avg}&=\left\lfloor\frac{N+1}{2}\right\rfloor+f（N）\\
&=\left\lfloor\frac{N+1}{2}\right\rfloor+\sum_{k=1}^{2N-1}\left（\frac}3}{2{+\frac{1}{2neneneep \left\floor\frac{k+2}{4}\right \rfloor+\frac 1}{2}\left\ lfloor\ frac{2N-k+2}{4}\right\floorororoor\frac）\\
&=\frac{3}{2}（2N-1）+\left\lfloor\frac{N+1}{2{right\rfloor+\sum_{k=1}^{2N-1}\left\\
&=\frac｛3｝｛2｝（2N-1）+\sum_｛k=1｝^｛2N｝\left\lfloor\frac｛k+2｝｛4｝\left\lfloor\\
&=\frac{3}{2}（2N-1）+\sum_{m=1}^{N}\left（\left\lfloor\frac{2m+1}{4}\right\rfloor+\left\floor\frac{2m+2}{4{right\floor\right）\\
&=\压裂{3}{2}（2N-1）+\sum_{m=1}^{N}m\\
&=\压裂{3}{2}（2N-1）+\压裂{1}{2} N个（N+1）\\
&=\压裂｛1｝｛2｝（N^2+7N-3）
\结束{align}最后第三步中的简化是让$m=2q+r$，其中$r位于\{0,1\}$中。然后我们可以写：
\开始{align}
\左\lfloor\frac{2m+1}{4}\right\rfloor+left\lfloor \frac{2m+2}{4{right\floor
&=\left\lfloor\frac{4q+2r+1}{4}\right\rfloor+\left\floor\frac{4q+2r+2}{4{right\floor\\
&=2q+\left\lfloor\frac{2r+1}{4}\right\rfloor+\left \lfloor \frac{2r+2}{4{right\floor\\
&=2q+r\\
&=米
\结束{对齐}

如果您只想看到解决方案：
[显示解决方案]

地毯质量控制

这个谜题是关于地毯制造。如果随机制造地毯，我们避免缺陷的可能性有多大？

Riddler Rugs™制造商通过将1英寸见方的布料缝制在一起，生产出一种随机图案地毯。最后的地毯是100英寸乘100英寸，1英寸的地毯有三种颜色：深绿色、银色和白色。机器为每一块地毯随机选择1英寸的布料颜色。因为制造商希望地毯看起来随意，所以它拒绝任何有4×4块颜色相同的方块的地毯。（就这一点而言，它的客户对大数定律或大地毯没有很强的认识。）

我们预计Riddler rugs™会拒绝多少比例的地毯？如果它想生产一百万块地毯而不拒绝其中任何一块，它应该在地毯中使用多少种颜色？

这是我的解决方案：
[显示解决方案]

由于每种可能的地毯出现的可能性都是一样的，因此地毯被拒收的概率等于有缺陷地毯的总数除以地毯的总数。让我们假设地毯是$n\times n$，有$d$不同的颜色选择，我们希望避免$m\times m$相同的色标。地毯上有$N=（N-m+1）^2$个不同的$m\乘以m$块。为了更容易记账，让我们使用单个索引$1\le-i\le-N$对这些进行编号。让我们定义以下事件：
\[
X_{i}=\左\{
\开始{array}{l}\text{the}i^\text{th}\text}m\timesm\text{patch}\\text{都是相同的颜色}\end{arrays}\right。
\]这些事件的组合$X=\bigcup_{i=1}^NX_{i}$描述了地毯上至少有一个相同颜色的补丁，因此地毯必须被拒绝的情况。我们试图计算概率$\mathbb｛P｝（X）$。

这个包容性原则允许我们用$X_i$表示$X$，这将非常有用，因为问题中存在固有的对称性。具体来说，每个$X_i$的发生概率相同！如果我们定义概率：
\开始{align}
S_1&=\sum_{1\le-i\le-N}\mathbb{P}（X_i）\\
S_2&=\sum_｛1\le i\lt j\le N｝\mathbb｛P｝（X_i\cap X_j）\\
&\、\、\、\vdots\\
S_k&=\sum_{1\lei_1\lt\cdots\lti_k\len}\mathbb{P}（X_{i_1}\cap\cdots\cap X_{i_k}）
\结束{对齐}然后包容性排除原则规定：
\[
\mathbb{P}（X）=\sum_{k=1}^N（-1）^{k-1}（_k）
\]我们提到单个概率$\mathbb{P}（X_i）$很容易计算。事实上，每种颜色出现的概率为$1/d$，每个贴片中有$m^2$个细胞。因此，所有单元格具有特定颜色的概率为$1/d^{m^2}$。将$d$乘以$d$以说明$d$可能的颜色，我们得到：
\[
\mathbb{P}（X_i）=\frac{1}{d^{m^2-1}}\qquad\text{forall}i
\]因此，$S_1=N/d^{m^2-1}$。设置$n=100，\，m=4，\，d=3$，我们发现：
\[
S_1=0.065573\%
\]要计算$S_2$，我们必须计算两个事件相交的概率，即两个补丁同时为单色的概率。有两种可能性：
\[
\mathbb{P}（X_i\cap X_j）=\begin{cases}
\frac{1}{d^{2（m^2-1）}}&\开始{array}{l}\text{如果补丁没有重叠}\结束{arrai}\\
\压裂{1}{d^{c-1}}&\开始{数组}{l}
\文本{如果补丁重叠}\\
\文本{一起覆盖}c\text{单元格总数}
\结束{数组}
\结束{cases}
\]这是因为当补丁不重叠时，事件是独立的，所以两个补丁都是单色的概率是每个补丁都是单色概率的乘积。然而，当面片重叠时，如果它们都是相同的颜色！这里，概率取决于补丁重叠的程度。我写了一个简单的脚本，循环遍历所有成对的补丁，计算上述概率，并对其进行汇总。结果是：
\[
S_2=0.0017071\%
\]我们可以继续以这种方式计算$S_3、S_4、\dots$，但这是一个无望的尝试，因为我们必须考虑$k$补丁同时是单色的可能性……这将很快变得混乱。相反，我们将使用inclusion-exclusion原则的另一部分，称为Bonferroni不等式这说明，在计算$\mathbb{P}（X）$的过程中，当我们添加和减去$S_k$项时，它们会交替提供上限和下限！。这意味着我们可以使用$S_1$和$S_2$计算近似值：
\[
S_1-S_2\le\mathbb{P}（X）\le S_1
\]将我们上面计算的数字代入，我们得到：

$\显示样式
0.063866\%\lt\mathbb{P}（地毯被拒绝}）\lt 0.065573\%
$

可以合理地预期，随着$k$的增加，$s_k$将继续减少。如果我们假设$S_k$将以几何形式减少，那么$S_3大约为0.000044\%$，这将把我们的界限收紧到$0.06387\lt\mathbb{P}（X）\lessaprox0.06391\%$。因此，如果我必须猜测一个数字，那么被拒绝的概率大约为0.0639\%$。

对于问题的第二部分，我们被问及我们应该使用多少种颜色，以确保我们能够生产100万块地毯，并且没有任何拒绝。每一块地毯都是独立生产的，因此如果我们将一块地毯被拒收的概率称为$p$，那么在制造了一百万块地毯后，没有地毯被拒收概率为：
\[
\mathbb{P}（\text{no rejections}）=（1-P）^{1000000}
\]由于我们不知道$p$的确切值，我们可以再次计算上下限。由于我们需要保守估计要使用多少种颜色，因此有必要低估没有被拒绝的可能性。这相当于使用我们的上限$p$。这是一个图，显示了整批产品中没有被拒绝的概率，作为$d$的函数，即使用的颜色数量。

记住这些是下限没有地毯被拒绝的可能性。真正的可能性会更高。基于这个事实，如果我们选择$6$的颜色，我们可能是安全的。

这是表格形式的概率，我还使用前面讨论的Bonferroni不等式包括了相应的上限。

颜色	概率下限	概率上限
$3$	$0$	3.9美元乘以10^{-8}$
$4$	$0.01564\%$	93.320\%美元$
$5$	$73.4684\%$	$99.901\%$
$6$	$98.0188\%$	$99.996\%$
7美元$	$99.802\%$	$100\%$
$8$	$99.973\%$	$100\%$
9美元$	$99.9954\%$	$100\%$
$10$	$99.9991\%$	$100\%$

当我们添加第四种颜色时，上界会有很大的跳跃，如前所述，这个上界可能是两种颜色中较紧的一种。因此，尽管我们之前曾讨论过6种颜色，但这可能过于保守，我们可以使用5种颜色。

彩球拼图

这个谜题关于一个有趣的游戏，包括从盒子里挑选彩球。比赛会持续多久？

你用四个球玩游戏：一个球是红色的，一个是蓝色的，另一个是绿色的，还有一个是黄色的。它们被放在一个盒子里。你从盒子里随机抽出一个球，注意它的颜色。在不替换第一个球的情况下，绘制第二个球，然后将其绘制为与第一个球相匹配的颜色。更换两个球，然后重复此过程。当所有四个球都变成相同的颜色时，比赛结束。完成游戏的预期圈数是多少？

额外学分：如果有更多的球和更多的颜色怎么办？

这是我对第一部分（四个球）的解决方案：
[显示解决方案]

在我开始之前，我想确认一下赫克托·佩福和Sawyer Tabony公司他还发布了这个Riddler难题的优秀解决方案。我们都得出了相同的答案（嗖！），但我们的方法略有不同。

思考这个问题的一种自然方式是，游戏可以存在一些状态（盒子中球的特定颜色）。在每一步中，最多有一个球被重新着色，然后我们转换到另一个状态。这种状态和跃迁概率的集合称为马尔可夫链.由于我们只关心所有球的颜色保持一致需要多长时间，所以没有必要跟踪每个可能的状态；我们可以聚合状态并简化问题。

分区方法

聚集状态的一种方法是计算每个不同颜色的球的数量，而不考虑颜色本身。例如，4个球可以用5种不同的方式分割：
\[
1+1+1+1
2+1+1，\qquad
2+2，\qquad
3+1，厄瓜多尔
4
\]例如，分区“2+1+1”由两个相同颜色的球和另外两个其他颜色的球组成。“红+红+绿+蓝”和“蓝+蓝+黄+红”都属于“2+1+1”类。通过使用这五个分区作为马尔可夫链中的状态，我们可以计算从一个状态到下一个状态的转移概率。例如，从“2+1+1”转换到“3+1”的概率是$\frac{1}{3}$，因为为了发生这种转换，我们必须首先从两个颜色相同的球中选择一个（概率$\frac{2}{4}$），然后我们必须从其余三个球中选择另两个球中的一个（几率$\frac:{2}}{3{$）。

以下是填写所有转移概率后的完整马尔可夫链：

如果我们按顺序标记状态，我们可以将转移概率写为描述状态如何演变的矩阵。
\[
A=\开始{bmatrix}
0 & 0 & 0 & 0 & 0 \\
1&\压裂{1}{2}&0&0\\
0&\frac{1}{6}&\frac{1}{3}&\frac{1{4}&0\\
0&\压裂{1}{3}&\压裂{2}{3{&\压裂}1}{2}&0\\
0&0&0\\frac{1}{4}&0
\结束{bmatrix}
\]例如，如果$x$是我们当前的分发，那么$Ax$是一次移动后的分发。请注意，这些列的总和为$1$，因为在每个状态下，我们都必须转换到其他状态。唯一的例外是最后一列，因为一旦我们到达最终状态，游戏就会停止。

要计算游戏在$k$回合后结束的概率，我们应该找到游戏在$k$回合后处于最终状态的概率。因为我们从状态$1$开始，所以所需的数量是$\left[A^k\right]_{51}$。换句话说，$A^k$的$（5,1）$组件。我们可以直接计算每个$k$的值，并获得以下分布：

请注意，1或2圈的概率为零，因为游戏不能这么快结束。将所有球涂成相同的颜色至少需要三圈（因为总共有四个球）。我们还可以通过求和来计算预期的圈数：
\[
A+2A^2+3A^3+\点
=A（I-A）^{-2}
\]然后提取$（5,1）$分量。在这种情况下，结果是9。当我们将分布与上图中的平均值进行比较时，我们注意到分布有一个重尾；虽然平均值是9，但最可能的圈数实际上是5。

以下是我对$N$球的一般情况的解决方案：
[显示解决方案]

虽然可以将上一部分中使用的分区扩展到任何其他数量的球，但实际上这是一个挑战。第一个障碍之一是分区数量作为$N$的函数是一个难以处理的数量。它被称为配分函数并被数学家研究，因为它与素数有着深刻的联系。最近的电影中甚至提到了分区函数拉马努詹,“知道无限的人”。所以我们不会采取这种方法。

计数蓝色

我们仍然可以使用马尔可夫链，但我们必须想出一种不同的方式来聚集状态。一种可能性是定义状态$k=1,2，\点，N$，这些状态对应于方框中的蓝球数量。如果Blue最终获胜，我们将从状态1开始，最终到达状态N，而永远不会到达状态0。诀窍是要认识到，无论哪种颜色获胜，获胜的颜色都有这样的马尔可夫链。所有颜色都无法区分，所以我们不妨考虑蓝色获胜的情况。

下一步是计算转移概率。在这里，我们必须小心，因为我们的条件是蓝队获胜。所以我们使用贝叶斯法则计算转换。假设有$k$蓝球和$1\le k\le N-1$，我们将$k\转换为k+1$的概率为：
\[
A_{k+1，k}=\frac{\mathbb{P}（k\tok+1\text{，蓝赢}）}{\mathbb{P{（\text{Blue wins}）{
=\压裂{\压裂{k}{N}\cdot\frac{N-k}{N-1}\cdot \压裂{k+1}{N}}{\压裂}{k}{N}}=\压裂}（k+1）（N-k）}{N（N-1）}
\]类似地，我们将$k转换为k-1$的概率是：
\[
A_{k-1，k}=\frac{\mathbb{P}（k\to-k-1\text{，蓝赢}）}{\mathbb{P{（\text{Blue wins}）{
=\frac{\压裂{N-k}{N}\cdot\压裂{k}{N-1}\cdot \压裂{k-1}{N{}{压裂{k{{N}}=\压裂{（k-1）（N-k）}{N（N-1）}
\]唯一的另一种可能性是，我们根本不过渡，这就是剩下的时间里会发生的事情。所以$A{k，k}=1-A{k+1，k}-A{k-1，k}$。简化表达式，我们得到：
\[
A_{k+1，k}=\压裂{（k+1）（N-k）}{N（N-1）}，\四元
A_{k-1，k}=\压裂{（k-1）（N-k）}{N（N-1）}，\四元
A_{k，k}=1-\压裂{2k（N-k）}{N（N-1）}
\]如前所述，$k^\text{th}$列的总和为1。和以前一样，唯一的例外是最后一列$A_{：，N}$，它为零，因为一旦所有颜色都相同，游戏就结束了。这里的方法与我们使用分区时的方法相同。我们可以通过计算$\left[A^k\right]{N，1}$来计算$k$圈结束的概率，预期的圈数由$\left[A（I-A）^{-2}\right]{N，1}$给出。以下是$N=5$和$N=8$的分布。

正如我们所看到的，当我们增加$N$时，分布看起来很相似。奇怪的是，平均值似乎总是$（N-1）^2$。在下一节中，我们将说明这确实是一般情况！

分析表达式

明确写出转换矩阵，我们得到：
\[
A=\开始{bmatrix}
1-\压裂{2（N-1）}{N（N-1\\
\裂缝{2（N-1）}{N（N-1\\
&\压裂{3（N-2）}{N（N-1）}&1-\压裂{6（N-3）}{N（N-l）}&\ddots&&0\\
&&&frac｛4（N-3）｝｛N（N-1）｝&&ddots&&frac｛（N-2）1｝｛N（N-1）｝&0\\
&&&\ddots&1-\frac{2（N-1）1}{N（N-1）}&0\\
&&&&\压裂{N\cdot 1}{N（N-1）}&0
\结束{bmatrix}
\]如果我们将$a_k$定义为游戏结束前的预期圈数，假设我们当前处于$k$状态，我们可以编写递归：
\开始{align}
a_k&=1+a_{k+1，k}a_{k+1}+a_}k，k}a_k+a{k-1，k}a a_{k-1}\ quad\text{表示}k=1，\点，N-1\\
a_N&=0
\结束{align}重新排列这个表达式看起来大致像$A^Ta+1=A$（除了最后一行）。把它写成一个单一的紧致方程，我们可以把一些因素考虑进去，得到一个更简单的方程：
\开始{multline}
\裂缝{1}{N（N-1）}
\开始{矩阵}N-1&&&\\&\ddots&&\\&&2&\\&&&1\end{bmatrix}
\开始{bmatrix}2&-1&&\\-1&2&\ddots&\\&\ddot&\ddotes&-1\\&&-1&2\end{bmatrix}\\
\时间\开始{bmatrix}1&&\\&2&&\\&&\ddots&\\&&N-1\end{bmatrix}
\开始{bmatrix}a1\\a_2\\vdots\\a_{N-1}\end{bmatrix}
=
\开始{bmatrix}1\\1\\\vdots\\1\end{bmatrix}
\结束{multline}或，简化：
\[
\开始{bmatrix}2&-1&&\\-1&2&\ddots&\\&\ddot&\ddotes&-1\\&&-1&2\end{bmatrix}
\开始{bmatrix}a1\\2a_2\\vdots\\（N-1）a_｛N-1｝\end｛bmatrix｝
=
N（N-1）\开始{bmatrix}\压裂{1}{N-1}\\frac{1}}{N-2}\\vdots\\1\end{bmatricx}
\]通过执行LU分解，我们可以依次求解以下方程组：
\开始{align}
\开始{bmatrix}1&&&&\\frac{1}{2}&&\\&-\frac{2}{3}&1&\\&\\ddots&\ddots&\\&&-\frac{N-2}{N-1}&1\end{bmatricx}
\开始{bmatrix}y_1\\y_2\\vdots\\y_{N-2}\\y_{N-1}\结束{bmatricx}
&=N（N-1）\begin{bmatrix}\frac{1}{N-1}\\frac{1'{N-2}\\vdots\\\frac}1}{2}\\1\end{bmatricx}\\
\开始｛bmatrix｝2&&-1&&\\\\frac｛3｝｛2｝&&-1&&\\\\frac｛4｝｛3｝&&\ddots&&\\\ddots&&-1\\\\\\\frac｛N｝｛N-1｝\结束｛bmatrix｝
\开始{bmatrix}a_1\\2a_2\\vdots\\（N-2）a{N-2}\\（N-1）a{N-1}\结束{bmatricx}
&=\开始{矩阵}y1\\y_2\\vdots\\y_{N-2}\\y_{N-1}\end{bmatrix}
\结束{align}第一个系统很容易通过前向替换以$y$的价格解决。我们首先有$y_1=N$。然后，$y_2=\压裂{N（N-1）}{N-2}+\压裂{1}{2} y_1$，依此类推。我们发现的结果是：
\[
y_k=N（N-1）\sum_｛i=1｝^k\frac｛i｝｛（N-i）k｝
\]第二个系统可以通过反向认购以$a$的价格进行求解，从最后的等式开始，然后通过我们的方式进行反向求解。这样做，我们发现：
\[
a_k=\sum_{j=1}^{N-k}\压裂{1}{k+j}y_{k+j}
\]现在，我们可以组合这两个表达式，并获得：
\[
a_k=N（N-1）\sum_{j=1}^{N-k}\frac{1}{k+j}\sum_{i=1}^[k+j-1}\frac{i}{（N-i）（k+j-1）}
\]这有点混乱，但我们只关心$k=1$（考虑到我们只从一个蓝球开始，蓝球最终获胜的预期回合数）。只要稍作努力，这个总数就可以简化：
\开始{align}
a_1&=N（N-1）\总和{j=1}^{N-1}\压裂{1}{j（j+1）}\总和{i=1}^}{j}\压裂}{（N-i）}\\
&=N（N-1）\sum_{j=1}^{N-1}\左（\frac{1}{j}-\压裂{1}{j+1}\右）\sum_{i=1}^{j}\压裂{i}{（N-i）}
\结束{align}定义$Q_j:=\frac{1}{j+1}\sum_{i=1}^j\frac{i}{N-i}$和望远镜：
\开始{align}
a_1&=N（N-1）\sum_{j=1}^{N-1}\左（压裂{1}{N-j}+Q_{j-1}-Q_j\右侧）\\
&=N（N-1）\左（\sum_{j=1}^{N-1}\压裂{1}{N-j}-Q_{N-1}\右）\\
&=N（N-1）\左（\sum_{j=1}^{N-1}\压裂{1}{N-j}-\frac｛1｝｛N｝\sum_｛j=1｝^｛N-1｝\frac｛j｝｛N-j｝\right）\\
&=N（N-1）\sum_{j=1}^{N-1}\压裂{1}{N}\\
&=（N-1）^2
\结束{align}和这正是我们想要展示的！使用$N$个球的游戏的预期回合数为$（N-1）^2$。可以进行类似的展开来计算$k\ne1$的$A_k$，但在这种情况下，只有部分伸缩，剩下的是
\[
a_k=（N-1）^2-\frac｛N（N-1）｝｛k｝\sum_｛i=1｝^k\frac｛k-i｝｛N-i｝
\]随着$N$变大，倒数之和很好地近似于对数。如果我们表示$\alpha=k/N$为蓝色球的分数，那么直到所有球都为蓝色之前的预期圈数为：
\[
\frac{a_k}{（N-1）^2}\近似\左（\frac{1-\alpha}{\alpha{right）\log\左（\frac{1}{1-\alpha}\右）
\]以下是预期匝数分布的比例图：

猜测？

我对分布而不仅仅是预期值。如上图所示，分布收敛到某个值，但不清楚是什么。而且似乎没有一种简单的方法来计算或近似$A$的解析幂。我怀疑分布趋向于对数正态分布随着$N$变大，因为在对数刻度上绘制时，它看起来确实很正常：

如果你有任何想法，请在下面留言！

最高法院难题

这很及时谜题是关于填补最高法院的空缺…

想象一下，只有当同一政党担任总统和参议院时，美国最高法院的提名才能得到确认。从长远来看，预计有多少空缺？

您可以假设以下情况：

你从一张空的九人板凳开始。
有两个政党，每一个政党在每次选举中都有50%的机会赢得总统职位，50%的机会获得参议院席位。
参议院选举和总统选举的结果是独立的。
司法服务的时间长度均匀分布在0至40年之间。

这是我的解决方案：
[显示解决方案]

关于这个问题，首先要认识到的是，我们可以分别考虑九个最高法院中的每一个。如果$X_i$是$i^\text{th}$座位的空位（如果空位则为$1$，如果有人则为$0$），那么我们要找的数量是：
\[
\mathbb{E}\left[\sum_{i=1}^9 X_i\right]=\sum_{i=1}^9\mathbb}\left[X_i\ right]=9\，\mathbb{E}\ left[X_1\ right]
\]接下来是期望的线性因此，考虑一个人的长椅问题，并将我们的最终结果乘以9美元就足够了。

一般解决方案策略

让我们说，如果总统和参议院由同一党派担任，那么政府是“结盟”的。想象一下$X_1$（第一个座位的空缺）随时间的分布。当座位被占用时，$X_1=0$，我们必须等待一些年数，这些年数均匀分布在0到$40$年之间，然后才能再次空置。当座位空置时，$X_1=0$，可能会发生两件事：

如果政府在席位空缺时保持一致，那么可以立即填补空缺，无需等待。该席位将在平均20年的时间内保持满员状态（区间$[0.40]$上均匀分布的预期值）。
如果在席位空缺时政府不结盟，那么该席位将一直空缺到下次选举。然后，如果选举与政府结盟，席位就会被填补。否则，等待将继续。

参议院选举每两年举行一次，总统选举每四年举行一次。每两年，政府结盟的独立概率为1/2美元。当参议院与总统保持一致时，就会发生这种情况。总统是否更换并不重要，因为参议院选举的结果与总统选举的结果无关。给定重复的独立事件，每个事件的概率为$p$，我们第一次成功之前的预期事件数为$1/p$。这一事实在关于怪物宝石拼图在这种情况下，$p=1/2$，所以我们可以期待在政府结盟之前等待$2$的选举。以下是座位空置时可能出现的情况：

以1/2美元的概率，政府是一致的，等待是零。
政府不结盟的可能性为1/2美元。在这种情况下，我们必须平均每年等待1美元，直到下次选举。然后，我们必须等待平均多2美元的选举。这平均只需要等待两年，因为我们只需要等待两次选举之间的时间。如果第二次选举与政府结盟，我们可以马上填补席位！所以预期的等待时间是1+2=3$年。

结合这两个事实，我们只剩下1.5美元的净预期等待时间，在此期间，席位空缺。

平均而言，长期经验预期空缺数量为：
\[
\压裂{1.5}{20+1.5}=\压裂{3}{43}\约0.069767
\]如果我们计算所有九个席位，我们将这个数字乘以九：

$\显示样式
（\text{预期空缺}）=\frac{27}{43}\约0.628
$

因此，预计空缺数量不到一个。

如果我们近似地认为变量$X_i$是相互独立的，那么空缺的预期数量是二项分布参数$n=9，p=\tfrac{3}{43}$。利用这个事实，我们可以计算长期空缺的近似分布：

我们可以看到，大约有一半的时间空缺是0美元，很少超过2美元。

注：我们在上面的解中做了一个近似。如果最高法院法官的任期届满，而同一政府仍在执政（在任何其他选举之前），那么该席位将始终立即填补，因为政府仍然保持一致。这种影响只会在法官任期内持续两年。如果我们考虑到这种特殊情况，它将略微增加一个任期的平均持续时间，从而略微降低预期的空缺率。赫克托·佩福在他的博客上有一个更详细的解决方案，他在那里解决了所有的细节。

孤独的国王

这个Riddler公司这个谜是关于一个随机消除游戏。最终会有人留下来，还是所有人都会被淘汰？

在第一轮中，每个受试者同时在果岭上随机选择另一个受试者。（当然，有些科目可能会被多个其他科目选择。）所有被选择的科目都会被淘汰。在接下来的每一轮比赛中，仍在角逐中的受试者同时选择一个随机的剩余受试者，再次被淘汰。如果一轮比赛结束时只剩下一名选手，他或她就会获胜，直接前往城堡进行比赛。然而，也有可能在最后一轮中所有人都会被淘汰，在这种情况下，没有人赢，只有国王一人。如果王国有56000人口（不包括国王），那么王子或公主加冕的可能性更大，还是没有人会赢？对于一个任意大小的王国，答案是如何变化的？

这是我的解决方案：
[显示解决方案]

这种顺序淘汰游戏的关键特征是，每个可能结果的可能性仅取决于玩游戏的人数。因此，我们可以将向量$x_n$定义为某人最终赢得游戏的概率，假设$n$人当前正在玩游戏。我们有基本情况$x_0=0$和$x_1=1$，我们的目标是计算出$x{56000}$。

在每一轮比赛中，都有一些人被淘汰。这种情况一直持续到我们剩下$0$或$1$人。定义$B（m，n）$为下一轮剩余$m$人的方式数，假设我们当前有$n$人。现在我们将解释如何计算这个值。

每个人都被淘汰了：这是数量$B（0，n）$。为了做到这一点，每个人必须被准确挑选一次。发生这种情况的方式正好是$\{1，\dots，n\}$的排列数。但这有点复杂，因为人们无法消除自己。所以我们必须计算没有固定点的排列数。这些被称为错乱.错位总数满足递归：
\开始{align}
B（0,0）&=1，\四B（0,1）=0\\
B（0，n+1）&=n B（0、n）+n B（0,n-1）\quad\text{表示：}n=1,2，\dots
\结束{align}那里也是一个封闭式公式，适用于$n\ge1$，由$B（0，n）=\lfloor\tfrac{n！}{e}+\tfrac}{1}{2}\rfloor$给出。
部分消除：假设我们从$n$人下降到$m>0$的$m$人。这是数量$B（m，n）$。在这种情况下，我们必须计算猜测从${1，\dots，n\}$到它本身，这样（i）没有固定点，（ii）正好$m$的元素保持不变。我们也可以递归地计算。设$F（n，k）$是从$\{1，\dots，n\}$到$\{1，\ dots，k\}$的无固定点的满射数。让我们计算一下，如果我们从预图像中删除元素$n$，猜测的数量会如何变化。有两种情况：如果我们留下一个从$\｛1，\dots，n-1\｝$到$\｛1，\dots，k\｝$的满射，即删除的元素是一个冗余配对，那么它可能链接到图像中的任何$k$元素。换句话说，它贡献了$k F（n-1，k）$个猜测。或者，如果删除的对是一个关键链接，那么我们将留下一个从$\{1，\dots，n-1\}$到$\{1，\ dots，k\}$子集的满射，其中删除了一个元素。缺少的链接必须连接到删除的元素，这可能以$k$的方式发生（$k$可能缺少的元素），因此净贡献为$k F（n-1，k-1）$。因此，我们得到了递归：$F（n，k）=kF（n-1，k）+kF（n-1，k-1）$。由于我们想计算所有可能的猜测，我们可以通过以下公式将$F$与$B$联系起来：$B（m，n）={n\choose m}F（n，n-m）$。通过替换和简化，我们只获得了$B$的递归：
\开始{align}
B（m，n）=frac{n（n-m）}{m}B（m-1，n-1）+n B（m、n-1）
\结束{对齐}

假设$A（m，n）$是我们一次性从$n$人过渡到$m$人的概率。要将$B（m，n）$转换为$A（m，n）$，我们需要除以可能的赋值总数。每个人都可以从其他$（n-1）$人中选择一个，因此可能有$（n-1）^n$个总的选择。因此，$A（m，n）=（n-1）^{-n}B（m，n）$。代入上述公式，我们可以得到$a$的递归：
\开始{align}
A（0,0）&=1，四A（0,1）=0，四A\\
A（0，n+1）&=\tfrac{（n-1\\
A（m，n+1）&=\tfrac{（n-1）^n（n+1）}{n^{n+1}}左（\tfrac}n-m+1}{m}A（m-1，n）+A（m、n）右），四元m=1,2，点，n
\结束{align}使用这些公式，我们可以计算任何我们喜欢的转移概率。下面是$0\le m，n\le 6$的$A（m，n）$矩阵的外观：
\[
A=\小\开始{bmatrix}
1.0000& 0& 1.0000& 0.2500& 0.1111& 0.0430& 0.0170\\
0& 1.0000& 0& 0.7500& 0.5926& 0.4102& 0.2458\\
0& 0& 0& 0& 0.2963& 0.4688& 0.5069\\
0& 0& 0& 0& 0& 0.0781& 0.2150\\
0& 0& 0& 0& 0& 0& 0.0154\\
0& 0& 0& 0& 0& 0& 0\\
0& 0& 0& 0& 0& 0& 0
\结束{bmatrix}
\]例如，如果我们有4个人玩这个游戏，2个人被淘汰的概率为29.63%，3个人被淘汰概率为59.26%，每个人被淘汰的几率为11.11%。请注意，此矩阵的列的总和必须为1。我们可以把这场比赛想象成马尔可夫链其中$A$矩阵是转移矩阵。如果种群的当前分布是$z$（即$z_k$是我们有$k$种群的概率），则通过矩阵乘法$Az$找到一轮游戏后的分布。我们想知道在玩了无限多轮之后会发生什么。换句话说，我们希望找到平稳分布.

找到平稳分布的标准方法是求解特征向量方程$x^T a=x^T。另一种方法是简单地计算一些足够大的$k$的$A^k$。在此基础上，我们可以绘制极限分布作为初始总体的函数：

随着人口的增加，会出现一种令人着迷的振荡行为。即，有赢家与没有赢家的概率振荡约0.5，周期呈指数增长。当按上述对数标度绘制时，平稳分布似乎收敛于正弦曲线。我不可能一直达到56000，但出现的模式很清楚，所以我推断出我无法计算的东西。我发现（经验性地）最大的曲线是：
\[
xn约为0.503+0.0265（14.5 log{10}（n）-1.27）
\]代入$n=56000$，我们发现有人获胜的几率为47.65%，没有人获胜的几率为52.35%。

注：限制期可解释如下。一个人没有被选中的概率是$（1-\frac{1}{n}）^{n-1}$，所以期望的线性，我们预计在一轮之后还有$n（1-\frac{1}{n}）^{n-1}$人。在极限$n\to\infty$中，这等于$ne^{-1}$。由于人口在每次迭代时大致缩小了$e$的一个因子，我们可以期望概率分布在我们的图上以$\log_{10}（e）$的周期重复。这解释了为什么在我们的近似公式中正弦曲线内的数字是$\frac{2\pi}{\log_{10}（e）}大约14.5$。

除了上面的观察之外，我找不到平稳分布的完整分析表征，所以如果有人有想法，我很想听听！