“统计”类别的存档。

青蛙拼图

我偶然发现了一个TED-Ed视频与青蛙拼图:

你被困在雨林里,吃了一个有毒的蘑菇。为了挽救你的生命,你需要一种特定种类青蛙分泌的解毒剂。不幸的是,只有雌性才会产生解毒剂。雄蛙和雌蛙数量相等,看起来一模一样。除了雄性有独特的叫声外,没有办法区分它们。在你的左边,你看到树桩上有一只青蛙。你听到对面空地上传来嘎嘎声,你看到两只青蛙。你不知道是谁发出的声音。你感到自己开始失去意识,你意识到你只有时间朝一个方向跑。你应该走哪条路:去空地舔两只青蛙,还是去树桩舔树桩上的青蛙?

我的第一个想法是雄蛙会发出尖叫来吸引雌蛙。这意味着空地上的第二只青蛙可能是已经被吸引的雌性。事实上,树桩蛙不动意味着它是雄性。我错了。这个谜题不需要任何生物学知识。这个谜题假设每只青蛙的性别独立于其他青蛙。因此,这个谜题类似于我写了很多关于两个孩子的谜题。我不仅写了这篇博客,还写了一篇论文:马丁·加德纳的错误.

就像在两个孩子的拼图中一样,解决方法取决于青蛙为什么会呱呱叫。这里很容易做出一个合理的模型。假设雄性青蛙发出概率为p的咯咯声,那么这个谜题就可以解决了。

在呱呱叫之前考虑一下树桩蛙:

  • 这是一个概率为1/2的女性。
  • 这是一只会呱呱叫的雄性,概率为p/2。
  • 它是一只沉默的雄性,概率为(1-p)/2。

在呱呱叫之前,考虑一下空地上的两只青蛙:

  • 两人都是女性,概率为1/4。
  • 一个是雌性,另一个是会呱呱叫的雄性,概率为p/2。
  • 一个是女性,另一个是沉默的男性,概率为(1-p)/2。
  • 两人都是沉默的男性,概率(1-p)2/4。
  • 这两个都是可能是p的鸣叫雄性2/4.
  • 一个是沉默的雄性,另一个是会呱呱叫的雄性,概率为p(1-p)/2。

与我们的结果相对应的概率——树桩上不叫的青蛙和空地上一只叫的青蛙——用粗体表示。考虑到树桩蛙是沉默的,它是雌性的概率是1/(2-p)。类似地,考虑到一只清澈的青蛙发出嘶叫,其中一只是雌性的概率是1/(2-p)。概率是一样的:你去哪里买解毒剂并不重要。

TED-Ed的拼图也犯了两个孩子拼图中常见的错误。我不想重复他们错误的解决方案。TED-Ed的青蛙拼图是错误的。

(2021年11月13日,对倒数第二段中的计算进行了更正。)

共享:脸谱网推特红色编辑品脱师链接(linkedin)邮件

两个孩子的问题

我已经写了令人作呕的关于儿童问题的模糊性。通常两个孩子的问题公式如下:

史密斯先生有两个孩子,其中至少有一个是男孩。他有两个男孩的概率是多少?

我不想重复我的论点,解释为什么这个问题是模棱两可的。今天我想讨论关于这些问题的其他有问题的假设。

假设1:孩子成为男孩的概率是1/2。我们知道情况并非如此。通常男孩出生的频率高于女孩。除此之外,当政策干预时,数字可能会发生变化。当中国实行独生子女政策时,每100个女孩出生118个男孩。这使得男孩的概率为0.54。

假设2:一个家庭中一个孩子的性别独立于其他孩子的性别。我不确定这种假设来自何处,但我很容易就列出了对这种情况可能产生的影响。

  • 一个家庭可以有同卵双胞胎。
  • 收养孩子的家庭可以选择孩子的性别。
  • 有研究表明(尤其是男人)他们的孩子可能有一种性别高于另一种性别的遗传倾向。
  • 在许多国家,性别选择性堕胎是可能的。
  • 体外受精和人工授精可以使用性别选择技术。
  • 人们可能会因为性别而排斥新生儿。
  • 生第二个孩子的决定取决于第一个孩子的性别。

我想讨论一下最后一个要点是如何改变两个孩子问题中的概率的。让我们考虑一下中国。到目前为止,中国实行独生子女政策,但有一些例外。在某些情况下,如果第一个孩子是女孩,家庭可以生第二个孩子。为了便于讨论,想象一个县,如果第一个孩子是女孩,那么人们就可以生第二个孩子。这个县不可能有一个有两个男孩的家庭。因此,有两个男孩的概率为零。

我试图找到多子女家庭中儿童按性别分布的数据。我找不到任何东西。我很想知道现实生活中发生了什么,尤其是在中国。

共享:脸谱网推特红色编辑品脱师链接(linkedin)邮件

如何“预测”未来孩子的性别

很久以前,在任何人听说超声波之前,有一位通灵师可以预测未来孩子的性别。没有人对他提出过投诉。

这位通灵者有一本日记,他在日记中写下了客户的名字和未来孩子的性别。这个骗局的妙处在于,他在杂志上写的内容与他预测的相反。每当客户投诉性别错误时,他都会出示日记,并辩称客户误解了。

快乐的客户不会回来抱怨。

哦,条件概率的力量!了解它对运行骗局或揭露骗局很有用。

共享:脸谱网推特红色编辑品脱师链接(linkedin)邮件

谁想成为一个糟糕的数学家?

第1轮,共谁想成为数学家有以下数学问题:

鲍勃和简有三个孩子。假设有一个孩子是他们的女儿玛丽,鲍勃和简至少有两个女儿的概率是多少?

在所有这些问题中,我们通常会做出一些简化的假设。在这种情况下,我们假设性别是二元的,孩子成为男孩的概率是1/2,并且不存在同卵双胞胎。

除此之外,每个概率问题都需要指定计算概率的事件分布。这个问题没有具体说明。这是一个错误,也是困惑的根源。在大多数这样的问题中,假设某些东西是随机选择的。在这个问题类型有两种可能性:一个家庭是随机选择的,或者一个孩子是随机选择的。和往常一样,不同的选择会产生不同的答案。

尽管这是美国数学协会举办的一场竞赛,但上面的谜题并没有明确定义!

以下是两个定义明确的版本,对应于随机化中的两个选择:

鲍勃和简是从有三个孩子和至少一个女儿的夫妇中随机挑选出来的一对。鲍勃和简至少有两个女儿的概率是多少?

玛丽是从有三个孩子的家庭中随机挑选出来的女孩。玛丽家至少有两个女儿的概率是多少?

现在,如果你不介意的话,我要投入我自己的两分钱,也就是说,我自己的两只拼图。

哈佛大学的研究人员研究了同卵双胞胎对其他兄弟姐妹的影响。在这项研究中,他们随机邀请了有三个孩子的夫妇,其中两个孩子是双胞胎。

  1. 鲍勃和简是从研究中随机挑选的一对至少有一个女儿的夫妇。鲍勃和简至少有两个女儿的概率是多少?
  2. 玛丽是从参与研究的一群孩子中随机挑选出来的女孩。玛丽家至少有两个女儿的概率是多少?
共享:脸谱网推特红色编辑品脱师链接(linkedin)邮件

窗口的优势

我已经写过关于秘书问题的侧翼变异在这个变体中,面试完应聘者后,你可以从中挑选他或任何一个w个−1名直接在他之前的候选人。在这种情况下,我们说我们有一个大小为的滑动窗口w个。策略是跳过第一个候选人,然后在最后一刻选出比任何人都好的人。我向RSI建议了这个项目,它被阿比吉斯·克里希南(Abijith Krishnan)和他的导师Shan Yuan Ho接受。他们做得很好,结果张贴在arXiv的纸张.

在论文中,他们发现了获胜概率的递推公式。这个公式很复杂,也不明确。他们没有讨论我最感兴趣的问题:滑动窗的优点是什么?与没有窗口的经典案例相比,有窗口的案例获胜概率要高多少?

让我们从一个大小为2的窗口开始n个申请人。我们比较了两个具有相同停止点的问题。当我们看到一个候选人比以前任何人都好的时候,请考虑一下停止点之后的那一刻。假设这发生在适当的位置b条然后在经典问题中,我们选择了这个候选人。窗户的优点是什么?我们什么时候能靠窗户过得更好?如果候选人在索引中,我们会更好b条并不是最好的,窗口让我们真正做到最好。这取决于最好的秘书在哪里,以及两者之间发生了什么。

如果下一位是最好的秘书b条+1,那么窗户给了我们一个优势。概率为1/n个假设最好的候选人是下一位b条+ 2. 只有当有合适的人选时,窗户才给我们带来优势b条+1比职位上的人好b条.发生这种情况的概率是多少?它小于1/2。从一个随机的人来看,下一个更好的概率是1/2。但处于适当位置的人b条不是随机的,他比随机的好,所以得到一个更好的人的概率会降低,并且不超过1/2。这意味着在这种情况下滑动窗口获胜的概率不超过1/2n个.

同样,如果最佳候选人到位b条+k个,则滑动窗口允许我们在以下情况下获胜:b条b条+k个比前一个好。候选人在每一步都表现得更好的概率不超过1/2。也就是说,找到候选人的总概率b条+k个是1/2k-1号机组因此,当最佳候选人就位时,我们获胜的机会b条+k个不超过1/2k-1号机组n个.综合所有因素,我们获得的优势至少为1/n个且不超过2/n个.

经典案例中的获胜概率非常接近1/e(电子)因此,在滑动窗口情况下,如果窗口大小为2,则获胜的概率也接近1/e(电子).

让我们对任何小尺寸的窗户也这样做w个。假设最好的秘书和候补的候选人在同一个窗口中,在他之后,也就是说,最好的候选人是下一个候选人中的一个w个−1人。这种可能性是(w个− 1)/n个在这种情况下,滑动窗总是能找到最好的人,并且比经典的情况更有优势。滑动车窗还有什么帮助?让我们把其余的申请者分成大小不同的几个部分w个− 1. 假设最好的申请人在区块编号中k个。为了让我们能够找到他,每个模块中最好的候选人必须比前一个模块中的最佳候选人更好。概率不超过1/2k-1号机组。我们获得此优胜者的概率不超过(w-1)/2k-1号机组n个总结起来,我们可以看到窗口大小的优势w个介于(w个− 1)/n个和2(w个− 1)/n个.

共享:脸谱网推特红色编辑品脱师链接(linkedin)邮件

滑动窗口的秘书问题

我喜欢《秘书问题》。我第一次听说这件事是在很久以前,当时的叙述方式不同。然后是关于公主结婚的问题:

国王宣布他唯一的女儿该结婚了。此后不久,100名追求者在城堡墙后随机排队。每位求婚者都被邀请在公主和国王面前进入王室。在这一点上,公主要么拒绝追求者并将其赶走,要么接受追求者并与他结婚。如果她不接受前99个孩子中的任何一个,她就必须嫁给最后一个。公主非常贪婪,想嫁给最富有的追求者。她一见到求婚者,就可以通过他的衣服和礼物来估计他的财富。她应该使用什么策略来最大化嫁给最富有的人的可能性?

该战略包含两个想法。第一个想法是微不足道的:如果公主看着一个追求者,而他并不比她以前看到的好,那么就没有理由嫁给他。第二个想法是在开始时跳过几个追求者,不管他们看起来多么富有。这让公主能够感受到什么样的追求者对她感兴趣。考虑到我们知道这个策略,现在有趣的部分是找到停止点:她到底要跳过多少个追求者?答案是⌊不适用⌋. (你可能会认为这个公式是近似的。令人惊讶的是,它几乎适用于所有较小的值。我检查了较小的值,发现只有11个和30个求婚者存在差异。)

这个问题被称为秘书问题,因为在其中一家公司中,雇主试图雇佣一名秘书。

在现实生活中的许多情况下,对你的选择进行抽样是个好主意。无论我是在买公寓还是在找工作,我都会记住这个问题,这提醒我不要抢第一笔交易。

从数学上讲,我试图找到比经典版本更接近现实生活的问题变体。我有一个想法:你可以一直推迟雇用秘书,直到面试了几个候选人。你不能等太久,因为你两周前面试的那个好秘书可能已经找到工作了。当然,国王有一个小小的时间窗口,他可以跑出城堡,说服求婚者回来,然后再骑马离开。

为了使问题数学化,我们应该将窗口大小固定为整数w个。当你面试k个-求婚者,你可以走了w个−1名追求者回来。换言之,你能选择的最新求婚者是在面试之后w个−增加1人。我把这个问题称为:滑动窗口的秘书问题。

很容易将标准策略外推到滑动窗口问题。没有理由选择一个不是公主迄今为止见过的最好的追求者。此外,如果她看到了最好的人,最好等到最后一刻再选择他,以防有更好的人出现。因此,战略应该是在开始时跳过几个人,然后在最后一刻挑选出最合适的人选。

之后的困难部分是实际计算概率并找到停止点。所以我向RSI 2015建议了这个项目。该项目在Shan-Yuan Ho博士的指导下分配给了Abijith Krishnan。阿比吉思是一个聪明、勤奋的学生。他不仅(在导师的帮助下)为RSI的短时间内的停止点和获胜概率写了一个公式,还解决了目标是从最好的两个候选人中选出一个候选人的问题。

如果你有兴趣了解其他RSI学生今年做了什么,摘要张贴在这里.

共享:脸谱网推特红色编辑品脱师链接(linkedin)邮件

统计笑话

* * *

你知道一个统计笑话吗?
可能吧,但这很卑鄙!

* * *

十二位不同的世界统计学家研究了俄罗斯轮盘赌。其中十个证明了它是完全安全的。不幸的是,其他两位科学家未能参加最后的讨论。

* * *

一位统计学家买了一个新工具,可以发现数据库中不同字段之间的相关性。希望有新的发现,他在自己的大型数据库上运行了新工具,发现了高度相关的事件。以下是他的发现:

  • 最相关的字段是标题和性别。如果头衔是Mr.,那么性别是男性。
  • 孩子们和父母姓一样。
  • 孩子们比父母小得多。
  • 离婚的主要原因是婚礼。

* * *

科学家发现,“活到老年”的主要原因是出生证明上的错误。

* * *

科学家得出结论,儿童并不真正使用互联网。事实证明,当被问及“你年满18岁了吗?”接近于零。

* * *

-请把窗户关上,外面很冷。
-你认为我关上它后会暖和吗?

共享:脸谱网推特红色编辑品脱师链接(linkedin)邮件

解决了令人困惑的成绩

这个故事是从我的学生要求解释他的线性代数B级开始的。他在每次考试中都略高于平均水平,成绩为A的分数是全班前50%。我写了一个邮递在这篇文章中,我请我的读者解释一下情况。这是我的解释。

下图包含典型的第一次期中线性代数考试的直方图。

第一个中期柱状图

最低范围内的峰值表示未通过考试的学生为零。

平均值为74.7,中位数为81.5。正如你所见,中位数比平均值高7个点。这意味着,如果一个学生在所有考试中的表现都在平均水平左右,那么他/她就在班上垫底。

但这并不是全部。除上述内容外,麻省理工学院还允许学生在第二次期中考试后退学。假设30名低年级学生辍学;然后,完成课程的学生第一次期中考试的重新计算中位数增至85。这与最初的平均值相差10多点。

如果这是一门统计学课,那么我本可以告诉这个困惑的学生,他应该得到B。相反,我告诉他,在那些B的学生中,他甚至没有最高的分数。不知怎的,这个事实让他感觉好多了。

共享:脸谱网推特红色编辑品脱师链接(linkedin)邮件

令人困惑的成绩

我在麻省理工学院主持线性代数课的复习课。有时我的学生对他们的成绩感到失望。成绩以最终成绩为基础,根据以下公式计算:家庭作业15%,三次期中考试各15%,期末考试40%。计算完所有分数后,我们决定A、B和其他等级的截止值。上学期,第一个截止值异常低。前50%的人得了A。

一些在每次考试中都高于平均分的学生认为自己会获得A,但最终还是获得了B。三次期中考试和期末考试的平均分数都被公布了,所以每个人都知道自己相对于平均分的位置。

家庭作业的平均分数没有公开,但它们没有太大的相关性,因为每个人都接近100%。然而,假设一个人在包括家庭作业在内的所有方面都略高于平均水平,那么即使全班有一半的学生得了a,他也不应该期望得到a。造成这种情况的原因有两种不同的影响。你能猜出来吗?

共享:脸谱网推特红色编辑品脱师链接(linkedin)邮件

帽子拼图:创建分发

下面是一个适用于以下几个谜题的设置:

苏丹决定测试他的一百名巫师。明天中午,他会从他取之不尽用之不竭的补给中随机地给每个巫师戴上一顶红色或蓝色的帽子。每个巫师都能看到自己的帽子之外的每一顶帽子。向导将不被允许交换任何类型的信息。在苏丹的指示下,每个巫师都需要写下自己帽子的颜色。每个猜错的向导都会被执行。巫师们有一天时间共同决定战略。

我之前在文章中写过关于这种设置的谜题奇才队帽子。我的第一个要求是最大限度地增加能保证生存的巫师数量。很容易证明,你不能保证超过50名幸存者。事实上,每个向导都是正确的,概率为0.5。这意味着无论采用何种策略,正确猜测的向导的预期数量都是50。我的第二个要求是最大限度地提高它们全部存活的概率。同样,计数论证表明,这种概率不能超过0.5。

现在,这里有一些额外的谜题,包括上面提到的前两个,基于相同的设置。提出一个策略或证明它不存在,其中:

  1. 50名巫师将保证生存。
  2. 100名巫师的生存概率为0.5。
  3. 100名巫师生存概率为0.25,50名巫师存活概率为0.5。
  4. 75名巫师以1/2的概率生存,25名巫师则以1/2的几率生存。
  5. 75名巫师将以2/3的概率生存。
  6. 向导将根据给定的分布生存下来。对于哪些分布是可能的?

正如我提到的,我已经写了前两个问题。下面是这些问题的解决方案。如果你还没有看到我的帖子,想好好想想,现在是停止阅读的好时机。

为了保证50个巫师的生存,指定50个巫医,他们会假设红帽的总数是奇数,其余的巫师会假设红帽子的总数是偶数。红帽的总数不是偶数就是奇数,所以其中一个红帽组肯定能存活下来。

为了确保所有人以0.5的概率存活下来,他们都需要假设红帽的总数是偶数。

共享:脸谱网推特红色编辑品脱师链接(linkedin)邮件