灰熊应该吃鲑鱼吗?

这个谜题涉及随机过程和顺序决策。

在鲑鱼产卵季节,一只灰熊站在河的浅滩上。精确地说,每小时有一条鱼在它触手可及的范围内游动。熊要么抓住鱼吃了它,要么让它游过去安全。和许多灰熊一样,这只灰熊也很挑剔。它只会吃至少和以前吃过的每条鱼一样大的鱼。

每条鱼都有一定的重量,随机且均匀地分布在0到1公斤之间。(每条鱼的重量独立于其他鱼,熟练的熊只需看一眼就能知道每条鱼有多重。)熊想要最大限度地摄入鲑鱼,以公斤为单位。假设熊的捕鱼探险持续了两个小时。在什么情况下它应该吃它能吃到的第一条鱼?如果探险持续三个小时呢?

这是我的解决方案:
[显示解决方案]

关于“灰熊应该吃鲑鱼吗?”

  1. 虽然对于非小k没有闭合形式的解,但随着轮数接近无穷大,最优(总和的渐近因子为1)策略接近闭合形式:
    threshold=w+sqrt(2/3)*sqrt(1-w^3)/w/sqrt(k),其中w是允许的最小权重,k是剩余回合数,除了对非常小的w进行校正以避免发散;以下校正足够好:如果w<k^(-1/4),将阈值设置为w+k^,-1/4。

    假设初始最小权重为0,轮数为k,近似总和为sqrt(2/3*k),在时间t时,阈值约为(t/k)^(1/3)。

    1. 有人能为数学上不太成熟的人发布一个解决方案吗?Dmytro,你有没有可能接受我在Facebook上的请求,我想和你讨论一下这些问题?斯波西博

      1. 简而言之,这是我的解决方案,因为轮数k接近无穷大。

        在时间t时,最佳阈值约为(t/k)^(1/3)。

        理由:当阈值增加c倍时,阈值增加ε的时间减少了c^2倍,这是理想的,因为增加阈值ε的额外时间(如果总时间灵活)的好处(通过优化,两个阈值应该相同)与阈值/sqrt(ε_increment_time)成正比。(如果时间增加了c^2倍,我们可以减少以c倍表示的阈值增量,并增加以c倍显示的数字数量。)

        d(阈值/dt)=1/3*t^(-2/3)*k^(-1/3)
        average_threshold_increment=(阈值-last_number)/2=1/(2*增量时间)
        平均阈值增量=d(阈值)/dt*增量时间
        因此,
        1/(2*增量时间^2)=d(阈值)/dt,
        增量时间=sqrt(1/(2*d(阈值)/dt)=sqrt(3/2)*t^(1/3)*k^(1/6)
        (*)total_sum=整数(阈值/增量时间,t,0,k)=整数(sqrt(2/3)/sqrt(k),t,O,k)=sqrt。
        让当前数字为w。
        t=w^3*k
        阈值–w=1/increment_time=sqrt(2/3)*t^(-1/3)*k^(-1-6)=sqrt[2/3)/w/sqrt(k)
        设k_r为剩余回合数。
        k=k_r/(1-w^3)
        (*)阈值=w+sqrt(2/3)*sqrt;以下校正足够好:如果w<kr^(-1/4),则将阈值设置为w+kr^(-1/4)。

      2. 下面是一个实现O(sqrt(n))的简单显式策略,尽管其常数低于最佳值:

        把这顿饭分成几道菜,每道菜要吃几道鱼。(我假设sqrt(n)是一个整数;否则,可以进行一些不影响渐近性的小调整。)在第k个“课程”期间,让熊吃任何他能吃的重量小于k/sqrt(n)的鱼。因此,如果在第k个疗程中出现至少一条鱼的重量介于(k-1)/sqrt(n)和k/sqrt。该范围内的鱼类在第k个航程中出现的概率约为1-1/e,因为此类鱼类的数量大致呈泊松分布(双关注),平均值为1。因此,熊的预期消耗量约为(1-1/e)(1+2+3+…+(n-1))/sqrt(n),即O(sqrt(n))。我说“有界于下”是因为这项分析没有考虑到熊在第k个过程中吃了不止一条鱼,或者在第k个过程中吃了比(k-1)/sqrt(n)轻的鱼的可能性。这些可能性通过一些我懒得算出的常数来提高预期消耗。

        1. 哎哟,输入错误:(1-1/e)(1+2+3+…+(n-1))/sqrt(n)应该是(1-1/e)(1+2+3+?+(sqrt(n+1))/sq(n)。

          1. 很酷,谢谢!

            btw$\LaTeX$使用标准语法在注释中工作,我认为如果您想进行更正,还应该能够编辑自己的帖子。

  2. 你也可以通过注意熊能吃的最多鲑鱼是最长增加的子序列的长度来限制最佳情况的增长顺序,已知该子序列的预期值为2*sqrt(n),换句话说,如果熊知道未来所有鲑鱼的重量,那么它的最佳情况是O(sqrt),上述策略实现的目标(尽管系数不同)。

    这里有一个我建议给奥利的扩展,你可能会喜欢:假设有2只熊,alpha和beta。他们都很贪婪,想吃比以前吃过的大马哈鱼,但阿尔法-贝拉总是第一选择。哪只熊最后吃得更多?(提示:并不总是alpha!)

  3. 很容易看出这是一个贪婪案例的调和级数。鱼类N是N条鱼序列中最大重量鱼类的概率=1/N。IID均匀分布重量[0,1]的N条鱼中最大重量鱼的预期重量=N/N+1。因此,步骤N的预期摄入量=1/N*N/N+1=1/N+1。

留下回复

您的电子邮件地址将不会被发布。 已标记必填字段*