为什么MSE仍处于关闭状态（只读）？

提出问题

问 2年2个月前

被改进的 2年2个月前

已查看2000次

19

当访问主站点时，我看到一条横幅，上面写着“此站点当前处于只读模式。我们很快就会返回完整功能。关注@StackStatus，访问我们的状态博客或搜索我们最近关于该主题的元帖子以获取更多信息。”，其他SE站点似乎也在运行，包括MSE meta！那么，为什么MSE仍在下滑，或者这只是我的问题？

已编辑2022年3月18日11:50

SimpliFire国防部

2.7万1枚金徽章13枚银徽章28枚青铜徽章

问2022年3月18日10:29

一帆提

17.5万10枚银质徽章21枚青铜徽章

5

$\开始组$ 报告日期meta.stackexchange.com/questions/377254/… $\端组$
– PM 2环
2022年3月18日10:38
$\开始组$ @PM2Ring谢谢；否则我不会看到那篇文章，因为我通常不会浏览Meta SE。 $\端组$
– 一帆提
2022年3月18日10:41
三

$\开始组$ 相关：计划于3月18日星期五00:30-2:00 UTC（美国东部夏令时3月17日星期四8:30-10:00 PM）进行维护奇怪的是，TheSimpliFire进行了编辑。。。？请参阅此屏幕截图中的顶部帖子首页 $\端组$
– 卡尔文·科尔
2022年3月18日11:03
2

$\开始组$ >我们正在调查这个问题，我也不确定为什么只有一个网站可以保持只读Aaron Bertrand员工meta.stackexchange.com/questions/376901/… $\端组$
– PM 2环
2022年3月18日11:34
三

$\开始组$ meta.stackexchange.com/questions/376901/…>这是固定的，当我们确定它是如何发生的时，我们将在数学元问题上发布答案。 $\端组$
– PM 2环
2022年3月18日11:55
三

$\开始组$ 在此处发布答案并在那边. $\端组$
– 亚伦·贝特朗工作人员
2022年3月18日20:31

添加评论 |

1答案1

排序依据：

21

怎么搞的？

在我们的计划维护窗口3月17日至18日，科罗拉多州数据中心的一系列事件使Mathematics Stack Exchange在维护完成后几个小时处于只读模式。

TL；博士

网站已恢复。维护窗口于3月18日01:28 UTC正式关闭，此时所有其他站点都已完全运行，但Mathematics仍处于只读模式，直到大约11:46 UTC手动更正。

是什么导致了这个问题？

许多因素导致了这个问题本身以及我们未能认识到它

作为手动故障切换过程的一部分，由于我们已经经历了几个月的性能问题但尚未解决。
这涉及到将网站流量转移到我们在科罗拉多州的网络服务器，在那里他们可以从那里的中学读取数据，而不会受到纽约运营的任何影响。
基本上，应用程序不应尝试写入只读辅助文件；如果连续的尝试失败，出于安全考虑，源站点会自动切换到只读模式，因为这清楚地表明出现了问题。
在这种情况下，数学网站确实尝试在终端用户的一系列非常特定（非恶意）的事件之后写入只读的二级数据库。
因为这是在所有其他站点都处于只读模式时发生的，所以有关此站点的任何通知都会被静音以进行维护，因为我们有意将整个网络设置为只读，并且进行的维护也会导致严重的警报噪音。

什么影响了持续时间？

在我们的维护窗口结束时，我们抽查了一些东西，包括一些特定的网站（当然不是全部）。我们不会在浏览器中手动打开每个网站来确保横幅消失，也不会测试我们是否可以成功发布评论或对帖子进行投票。

在这种情况下，我们在01:30 UTC检查的所有地方看起来都很好，包括我们的开源监控工具，操作服务器-这为我们的数据库状态提供了一个极好的脉冲。如果一个特定站点的主数据库无法写入，我们肯定会在那里看到它。但网站本身并没有显示其在那里的状态——这显示在其他地方的内部仪表板上。所以我们上床睡觉了。

我们如何改进？

我们可以改进此场景的内部通知和解决时间：

我们可以手动检测站点何时自动切换为只读，以响应上述场景{完成}
我们可以在监视器上实现自动化并发出警报
我们可以进一步改进应用程序在维护期间尝试写入数据库的方式
我们可以将以下内容添加到维护窗口Runbook中：
- 除了OpServer和其他检查外，还检查内部仪表板{完成}
- 增加我们抽查的站点数量
- 等待一个小时并检查meta（尽管也有许多单独的meta站点需要检查）

已编辑2022年3月18日21:12

回答2022年3月18日20:12

亚伦·贝特朗工作人员

1011枚金徽章2枚银质徽章6枚青铜徽章

2

$\开始组$ 这不是吗非常能够自动检查所有站点及其meta是否都是只读的？ $\端组$
– 阿萨夫·卡拉吉拉国防部
2022年3月19日9:32
5

$\开始组$ @Asaf我对手动打开每个站点的浏览器窗口有点开玩笑。我们打开一对来检查是否正常，但这里不需要自动化——我们已经有一个内部仪表板，显示所有站点的只读状态，并将只读状态推到顶部。我们只需要记住检查它，前几天晚上我们没有这样做，因为有两种不同的设置控制只读-全局和每个站点。遗憾的是，我们没有预测到一个单独的网站会在全球网站生效的时候偏离其设置。 $\端组$
– 亚伦·贝特朗工作人员
2022年3月19日11:07
$\开始组$ 我明白了。好吧，这更有道理。不过，如果它检测到任何一个站点处于只读模式，应该会有一个大的红色闪烁。 $\端组$
– 阿萨夫·卡拉吉拉国防部
2022年3月19日11:15
2

$\开始组$ @它已经是一个红色的闪光灯，但我们必须朝它的方向看。我们是人，但我们不是。但我们下次肯定会的。 $\端组$
– 亚伦·贝特朗工作人员
2022年3月19日11:21
1

$\开始组$ 好吧，这个过程似乎缺乏自动化，更多地依赖于人与人之间的互动。我有点惊讶，但很高兴听到答案中缺少解释。：-） $\端组$
– 阿萨夫·卡拉吉拉国防部
2022年3月19日11:25
1

$\开始组$ @在这里，我认为我们对所发生的事情以及我们如何从中吸取教训非常透明。 $\端组$
– 亚伦·贝特朗工作人员
2022年3月19日11:37
1

$\开始组$ 好吧，你是。：-） $\端组$
– 阿萨夫·卡拉吉拉国防部
2022年3月19日11:38

添加评论 |

你必须登录回答这个问题。

不是你想要的答案吗？浏览标记的其他问题
讨论
支持
缺陷
状态-已完成
.