标签:www.githubstatus.com,2005:/history GitHub状态-事件历史记录 2024-04-20T00:56:20Z年4月20日 github 标签:www.githubstatus.com,2005:事件/20571321 2024-04-18T18:47:27Z 2024-04-18T18:47:27Z 代码空间事件 <p>4月18日,UTC时间18:47</p> <p><small>4月18日<var data-var='date'>18</var>,<var data-var='时间'>18:41</var>UTC</small><br><strong>更新</strong>-在美国西部2和美国西部3地区使用我们16个核心机器的代码空间客户在创建新代码空间和恢复现有代码空间时可能会遇到问题。我们建议遇到问题的客户转到美国东部地区</p> <p><small>4月<var data-var='date'>18日</p> 标签:www.githubstatus.com,2005:事件/20551752 2024-04-17T00:48:52Z 2024-04-17T00:48:52Z 副驾驶员事件 <p><small>4月17日<var data-var='date'>17日</var>,00:48</var>UTC</small><br><strong>已解决</strong>-此事件已解决</p> <p><small>4月17日</var>,00:30</var>UTC更新</strong>-我们正在继续调查Copilot的问题</p><small。我们正在继续调查</p> <p><small>4月<var data-var='date'>16日</var>,<var data-var='时间'>23:57</var>UTC</small><br><strong>更新</strong>-我们正在调查Copilot可用性的问题</p><p><small>4月<va data-war='date'>16日,<var>,>23:51</p>(第页) 标签:www.githubstatus.com,2005:事件/20537427 2024-04-15T14:53:58Z年4月15日 2024-04-15T14:53:58Z年4月15日 副驾驶员事件 <p>4月15日,UTC时间14:53</p> <p><small>4月<var data-var='date'>15日</p> 4月15日,UTC 13:35。欧洲用户可能会体验到更高的响应时间</p> 4月15日,12:58 UTC调查</p> 标签:www.githubstatus.com,2005:事件/20530168 2024-04-14T21:53:52Z 2024-04-17T17:09:33Z 我们正在调查性能下降的报告。 <p><small>4月14日<var data-var='date'>14日</var>,<var data-var='时间'>21:53。4月14日14:21 UTC,社区报告证实了这一点,并宣布了一起事件。受延迟影响最大的电子邮件是密码重置和无法识别的设备验证,其中包含时间敏感的链接或验证代码,需要对其进行操作才能继续进行密码重置或无法识别的登录<br/><br/>事件期间试图重置密码的用户无法完成重置。没有双重身份验证(2FA)的用户在无法识别的设备上登录时,无法完成设备验证。企业管理用户、具有2FA的用户以及已识别设备或IP地址上的用户仍然能够登录。这影响了800-1000个用户设备验证和300-400个密码重置<br/><br/>邮件程序延迟是由于共享资源池的使用增加所致;单独的内部作业队列变得不健康,并阻止了邮件队列的工作。<br/><br/>我们已立即进行了一些改进,以更好地再次检测和应对这种情况。作为一种短期缓解策略,我们为时间敏感的电子邮件添加了排队旁路功能,如密码重置和未识别的设备验证。如果我们观察到电子邮件延迟再次发生,我们可以启用此设置,这将确保未来的事件不会影响用户完成关键登录流的能力。我们已暂停不正常的作业队列,以防止使用共享资源对其他队列造成影响。我们已经更新了检测异常电子邮件传递的方法,以便更快地发现此问题</p> 4月14日,UTC时间21:52。按时发送设备验证和密码重置电子邮件</p> <p><small>4月14日<var data-var='date'>14日</p> <p><small>4月14日,<var data-var='date'>19:54,<var>UTC</small><br><strong>更新</strong>-我们继续调查电子邮件传递延迟的问题,这会阻止未启用2FA的用户验证新设备。我们将提供更多信息</p> <p><small>4月14日,<var data-var='date'>15:50</var>UTC</small><br><strong>更新</strong>-我们正在继续调查向没有2FA的用户发送设备验证电子邮件的问题</p> <p><small>4月14日,<var data-var='date'>15:01 UTC</small><br><strong>更新</strong>-我们正在继续调查在新设备上为没有2FA的用户发送设备验证电子邮件的问题</p> <p><small>4月14日<var data-var='date'>14日。这将阻止这些用户成功登录。我们正在调查</p> <p><small>四月<var data-var='date'>14日</var>,<var data-var='时间'>14:21</var>UTC</small><br><strong>调查</strong>-我们目前正在调查此问题</p>(第页) 标签:www.githubstatus.com,2005:事件/20498552 2024-04-10T19:03:05Z 2024-04-11T19:40:59分 Git操作、API请求、操作、页面、问题和复制事件 <p><small>Apr<var data-var='date'>10</var>,<var data-var='time'>19:03</var>UTC</small><br><strong>更新</strong>-2024年4月10日,在2024-04-10 18:33 UTC和2024-04-1019:03 UTC之间,由于释放了一个计算密集型数据库查询,导致关键数据库群集无法提供其他查询,因此一些服务降级<br/><br/>GitHub Actions在整个运行生命周期中出现了延迟和故障,API请求中的超时数量显著增加。在事件发生期间,所有页面部署都失败。在事件发生期间,Git Systems发现大约12%的原始文件下载请求和16%的存储库存档下载请求返回HTTP 50X错误代码。问题的创建和更新延迟增加。在事件发生期间,代码空间收到了大约500个创建和恢复代码空间超时的请求<br/><br/>我们通过回滚有问题的查询来缓解事件。我们正在努力引入措施,在CI期间自动检测测试运行中的计算密集型查询,以防止类似问题再次出现。</p><p><small>Apr<var data-var='date'>10</var>,<var data-var='time'>19:03</var>UTC</small><br><strong>调查</strong>-Git操作,API请求,操作,页面,问题和副驾驶正常工作</p> <p><small>4月<var data-var='date'>10日</var>,<var data-var='时间'>19:03</var>UTC</small><br><strong>已解决</strong>-此事件已解决</p> <p><small>4月<var data-var='date'>10日</var>,<var data-var='时间'>19:03</var>UTC</small><br><strong>更新</strong>-Git操作、API请求、操作、页面、问题和Copilot运行正常</p> <p><small>4月<var data-var='date'>10日</var>,<var data-var='时间'>19:01</var>UTC</small><br><strong>更新</strong>-副驾驶仪性能下降。我们正在继续调查</p> <p><small>4月<var data-var='date'>10日。系统似乎正在恢复,我们将继续监测</p> <p><small>4月<var data-var='date'>10日</var>,<var data-var='时间'>18:53 UTC</small><br><strong>更新</strong>-API请求性能下降。我们正在继续调查</p> 4月<p><small>10日</var>,<var data-var='time'>18:45 UTC</small><br><strong>更新</strong>-副驾驶仪可用性降低。我们正在继续调查</p> <p><small>4月<var data-var='date'>10日</var>,<var data-var='时间'>18:42</var>UTC</small><br><strong>更新</strong>-问题性能下降。我们正在继续调查</p> <p><small>4月<var data-var='date'>10日</var>,<var data-var='时间'>18:42 UTC</small><br><strong>更新</strong>-API请求的可用性降低。我们正在继续调查</p> <p><small>4月<var data-var='date'>10日</p> 标签:www.githubstatus.com,2005:事件/20497442 2024-04-10T18:07:51Z 2024-04-12T18:28:26Z 代码空间事件 <p><small>Apr<var data-var='date'>10</var>,<var data-var='time'>18:07</var>UTC</small><br><strong>已解决</strong>-在2024-04-09 21:35 UTC和2024-04-10 19:03 UTC之间,新代码空间的创建因新代码空间虚拟机的映像升级而降低。在事件发生期间,大约7%的新代码空间被创建,但从未对其拥有的最终用户可用<br/><br/>我们通过恢复到以前的图像版本来缓解事件。我们正在努力提高围绕映像升级的部署信心,以降低再次发生的可能性</p> <p><small>4月<var data-var='date'>10日。在我们确认服务已完全恢复之前,此事件将暂时开放</p> <p><small>4月<var data-var='date'>10日。我们将在接下来的30分钟内提供另一个更新</p> <p><small>4月<var data-var='date'>10日。我们正在积极调查,并将很快提供另一个更新</p> <p><small>4月<var data-var='date'>10日</p> 标签:www.githubstatus.com,2005:事件/20494482 2024-04-10T09:38:36Z 2024-04-12T20:49:51Z 问题和拉入请求的事件 <p><small>4月10日<var data-var='date'>10日</var>,<var data-var='时间'>09:38。我们通过将实例故障转移到功能更强大的硬件并提供针对读取副本运行的查询的改进版本来减轻影响。为了应对这一事件,我们还正在努力改进在此时间段内最常导致请求失败的查询类的性能<br/><br/>基于Web的存储库文件编辑在事件中的失败率为17%,其他存储库管理操作(如规则更新、基于Web的分支创建、存储库重命名)的失败率在1.5%至8%之间。这些操作的API失败率较高<br/><br/>由于依赖受影响的数据库主数据库,因此在此事件期间,问题和请求的编写受到严重影响。我们正在继续努力,从这些服务的创作工作流中消除对这个特定主实例的依赖<br/><br/>GitHub搜索在整个事件中的失败率为5%,原因是在授权存储库访问时依赖受影响的主数据库。大多数失败的请求都是搜索栏自动完成,搜索结果失败的次数也有限</p> <p><small>4月<var data-var='date'>10日</var>,09:38 UTC</small><br><strong>更新</strong>-问题和Pull请求运行正常</p> <p><small>4月<var data-var='date'>10日</var>,09:38 UTC</small><br><strong>更新</strong>-推出的缓解措施成功解决了问题。我们看到所有受影响的功能的故障率都降低了,服务恢复正常</p> <p><small>4月<var data-var='date'>10日</var>,09:30</var>UTC</small><br><strong>更新</strong>-我们意识到GitHub许多功能的影响。这主要会影响问题、存储库和拉取请求的写入操作。此外,我们还看到搜索查询的失败率增加<br/><br/>我们的团队已经推出了缓解措施,并正在监测恢复情况</p> <p><small>4月<var data-var='date'>10日</p> 标签:www.githubstatus.com,2005:事件/20489412 2024-04-09T20:17:07Z 2024-04-10T19:27:51Z 事件与行动 <p><small>4月9日<var data-var='date'>9日</var>,<var data-var='时间'>20:17</var>UTC</small><br><strong>已解决</strong>-2024年4月9日间18:00至20:17 UTC之间,新客户和现有客户的操作降级并失败。在此期间,5426个新存储库的操作未能启动,1%的现有客户的运行被延迟,其中一半由于基础结构错误而失败<br/><br/>根本原因是证书过期,导致内部服务之间的身份验证失败。证书轮换后,事件得到缓解<br/><br/>我们正在努力提高自动化水平,以确保证书在到期前进行轮换</p> <p><small>4月<var data-var='date'>9日</var>,<var data-var='时间'>19:43</var>UTC</small><br><strong>更新</strong>-我们继续努力解决存储库无法启用操作和操作网络配置设置无法正常工作的问题。我们已确认修复,正在将其部署到生产中。另一个更新将在未来30分钟内共享</p> <p><small>四月<var data-var='date'>9</var>,<var data-var='时间'>19:06</var>UTC</small><br><strong>更新</strong>-我们继续努力解决存储库无法启用操作和操作网络配置设置无法正常工作的问题。我们将很快提供更多信息</p> <p><small>4月<var data-var='date'>9日</var>,<var data-var='时间'>18:36</var>UTC</small><br><strong>更新</strong>-我们知道存储库无法启用操作的问题。我们正在恢复全部功能,稍后将提供更多信息</p> <p><small>Apr<var data var='date'>9</var>,<var data var='time'>18:36 UTC</small><br><strong>调查</strong>-我们正在调查行动性能下降的报告</p> 标签:www.githubstatus.com,2005:Incident/20483650 2024-04-09T05:10-21 Z 2024-04-12T22:09:05Z 我们正在调查性能下降的报告。 <p><small>4月9日<var data-var='date'>9日</var>,<var data-var='时间'>05:10。在此期间,所有下载NPM包的尝试均失败。经调查,我们发现NPM注册表中最近的代码更改是根本原因。客户影响仅限于NPM注册中心的用户,对其他注册中心没有影响<br/><br/>我们通过回滚有问题的更改来缓解事件。我们正在跟进维修项目,以弥补我们的可观察性差距,并在CI流程中实施措施,以便在此类故障影响客户之前及早检测到此类故障</p> <p><small>4月<var data-var='date'>9日。我们将继续让用户了解缓解措施的最新进展</p> <p><small>4月<var data-var='date'>9日</var>,04:32</var>UTC</small><br><strong>调查-我们目前正在调查此问题</p>(第页) 标签:www.githubstatus.com,2005:事件/20462209 2024-04-06T02:22:00Z 2024-04-09T14:43:24Z年4月9日 页面事件 <p><small>4月6日<var data-var='date'>6日</var>,<var data-var='时间'>02:22。通过将更新的证书上载到我们的CDN,服务已恢复。这是由于一个过程错误和我们的警报中存在漏洞。虽然在我们的内部保险库中更新了证书,但它没有部署到CDN<br/><br/>我们正在努力减少证书续订过程中出现错误的可能性,并将*.pages.github.io域添加到现有的TLS警报系统中</p> <p><small>4月<var data-var='date'>6日,<var data-var='time'>01:52</var>UTC</small><br><strong>调查</strong>-我们正在调查页面性能降低的报告</p> 标签:www.githubstatus.com,2005:Incident/20455850 2024-04-05T09:18:10分 2024-04-05T21:55:26Z 页面、操作、代码空间、API请求、问题和拉取请求的事件 <p><small>Apr<var data var='date'>5</var>,<var data var='time'>09:18</var>UTC</small><br><strong>已解决</strong>-2024年4月5日,在UTC 8:11至8:58之间,许多GitHub服务降级,返回错误响应。Web请求错误率峰值为6%,API请求错误率最高为10%。操作有103660个工作流运行无法启动<br/><br/>数据库负载平衡器的更改导致我们三个数据中心之一到各种关键数据库群集的连接失败。一旦该更改被回滚,事件得到缓解<br/><br/>我们已经更新了部署管道,以便在部署的早期阶段更好地检测此问题,从而减少对最终用户的影响<br/></p><p><small>4月<var data-var='date'>5日</var>,<var data-var='时间'>09:17 UTC</small><br><strong>更新</strong>-Pull请求运行正常</p> <p><small>4月<var data-var='date'>5日</var>,<var data-var='时间'>09:17 UTC</small><br><strong>更新</strong>-问题运行正常</p> <p><small>4月<var data-var='date'>5日</var>,09:17 UTC</small><br><strong>更新</strong>-API请求运行正常</p> <p><small>4月<var data-var='date'>5日</var>,<var data-var='时间'>09:17 UTC</small><br><strong>更新</strong>-代码空间运行正常</p> <p><small>4月<var data-var='date'>5日</var>,09:17 UTC</small><br><strong>更新</strong>-操作正常运行</p> <p><small>4月<var data-var='date'>5日</var>,09:17 UTC</small><br><strong>更新</strong>-页面运行正常</p> <p><small>4月<var data-var='date'>5日</var>,<var data-var='时间'>09:17 UTC</small><br><strong>更新</strong>-操作性能下降。我们正在继续调查</p> <p><small>4月<var data-var='date'>5日</var>,09:00</var>UTC</small><br><strong>更新</strong>-我们已经恢复了我们认为导致此情况的更改,看到了减少错误的初步迹象,并正在监控完全恢复,<var data-var='time'>08:59</var>UTC</small><br><strong>更新</strong>-页面性能下降。我们正在继续调查</p> <p><small>Apr<var data var='date'>5</var>,<var data var='time'>08:51</var>UTC</small><br><strong>更新</strong>-我们在三个站点中的两个站点中看到一些数据库的连接失败,正在进行调查</p> <p><small>4月<var data-var='date'>5日</var>,08:50</var>UTC</small><br><strong>更新</strong>-拉入请求的性能下降。我们正在继续调查</p> <p><small>4月<var data-var='date'>5日</var>,08:49</var>UTC</small><br><strong>更新</strong>-问题性能下降。我们正在继续调查</p> <p><small>4月<var data-var='date'>5日</var>,08:49 UTC</small><br><strong>更新</strong>-API请求性能下降。我们正在继续调查</p> <p><small>4月<var data-var='date'>5日</var>,08:49 UTC</small><br><strong>更新</strong>-代码空间性能下降。我们正在继续调查</p> <p><small>4月<var data-var='date'>5日</p> 标签:www.githubstatus.com,2005:事件/20455837 2024-04-05T08:53:39兹 2024-04-05T08:53:39Z 我们正在调查性能下降的报告。 <p><small>4月<var data-var='date'>5日</var>,08:53</var>UTC</small><br><strong>已解决</strong>-此事件已解决</p> <p><small>4月<var data-var='date'>5日</var>,08:31</var>UTC</small><br><strong>调查-我们目前正在调查此问题</p>(第页) 标签:www.githubstatus.com,2005:事件/20455824 2024-04-05T08:48:15Z 2024-04-05T08:48:15Z 问题、API请求、请求和代码空间事件 <p><small>4月<var data-var='date'>5日</var>,08:48</var>UTC</small><br><strong>已解决</strong>-此事件已解决</p> <p><small>4月<var data-var='date'>5日</var>,08:48</var>UTC</small><br><strong>更新</strong>-问题、API请求、Pull请求和代码空间运行正常</p> <p><small>4月<var data-var='date'>5日</var>,08:36 UTC</small><br><strong>更新</strong>-代码空间性能下降。我们正在继续调查</p> <p><small>Apr<var data var='date'>5</var>,<var data var='time'>08:34</var>UTC</small><br><strong>更新</strong>-拉取请求性能下降。我们正在继续调查</p> <p><small>4月<var data-var='date'>5日</var>,08:32</var>UTC</small><br><strong>更新</strong>-API请求性能下降。我们正在继续调查</p> <p><small>4月<var data-var='date'>5日</p> 标签:www.githubstatus.com,2005:事件/20443672 2024-04-04T01:10:27Z 2024-04-10T21:23:09Z 操作、API请求和Webhook事件 <p>4月4日,UTC 01:10解决-在2024年4月3日23:15 UTC和2024年5月4日01:10 UTC之间,GitHub Actions经历了部分基础设施中断,导致工作流降级(启动失败或延迟)。此外,由于单个可用区域中数据库延迟的不相关峰值,0.15%的Webhook交付被降级。事件期间,Actions的SLO为90%,但在客户中分布不均匀。从2024年4月4日00:35 UTC开始,经过长时间恢复SLO后,我们的状态为绿色。在这起事件中,我们还遇到了事件工具的问题(https://www.githubstatus.com/)无法更新公共状态页,有时无法加载<br/><br/>在2024-04-04 04:27 UTC基础设施问题得到缓解后,该事件得到了解决<br/><br/>我们正在努力改进监控和流程,以应对这起事件。我们正在调查如何提高恢复能力以及我们与基础设施提供商的沟通,以及如何更好地处理不再影响SLO的持续事件。我们还正在改进我们的事件工具,以确保及时更新公共状态页面</p> <p><small>4月<var data-var='date'>4日</var>,<var data-var='时间'>01:09</var>UTC</small><br><strong>更新</strong>-API请求运行正常</p> <p><small>4月<var data-var='date'>4日</p> <p><small>4月<var data-var='date'>4日</var>,00:46</p> <p><small>4月<var data-var='date'>4日</var>,00:25</var>UTC</small><br><strong>更新</strong>-Webhooks性能下降。我们正在继续调查</p> <p><small>4月<var data-var='date'>4日</var>,00:12</var>UTC</small><br><strong>更新</strong>-我们正在调查Actions工作流失败和延迟</p> 4月4日,00:06 UTC更新性能下降。我们正在继续调查</p> <p><small>4月<var data-var='date'>3日</p> 标签:www.githubstatus.com,2005:Incident/20272593 2024-03-15T20:28:06Z 2024-03-22T15:58:39Z 带有操作和页面的事件 <p><small>Mar<var data-var='date'>15</var>,<var data-var='time'>20:28</var>UTC</small><br><strong>已解决</strong>-此事件的根本原因与<a href=“https://www.githubstatus.com/incidents/9ym5p2sg6w5v“>这起事件。</a>请点击链接查看事件摘要。</p><p><small>Mar<var data-var='date'>15</var>,<var data-var='时间'>20:27</var>UTC</small><br><strong>更新</strong>-操作正常-页面性能下降。我们正在继续调查</p> <p><small>Mar<var data var='date'>15</var>,<var data var='time'>20:07</var>UTC</small><br><strong>调查</strong>-我们正在调查行动性能下降的报告</p> 标签:www.githubstatus.com,2005:Incident/20272496 2024-03-15T20:24:44Z 2024-03-22T15:48:40赫兹 代码空间和API请求事件 <p><small>Mar,<var data-var='date'>15</var>,<var-data-var='time'>20:24</var>UTC</small><br><strong>已解决</strong>-2024年3月15日,在UTC 19:42和20:24之间,由于调用权限系统的回归,多个服务降级<br/><br/>无法创建新的GitHub代码空间,因为代码空间会话需要生成新的身份验证令牌<br/><br/>由于上游依赖于获取存储库的令牌以成功执行运行,操作出现了延迟和基础设施故障<br/><br/>GitHub页面由于对Actions的影响而受到影响,导致1266个页面构建失败,在最低点,33%的页面构建失败。这导致页面编辑没有反映在这些受影响的站点上<br/><br/>我们部署了一个应用程序更新,其中包括更新版本的数据库查询生成器。新版本对upsert查询使用了更新的MySQL语法,我们在一些生产环境数据库集群中使用的数据库代理服务不支持该语法。这种不兼容性特别影响了权限集群,导致尝试此类查询的请求失败<br/><br/>我们的响应是回滚部署,恢复以前的查询使用,从而缓解了事件<br/><br/>我们已经发现并纠正了开发和CI环境中权限集群的错误配置,这将确保查询使用代理服务,以防止将来的语法添加导致生产中出现问题<br/></p><p><small>Mar<var data-var='date'>15</var>,<var data-var='time'>20:21</var>UTC</small><br><strong>更新</strong>-代码空间运行正常</p> <p><small>Mar<var data var='date'>15</var>,<var data var='time'>20:20</var>UTC</small><br><strong>更新</strong>-API请求运行正常</p> <p><small>Mar<var data-var='date'>15</var>,<var data-var='time'>20:17</p> <p><small>Mar<var data-var='date'>15</var>,<var data-var='时间'>20:11</var>UTC</small><br><strong>更新</strong>-API请求的性能下降。我们正在继续调查</p> <p><small>Mar<var data-var='date'>15</var>,<var data-var='time'>20:03</var>UTC</small><br><strong>更新</strong>-代码空间的可用性降低。我们正在继续调查</p> <p><small>Mar<var data-var='date'>15</var>,<var data-var='time'>20:03</var>UTC</small><br><strong>更新</strong>-API请求的可用性降低。我们正在继续调查</p> <p><small>Mar<var data-var='date'>15</var>,<var data-var='time'>20:00</var>UTC</small><br><strong>更新</strong>-API请求性能下降。我们正在继续调查</p> <p><small>Mar<var data-var='date'>15</var>,<var data-var='时间'>19:55</var>UTC</small><br><strong>调查</strong>-我们正在调查代码空间性能降低的报告</p> 标签:www.githubstatus.com,2005:事件/2029283 2024-03-13T01:58:49 Z 2024-03-14T00:12:26分 Pull请求事件 <p><small>三月<var data-var='date'>13</var>,<var data-var='时间'>01:58。平均而言,20%的Pull Requests页面加载不同步,多达30%的Pull请求在峰值时受到影响。我们的作业排队系统的一个内部组件错误地处理了无效消息,导致处理暂停<br/><br/>我们通过提供修复程序来优雅地处理边缘情况并允许继续处理,从而减轻了事件的影响<br/><br/>在协调世界时1:47部署修复程序后,我们的系统在协调世界时间1:58完全赶上了挂起的后台作业<br/><br/>我们正在努力提高对系统中无效消息的恢复能力,以防止这些请求更新的延迟。我们还正在审查我们的监控和可观察性,以更快地识别和纠正这些类型的故障案例<br/></p><p><small>Mar<var data var='date'>13</var>,<var data var='time'>01:58</var>UTC</small><br><strong>更新</strong>-拉取请求运行正常</p> <p><small>Mar<var data-var='date'>13</var>,<var data-var='time'>01:53</p> <p><small>三月<var data-var='date'>13</var>,<var data-var='时间'>01:18</var>UTC</small><br><strong>更新</strong>-我们正在继续调查公关更新的延迟情况。30分钟后进行下一次更新</p> <p><small>三月<var data-var='date'>13</var>,00:47</var>UTC</small><br><strong>更新</strong>-我们正在继续调查页面加载时不同步的拉取请求数量增加的情况</p> <p><small>三月<var data-var='date'>13</var>,00:12</var>UTC</small><br><strong>更新</strong>-我们正在继续调查页面加载时不同步的拉取请求数量增加的情况</p> <p><small>Mar<var data-var='date'>12</var>,<var data-var='时间'>23:39</var>UTC</small><br><strong>更新</strong>-我们发现页面加载时不同步的拉取请求数量增加</p> <p><small>Mar<var data-var='date'>12</var>,<var data-var='时间'>23:39</var>UTC</small><br><strong>调查</strong>-我们正在调查Pull请求性能降低的报告</p> 标签:www.githubstatus.com,2005:Incident/20219651 2024-03-12T01:00:51Z 2024-03-12T22:57:57分 API请求、Git操作、Webhooks和Copilot事件 <p><small>Mar,<var data-var='date'>12</var>,<var-data-var='time'>01:00。在此事件中,发生了以下客户影响:API错误率高达1%,Copilot错误率高至17%,使用GitHub Mobile的Secret Scanning和2FA错误率达100%,随后错误率从22:55 UTC开始下降至30%。这种错误率的提高是由于我们的集中式身份验证服务的性能下降,而许多其他服务都依赖于该服务<br/><br/>此问题是由于网络相关配置的部署意外应用于不正确的环境所致。在4分钟内检测到此错误,并启动了回滚。虽然错误率在22:55 UTC开始快速下降,但我们的一个数据中心的回滚失败,导致恢复时间更长。此时,许多失败的请求在重试时都成功了。此故障是由于当天早些时候发生的一个无关问题造成的,当时我们配置服务的数据存储被污染,需要手动干预。配置服务中的错误数据导致此数据中心中的回滚失败。手动删除不正确的数据后,可以在00:48 UTC完成完全回滚,从而恢复对服务的完全访问。我们了解如何部署损坏的数据,并继续调查特定数据导致后续部署失败的原因<br/><br/>我们正在制定各种措施,以确保此类配置更改的安全性,通过更好地监控相关子系统,更快地检测问题,以及对底层配置系统的健壮性的改进,包括防止和自动清除被污染的记录,以便我们能够在将来自动从此类数据问题中恢复<br/></p><p><small>Mar<var data-var='date'>12</var>,<var data-var='time'>01:00</var>UTC</small><br><strong>更新</strong>-我们相信我们已经解决了根本原因,正在等待服务恢复,00:56 UTC更新操作正常</p> <p><small>Mar<var data var='date'>12</var>,<var data var='time'>00:55</var>UTC</small><br><strong>更新</strong>-Git操作正常</p> <p><small>Mar<var data-var='date'>12</var>,00:54</var>UTC</small><br><strong>更新</strong>-Webhooks运行正常</p> <p><small>Mar<var data-var='date'>12</var>,00:54</var>UTC</small><br><strong>更新</strong>-副驾驶仪工作正常</p> <p><small>三月<var data-var='date'>12日,<var data-var='time'>23:55</var>UTC</small><br><strong>更新</strong>-Webhooks性能下降。我们正在继续调查</p> <p><small>Mar<var data-var='date'>11</var>,<var data-var='时间'>23:31</var>UTC</small><br><strong>更新</strong>-Webhooks运行正常</p> <p><small>Mar<var data-var='date'>11</var>,<var data-var='时间'>23:21</var>UTC</small><br><strong>更新</strong>-副驾驶仪性能下降。我们正在继续调查</p> <p><small>Mar<var data-var='date'>11</var>,<var data-var='时间'>23:20</var>UTC</small><br><strong>更新</strong>-Git操作性能下降。我们正在继续调查</p> <p><small>Mar<var data var='date'>11</var>,<var data var='time'>23:09 UTC</small><br><strong>更新</strong>-Webhook性能下降。我们正在继续调查</p> <p><small>Mar<var data-var='date'>11</var>,<var data-var='time'>23:01</var>UTC</small><br><strong>调查</strong>-我们正在调查API请求、Git操作和Webhooks可用性降低的报告</p> 标签:www.githubstatus.com,2005:Incident/20217989 2024-03-11T19:22:16Z 2024-03-13T22:45:33Z年3月13日 事件与行动 <p><small>Mar,<var data-var='date'>11</var>,<var-data-var='时间'>19:22。在此期间,约3.7%的排队跑步无法开始<br/><br/>此问题的部分原因是部署了内部系统Actions依赖于它来处理工作流运行事件。在此部署期间,队列处理暂停约3分钟,导致排队工作流运行出现峰值。当这个队列开始被处理时,大量排队的工作流淹没了工作流调用系统的秘密初始化组件。这个超负荷系统产生的错误最终延迟了工作流调用。通过我们的警报系统,我们在UTC时间大约18:44时收到了问题的初步指示。然而,我们最初并没有看到对运行开始延迟和运行队列可用性指标的影响,直到大约18:52 UTC。随着工作流运行事件的大队列被烧毁,我们在19:11 UTC之前看到了关键客户影响度量的恢复,但等待宣布事件在19:22 UTC解决,同时验证没有进一步的客户影响<br/><br/>我们正在研究各种措施,以减少在部署排队系统期间出现的队列峰值,并扩大了在工作流调用过程中处理秘密生成和存储的工作人员<br/></p><p><small>Mar<var data var='date'>11</var>,<var data var='time'>19:21</var>UTC</small><br><strong>更新</strong>-操作经历了一段时间的工作流运行吞吐量下降,我们现在看到了恢复。我们正在调查原因</p> <p><small>Mar<var data-var='date'>11</var>,<var data-var='时间'>19:02</var>UTC</small><br><strong>调查</strong>-我们正在调查行动绩效下降的报告</p> 标签:www.githubstatus.com,2005:Incident/20212410 2024-03-11T10:20:15Z 2024-03-14T17:58:20Z 副驾驶员事件 <p><small>Mar,<var data-var='date'>11</var>,<var-data-var='time'>10:20</var>UTC</small><br><strong>已解决</strong>-2024年3月11日,在UTC 06:30至11:45之间,Copilot Chat服务降级,客户可能遇到错误或聊天交互请求超时。平均而言,错误率为10%,在短时间内达到峰值,为服务请求的45%<br/><br/>这是因为在处理从基础语言模型返回的消息的边缘情况时存在差距。我们通过对流响应的处理应用修复程序来缓解事件<br/><br/>我们正在努力更新监控,以减少检测时间并提高对消息格式更改的恢复能力</p> <p><small>Mar<var data var='date'>11</var>,<var data var='time'>1:02</var>UTC</small><br><strong>更新</strong>-我们正在为Copilot的一些聊天请求中观察到的故障部署缓解措施。我们将继续监控和更新</p> <p><small>Mar<var data-var='date'>11</var>,<var data-var='time'>09:03</var>UTC</small><br><strong>更新</strong>-我们发现Copilot聊天请求的失败率正在上升。我们正在调查,并将继续让用户了解缓解措施的最新进展</p> <p><small>三月<var data-var='date'>11</var>,<var data-var='时间'>08:14</var>UTC</small><br><strong>调查</strong>-我们正在调查Copilot性能下降的报告</p> 标签:www.githubstatus.com,2005:Incident/20135877 2024-03-01T17:42:41 Z 2024-03-12T19:56:41转 API请求、Copilot、Git操作、操作和页面事件 <p><small>Mar,<var data-var='date'>1</var>,<var-data-var='time'>17:42<br/><br/>此事件是由一个新发现的部署管道故障模式触发的,该管道连接到我们的一个计算集群,但它无法写入特定的配置文件。这导致该集群的可用资源数量下降,但通过重新部署有所缓解<br/><br/>我们已经解决了特定场景,以确保正确写入和检索资源,并添加了保护措施,以确保在出现此类问题时不会继续部署。我们还正在审查我们的系统,以便在停机期间更有效地将流量路由到健康的集群,并为集群资源调整添加更多保护措施<br/><br/></p><p><small>Mar<var data-var='date'>1</var>,<var data-var='time'>17:42</var>UTC</small><br><strong>更新</strong>-Git操作正常运行</p> <p><small>Mar<var data-var='date'>1</var>,<var data-var='时间'>17:41</var>UTC</small><br><strong>更新</strong>-操作和页面运行正常</p> <p><small>Mar<var data-var='date'>1</var>,<var data-var='时间'>17:36</var>UTC</small><br><strong>更新</strong>-副驾驶仪工作正常</p> <p><small>Mar<var data-var='date'>1</var>,<var data-var='时间'>17:34</var>UTC</small><br><strong>更新</strong>-页面性能下降。我们正在继续调查</p> <p><small>Mar<var data-var='date'>1</var>,<var data-var='时间'>17:34</p> <p><small>Mar<var data-var='date'>1</var>,<var data-var='时间'>17:30</var>UTC</small><br><strong>调查</strong>-我们正在调查API请求、Copilot、Git操作和操作的性能降级报告</p> 标签:www.githubstatus.com,2005:Incident/20132654 2024-03-01T16:12:23Z 2024-03-05T23:57:02Z 拉动请求、行动和问题的事件 <p><small>Mar<var data-var='date'>1</var>,<var data-var='time'>16:12。没有数据或作业丢失。从14:17到14:41 UTC,出现了部分降级,客户将经历PR和Actions的间歇性延迟。从14:41到15:24 UTC,36%的PR用户看到了陈旧的数据,而100%的正在进行的Actions工作流没有看到更新,即使工作流成功了。UTC时间15点24分,我们通过重新部署服务缓解了这一事件,工作开始减少,到UTC时间15:54分,全部工作都赶上来了。这是由于内存供应不足以及服务中缺少基于内存的背压,这使消费者不知所措,并导致OutOfMemory崩溃<br/><br/>我们已经调整了内存配置以防止出现此问题,并且正在分析和调整警报灵敏度,以减少未来检测此类问题的时间<br/></p><p><small>Mar<var data-var='date'>1</var>,<var data-var='时间'>16:12</var>UTC</small><br><strong>更新</strong>-问题、拉入请求和操作运行正常</p> <p><small>三月<var data-var='date'>1</var>,<var data-var='时间'>15:48</p> <p><small>Mar<var data-var='date'>1</var>,<var data-var='时间'>15:39</var>UTC</small><br><strong>更新</strong>-问题性能下降。我们正在继续调查</p> <p><small>三月<var data-var='date'>1</var>,<var data-var='时间'>15:27</var>UTC</small><br><strong>更新</strong>-我们正在继续调查影响操作和拉取请求的后台作业的问题。我们已经制定了缓解措施,并正在监测恢复情况</p> <p><small>Mar<var data var='date'>1</var>,<var data var='time'>14:51</var>UTC</small><br><strong>更新</strong>-我们正在调查后台作业的问题,这些问题会导致拉取请求同步的偶尔延迟和操作吞吐量的降低</p> <p><small>Mar<var data-var='date'>1</var>,<var data-var='时间'>14:39</var>UTC</small><br><strong>调查</strong>-我们正在调查Pull请求和操作的性能降级报告</p> 标签:www.githubstatus.com,2005:Incident/20105717 2024-02-29T12:27:17Z 2024-03-01T02:40:03Z 问题、Webhooks和操作事件 <p><small>2月29日<var data-var='date'>29日</var>,<var data-var='时间'>12:27。将近95%的延迟发生在11:05至11:27 UTC之间,5%发生在事件的其余时间。在这起事件中,发生了以下客户影响:50%的webhook经历了高达500万的延迟,1%的webhokes在峰值时经历了1700万的延迟;行动:平均而言,7%的客户经历了延迟,峰值为44%;许多问题在搜索中出现延迟。UTC时间9点32分,我们的自动故障切换成功地将流量路由到辅助群集。但在协调世界时10:32分错误地恢复到主节点导致排队作业显著增加,直到协调世界时11:21分,此时进行了更正,健康的服务开始烧掉积压工作,直到完全解决为止<br/><br/>我们已经改进了应急过程的自动化和可靠性,以防止再次发生。我们还有更大的工作正在进行中,以提高我们工作处理平台的整体可靠性<br/></p><p><small>2月<var data-var='date'>29日</var>,<var data-var='时间'>12:21</var>UTC</small><br><strong>更新</strong>-我们正在看到恢复,并将花时间验证所有系统是否恢复工作状态</p> <p><small>2月<var data-var='date'>29日</var>,12:19</var>UTC</small><br><strong>更新</strong>-问题运行正常</p> <p><small>2月<var data-var='date'>29日</var>,12:18 UTC</small><br><strong>更新</strong>-Webhooks运行正常</p> <p><small>2月<var data-var='date'>29日</var>,<var data-var='时间'>11:05</var>UTC</small><br><strong>更新</strong>-我们正在继续调查延迟的后台作业。我们已经看到问题的部分恢复,并且对操作、通知和webhook有持续的影响</p> <p><small>2月29日,<var data-var='date'>10:58 UTC</small><br><strong>更新</strong>-操作性能下降。我们正在继续调查</p> <p><small>2月29日<var data-var='date'>29日</p> 2月29日,UTC 10:33调查报告</p> 标签:www.githubstatus.com,2005:Incident/20082035 2024-02-26T21:40:00Z 2024-02-28T20:28:04Z 我们正在调查性能下降的报告。 <p><small>Febr<var data var='date'>26</var>,<var data var='time'>21:40</var>UTC</small><br><strong>已解决</strong>-2月26日星期一,从协调世界时20:45到协调世界时21:39,GitHub软件包报告中断,表明GitHub容器注册表和NPM软件包上传功能降级。经过调查,我们发现了一个配置错误的可观察性度量,它无意中从新提供的测试环境中提取了数据。所有报告的故障都可以追溯到这个测试环境。我们确认,在此次事件中,GitHub软件包没有受到任何实际的客户影响。此后,我们重新配置了可观测性指标,以根据环境准确报告</p> <p><small>2月<var data-var='date'>26日</p> <p><small>Feb<var data-var='date'>26</var>,<var data-var='time'>21:03</var>UTC</small><br><strong>更新</strong>-NPM和GitHub容器注册服务降级,尤其是上传功能。调查正在进行中</p> <p><small>2月<var data-var='date'>26日</p>(第页) 标签:www.githubstatus.com,2005:Incident/20081184 2024-02-26T19:37:32Z 2024-02-28T01:29:53Z Webhook事件、操作、Pull请求和问题 <p><small>2月26日<var data-var='date'>26日</var>,<var data-var='时间'>19:37。用户在Webhooks、Actions和一些UI更新中遇到延迟(例如,在pull请求中UI更新出现延迟)。这是由于我们的作业排队服务的容量问题,以及我们的自动故障转移系统的故障<br/><br/>我们通过手动故障转移到辅助群集来缓解了该事件。没有数据丢失-恢复在UTC 18:55开始,此时排队等待的积压作业开始处理<br/><br/>我们正在积极修复故障转移自动化,并扩展后台作业队列服务的容量,以防止将来出现此类问题<br/></p><p><small>2月<var data-var='date'>26日</var>,<var data-var='时间'>19:37 UTC</small><br><strong>更新</strong>-操作和Pull请求运行正常</p> <p><small>2月<var data-var='date'>26日</var>,<var data-var='时间'>19:37 UTC</small><br><strong>更新</strong>-Webhook和问题运行正常</p> <p><small>2月<var data-var='date'>26日</var>,<var data-var='时间'>19:05</var>UTC</small><br><strong>更新</strong>-问题性能下降。我们正在继续调查</p> <p><small>2月<var data-var='date'>26日。我们正在继续调查</p> <p><small>2月<var data-var='date'>26日</var>,<var data-var='时间'>18:55</var>UTC</small><br><strong>更新</strong>-我们已经部署了一个修复程序,用于修复影响Webhook、Actions和一些其他服务的问题。我们开始看到复苏,并将继续根据需要进行监测和修复</p> <p><small>2月<var data-var='date'>26日。我们正在继续调查</p> <p><small>2月<var data-var='date'>26</var>,<var data-var='时间'>18:48</var>UTC</small><br><strong>更新</strong>-操作性能下降。我们正在继续调查</p> <p><small>2月<var data-var='date'>26日</p>