GitHub标头
所有系统运行
Git操作 操作
API请求 操作
网络挂钩 操作
有关更多信息,请访问www.githubstatus.com 操作
问题 操作
Pull请求 操作
行动 操作
包装 操作
页码 操作
代码空间 操作
副驾驶员 操作
操作
性能下降
部分停运
重大停运
维护
过去的事件
四月19,2024

今天没有报告任何事件。

四月18,2024
断然的-此事件已得到解决。
四月18,18:47联合技术公司
更新-在美国西部2和美国西部3地区使用我们16个核心机器的代码空间客户可能会遇到创建新代码空间和恢复现有代码空间的问题。我们建议遇到问题的客户转到美国东部地区。
四月18,18:41联合技术公司
调查-我们正在调查有关代码空间性能降低的报告
四月18,18:25联合技术公司
四月17,2024
断然的-此事件已得到解决。
四月17,00:48联合技术公司
更新-我们正在继续调查Copilot的问题
四月17,00:30联合技术公司
更新-副驾驶性能下降。我们正在继续调查。
四月16,23:59联合技术公司
更新-我们正在调查Copilot可用性问题
四月16,23:57联合技术公司
调查-我们目前正在调查这个问题。
四月16,23时51分联合技术公司
四月16,2024
四月15,2024
断然的-此事件已得到解决。
四月15,14:53联合技术公司
更新-我们已经在欧盟地区为Copilot应用了缓解措施,并正在努力全面恢复服务。
四月15,14:13联合技术公司
更新-由于一个Copilot地区的中断,目前正在从其他地区提供交通服务。欧洲用户的响应时间可能更长。
四月15,13时35分联合技术公司
调查-我们正在调查Copilot性能下降的报告
四月15,12:58联合技术公司
四月14,2024
断然的-从4月11日17:30 UTC开始,一直持续到4月14日20:30,github.com在发送电子邮件方面出现了严重的延迟(最多2小时)。4月14日14:21 UTC,社区报告证实了这一点,并宣布了一起事件。受延迟影响最大的电子邮件是密码重置和无法识别的设备验证,其中包含时间敏感的链接或验证码,需要采取行动才能进行密码重置或无法识别的登录。

事件期间,试图重置密码的用户无法完成重置。没有双重身份验证(2FA)的用户在无法识别的设备上登录时,无法完成设备验证。企业管理用户、具有2FA的用户以及已识别设备或IP地址上的用户仍然能够登录。这影响了800-1000个用户设备验证和300-400个密码重置。

邮件发送延迟是由于共享资源池的使用增加所致;单独的内部作业队列变得不健康,并阻止处理邮件队列。

我们立即做出了一些改进,以更好地再次检测和应对这种情况。作为一种短期缓解策略,我们为时间敏感的电子邮件添加了排队旁路功能,如密码重置和未识别的设备验证。如果我们观察到电子邮件延迟再次发生,我们可以启用此设置,这将确保未来的事件不会影响用户完成关键登录流的能力。我们已暂停不正常的作业队列,以防止使用共享资源对其他队列造成影响。我们已经更新了检测异常电子邮件传递的方法,以便更快地发现此问题。

四月14,21:53联合技术公司
更新-我们正在看到全面复苏。按时发送设备验证和密码重置电子邮件。
四月14,21:52联合技术公司
更新-我们正在部署一种可能的缓解措施,以应对延迟的设备验证和密码更改电子邮件。
四月14,21:34联合技术公司
更新-我们继续调查电子邮件传递延迟的问题,这使得未启用2FA的用户无法验证新设备。我们将提供更多可用信息。
四月14,19:54联合技术公司
更新-我们正在继续调查向没有2FA的用户发送设备验证电子邮件的问题。
四月14,15:50联合技术公司
更新-我们正在继续调查向新设备上没有2FA的用户发送设备验证电子邮件的问题。
四月14,15:01联合技术公司
更新-新设备上没有2FA的用户登录的设备验证电子邮件延迟发送或根本没有发送。这将阻止这些用户成功登录。我们正在调查。
四月14,14:27联合技术公司
调查-我们目前正在调查这个问题。
四月14,14:21联合技术公司
四月13,2024

未报告任何事件。

四月12,2024

未报告任何事件。

四月11,2024

未报告任何事件。

四月10,2024
更新-2024年4月10日,在2024-04-10 18:33 UTC和2024-04-1019:03 UTC之间,由于发布了一个计算密集型数据库查询,阻止了一个关键数据库集群为其他查询提供服务,导致多个服务降级。

GitHub Actions在整个运行生命周期中出现了延迟和故障,API请求中的超时数量显著增加。在事件发生期间,所有页面部署都失败。在事件发生期间,Git Systems发现大约12%的原始文件下载请求和16%的存储库存档下载请求返回HTTP 50X错误代码。问题的创建和更新延迟增加。在事件发生期间,代码空间收到了大约500个创建和恢复代码空间超时的请求。

我们通过回滚令人不快的查询来缓解事件。我们正在努力引入一些措施,在CI期间的测试运行中自动检测计算密集型查询,以防止类似这样的问题再次出现。

四月10,19:03联合技术公司
调查-Git操作、API请求、操作、页面、问题和Copilot运行正常。
四月10,19:03联合技术公司
断然的-此事件已得到解决。
四月10,19:03联合技术公司
更新-Git操作、API请求、操作、页面、问题和Copilot运行正常。
四月10,19:03联合技术公司
更新-副驾驶性能下降。我们正在继续调查。
四月10,19:01联合技术公司
更新-我们知道影响多个服务的问题,并已回滚部署。系统似乎正在恢复,我们将继续监测。
四月10,18:55联合技术公司
更新-API请求的性能降低。我们正在继续调查。
四月10,18时53分联合技术公司
更新-Copilot的可用性降低。我们正在继续调查。
四月10,18时45分联合技术公司
更新-问题出现性能降级。我们正在继续调查。
四月10,18:42联合技术公司
更新-API请求的可用性降低。我们正在继续调查。
四月10,18:42联合技术公司
调查-我们正在调查Git操作、API请求、操作和页面性能下降的报告
四月10,18:41联合技术公司
断然的-在2024-04-09 21:35 UTC和2024-04-10 19:03 UTC之间,新代码空间的创建因新代码空间虚拟机的映像升级而降级。在事件发生期间,大约7%的新代码空间被创建,但从未对其拥有的最终用户可用。

我们通过恢复到以前的图像版本来缓解事件。我们正在努力提高围绕映像升级的部署信心,以降低再次发生的可能性。

四月10,18:07联合技术公司
更新-我们已应用修复程序,并将继续进行监视。在我们确认服务已完全恢复之前,此事件将一直持续。
四月10,17:31联合技术公司
更新-我们相信,我们已经确定了问题的根本原因,并正在努力全面恢复代码空间服务。我们将在接下来的30分钟内提供另一个更新。
四月10,16:56联合技术公司
更新-我们看到与连接到代码空间相关的问题会影响一部分用户。我们正在积极调查,并将很快提供另一个更新。
四月10,16时20分联合技术公司
调查-我们正在调查有关代码空间性能下降的报告
四月10,16:12联合技术公司
断然的-在4月10日星期三的UTC时间8:18到9:38之间,由于主数据库实例超载,最终由无限查询导致,客户在多个服务中的错误率增加。我们通过将实例故障转移到功能更强大的硬件并提供针对读取副本运行的查询的改进版本来减轻影响。为了应对这一事件,我们还正在努力改进在此时间段内最常导致请求失败的查询类的性能。

在事件发生期间,基于Web的存储库文件编辑的失败率为17%,而其他存储库管理操作(如规则更新、基于Web的分支创建、存储库重命名)的失败率在1.5%至8%之间。这些操作的API失败率较高。

由于对受影响的数据库主数据库的依赖,此事件期间问题和请求的编写受到严重影响。我们正在继续努力,从这些服务的创作工作流中消除对这个特定主实例的依赖。

由于在授权存储库访问时依赖受影响的主数据库,GitHub搜索在整个事件中的失败率为5%。大多数失败的请求都是搜索栏自动完成,搜索结果失败的次数也有限。

四月10,09:38联合技术公司
更新-问题和拉取请求运行正常。
四月10,09:38联合技术公司
更新-推出的缓解措施已成功解决该问题。我们看到所有受影响的功能的故障率都降低了,服务恢复正常。
四月10,09:38联合技术公司
更新-我们意识到GitHub的许多功能的影响。这主要会影响问题、存储库和拉取请求的写入操作。此外,我们还看到搜索查询的失败率增加。

我们的团队已经推出了缓解措施,并正在监测恢复情况。

四月10,09:30联合技术公司
调查-我们正在调查问题和拉入请求可用性降低的报告
四月10,09:22联合技术公司
四月9,2024
断然的-2024年4月9日,UTC时间18:00至20:17,Actions降级,新客户和现有客户出现故障。在此期间,5426个新存储库的操作未能启动,1%的现有客户的运行被延迟,其中一半由于基础结构错误而失败。

根本原因是证书过期,导致内部服务之间的身份验证失败。证书轮换后,事件得到缓解。

我们正在努力提高自动化水平,以确保证书在到期前进行轮换。

四月9,20:17联合技术公司
更新-我们继续努力解决存储库无法启用Actions和Actions网络配置设置无法正常工作的问题。我们已确认修复,正在将其部署到生产中。另一个更新将在未来30分钟内共享。
四月9,19时43分联合技术公司
更新-我们继续努力解决存储库无法启用Actions和Actions网络配置设置无法正常工作的问题。我们将很快提供更多信息。
四月9,19:06联合技术公司
更新-我们知道存储库无法启用Actions的问题。我们正在恢复全部功能,稍后将提供更多信息。
四月9,18:36联合技术公司
调查-我们正在调查行动性能下降的报告
四月9,18:36联合技术公司
断然的-2024年4月9日,在UTC 04:32和05:10之间,Github Packages发生了中断,特别影响了NPM Package的下载功能。在此期间,所有下载NPM包的尝试均失败。经调查,我们发现NPM注册表中最近的代码更改是根本原因。客户影响仅限于NPM注册表的用户,对其他注册表没有影响。

我们通过回滚有问题的更改来缓解事件。我们正在跟进维修项目,以弥补我们的可观察性差距,并在CI流程中实施措施,以便在此类故障影响客户之前及早检测到此类故障。

四月9,05:10联合技术公司
更新-我们正在调查有关下载NPM包的问题的报告。我们将继续让用户了解缓解措施的最新进展。
四月9,04:51联合技术公司
调查-我们目前正在调查这个问题。
四月9,04:32联合技术公司
四月8,2024

未报告任何事件。

四月7,2024

未报告任何事件。

四月6,2024
断然的-2024年4月6日,在00:00:00 UTC和02:20:05 UTC之间,对*.Pages.github.io域上的私人页面的访问被降级,而部署的TLS证书已过期。通过将更新的证书上载到我们的CDN,服务已恢复。这是由于一个过程错误和我们的警报中存在漏洞。虽然在我们的内部保险库中更新了证书,但它没有部署到CDN。

我们正在努力减少证书续订过程中出现错误的可能性,并将*.pages.github.io域添加到现有的TLS警报系统中。

四月6,02:22联合技术公司
更新-我们正在调查由于证书过期导致的私人页面问题
四月6,01:52联合技术公司
调查-我们正在调查Pages性能降低的报告
四月6,01:52联合技术公司
四月5,2024
断然的-2024年4月5日,在UTC 8:11至8:58之间,许多GitHub服务降级,返回错误响应。Web请求错误率峰值为6%,API请求错误率最高为10%。操作有103660个工作流运行无法启动。

数据库负载平衡器的更改导致我们三个数据中心之一与各种关键数据库集群的连接失败。一旦该更改被回滚,事件得到缓解。

我们已经更新了部署管道,以便在部署的早期阶段更好地检测此问题,以减少对最终用户的影响。

四月5,09:18联合技术公司
更新-Pull Requests运行正常。
四月5,09:17联合技术公司
更新-问题运行正常。
四月5,09:17联合技术公司
更新-API请求运行正常。
四月5,09:17联合技术公司
更新-代码空间运行正常。
四月5,09:17联合技术公司
更新-操作正常。
四月5,09:17联合技术公司
更新-页面运行正常。
四月5,09:17联合技术公司
更新-操作性能降低。我们正在继续调查。
四月5,09:17联合技术公司
更新-我们已经恢复了一个我们认为导致此问题的更改,看到了错误减少的初步迹象,并正在监视是否完全恢复
四月5,09:00联合技术公司
更新-页面性能下降。我们正在继续调查。
四月5,08:59联合技术公司
更新-我们在三个站点中的两个站点中看到一些数据库的连接失败,正在进行调查。
四月5,08:51联合技术公司
更新-拉取请求的性能降低。我们正在继续调查。
四月5,08:50联合技术公司
更新-问题出现性能降级。我们正在继续调查。
四月5,08:49联合技术公司
更新-API请求的性能降低。我们正在继续调查。
四月5,08:49联合技术公司
更新-代码空间的性能降低。我们正在继续调查。
四月5,08:49联合技术公司
调查-我们正在调查Actions可用性降低的报告
四月5,08:33联合技术公司
断然的-此事件已得到解决。
四月5,08:53联合技术公司
调查-我们目前正在调查这个问题。
四月5,08:31联合技术公司
断然的-此事件已得到解决。
四月5,08:48联合技术公司
更新-问题、API请求、Pull请求和代码空间运行正常。
四月5,08:48联合技术公司
更新-代码空间的性能降低。我们正在继续调查。
四月5,08:36联合技术公司
更新-拉取请求的性能降低。我们正在继续调查。
四月5,08:34联合技术公司
更新-API请求的性能降低。我们正在继续调查。
四月5,08:32联合技术公司
调查-我们正在调查问题性能降低的报告
四月5,08:28联合技术公司