网络第5域

GitHub实施更严格的风控规则阻止中文用户访问 疑似是为了反爬虫和反抓取

字号+作者:蓝点网 来源:蓝点网 2025-04-29 14:25 评论(创建话题) 收藏成功收藏本文

早前GitHub因为失误部署了屏蔽所有中国IP地址的规则,中国IP地址访问时会出现禁止访问提示,随后GitHub更新规则并解释是部署错误,更新规则后中国IP地址可以'...

早前GitHub因为失误部署了屏蔽所有中国IP地址的规则,中国IP地址访问时会出现禁止访问提示,随后GitHub更新规则并解释是部署错误,更新规则后中国IP地址可以重新访问。LAL品论天涯网

LAL品论天涯网

如果之前是失误那现在肯定就是故意的了,GitHub部署的新规则会对用户语言进行检查,如果用户使用的是中文(仅限zh_CN)则可能会触发限制而被限制访问,不过从情况来看GitHub应该是为了反爬虫的(例如某SDN无差别拉取GitHub上的项目搬到自家平台)。LAL品论天涯网

从测试情况来看GitHub将多个条件整合用来触发限制,例如首先检查GitHub的常规规则(包括黑名单IP和UA),然后检测IP地址质量,以上两个条件全部通过后再检查第三个条件,也就是浏览器请求头的语言部分是否包含zh_CN,如果检测到用户使用的中文则会返回错误。LAL品论天涯网

也就是说GitHub并没有针对特定区域的IP进行封禁,如果用户IP质量没问题的话则不会触发语言检测,因此如果用户使用企业代理软件访问GitHub的话就可能因为IP地址质量差(脏IP)而触发语言检测。LAL品论天涯网

从这些情况来看GitHub大概率是为了反爬虫和反抓取,目前大量AI爬虫对GitHub疯狂抓取用来训练模型,这种抓取行为不仅会给GitHub服务器造成负担,也会浪费大量流量造成GitHub成本增加。LAL品论天涯网

如果用户并非爬虫并且访问受到影响,那也可以进行针对性的解决:LAL品论天涯网

1.简单方法就是直接修改请求头将语言修改为en_US等其他未被限制的语言LAL品论天涯网

2.更换质量更好的IP地址避免触发风控,当然更换IP地址可能会增加潜在使用成本LAL品论天涯网

不过针对语言的检测很容易被绕过,接下来GitHub很有可能会观察情况并对修改语言的行为进行检测,毕竟反爬虫是个长期工作,GitHub也只能根据爬虫的情况进行针对性的策略调整实现封禁。LAL品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]