内卷必备:爬取 CSCORE 的所有题目

前言

相信大家已经注意到了计组课程网站的题目标号总是形如 /problem?ProblemId=114514&PieId=1919810,观察可知 ProblemId 是题号,PieId 是课程编号,修改这两个参数得到的反馈也验证了这个想法。这种有规律的命名简直就是天生为了爬虫准备的!考虑到修改课程编号不太现实,遍历题号就成了我们爬取的首选项了。

笔者已经实现了一个样例,你可以在 https://github.com/AOSTL/CrawlOnCscore 找到源码。

安全告示

爬虫是一个在课程组规则、法律规则的灰色地带的行为,请确保你的行为不会影响网站的正常运行,同时请不要无视网站管理者的意愿进行爬虫!

本文仅作为技术交流使用,由于滥用爬虫招致的后果笔者不负一切责任!