🕷️ Python爬虫练习

欢迎来到哈雷编程爬虫练习！这里有20个关卡，从基础到进阶，帮助你掌握Python爬虫技术。

📖 使用说明

每个关卡都有明确的任务目标和提示
建议按顺序完成，循序渐进
可以使用 requests、BeautifulSoup、lxml 等库
遇到困难可以查看提示信息

🎓 新增：课程配套练习

根据《Python爬虫课程》设计的10个专项练习

进入课程配套练习 →

🎯 第一阶段：HTML基础（1-5关）

⭐ 入门

第1关：文本提取入门

学习如何提取网页中的标题和段落文本

⭐ 入门

第2关：列表数据提取

提取无序列表中的动物名称

⭐ 入门

第3关：表格数据提取

从表格中提取学生成绩数据

⭐ 入门

第4关：链接提取

提取页面中的所有超链接

⭐⭐ 基础

第5关：多级页面爬取

从列表页进入详情页获取数据

🎯 第二阶段：常见场景（6-10关）

⭐⭐ 基础

第6关：分页数据爬取

爬取多页的图书数据

⭐⭐ 基础

第7关：图片链接提取

提取页面中的图片链接

⭐⭐ 基础

第8关：嵌套结构处理

处理复杂的HTML嵌套结构

⭐⭐ 基础

第9关：CSS选择器

使用class和id定位元素

⭐⭐ 基础

第10关：属性提取

提取HTML标签的属性值

🎯 第三阶段：动态内容（11-15关）

⭐⭐⭐ 进阶

第11关：JSON API

爬取返回JSON格式的API接口

⭐⭐⭐ 进阶

第12关：带参数请求

使用查询参数进行搜索

⭐⭐⭐ 进阶

第13关：POST请求

提交表单数据获取结果

⭐⭐⭐ 进阶

第14关：Cookie处理

学习如何携带Cookie访问

⭐⭐⭐ 进阶

第15关：Session保持

模拟登录并保持会话

🎯 第四阶段：反爬虫应对（16-20关）

⭐⭐⭐⭐ 高级

第16关：User-Agent检测

设置正确的浏览器标识

⭐⭐⭐⭐ 高级

第17关：Referer检查

设置正确的来源页面

⭐⭐⭐⭐ 高级

第18关：频率限制

控制请求速度避免封禁

⭐⭐⭐⭐ 高级

第19关：动态加载内容

处理延迟加载的数据

⭐⭐⭐⭐⭐ 挑战

第20关：综合挑战

综合运用所有技巧

💡 学习建议

1. 每完成一个关卡，建议保存你的代码作为参考

2. 可以使用 Jupyter Notebook 或 Python 脚本进行练习

3. 遇到问题时，先查看网页源代码，理解HTML结构

4. 善用浏览器的开发者工具（F12）查看网络请求