本文档包含您需要了解的有关Scrapy的所有信息。
遇到麻烦?我们想帮忙!
- 试试常见问题 - 它有一些常见问题的答案。
- 寻找具体信息?尝试索引或模块索引。
- 使用scrapy标签在StackOverflow中提问或搜索问题。
- 在Scrapy子板块中询问或搜索问题。
- 搜索scrapy用户邮件列表的档案问题。
- 在#scrapy IRC频道中提问。
- 在我们的issues跟踪器中提交Scrapy的bug。
了解Scrapy是什么以及它如何帮助您。
在您的计算机上安装Scrapy。
写下您的第一个Scrapy项目。
通过使用预设的Scrapy项目了解更多信息。
学习用于管理您的Scrapy项目的命令行工具。
编写规则以抓取您的网站。
使用XPath从网页中提取数据。
在交互式环境中测试您的提取代码。
定义您要爬取的数据。
使用提取的数据填充您的Items。
后期处理并存储您已爬取的数据。
使用不同的格式和存储输出您的已爬取的数据。
理解用于表示HTTP请求和响应的类。
方便的类,用于从页面中提取关联链接。
学习如何配置Scrapy并查看所有可用设置。
查看所有可用的异常情况及其含义。
学习如何在Scrapy上使用Python的内置日志记录。
收集有关您正在爬取的爬虫的统计信息。
发生特定事件时发送电子邮件通知。
使用内置的Python控制台检查正在运行的爬虫。
使用Web服务监视和控制爬虫。
获得最常见问题的答案。
学习如何调试scrapy爬虫的常见问题。
学习如何使用合同来测试您的爬虫。
熟悉一些Scrapy的常见做法。
Tune Scrapy可以并行抓取大量域名。
学习如何使用浏览器的开发者工具。
学习如何查找和清除爬虫中的内存溢出。
下载与已爬取Items关联的文件和或图像。
部署Scrapy爬虫并在远程服务器中运行它们。
根据负载动态调整爬虫速率。
检查Scrapy如何在您的硬件上执行。
学习如何暂停和恢复大型爬虫的抓取。
了解Scrapy架构。
自定义页面的请求和下载。
自定义您的爬虫的输入和输出。
使用您的自定义功能扩展Scrapy
在扩展和中间件上使用它来扩展Scrapy功能
查看所有可用信号以及如何使用它们。
快速将您已爬取的items导出到文件(XML,CSV等)。
查看最近Scrapy版本中的变化。
学习如何为Scrapy项目做出贡献。
了解Scrapy版本控制和API稳定性。