Scrapy 1.6文档

本文档包含您需要了解的有关Scrapy的所有信息。

获得帮助

遇到麻烦？我们想帮忙！

试试常见问题 - 它有一些常见问题的答案。
寻找具体信息？尝试索引或模块索引。
使用scrapy标签在StackOverflow中提问或搜索问题。
在Scrapy子板块中询问或搜索问题。
搜索scrapy用户邮件列表的档案问题。
在#scrapy IRC频道中提问。
在我们的issues跟踪器中提交Scrapy的bug。

第一步

了解Scrapy是什么以及它如何帮助您。

在您的计算机上安装Scrapy。

写下您的第一个Scrapy项目。

通过使用预设的Scrapy项目了解更多信息。

基本概念

命令行工具

学习用于管理您的Scrapy项目的命令行工具。

编写规则以抓取您的网站。

使用XPath从网页中提取数据。

在交互式环境中测试您的提取代码。

定义您要爬取的数据。

使用提取的数据填充您的Items。

后期处理并存储您已爬取的数据。

使用不同的格式和存储输出您的已爬取的数据。

请求和响应

理解用于表示HTTP请求和响应的类。

链接提取器

方便的类，用于从页面中提取关联链接。

设置

学习如何配置Scrapy并查看所有可用设置。

异常

查看所有可用的异常情况及其含义。

内置服务

日志记录(Logging)

学习如何在Scrapy上使用Python的内置日志记录。

收集统计信息

收集有关您正在爬取的爬虫的统计信息。

发送电子邮件

发生特定事件时发送电子邮件通知。

Telnet控制台

使用内置的Python控制台检查正在运行的爬虫。

网络服务

使用Web服务监视和控制爬虫。

解决具体问题

获得最常见问题的答案。

学习如何调试scrapy爬虫的常见问题。

学习如何使用合同来测试您的爬虫。

熟悉一些Scrapy的常见做法。

Tune Scrapy可以并行抓取大量域名。

使用浏览器的开发者工具进行抓取

学习如何使用浏览器的开发者工具。

调试内存溢出

学习如何查找和清除爬虫中的内存溢出。

下载和处理文件及图像

下载与已爬取Items关联的文件和或图像。

部署爬虫

部署Scrapy爬虫并在远程服务器中运行它们。

AutoThrottle扩展

根据负载动态调整爬虫速率。

标杆管理

检查Scrapy如何在您的硬件上执行。

Jobs：暂停和恢复抓取

学习如何暂停和恢复大型爬虫的抓取。

扩展Scrapy

了解Scrapy架构。

自定义页面的请求和下载。

自定义您的爬虫的输入和输出。

使用您的自定义功能扩展Scrapy

在扩展和中间件上使用它来扩展Scrapy功能

信号

查看所有可用信号以及如何使用它们。

Item导出

快速将您已爬取的items导出到文件（XML，CSV等）。

其他

查看最近Scrapy版本中的变化。

学习如何为Scrapy项目做出贡献。

了解Scrapy版本控制和API稳定性。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Files

index.md

index.md

Scrapy 1.6文档

获得帮助

第一步

基本概念

内置服务

解决具体问题

扩展Scrapy

其他

Collapse file tree

Files

index.md

Latest commit

History

index.md

File metadata and controls

Scrapy 1.6文档

获得帮助

第一步

基本概念

内置服务

解决具体问题

扩展Scrapy

其他