Skip to content
This repository was archived by the owner on May 6, 2021. It is now read-only.

Files

Latest commit

325b8e3 · May 28, 2019

History

History
216 lines (105 loc) · 6.46 KB

index.md

File metadata and controls

216 lines (105 loc) · 6.46 KB

Scrapy 1.6文档

本文档包含您需要了解的有关Scrapy的所有信息。

获得帮助

遇到麻烦?我们想帮忙!

第一步

Scrapy初探

​ 了解Scrapy是什么以及它如何帮助您。

安装指南

​ 在您的计算机上安装Scrapy。

Scrapy教程

​ 写下您的第一个Scrapy项目。

例子

​ 通过使用预设的Scrapy项目了解更多信息。

基本概念

命令行工具

​ 学习用于管理您的Scrapy项目的命令行工具。

爬虫(Spiders)

​ 编写规则以抓取您的网站。

选择器(Selectors)

​ 使用XPath从网页中提取数据。

Scrapy shell

​ 在交互式环境中测试您的提取代码。

Items

​ 定义您要爬取的数据。

Item Loaders(加载器)

​ 使用提取的数据填充您的Items。

Item Pipeline(管道)

​ 后期处理并存储您已爬取的数据。

原料输出

​ 使用不同的格式和存储输出您的已爬取的数据。

请求和响应

​ 理解用于表示HTTP请求和响应的类。

链接提取器

​ 方便的类,用于从页面中提取关联链接。

设置

​ 学习如何配置Scrapy并查看所有可用设置

异常

​ 查看所有可用的异常情况及其含义。

内置服务

日志记录(Logging)

​ 学习如何在Scrapy上使用Python的内置日志记录。

收集统计信息

​ 收集有关您正在爬取的爬虫的统计信息。

发送电子邮件

​ 发生特定事件时发送电子邮件通知。

Telnet控制台

​ 使用内置的Python控制台检查正在运行的爬虫。

网络服务

​ 使用Web服务监视和控制爬虫。

解决具体问题

经常问的问题

​ 获得最常见问题的答案。

调试爬虫

​ 学习如何调试scrapy爬虫的常见问题。

爬虫合同

​ 学习如何使用合同来测试您的爬虫。

常见做法

​ 熟悉一些Scrapy的常见做法。

通用爬虫

​ Tune Scrapy可以并行抓取大量域名。

使用浏览器的开发者工具进行抓取

​ 学习如何使用浏览器的开发者工具。

调试内存溢出

​ 学习如何查找和清除爬虫中的内存溢出。

下载和处理文件及图像

​ 下载与已爬取Items关联的文件和或图像。

部署爬虫

​ 部署Scrapy爬虫并在远程服务器中运行它们。

AutoThrottle扩展

​ 根据负载动态调整爬虫速率。

标杆管理

​ 检查Scrapy如何在您的硬件上执行。

Jobs:暂停和恢复抓取

​ 学习如何暂停和恢复大型爬虫的抓取。

扩展Scrapy

架构概述

​ 了解Scrapy架构。

下载中间件

​ 自定义页面的请求和下载。

爬虫中间件

​ 自定义您的爬虫的输入和输出。

扩展

​ 使用您的自定义功能扩展Scrapy

核心API

​ 在扩展和中间件上使用它来扩展Scrapy功能

信号

​ 查看所有可用信号以及如何使用它们。

Item导出

​ 快速将您已爬取的items导出到文件(XML,CSV等)。

其他

发行说明

​ 查看最近Scrapy版本中的变化。

为Scrapy做贡献

​ 学习如何为Scrapy项目做出贡献。

版本控制和API稳定性

​ 了解Scrapy版本控制和API稳定性。

下一个