统计数据集合

译者：OSGeo 中国

Scrapy提供了一种方便的工具，可以以键/值的形式收集统计信息，其中值通常是计数器。该工具称为stats collector，可以通过 stats 的属性爬虫API ，如中的示例所示常用统计信息收集器使用下面部分。

但是，stats collector始终可用，因此无论stats集合是否启用，您都可以将其导入模块并使用其API（以增加或设置新的stat键）。如果它被禁用，API仍然可以工作，但它不会收集任何东西。这是为了简化StatsCollector的用法：在spider、scrappy扩展名或从中使用StatsCollector的任何代码中，收集统计信息的代码不应超过一行。

StatsCollector的另一个特性是，它在启用时非常高效，在禁用时非常高效（几乎不明显）。

stats收集器为每个打开的spider保留一个stats表，该表在spider打开时自动打开，在spider关闭时关闭。

常用统计信息收集器使用

通过访问Stats Collector stats 属性。以下是访问统计信息的扩展示例：

class ExtensionThatAccessStats(object):

    def __init__(self, stats):
        self.stats = stats

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler.stats)

设置统计值：

stats.set_value('hostname', socket.gethostname())

增量统计值：

stats.inc_value('custom_count')

仅当大于上一个值时设置stat值：：

stats.max_value('max_items_scraped', value)

仅当低于上一个时设置stat值：：

stats.min_value('min_free_memory_percent', value)

获取统计值：

>>> stats.get_value('custom_count')
1

获取所有统计数据：

>>> stats.get_stats()
{'custom_count': 1, 'start_time': datetime.datetime(2009, 7, 14, 21, 47, 28, 977139)}

可用的统计信息收集器

除了基本的 StatsCollector Scrapy中还有其他可用的统计数据收集器，它们扩展了基本统计数据收集器。您可以通过 STATS_CLASS 设置。使用的默认统计信息收集器是 MemoryStatsCollector .

MemoryStatsCollector

class scrapy.statscollectors.MemoryStatsCollector

一个简单的统计信息收集器，它在关闭后将上次（每个 Spider ）抓取运行的统计信息保存在内存中。可以通过 spider_stats 属性，它是由 Spider 域名键入的dict。

这是Scrapy中使用的默认统计信息收集器。

spider_stats

包含每个 Spider 最后一次抓取运行的统计信息的dict的dict（由 Spider 名称键控）。

DummyStatsCollector

class scrapy.statscollectors.DummyStatsCollector

一个只做非常有效的统计数据收集器（因为它什么也不做）。此统计信息收集器可以通过 STATS_CLASS 设置，以禁用统计信息收集以提高性能。但是，与其他零碎的工作负载（如解析页面）相比，统计数据收集的性能损失通常是微乎其微的。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Files

22.md

22.md

统计数据集合

常用统计信息收集器使用

可用的统计信息收集器

MemoryStatsCollector

DummyStatsCollector

Collapse file tree

Files

22.md

Latest commit

History

22.md

File metadata and controls

统计数据集合

常用统计信息收集器使用

可用的统计信息收集器

MemoryStatsCollector

DummyStatsCollector