Skip to content

Latest commit

 

History

History
99 lines (56 loc) · 6.09 KB

File metadata and controls

99 lines (56 loc) · 6.09 KB

零、前言

互联网是一个充满有趣信息和见解的地方,等待着人们去收集。就像金块一样,这些零碎的数据片段可以被收集、过滤、组合和提炼,从而产生极其有价值的产品。有了正确的知识、技能和一点创造力,你就可以建立一个网络刮板,为数十亿美元的公司提供动力。为了支持这一点,您需要为这项工作使用最好的工具,从一种为速度、简单性和安全性而构建的编程语言开始。

Go 编程语言结合了其前辈的最佳思想和前沿思想,省去了不必要的琐碎,从而产生了一套锋利的工具和干净的体系结构。有了 Go 标准库和来自开源贡献者的项目,您就拥有了构建任意大小的 web 刮板所需的一切。

这本书是给谁的

这本书是为任何有一点编码经验的人谁是好奇如何建立一个快速有效的网络刮板

这本书涵盖的内容

第 1 章介绍了网页抓取和 Go,说明了什么是网页抓取,以及如何安装 Go 编程语言和工具。

第 2 章请求/响应循环概述了 HTTP 请求和响应的结构,并说明了如何使用 Go 来生成和处理它们。

第 3 章网页抓取礼仪解释了如何构建一个网页抓取器,该抓取器使用最佳实践和建议高效抓取网页,同时尊重他人。

第 4 章解析 HTML展示了如何使用各种工具解析 HTML 页面中的信息。

第 5 章网页抓取导航展示了高效浏览网站的最佳方式。

第 6 章保护您的网络刮板介绍了如何使用各种工具安全地浏览互联网。

第 7 章带并发爬取介绍了 Go 并发模型,并说明了如何构建高效的 web 爬取器。

第 8 章以 100x的速度进行爬虫,提供了构建大型 web 爬虫器的蓝图,并提供了一些开源社区的示例。

充分利用这本书

为了从这本书中获得最大的收获,你应该熟悉你的终端或命令提示符,确保你有一个良好的互联网连接,并阅读每一章,即使你认为你已经知道它。这本书的读者应该保持开放的心态,他们认为网络刮板应该如何行动,他们应该学习当前的最佳实践和适当的礼仪。本书还重点介绍了 Go 编程语言,包括安装、基本命令、标准库和包管理,因此对 Go 的一些熟悉将有所帮助,因为本书从广义上介绍了该语言,并且只深入到 web 抓取所需的深度。为了能够运行本书中的大部分代码,读者应该熟悉他们的终端或命令提示符,以便运行示例和其他任务。

下载示例代码文件

您可以从您的账户www.packt.com下载本书的示例代码文件。如果您在其他地方购买了本书,您可以访问www.packt.com/support并注册,将文件通过电子邮件直接发送给您。

您可以通过以下步骤下载代码文件:

  1. 登录或注册www.packt.com
  2. 选择“支持”选项卡
  3. 点击代码下载和勘误表
  4. 在搜索框中输入图书名称,然后按照屏幕上的说明进行操作

下载文件后,请确保使用以下最新版本解压或解压缩文件夹:

  • WinRAR/7-Zip for Windows
  • 适用于 Mac 的 Zipeg/iZip/UnRarX
  • 适用于 Linux 的 7-Zip/PeaZip

该书的代码包也托管在 GitHub 上的https://github.com/PacktPublishing/Go-Web-Scraping-Quick-Start-Guide 。如果代码有更新,它将在现有 GitHub 存储库中更新。

我们的丰富书籍和视频目录中还有其他代码包,请访问**https://github.com/PacktPublishing/** 。看看他们!

使用的惯例

本书中使用了许多文本约定。

CodeInText:表示文本中的码字、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟 URL、用户输入和 Twitter 句柄。下面是一个示例:“这是使用net/http包的默认 HTTP 客户端来请求index.html资源。”

代码块设置如下:

POST /login HTTP/1.1
Host: myprotectedsite.com
Content-Type: application/x-www-form-urlencoded
Content-Length: 38

username=myuser&password=supersecretpw

任何命令行输入或输出的编写方式如下:

go run main.go

粗体:表示一个新术语、一个重要单词或您在屏幕上看到的单词。例如,菜单或对话框中的单词出现在文本中,如下所示。下面是一个示例:“在这种情况下,您将收到一个 500 Internal Server Error 的状态代码。”

警告或重要提示如下所示。

提示和技巧如下所示。

联系

我们欢迎读者的反馈。

一般反馈:如果您对本书的任何方面有疑问,请在邮件主题中注明书名,并发送电子邮件至customercare@packtpub.com

勘误表:尽管我们已尽一切努力确保内容的准确性,但还是会出现错误。如果您在本书中发现错误,如果您能向我们报告,我们将不胜感激。请访问www.packt.com/submit-errata,选择您的书籍,点击 errata 提交表单链接,并输入详细信息。

盗版:如果您在互联网上发现我们作品的任何形式的非法复制品,请您提供我们的位置地址或网站名称,我们将不胜感激。请通过copyright@packt.com与我们联系,并提供该材料的链接。

如果您有兴趣成为一名作家:如果您对某个主题有专业知识,并且您有兴趣撰写或贡献一本书,请访问authors.packtpub.com

评论

请留下评论。一旦你阅读并使用了这本书,为什么不在你购买它的网站上留下评论呢?然后,潜在读者可以看到并使用您的无偏见意见做出购买决定,我们 Packt 可以了解您对我们产品的看法,我们的作者可以看到您对他们书籍的反馈。非常感谢。

有关 Packt 的更多信息,请访问Packt.com