毕业设计的爬虫模块, 琉璃神社爬虫, 新浪微博爬虫, 等后续是面向于游戏方面的资讯
- 第一次时需要,与团队仓库建立联系
git remote add upstream https://github.com/ghost-of-fantasy/crawler.git
- 工作前后要运行这几条命令,和团队项目保持同步
git fetch upstream
git merge upstream/master
pip install --upgrade pip
pip install -r requirements.txt
scrapy crawl shenshe
Key | Value |
---|---|
website | 网站的名称 |
url | 文章链接 |
title | 文章内容 |
content | 文章内容 |
category | 文章类型 |
publish_time | 发布时间 |
像是新浪微博这样的,是账号越多越好
- 先爬取个人信息
- 将这个人所关注的人也加到待爬序列中
微博用户(放在redis的List里面)
Key | Value |
---|---|
user_id | 用户ID |
nickname | 用户昵称; |
weibo_num | 微博数; |
following | 关注数; |
followers | 粉丝数; |
关系网络(放在redis的List里面)
Key | Value |
---|---|
user_id | 用户ID |
follow_id | 他关注的用户ID |
微博内容(放在redis的List里面)
Key | Value |
---|---|
user_id | 用户ID |
weibo_content | 存储用户的所有微博 |
weibo_place | 存储微博的发布位置 |
publish_time | 存储微博的发布时间 |
up_num | 存储微博获得的点赞数 |
retweet_num | 存储微博获得的转发数 |
comment_num | 存储微博获得的评论数 |
publish_tool | 存储微博的发布工具 |
- 17173 https://www.17173.com/
- 巴哈姆特電玩資訊站 https://www.gamer.com.tw/
- 3dmgame https://www.3dmgame.com/news/
- 电玩巴士 https://www.tgbus.com/
- 游侠网 https://www.ali213.net/
- 游民星空 https://www.gamersky.com/news/
- 机核网 https://www.gcores.com/news
- 漫资讯 https://www.dongmanzx.com/
- acg批评 http://www.acgpiping.net/
- 半次元 https://bcy.net/
- 果壳网 https://www.guokr.com/scientific/
- 178网游 http://www.178.com/
$ cd ..
$ tar -czvf crawler.tar.gz --exclude=crawler/venv --exclude=crawler/media --exclude=crawler/.git crawler
- scrapy-redis
- 小白进阶之Scrapy第三篇(基于Scrapy-Redis的分布式以及cookies池)
- 如何简单高效地部署和监控分布式爬虫项目
- news-please
- who did what, when, where, why, and how?
- 台湾新闻爬虫
- 基于给定事件关键词,采集事件资讯,对事件进行挖掘和分析。
- An array field in scrapy.Item
- Scrapy 使用写死的cookie 来爬需要登录的页面
- 新浪微博爬虫,用python爬取新浪微博数据
- scrapy爬取新浪微博+cookie池
- How to set a primary key in MongoDB?
- Logging
- settings
- item-pipeline
- 使用 privoxy 转发 socks 到 http
- Make Scrapy work with socket proxy
- Python向redis批量插入数据