Skip to content

szcf-weiya/SinaSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Sep 10, 2017
5555ccb · Sep 10, 2017

History

7 Commits
Mar 3, 2017
Feb 6, 2017
Sep 10, 2017
Mar 3, 2017
Feb 6, 2017
Feb 6, 2017
Feb 6, 2017
Feb 6, 2017
Feb 6, 2017
Feb 6, 2017
Feb 6, 2017
Feb 6, 2017
Feb 6, 2017
Mar 3, 2017
Feb 6, 2017

Repository files navigation

SinaSpider

动态IP解决新浪的反爬虫机制,快速抓取微博内容。

Background

抓取1000个公司(在companyList.py文件中)五年内相关的微博,进而统计评论数、转发数、点赞数等等。

Environment

  • Python2.7
  • winxp服务器(通过某宝购买,关键是ADSL拨号功能,不然无法实现动态IP,也就解决不了新浪的反爬虫机制)

Results

  • 每个公司五年内的微博(通过sqlite3存储)

    下面截图为company0000.db的微博。

  • 所有公司微博评论数、转发数、点赞数的统计(excel形式呈现)

References

刚刚(Sun Sep 10 07:51:46 CST 2017)在整理浏览器的书签,因为自己习惯性会把觉得有用的网页存储为书签,所以日积月累,书签的数量已经十分庞大,决定清理一下。清理之前把那些与此项目的网页书签贴在这里吧

  1. 模拟登录新浪微博(Python)
  2. Python验证码识别处理实例 - Python - 伯乐在线
  3. Python验证码识别处理实例 - 林炳文Evankaka的专栏 - CSDN博客
  4. 爬虫怎么解决封IP? - 知乎
  5. 爬虫ip代理服务器的简要思路 - 京东放养的爬虫 - CSDN博客
  6. 关于使用动态轮训切换ip防止爬虫被封杀
  7. python爬虫-爬取代理IP并通过多线程快速验证
  8. OpenCV-Python教程(5、初级滤波内容)
  9. 字符型图片验证码识别完整过程及Python实现
  10. Linux IP代理筛选系统(shell+proxy)
  11. SQLite 连接两个字符串
  12. 取得sqlite数据库里所有的表名 &复制表
  13. python - Beautifulsoup and AJAX-table problem - Stack Overflow
  14. python - How to enable digits only in pytesser? - Stack Overflow
  15. Python 文件读写操作实例详解

About

动态IP解决新浪的反爬虫机制,快速抓取内容。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages