Skip to content

斗图表情包爬虫,爬取数万个表情包,一辈子都用不完

Notifications You must be signed in to change notification settings

JIMhackKING/doutu

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 

Repository files navigation

斗图表情包爬虫

介绍

从网上提供的 API 爬取数万个表情包图片,包括 jpg 和 gif 两种格式,采用分爬虫管理,分别有关键字爬虫,图片链接爬虫和图片爬虫三个部分,可以分别执行,数据保存方式分别为文件保存和 mongodb 保存,在图片爬虫中采用了多进程爬取,加快了爬虫速度,每套表情包分别用一个文件夹来保存,爬取的图片总大小约10G,爬虫参数可以任意更改以爬取更多的图片或者更少的图片。

Requirements

  • requests
  • bs4
  • pymongo

Environment

python3

About

斗图表情包爬虫,爬取数万个表情包,一辈子都用不完

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages