Skip to content

一个可以批量爬取指定搜狗问问问题链接,下载并转换为.md格式的python脚本。

Notifications You must be signed in to change notification settings

arthurfsy2/sougouwenwen_crawler_tool

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

一个可以批量爬取你个人账号的搜狗问问-我的提问/我的回答,下载并转换为.md格式的python脚本。

(一个关于你青春黑历史的备份)

特点:

1、可识别 wenwen.sogou.com/question/XXX的内容

2、可抓取提问、回答的图片,并将官网屏蔽不显示的图片展示出来(详见 sougouwenwen_fetch_toolwapm-注释

3、导出在线图片链接、本地图片链接2个版本的 .MD文档

注: 1、本项目仅用于个人搜狗问问的个人提问、回答内容的备份

使用:

  1. configBAK.json修改为 script/config.json

  2. 登陆搜狗问问-打开”我的提问“,按下F12按键,打开开发者模式。

  3. 选择“my-list?my-list?tp=10"开头的网页,复制标头中的请求URL()、Cookie,分别填入到 script/config.json文件当中的"questionUrl"、"Cookie"当中,并将”我的提问“的总页数填入到"questionPageNum"“字段当中

    img

    img

  4. 打开”我的回答“,按下F12按键,打开开发者模式。选择“my-list?my-list?tp=20"开头的网页,复制标头中的请求URL()、填入到 script/config.json文件当中的"answerUrl"当中(Cookie可以用“我的提问”的),并将”我的回答“的总页数填入到"answerPageNum"字段当中

  5. 修改 script/config.json的"nickname"(配合vuepress使用,对应frontmatter的 category:$nickname

  6. 在项目当前目录运行 py ./script/sougouwenwen_fetch_tool.py,运行后,生成以下文件: 1) 生成2个list_xx.md、2个merge_xx.md文件,2个merge_xx_local.md文件分别对应提问/回答列表及各个页面的详细内容合并(如果有图片,则分为在线图片、本地图片2个版本)。 2) 下载对应的图片到./output/PicDownload目录。

可选功能:

  1. vuepress模板:

    可以修改 ./template目录下的2个模板的frontmatter(配合vuepress使用,可将处理后的.md作为vuepress的页面展示) 运行 py ADDfrontmatter.py,即可将添加好frontmatter内容的文件添加到 Download2文件夹

About

一个可以批量爬取指定搜狗问问问题链接,下载并转换为.md格式的python脚本。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages