Muyi Spider

基于Python的数据采集系统

功能特性

浏览器自动化采集（使用Playwright）- 分布式任务处理（Celery）
网页内容解析工具
基于LLM的内容解析引擎（LangChain集成）
支持多种大模型接口： - OpenAI兼容API
- Ollama本地模型
- 最低支持7B参数模型（如DeepSeek-r1:7b）
网页自动化防检测机制（集成playwright-stealth）
可视化任务管理界面（Streamlit）

环境要求

Python 3.9+
Playwright浏览器
支持CUDA的GPU（可选，用于加速LLM推理）
内存建议：至少8GB（使用本地LLM时建议16GB+）

快速开始

安装依赖：

pip install -r requirements-3.in
playwright install

创建.env配置文件：

在项目根目录新建.env文件，内容如下：

# 大语言模型配置
MODEL_TYPE=ollama
MODEL=deepseek-r1:8b
OPENAI_API_KEY=
BASE_URL=http://localhost:11434  # Ollama默认地址

# 分布式任务队列
REDIS_URL=redis://127.0.0.1:6379/0

启动主服务：

./start.bat

启动爬虫工作进程：

./start_worker.bat

启动Web管理界面：

streamlit run webui.py

项目结构

├── app/
│   ├── api/            # API接口模块
│   ├── core/           # 核心功能
│   ├── utils/          # 工具函数
│   └── router/         # 路由配置
├── tests/              # 单元测试
├── main.py             # 主入口
├── worker.py           # Celery worker
└── webui.py            # Web管理界面

依赖管理

使用requirements-3.in管理依赖，生成虚拟环境：

python -m venv .venv

文档

详细文档见docs目录（待完成）

许可协议

本项目采用 MIT 许可证 - 详情请见 LICENSE 文件

贡献指南

欢迎提交Pull Request。请确保：

遵守PEP8编码规范
添加对应的单元测试
更新相关文档

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Muyi Spider

功能特性

环境要求

快速开始

项目结构

依赖管理

文档

许可协议

贡献指南

Files

README.md

Latest commit

History

README.md

File metadata and controls

Muyi Spider

功能特性

环境要求

快速开始

项目结构

依赖管理

文档

许可协议

贡献指南