基于Python的数据采集系统
- 浏览器自动化采集(使用Playwright)- 分布式任务处理(Celery)
- 网页内容解析工具
- 基于LLM的内容解析引擎(LangChain集成)
- 支持多种大模型接口: - OpenAI兼容API
- Ollama本地模型
- 最低支持7B参数模型(如DeepSeek-r1:7b)
- 网页自动化防检测机制(集成playwright-stealth)
- 可视化任务管理界面(Streamlit)
- Python 3.9+
- Playwright浏览器
- 支持CUDA的GPU(可选,用于加速LLM推理)
- 内存建议:至少8GB(使用本地LLM时建议16GB+)
- 安装依赖:
pip install -r requirements-3.in
playwright install
-
创建.env配置文件:
在项目根目录新建.env文件,内容如下:
# 大语言模型配置
MODEL_TYPE=ollama
MODEL=deepseek-r1:8b
OPENAI_API_KEY=
BASE_URL=http://localhost:11434 # Ollama默认地址
# 分布式任务队列
REDIS_URL=redis://127.0.0.1:6379/0
- 启动主服务:
./start.bat
- 启动爬虫工作进程:
./start_worker.bat
- 启动Web管理界面:
streamlit run webui.py
├── app/
│ ├── api/ # API接口模块
│ ├── core/ # 核心功能
│ ├── utils/ # 工具函数
│ └── router/ # 路由配置
├── tests/ # 单元测试
├── main.py # 主入口
├── worker.py # Celery worker
└── webui.py # Web管理界面
使用requirements-3.in管理依赖,生成虚拟环境:
python -m venv .venv
详细文档见docs目录(待完成)
本项目采用 MIT 许可证 - 详情请见 LICENSE 文件
欢迎提交Pull Request。请确保:
- 遵守PEP8编码规范
- 添加对应的单元测试
- 更新相关文档