课程设计:jepson
组队学习说明:学习自然语言处理理论,并且通过对某些数据集的文本分类任务不断优化来进行实践。
任务路线:特征提取—>特征选择—>文本表示—>传统机器学习算法跑模型—>LDA生成新特征—>深度学习算法跑模型
定位人群:有Python基础,基本框架的基础(例如TensorFlow、Keras和pyTorch等)!难度系数高
组队学习周期:18天
每个任务完成大概所需时间:3-4h
IMDB数据集下载和探索(参考TensorFlow官方教程)
THUCNews数据集下载和探索(参考博客中的数据集部分和预处理部分)
学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念