本 GitHub 仓库上传了一款中文金融情感词典
,该词典来自姜富伟、孟令超、唐国豪,“媒体文本情绪与股票回报预测”,《经济学(季刊)》,2021年第4期,第1323-1344页
。在尊重知识产权的前提下,读者可以免费使用该词典,请引用下列文献:
- Fuwei Jiang, Joshua Lee, Xiumin Martin, and Guofu Zhou.“Manager Sentiment and Stock Returns” Journal of Financial Economics 132(1), 2019,126-149
- 姜富伟、孟令超、唐国豪,“媒体文本情绪与股票回报预测”,《经济学(季刊)》,2021年第4期,第1323-1344页。
构建中文金融情感词典的两大素材是英文金融词典(LM词典)以及现有的中文通用情感词典,我们将把英文LM金融词典转化为对应的中文版本(洋为中用
),并从中文通用情感词典中筛选出在金融语境下仍然适用的情感词汇(古为今用
),这两部分词语是中文金融情感词典的重要组成部分。为了避免金融情感词语的遗漏,我们利用word2vec算法
(一种深度学习算法)从语料中找到与前两部分词语高度相关并且具有合适情感倾向的词语,从而实现扩充词典的目的。最后,将上述三种方法得到的词语合并去除,得到最终的中文金融情感词典。在古为今用部分,为了避免不同通用情感词典之间特征差异的影响,同时也为了保证词语的完备性,我们将三个应用程度较为广泛的词典(知网HowNet情感词典、清华大军李军词典以及台湾大学NTUSD词典) 合并去重,以此作为所使用的通用情感词典。
完整词典共9228个词语,其中消极词语共5890词,积极词语共3338词。
消极词语部分 (5890) | ||
---|---|---|
来源 | 词语数量 | |
LM词典中文翻译 | 1562 | |
通用词典筛选 | Tsinghua词典 | 1945 |
知网词典 | 534 | |
NTUSD词典 | 1243 | |
Word2vec词典扩充 | 606 | |
积极词语部分 (3338) | ||
来源 | 词语数量 | |
LM词典中文翻译 | 458 | |
通用词典筛选 | Tsinghua词典 | 1928 |
知网词典 | 304 | |
NTUSD词典 | 255 | |
Word2vec词典扩充 | 393 |
下表中展示了中文金融情感词典三个来源中的代表性词语。LM词典中文翻译中的词语多为金融领域的专有词汇,与金融相关极为密切,这部分词语在通用情感词典中是极为少见的。通用情感词典筛选得到的词语则多为日常语境中常见的情感词汇,这些词汇在金融语境下仍然出现概率较大,而且情感意义保持一致,因此也被纳入到金融情感词典中。word2vec词典扩充得到的词语则为前两部分词语的有力补充。与LM词典中文翻译词语相比,这一部分词语与金融语境也有很强的相关性,但是词语的口语化与习语化特征更为明显,而LM词典的翻译词语则相对更加正式。通过表中词语特征,我们可以看出,LM词典中文翻译、通用情感词典筛选与word2vec词典扩充三部分词语特征差别较大,它们互为补充,共同构成了一个完善的中文金融情感词典。
词语倾向 | 来源 | 词语 | 词语倾向 | 来源 | 词语 |
---|---|---|---|---|---|
负向词语 | LM词典中文翻译 | 跌 | 正向词语 | LM词典中文翻译 | 涨 |
被降级的 | 晋升 | ||||
管理不善 | 先发优势 | ||||
旷工 | 独家经营 | ||||
漏税 | 超额完成 | ||||
通用情感词典筛选 | 诽谤 | 通用情感词典筛选 | 一帆风顺 | ||
担心 | 井然有序 | ||||
艰苦 | 可靠的 | ||||
薄弱 | 合法的 | ||||
惩罚 | 完美 | ||||
Word2vec词典扩充 | 败下阵来 | Word2vec词典扩充 | 爱岗敬业 | ||
变相涨价 | 大好时机 | ||||
操作失误 | 高回报 | ||||
炒鱿鱼 | 绝对优势 | ||||
大跌眼镜 | 可喜成绩 |
更多细节请参见论文:姜富伟、孟令超、唐国豪,“媒体文本情绪与股票回报预测”,《经济学(季刊)》,2021年第4期,第1323-1344页。
.