Skip to content

MengLingchao/Chinese_financial_sentiment_dictionary

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 

Repository files navigation

中文金融情感词典

本 GitHub 仓库上传了一款中文金融情感词典,该词典来自姜富伟、孟令超、唐国豪,“媒体文本情绪与股票回报预测”,《经济学(季刊)》,2021年第4期,第1323-1344页。在尊重知识产权的前提下,读者可以免费使用该词典,请引用下列文献:

  • Fuwei Jiang, Joshua Lee, Xiumin Martin, and Guofu Zhou.“Manager Sentiment and Stock Returns” Journal of Financial Economics 132(1), 2019,126-149
  • 姜富伟、孟令超、唐国豪,“媒体文本情绪与股票回报预测”,《经济学(季刊)》,2021年第4期,第1323-1344页。

词典构建方法

构建中文金融情感词典的两大素材是英文金融词典(LM词典)以及现有的中文通用情感词典,我们将把英文LM金融词典转化为对应的中文版本(洋为中用),并从中文通用情感词典中筛选出在金融语境下仍然适用的情感词汇(古为今用),这两部分词语是中文金融情感词典的重要组成部分。为了避免金融情感词语的遗漏,我们利用word2vec算法(一种深度学习算法)从语料中找到与前两部分词语高度相关并且具有合适情感倾向的词语,从而实现扩充词典的目的。最后,将上述三种方法得到的词语合并去除,得到最终的中文金融情感词典。在古为今用部分,为了避免不同通用情感词典之间特征差异的影响,同时也为了保证词语的完备性,我们将三个应用程度较为广泛的词典(知网HowNet情感词典、清华大军李军词典以及台湾大学NTUSD词典) 合并去重,以此作为所使用的通用情感词典。

中文金融情感词典构建方法

词典信息

完整词典共9228个词语,其中消极词语共5890词,积极词语共3338词。

消极词语部分 (5890)
来源 词语数量
LM词典中文翻译 1562
通用词典筛选 Tsinghua词典 1945
知网词典 534
NTUSD词典 1243
Word2vec词典扩充 606
积极词语部分 (3338)
来源 词语数量
LM词典中文翻译 458
通用词典筛选 Tsinghua词典 1928
知网词典 304
NTUSD词典 255
Word2vec词典扩充 393

词语示例

下表中展示了中文金融情感词典三个来源中的代表性词语。LM词典中文翻译中的词语多为金融领域的专有词汇,与金融相关极为密切,这部分词语在通用情感词典中是极为少见的。通用情感词典筛选得到的词语则多为日常语境中常见的情感词汇,这些词汇在金融语境下仍然出现概率较大,而且情感意义保持一致,因此也被纳入到金融情感词典中。word2vec词典扩充得到的词语则为前两部分词语的有力补充。与LM词典中文翻译词语相比,这一部分词语与金融语境也有很强的相关性,但是词语的口语化与习语化特征更为明显,而LM词典的翻译词语则相对更加正式。通过表中词语特征,我们可以看出,LM词典中文翻译、通用情感词典筛选与word2vec词典扩充三部分词语特征差别较大,它们互为补充,共同构成了一个完善的中文金融情感词典。

词语倾向 来源 词语 词语倾向 来源 词语
负向词语 LM词典中文翻译 正向词语 LM词典中文翻译
被降级的 晋升
管理不善 先发优势
旷工 独家经营
漏税 超额完成
通用情感词典筛选 诽谤 通用情感词典筛选 一帆风顺
担心 井然有序
艰苦 可靠的
薄弱 合法的
惩罚 完美
Word2vec词典扩充 败下阵来 Word2vec词典扩充 爱岗敬业
变相涨价 大好时机
操作失误 高回报
炒鱿鱼 绝对优势
大跌眼镜 可喜成绩

更多细节请参见论文:姜富伟、孟令超、唐国豪,“媒体文本情绪与股票回报预测”,《经济学(季刊)》,2021年第4期,第1323-1344页。.

Releases

No releases published

Packages

No packages published