中文相关问题

编码和中文字幕 OCR

您好，尝试用这个项目提取视频的硬字幕，可是在运行的时候出现了问题，可否帮忙排查一下

UnicodeEncodeError: 'gbk' codec can't encode character '\u20ac' in position 20: illegal multibyte sequence

啊，欢迎欢迎，很久没有非广告通知的来信了。提取字幕的Python脚本是我从外国学校开源的项目改的，不过我也的确是完全重写了所以不存在问题，看来是可以多写点用例免得不会用了。

看起来是写入文件时的编码失败问题，试试打卡终端（用户环境配置）设置一个环境变量 PYTHONIOENCODING = UTF-8 ，也是我代码没注意到定义这个。

提取中文字幕的话你需要给 Tesseract OCR 装 chi_sim 的数据包，当然一般都是黑色字幕识别效果好所以得做一个反色，不知道你仔细阅读文档没有。

数据包在这里下载，可以选择第一项，在 GitHub repo 里存储的数据包，国内用户怕是下载相当慢……

不过这里有个窍门：可以用为Linux打包的版本，国内有各大开源大学的代理镜像，不过你要用7zip压缩软件从打包里解压出.tessdata或.traineddata才行。

请去ArchLinuxCN，从这里下载压缩文件并把上面提到的数据包文件存入OCR引擎安装目录的相应位置。