forked from shawnsky/extract-subtitles
-
Notifications
You must be signed in to change notification settings - Fork 4
中文相关问题
duangsuse edited this page Jul 27, 2020
·
5 revisions
您好,尝试用这个项目提取视频的硬字幕,可是在运行的时候出现了问题,可否帮忙排查一下
UnicodeEncodeError: 'gbk' codec can't encode character '\u20ac' in position 20: illegal multibyte sequence
啊,欢迎欢迎,很久没有非广告通知的来信了。 提取字幕的Python脚本是我从外国学校开源的项目改的,不过我也的确是完全重写了所以不存在问题,看来是可以多写点用例免得不会用了。
看起来是写入文件时的编码失败问题,试试打卡终端(用户环境配置)设置一个环境变量 PYTHONIOENCODING = UTF-8
,也是我代码没注意到定义这个。
提取中文字幕的话你需要给 Tesseract OCR 装 chi_sim 的数据包,当然一般都是黑色字幕识别效果好所以得做一个反色,不知道你仔细阅读文档没有。
数据包在这里下载,可以选择第一项,在 GitHub repo 里存储的数据包,国内用户怕是下载相当慢……
不过这里有个窍门:可以用为Linux打包的版本,国内有各大开源大学的代理镜像,不过你要用7zip压缩软件从打包里解压出.tessdata
或.traineddata
才行。
请去ArchLinuxCN,从这里下载压缩文件并把上面提到的数据包文件存入OCR引擎安装目录的相应位置。