Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

请教一下第5章发票识别的数据合成 #28

Open
YFZh opened this issue Nov 25, 2020 · 1 comment
Open

请教一下第5章发票识别的数据合成 #28

YFZh opened this issue Nov 25, 2020 · 1 comment

Comments

@YFZh
Copy link

YFZh commented Nov 25, 2020

作者大大,在第5章提到发票识别系统中,首先需要清洗一批发票,抹去其中的文字,然后使用常用的字体····。想请教以下几个问题:
1.这样合成的数据要用在检测和识别两个阶段吗?
2.需要的语料怎么获取。有没有相关的资源共享呢?
3.清洗发票时,需要抹去所有文字吗?如果是这样的话,原始字段有些特殊的格式,比如换行/比较大的字符间距等,这样的话如何控制字段生成呢?
4.发票字段生成的方法论?发票识别与通用文字识别不同,比如增值税发票,其原始的字段分布是服从一定规则的。
5.发票中有的字段的字符距离较大:导致被检测成两部分。有什么解决办法,或者好的后处理方法呢

@liushuchun
Copy link
Contributor

你好,读者。我尝试给您一些答复:
1.主要用在识别阶段,如果是票据类的检测还是相对容易的,标注几百张一般就能work,识别需要的数据集就要大太多了.
2.语料需要根据具体的业务进行搜集,可以先在通用的wiki等语聊用来训练,然后在自己的数据规则进行针对性的训练.
3. 可以尽量抹去,生成的时候可以相对随意一些,可以增强模型的鲁棒性.
4. 方法论,还是要多观察数据的规则和分布进行仿真,最好在通用模型上,增加自己的数据集,这样finetune出来的模型更加稳定.
5.字符距离较大,可以有几种方式解决。举个例子,可以尝试:
一种使用后期的规则进行合并,根据识别结果计算nlp中的概率和方位坐标进行合并;这种方式存在不少问题,不太好维护。
第二种方式是通过网络的方法,可以使用anchor的方法,多标注这类数据,增加这类数据的召回能力,这种方式也存在问题,容易把不该连在一起的搞在一起。

# for free to join this conversation on GitHub. Already have an account? # to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants