中文识别率不高问题

Question

请问下，我这边数字识别精度挺好的，中文识别率为何这么低，而且我的字典里就19个特定的中文字，图片像素也调过，训练数据也产生了1000多w的，是否需要调节模型一些参数？还是c

zhiqwang · Answer

数据和现在训练使用的模型参数大概是什么？

peiji1981 · Answer

densenet121，其他参数基本默认，loss可以下去，但valid data不好，数据的话是一条条中文大写金额

zhiqwang · Answer

先把模型换成 densenet_cifar 试一下呢,

peiji1981 · Answer

好的，我想再问下，空格是无需打上label吧？

zhiqwang · Answer

不需要

zhiqwang · Answer

BTW, --height, --width

peiji1981 · Answer

thx, 这个之前注意到了，现在在trainning过程中，validation acc就不高 ，真实数据train 2000多张，test200张，densenet121

zhiqwang · Answer

先换成 densenet_cifar 跑一下。如果 validate 的数据和 train 的差距不大，2

peiji1981 · Answer

我之前在你代码基础上加入了多gpu模式可以了，transformer 的 mean, std 是需要做什么样的修改？

zhiqwang · Answer

使用 train 的数据的 mean 和 std

peiji1981 · Answer

不好意思，可能初学不是特别明白，transform 的 mean 和 std 统计的是什么？

zhiqwang · Answer

我描述可能不太清楚。是使用的图片的均值和方差, 在 main.py 的这 <a href="https://github.com/zhiqwang/crnn.pytorch

peiji1981 · Answer

代码位置我看到了，参考代码也看了下，可以简单理解为图片像素的均值和方差吗？然后现在main中的的mean 和std 是加载模型自带的值吗

zhiqwang · Answer

是的， crnn.py 里面我写了我自己一个数据的 mean 和

peiji1981 · Answer

嗯，在前面做下归一化，图像预处理部分。如果target 的像素分布和source 相似的话，是有用额

peiji1981 · Answer

您这边能否share一个比较好的 图片数据增广的code， 我之前是用了text_render文本生成图片，我还想找适合crnn训练用的, 能给定一个图片，然后通过各种变化

zhiqwang · Answer

peiji1981 · Answer

Augmentor这个不错，就是没有色彩、对比度这种的变换
第二个用起来比较重

zhiqwang · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

peiji1981 · Answer

造了点数据有一定提升，嗯我更新下CTCLOSS

中文识别率不高问题 about sightseq HOT 20 CLOSED