Comments (11)
这和移植没有多大关系,darnnet 框架下也有rnn层,CNN层已经能够很好去表征,为什么还要用rnn呢?
from darknet-ocr.
还有text.cfg,最后输出40,想知道1)检测思路是什么 2)基于什么样的标注训练的呢
from darknet-ocr.
@deep-practice you should read YOLO paper for the detail
from darknet-ocr.
Yolo这个我知道,但是作者是如何定义输入输出的,这个没看明白 @Johnson-yue
from darknet-ocr.
text输出:HW40,H=imgH/16,W=imgW/16 (imgH,imgW为输入图像的长、宽)
40= len(anchors)*4 ,意思就是每个点设置了10个anchors,4 = (0.5,0.8,0.0, 0.9)表示(box 的cy,h box的二分类概率),也可以是 len(anchors)*3,那么二分类概率变为logistic即可,然后构造数据训练。
ocr就是CNN网络,最后一层的filters就是需要识别的字符集,卷积核为(1,1),外加一个CTC损失函数去训练模型,预测不需要CTC。
from darknet-ocr.
想问一下,ocr模型效果好么,比crnn主干网络精简了很多,同时去掉了rnn @wenlihaoyu
from darknet-ocr.
之前测试的情况是去掉bilstm后速度变快,但精度有所下降。最主要的是去掉rnn层后好移植。不知道作者是不是出于这个原因才去掉rnn的。
from darknet-ocr.
去掉bilstm怎么可能会变慢,全CNN层会快很多,加入了dense层吧?目前基于全CNN训练,对于中文识别准确率大概在96.5%左右,速度也快,对于发票识别比crnn模型要好很多。
from darknet-ocr.
去掉bilstm怎么可能会变慢,全CNN层会快很多,加入了dense层吧?目前基于全CNN训练,对于中文识别准确率大概在96.5%左右,速度也快,对于发票识别比crnn模型要好很多。
对的,最后一层使了全连接来做的分类,效果要差一些。我训练出来的模型达不到你的这个精度。想了解一下训练集是什么规模?合成数据和真实数据大概是什么样的比例。
from darknet-ocr.
这和移植没有多大关系,darnnet 框架下也有rnn层,CNN层已经能够很好去表征,为什么还要用rnn呢?
您好,请问一下,这里的ocr该如何训练呢?我可以这样理解吗? 标注数据还是对该图片(当行的文本图片),进行标注,在训练的时候对输入的图像直接CNN,去掉后面的rnn,得到一个NxClasses(需要识别的字典的个数)的数组,然后对这个N*Classes的数据进行CTC_loss;测试的时候,是对这个NxClassses的每一个i(i=0,2,...,N),进行分类,然后对其进行去重,去空格,得到最后的识别出的字符串。
from darknet-ocr.
这和移植没有多大关系,darnnet 框架下也有rnn层,CNN层已经能够很好去表征,为什么还要用rnn呢?
您好,请问一下,这里的ocr该如何训练呢?我可以这样理解吗? 标注数据还是对该图片(当行的文本图片),进行标注,在训练的时候对输入的图像直接CNN,去掉后面的rnn,得到一个NxClasses(需要识别的字典的个数)的数组,然后对这个N*Classes的数据进行CTC_loss;测试的时候,是对这个NxClassses的每一个i(i=0,2,...,N),进行分类,然后对其进行去重,去空格,得到最后的识别出的字符串。
如果是这样的话,那训练用的cfg文件就是在你这测试的cfg文件的后面,添加计算ctc_loss的部分。你那有关于这个ocr训练的cfg文件,能给我们参考一下吗?
from darknet-ocr.
Related Issues (20)
- 这个能支持繁体识别吗
- Centos7 可以在Python里面调用吗?
- 什么时候可以支持opencv dnn模型? HOT 2
- 提取一张图片需要10多秒,这个速度能不能优化下,太慢了哇 HOT 3
- 利用docker镜像服务把识别结果保存到本地(不需要编译GPU) HOT 1
- 如何使用多个gpu呢(默认是gpu:0)
- english/ocr.weights not found 404
- GPU out of
- 请问几个基本参数scale等的含义
- 想问下作者为什么不保存为pytorch模型?方便加载啊
- 训练代码
- 没有api接口么
- 请问没有英文权重吗? HOT 2
- 个别png图片报“识别异常”的错,转成jpg又可以了。啥原因,有更好的解决办法吗? HOT 2
- 模型下载不了,能传个网盘吗? HOT 1
- darknet-ocr CPU版本和GPU版本docker镜像都已完成 HOT 3
- ocr技术交流群 HOT 1
- 关于模型结构 HOT 1
- 可以出个c/C++调用例程不? HOT 1
- 这个项目会有chineseocr的内存泄露问题吗
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from darknet-ocr.