Giter Club home page Giter Club logo

Comments (11)

wenlihaoyu avatar wenlihaoyu commented on August 11, 2024 2

这和移植没有多大关系,darnnet 框架下也有rnn层,CNN层已经能够很好去表征,为什么还要用rnn呢?

from darknet-ocr.

deep-practice avatar deep-practice commented on August 11, 2024

还有text.cfg,最后输出40,想知道1)检测思路是什么 2)基于什么样的标注训练的呢

from darknet-ocr.

Johnson-yue avatar Johnson-yue commented on August 11, 2024

@deep-practice you should read YOLO paper for the detail

from darknet-ocr.

deep-practice avatar deep-practice commented on August 11, 2024

Yolo这个我知道,但是作者是如何定义输入输出的,这个没看明白 @Johnson-yue

from darknet-ocr.

wenlihaoyu avatar wenlihaoyu commented on August 11, 2024

text输出:HW40,H=imgH/16,W=imgW/16 (imgH,imgW为输入图像的长、宽)
40= len(anchors)*4 ,意思就是每个点设置了10个anchors,4 = (0.5,0.8,0.0, 0.9)表示(box 的cy,h box的二分类概率),也可以是 len(anchors)*3,那么二分类概率变为logistic即可,然后构造数据训练。
ocr就是CNN网络,最后一层的filters就是需要识别的字符集,卷积核为(1,1),外加一个CTC损失函数去训练模型,预测不需要CTC。

from darknet-ocr.

deep-practice avatar deep-practice commented on August 11, 2024

想问一下,ocr模型效果好么,比crnn主干网络精简了很多,同时去掉了rnn @wenlihaoyu

from darknet-ocr.

Junan007 avatar Junan007 commented on August 11, 2024

之前测试的情况是去掉bilstm后速度变快,但精度有所下降。最主要的是去掉rnn层后好移植。不知道作者是不是出于这个原因才去掉rnn的。

from darknet-ocr.

wenlihaoyu avatar wenlihaoyu commented on August 11, 2024

去掉bilstm怎么可能会变慢,全CNN层会快很多,加入了dense层吧?目前基于全CNN训练,对于中文识别准确率大概在96.5%左右,速度也快,对于发票识别比crnn模型要好很多。

from darknet-ocr.

Junan007 avatar Junan007 commented on August 11, 2024

去掉bilstm怎么可能会变慢,全CNN层会快很多,加入了dense层吧?目前基于全CNN训练,对于中文识别准确率大概在96.5%左右,速度也快,对于发票识别比crnn模型要好很多。

对的,最后一层使了全连接来做的分类,效果要差一些。我训练出来的模型达不到你的这个精度。想了解一下训练集是什么规模?合成数据和真实数据大概是什么样的比例。

from darknet-ocr.

BigPandaCPU avatar BigPandaCPU commented on August 11, 2024

这和移植没有多大关系,darnnet 框架下也有rnn层,CNN层已经能够很好去表征,为什么还要用rnn呢?

您好,请问一下,这里的ocr该如何训练呢?我可以这样理解吗? 标注数据还是对该图片(当行的文本图片),进行标注,在训练的时候对输入的图像直接CNN,去掉后面的rnn,得到一个NxClasses(需要识别的字典的个数)的数组,然后对这个N*Classes的数据进行CTC_loss;测试的时候,是对这个NxClassses的每一个i(i=0,2,...,N),进行分类,然后对其进行去重,去空格,得到最后的识别出的字符串。

from darknet-ocr.

BigPandaCPU avatar BigPandaCPU commented on August 11, 2024

这和移植没有多大关系,darnnet 框架下也有rnn层,CNN层已经能够很好去表征,为什么还要用rnn呢?

您好,请问一下,这里的ocr该如何训练呢?我可以这样理解吗? 标注数据还是对该图片(当行的文本图片),进行标注,在训练的时候对输入的图像直接CNN,去掉后面的rnn,得到一个NxClasses(需要识别的字典的个数)的数组,然后对这个N*Classes的数据进行CTC_loss;测试的时候,是对这个NxClassses的每一个i(i=0,2,...,N),进行分类,然后对其进行去重,去空格,得到最后的识别出的字符串。

如果是这样的话,那训练用的cfg文件就是在你这测试的cfg文件的后面,添加计算ctc_loss的部分。你那有关于这个ocr训练的cfg文件,能给我们参考一下吗?

from darknet-ocr.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.