Giter Club home page Giter Club logo

Comments (11)

AlphatoBeta avatar AlphatoBeta commented on July 17, 2024 2

已经推荐到小众软件了https://www.appinn.com/umi-ocr/

from umi-ocr.

hiroi-sora avatar hiroi-sora commented on July 17, 2024 1

另外,是否会考虑增加对飞浆V3模型的支持(官网说V3的英文场景提升11%,对于批量识别英文书籍,速度提升应该是可感知的) :)

v1.2.6 已支持并默认附带V3版模型。

新版本的速度确实比前代有明显提升,不管识别哪种语言,都有20%以上的耗时减少。但这似乎不是V3模型的功劳,而是Paddle团队优化 C++ 识别引擎的结果,代码做了相当多的调整(搞得我也要跟着重构😂)。新版引擎对V2模型依然有同样的提速效果~

V3模型最大的优势是准确度提高了,很多V2认不出来的小字、扭曲字形,V3可以搞定。

from umi-ocr.

hiroi-sora avatar hiroi-sora commented on July 17, 2024 1

对于v3效果的疑问我们可以再深入交流一下,可以进一步改善你的程序体验。

哈哈,欢迎PP官方的回复! @Evezerest

当时我测出“V3模型效果比V2差”,是使用 PPOCR-v2.1 版的c++引擎。现在我的项目已经跟进升级为了 v2.6 版引擎,这个版本对V3的适配性没有任何问题,V3不会弱于V2。相反,V3 模型的识别率在各个方面(det,rec)都显著强于V2。感谢PP团队的工作!

在打包exe的时候预测的时候有没有设置enable_mkldnn=true

@LDOUBLEV

这个项目使用的是C++引擎,我已经设了 enable_mkldnn 的默认值为true。经过测试,它确实有极大的加速效果,即使是在AMD上。

在 v2.6 引擎下,无论V2还是V3模型的速度都远胜于 v2.1 引擎。但是,引擎初始化和加载模型的时间比前代长(从1s变慢到近2s),内存占用也比前代有显著提高(代码里已开启了内存优化 config.EnableMemoryOptim() )。尤其是 v3 slim 模型,在 v2.6 引擎下占用内存极高,可能存在问题。

两位可以看一下我的 效率测试

from umi-ocr.

AlphatoBeta avatar AlphatoBeta commented on July 17, 2024

另外,是否会考增加对飞浆V3模型的支持(官网说V3的英文场景提升11%,对于批量识别英文书籍,速度提升应该是可感知的) :)

from umi-ocr.

hiroi-sora avatar hiroi-sora commented on July 17, 2024

功能建议:增加读取剪贴板功能

如你所愿。已在v1.2.3版加入。

(其实我之前也想做这个功能。但主要咱家PaddleOCR-json只支持读硬盘中的文件,而我希望截图的话直接读内存更好,优雅一点……)

嘛算了,现在还是先缓存到硬盘再调用识别。凑合凑合😂

from umi-ocr.

hiroi-sora avatar hiroi-sora commented on July 17, 2024

是否会考虑增加对飞桨V3模型的支持

(Update:v1.2.6 已默认使用V3模型。)

v1.2.3 的原回复:

看了一下,V3模型和V2在使用上是通用的,PaddleOCR-json可以直接升级,替换模型文件即可。但是实测效果没有想象中好。

在耗时上,虽然官方说中文场景效果相比于PP-OCRv2再提升5%。但是经多次测试,都是v3时间更长。见下图,左为v3,右为v2。

image8b0cdefc2599dc4a.png

在识别精度上,v3的优点是对小字的识别率更高,部分v2忽略的小字也会检测出来。见下图,左为v3,素材中“快速存档”“快速读档”等字也被框住了;而v2没有。(推测,就是因为v3增加了对小字的检测率,所以要花费更长时间来识别更多内容。)

imagefbbaa438605d43c4.png

但是,对于常规大小的文字段落,v3的识别率反而更差:错字、漏字比v2显著增加。简单挑了几个段落:

v3 v2
支配耆 支配者
七传说 七夕传说
冉于轻微的动 由于轻微的晃动
集中真的很强 集中力真的很强
不知廉的孩子 不知廉耻的孩子
星也会点点地移动 星星也会一点点地移动

所以,我感觉v3现在还不太稳定,不打算换~

from umi-ocr.

AlphatoBeta avatar AlphatoBeta commented on July 17, 2024

已经更新,识别剪贴板十分好用

from umi-ocr.

ranqianchen avatar ranqianchen commented on July 17, 2024

是真的好用!
还有是否能新增一个“自动复制识别内容”的功能啊,求求了!

from umi-ocr.

hiroi-sora avatar hiroi-sora commented on July 17, 2024

@ranqianchen

是否能新增一个“自动复制识别内容”的功能

小意思,已加

from umi-ocr.

Evezerest avatar Evezerest commented on July 17, 2024

但是,对于常规大小的文字段落,v3的识别率反而更差:错字、漏字比v2显著增加。简单挑了几个段落:

你好,我是PaddleOCR的PM,对于v3效果的疑问我们可以再深入交流一下,可以进一步改善你的程序体验。方便的话可以微信扫描下方二维码,进群后a一下群主;或者通过邮件[email protected]联系

from umi-ocr.

LDOUBLEV avatar LDOUBLEV commented on July 17, 2024

@hiroi-sora

看了一下,V3模型和V2在使用上是通用的,PaddleOCR-json可以直接升级,替换模型文件即可。但是实测效果没有想象中好。

在耗时上,虽然官方说中文场景效果相比于PP-OCRv2再提升5%。但是经多次测试,都是v3时间更长。见下图,左为v3,右为v2。

hello,关于V3性能的问题,请教下,在打包exe的时候预测的时候有没有设置enable_mkldnn=true,设置这个参数在比较好的intel硬件上会提升比较明显,官方说的『PP-OCRv2再提升5%』也是开启mkldnn后测试的结果;如果可以,麻烦提供下你的硬件和系统版本,我们也会尽快验证性能变慢问题的原因。

from umi-ocr.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.