Retirando facilmente texto de imagem com Python.
- Pré requisitos: Python e Tesseract
$ git clone https://github.com/hideraldus13/ocr_python_fast_track.git
$ cd ocr_python_fast_track
$ pip install -r requirements.txt
//Comandos para Windows. Linux ou Mac não sei como funciona, mas é por aí.
$ python ocr.py
Veja que a saída no console é o texto da imagem teste.png disponível neste repositório.
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path
- Procure no arquivo ocr.py o comando:
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
- Altere o valor para o local onde o Tesseract foi instalado
pytesseract.pytesseract.tesseract_cmd = r'SEU CAMINHO AQUI\tesseract.exe'
Neste repositório há também o arquivo preprocessing.py que traz algumas rotinas de preparação da imagem com o OpenCV, para melhorar a performance do OCR. Utilize do código comentado em ocr.py e brinque à vontade. 🎁