Giter Club home page Giter Club logo

achados-epedidos-ocr-extractor's People

Contributors

pauloeducampos avatar studiocuboweb avatar

Watchers

 avatar  avatar  avatar

achados-epedidos-ocr-extractor's Issues

FILES_PATH está estranho

aparentemente ele exige que o diretório seja terminado por / em alguns lugares. exemplo: /mnt/achados/ em vez de /mnt/achados

vision inacessível?

Se eu não configuro o BUCKET_PATH, ele devolve:
[25-Jun-2021 01:34:29 UTC] PHP Fatal error: Uncaught Google\ApiCore\ApiException: { "message": "Invalid gcs prefix provided in request input_config.gcs_source.uri field. Valid prefixes must start with 'gs:\/\/'.", "code": 3, "status": "INVALID_ARGUMENT", "details": [] }

Se eu configuro:
[25-Jun-2021 01:49:03 UTC] PHP Fatal error: Uncaught Google\ApiCore\ApiException: { "message": "Error opening file: gs:\/\/achados-e-pedidos-bucket\/pedidos\/Resumodaconclusodorelatrio204392_1.pdf.", "code": 5, "status": "NOT_FOUND", "details": [] }

Mas imagino que o ideal seria verificar como implementar essas coisas sem usar URLs do bucket na Google.

Procedimentos para testar o OCR na Azure

Arquivo de teste:
https://transparencia-achados.azurewebsites.net/uploads/pedidos/Governo%20do%20Estado%20de%20Minas%20Gerais/01370000012201583_resp_recurso1_BARRAGEM_FUNDAO_BDA.pdf

  1. Entrar na busca do site e digitar em " " para fazer a busca pela frase toda:
    "Previsão para Término ou Término de Operação da Barragem"

Vai retornar: Nada foi encontrado para o termo: "Previsão para Término ou Término de Operação da Barragem"

Significa que o arquivo ainda não foi indexado.

  1. Rodar o comando:
docker-compose run app php indexador.php 154764

Onde 154764 é a chave primaria (Codigo.pedidos_anexos) do registro do arquivo na base Mysql

Deve aparecer no log (exemplo com outro Código 154777):

PHP Warning:  mysqli::mysqli(): Headers and client library minor version mismatch. Headers:50562 Library:50647 in /home/paulo_campos/vision-api/indexador
.php on line 105
Warning: mysqli::mysqli(): Headers and client library minor version mismatch. Headers:50562 Library:50647 in /home/paulo_campos/vision-api/indexador.php 
on line 105
Relatório será gerado em:/mnt/achados-e-pedidos-bucket/RltIndexador-21-06-2021-22-10.csv
Anexos há processar: 1
Fetch Lote: 0 = 0 / 100
Iniciando o processamento: 
 Código: 154777 
Caminho: /mnt/achados-e-pedidos-bucket/pedidos/Governo do Estado de Minas Gerais/01220000002201561_resposta_Contratos_STI_-_assinados_e_em_vigor_2012_a_2
015.xlsx
Avaliando como EXCEL
/mnt/achados-e-pedidos-bucket/pedidos/Governo do Estado de Minas Gerais/01220000002201561_resposta_Contratos_STI_-_assinados_e_em_vigor_2012_a_2015.xlsx 
 -> analisando... 
1368 celulas analisadas, texto: 46620
Indexando: Governo do Estado de Minas Gerais/01220000002201561_resposta_Contratos_STI_-_assinados_e_em_vigor_2012_a_2015.xlsx
Indexando: http://www.achadosepedidos.org.br:8080/api/anexos/extractor-update/154777
Conteudo: [CONTEUDO DO ARQUIVO]. (Pode ser uma longa string)
Anexo Indexado!

Repare na ultima frase: Anexo Indexado!

Se aparecer algum problema, pode ser que o sistema esteja funcionando, mas o OCR não conseguiu ler o arquivo por exemplo.

  1. Repetir a busca do item 1. Dessa vez o resultado deve aparecer.

Caminho ao drive azure não está montado e precisa de permissão de escrita no Google Cloud

@wgnann

Já trocamos o acesso ao Google Bucket para o Azure bucket (o acesso é através do drive montado dentro do servidor do google).

problemas:

  1. A pasta /mnt/drive-azure não está mais montada. Creio que um restart na máquina desfez o mount. Um ls -la na pasta não está retornando a listagem de pastas e arquivos
    Screen Shot 2021-07-19 at 10 42 23

  2. Será necessário permissão de escrita no bucket da azure montado para armazenamento de arquivos de log.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.