Giter Club home page Giter Club logo

Comments (5)

cmmp avatar cmmp commented on May 26, 2024

Eu executei o código nessa base nova, mas aparentemente alguma coisa estranha aconteceu. Gerei o arquivo do sqlite usando o código:

qsacnpj::gerar_bd_cnpj(path_arquivos_txt = "D:/qsa_cnpj",
                       localizar_cnpj = "NAO",
                       n_lines = 100000,
                       armazenar = "sqlite")

Porém o número de cnpjs está um pouco estranho. Na base mais recente disponível no repositório, eu tinha 43.887.581 cnpjs na tabela cnpj_dados_cadastrais_pj. Depois que executei o código na nova base da receita tenho 75.941.044 entradas na tabela, porém apenas 42.375.755 entradas distintas - select count(distinct(cnpj)) from cnpj_dados_cadastrais_pj vs select count(cnpj) from cnpj_dados_cadastrais_pj;. Imagino que as entradas por cnpj deveriam ser todas distintas nessa tabela, não?

O que poderia ter ocorrido?

obrigado

from qsacnpj.

cmmp avatar cmmp commented on May 26, 2024

@georgevbsantiago olhando um pouco mais a fundo, encontrei muitos registros duplicados, porém eles apresentam as seguintes diferenças, p. ex.

image

trata-se de um mesmo CNPJ.

Outros registros estão simplesmente duplicados na tabela mesmo, sem diferenças em alguns campos.

from qsacnpj.

georgevbsantiago avatar georgevbsantiago commented on May 26, 2024

Olá, @cmmp , até o próximo final de semana, disponibilizarei a nova base de dados do CNPJ tratada. Em relação aos problemas enfrentados por você durante a execução do código, não conseguiria indicar a causa, pois precisaria de diversas informações sobre a sua máquina (Windows ou Linux) e a versão dos pacotes R que vocês está utilizando.

from qsacnpj.

cmmp avatar cmmp commented on May 26, 2024

Olá @georgevbsantiago !

Show!

A máquina que usei foi esta aqui:

R version 3.6.3 (2020-02-29)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 20.04 LTS

Matrix products: default
BLAS:   /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.9.0
LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.9.0

locale:
 [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C
 [3] LC_TIME=en_US.UTF-8        LC_COLLATE=en_US.UTF-8
 [5] LC_MONETARY=en_US.UTF-8    LC_MESSAGES=en_US.UTF-8
 [7] LC_PAPER=en_US.UTF-8       LC_NAME=C
 [9] LC_ADDRESS=C               LC_TELEPHONE=C
[11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base

other attached packages:
[1] qsacnpj_0.1.9

loaded via a namespace (and not attached):
[1] compiler_3.6.3 magrittr_1.5

Instalei o pacote do github usando o remotes.

abs

from qsacnpj.

georgevbsantiago avatar georgevbsantiago commented on May 26, 2024

Acabei de realizar o tratamento dos dados.
Ao executar o comando de contagem e contagem de distintos nos números do CNPJ, o SQLite informou o mesmo valor. Ou seja, não foram registrados CNPJ em duplicidade após o tratamento dos dados.
Verifique se você não baixou arquivos repetidos do site da Receita Federal.
Além disso, recomendo utilizar o R 4.0.2 e a última versão dos pacotes do CRAN.

Comandos utilizados para verificar se existem dados duplicados na tabela dos dados cadastrais do CNPJ
SELECT COUNT(cnpj) FROM cnpj_dados_cadastrais_pj
SELECT COUNT(DISTINCT cnpj) FROM cnpj_dados_cadastrais_pj

from qsacnpj.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.