Giter Club home page Giter Club logo

qsacnpj's People

Contributors

georgevbsantiago avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

qsacnpj's Issues

Tabelas não Geradas

@georgevbsantiago Executei o comando "qsacnpj::gerar_bd_cnpj(path_arquivos_txt = "D:/qsa_cnpj",localizar_cnpj = "NAO", n_lines = 100000, armazenar = "sqlite")" para avaliar as tabelas criadas.

Entendi que seriam geradas 9 tabelas mas apenas 6 estão disponíveis no banco criado.

Abaixo segue o resultado da execução no R Studio

[1] "Pasta 'bd_cnpj_tratados' criada com sucesso!"
[1] "Iniciando o tratamento e consolidação dos dados do CNPJ. Esse processo pode levar entre 4h a 5h, dependenndo da configuração do computador!"
[1] "Base de Dados do CNPJ gerada com Sucesso! Tabelas geradas: dados_cadastrais_pj, dados_socios_pj e dados_cnae_secundario_pj"
[1] "Adicionando na base a tabela com dados dos Entes Públicos Federais, Estaduais e Municipais!"
[1] "Tabela tab_cnpj_entes_publicos_br gerada com Sucesso!"
[1] "Adicionando na base a tabela com Código e Nome da Qualificação dos Responsáveis!"
[1] "Tabela tab_qualificacao_responsavel_socio gerada com Sucesso!"
[1] "Adicionando na base a tabela com Código e Nome da Situação Cadastral!"
[1] "Tabela tab_situacao_cadastral gerada com Sucesso!"
[1] "Adicionando na base a tabela com Código e Nome da Natureza Jurídica!"
[1] "Tabela tab_natureza_juridica gerada com Sucesso!"
[1] "Adicionando na base a tabela com os CNAEs!"
[1] "Tabela tab_cnae gerada com Sucesso!"
[1] "Adicionando na base a tabela com os Códigos dos Municípios do SIAFI-IBGE!"
[1] "Tabela codigo_municipios_siafi gerada com Sucesso!"
Fim do Processamento: Base de Dados do CNPJ gerada com Sucesso!

O processo em si foi rápido mas não executou o passo de geração das tabelas dados_cadastrais_pj, dados_socios_pj e dados_cnae_secundario_pj" Onde elas podem ser visualizadas? Ou geradas novamente conforme o tempo previsto de 4 a 5 horas. Existe algum erro meu na sintaxe do comando ou podemos estar enfrentando algum problema no pacote QSACNPJ?

Mais uma vez parabéns e agradeço pela ajuda na identificação de algo incorreto que eu possa ter incorrido.
Tela do Banco de Dados QSACNPJ.docx

Alguém conseguiu realizar o download?

Estou tentando realizar o download pelo site do governo, mas é muito lento e acaba tendo problemas no processo. Tem algum outro método que agilize isso, ou alguém consegue disponibilizar?

Link do arquivo CSV quebrado

No arquivo readme o link para download dos arquivos em CSV da última atualização está quebrado. Poderia atualizar com o link correto?

Obrigado!

A receita federal mudou completamento o layout dos arquivos

A receita federal mudou completamente o layout dos arquivos e tambem a pagina de download.
O novo link: https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/cadastros/consultas/dados-publicos-cnpj
Embora o novo layout indique que existe informacao de simples/mei, os arquivos disponibilizados nao tem simples/mei.
Um dos arquivos ( DADOS_CNPJ_EMPRESAS_1.zip ) esta incompleto.
O good news é que os arquivos agora estao em formato csv.

Atualização das base de dados SQL Lite

Boa tarde, primeiramente parabéns pelo projeto, a base de dados gerada é extremamente útil!

Acabei de ver que a base de dados no site da receita foi atualizada recentemente, algum previsão de atualização da base de dados no formato SQL Lite ?

Obrigado pela ajuda e continue com o projeto pois ele é ótimo!

Geração das bases com problema

Bom dia pessoal! Parabéns pelo trabalho que foi realizado, caso consigam solucionar o problema do novo layout, este código será muito útil no meu dia a dia. Infelizmente após baixar toda a base da receita e rodar o programa, ele gerou uma base sqllite com menos de 2GB, o que está aparentemente incorreto. Farei um teste no formato CSV porém creio que não dará certo também se o problema está no layout =(

Muito Útil

A taxa de transmissão do arquivo original da RFB é muito baixa. O tratamento e armazenamento dos dados em sqlite é muito útil para consulta de grande volume de dados. Agradeço a disponibilização do link para download dos dados devidamente estruturados e de fonte confiável.

Enalteço os esforços da comunidade Dados Abertos BR para que essa e outras bases de dados sejam disponibilizadas à sociedade e atualizadas periodicamente.

Quantidade reduzida de CNPJs

Olá!
Antes de tudo, parabéns pela iniciativa e pela qualidade do código. Ficou show!!!

Fiz o download hoje dos dados de CNPJ (a partir do arquivo CSV único) e verifiquei que constam em torno de 20 milhões de CNPJs. Ocorre que aqui no órgão onde trabalho temos uma base de cnpj adquirida em 12/2017 junto ao SERPRO e nessa base constam 36 milhões de CNPJs.

Sabem explicar essa grande diferença? será que algum tipo de empresa não foi incluída na exportação? ou será que houve algum erro no código q fez com que alguns cnpjs não fossem gerados no cvs?

Se souberem alguma explicação, favor me avisem.

Não estou conseguindo gerar a base em CSV

Prezado George,
Primeiramente, muito obrigado por disponibilizar sua contribuição ela me poupará inúmeras horas.

Atualmente estou com dificuldade ma pacote., o mesmo não está gerando todos os arquivos que deveria criar.
Ao rodar ele avisa que a "Base de Dados do CNPJ gerada com Sucesso!", contudo só cria 5 arquivos não gerando os dados_cadastrais_pj, dados_socios_pj e dados_cnae_secundario_pj. Você poderia me ajudar?
Estou gerando numa máquina com 24 processadores, 200 Gb ram, 2,39 Ghz, 1Tb de HD (em resumo não é a máquina), através do RStudio 1.2.1335 e R v.3.6.

Sócios "duplicados"

Bom dia a todos!
Utilizamos a base da receita em alguns enriquecimentos que temos e surgiu uma duvida.
Nos arquivos enviados temos o nome completo do sócio e o CPF parcial como dados para identificar o sócio.
Temos dúvidas sobre as situações que podem gerar duplicidade
EX (real tirado da base):
Nome:JOSE ALVES
CPF parcial: *972838

Porém fazendo buscas na internet encontrei dois JOSE ALVES com CPF diferentes, porém com "mesmo" cpf parcial, conforme abaixo:

Nome:JOSE ALVES
CPF completo: 637.972.838-49
CPF parcial: 972.838

Nome:JOSE ALVES
CPF completo: 095.972.838-40
CPF parcial: 972.838

Minha duvida é, como só temos o CPF parcial vindo da receita, quando agrupamos as empresas de uma pessoa (Nome completo + CPF parcial) não corre o risco de estamos apresentando empresas que não sejam de uma pessoa especifica?

Alguém já se deparou com essa situação? Acharam uma solução?

Duvidas sobre uma coluna

Estamos usando a base para levantar algumas informações e fazer alguns cruzamentos de dados e estamos tendo um problema com a coluna "opcao_pelo_simples" na tabela de CNPJ, que está apresentando diversos códigos. Já foi identificado o que significa cada código?
Abçs.
Thiago

Por que a base de dados do CNPJ é importante para você?

Olá, Pessoal

Resolvi criar esse tópico para concentrar alguns depoimentos de pessoas que usam a base de dados do CNPJ disponibilizada pela Receita Federal e que, eventualmente, utilizam nosso código para tratar os dados ou baixam os arquivos já tratados, por meio dos links disponibilizados no GitHub.

Seria muito relevante conhecer como os usuários estão usando a base de dados para promover futuras implementações ou apenas para efeito de registro histórico 📃, que também é muito importante.

erro no trata_arquivo_txt

Boa tarde ao tentar gerar bd da o seguite erro :
[1] "Iniciando o tratamento e consolidação dos dados do CNPJ. Esse processo pode levar entre 4h a 5h, dependenndo da configuração do computador!"
Error in tratar_arquivo_txt(arquivo_txt, localizar_cnpj, n_lines, armazenar) :
não foi possível encontrar a função "tratar_arquivo_txt"

como posso resolver !?

Atualização da Base da Receita

Boa tarde,

gostaria de saber quando será feita a atualização dos dados de CNPJ com a última q saiu.
Desde já grato e parabéns pelas informações,

Christian

library_error, não consigo iniciar o tratamento dos dados

Erro: Cannot read file D:/CNPJ/R/3/K3241.K032001K.CNPJ.D01120.L00003.txt: boost::interprocess_exception::library_error
sou novato, não entendo oque este erro significa, pode me ajudar?
(tentativas para contornar: 3 reinstalações, mudança de local de arquivo, renomeação de arquivo para nome curto, baixar os dados novamente e rezar pra são Sebastião dos arquivos corrompidos uahsuhasuas )
obs: o arquivo "K3241.K032001K.CNPJ.D01120.L00003.txt", abre em outros editores de texto como Emed e Glogg.

Publicação no Dados Gov BR

Olá, primeiramente muito obrigado por dedicar(em) um tempo para o tratamento desses dados, e publicar o trabalho para todos! Ótima iniciativa.

Sugestão: publicar, se possível, o fruto desse trabalho no http://dados.gov.br/ visando atingir ainda mais pessoas.

👍

Possível erro na tabela tab_cnae

Baixei os arquivos gerados a partir da base disponibilizada pela RFB em 04/07/2020 e encontrei alguns problemas, que parecem se repetir tanto nos arquivos CSV quanto na base SQLite. Parece estar relacionado com a presença do caractere line_feed ('\n' ou 0x10) dentro de alguns campos de texto. As seguintes consultas, quando executadas dentro do SQLite retornam linhas:

  • select * from tab_cnae where nm_divisao like '%'||char(10)||'%';
  • select * from tab_cnae where nm_grupo like '%'||char(10)||'%';
  • select * from tab_cnae where nm_classe like '%'||char(10)||'%';
  • select * from tab_cnae where nm_cnae like '%'||char(10)||'%';

Ao abrir o CSV dessa tabela em algum software como o Notepad++ no Windows é possível verificar que esse caractere de quebra de linha interfere no arquivo. Isso também gerou problemas para mim ao exportar um arquivo CSV a partir da base SQLite, pois apareceram quebras de linha em locais errôneos.

Não verifiquei se o problema se repete em outras tabelas.

Início, fim e duração - Tempo de processamento

Boa noite, George,

Sugiro que o script que processa a base de dados de CNPJ informe o horário de início, fim e duração do processamento.

Como pitaco, se possível, informar também o fabricante e modelo da CPU; e a quantidade de memória utilizada pelo processo.

Atenciosamente,

Adriano Cunha

Base de Dados em CSV de 05/09/20

Oi, George, tudo bem? Parabéns pelo trabalho! Estava baixando os dados direto da RFB qd vi que vc disponibilizou tudo compilado! Me economiza várias horas...

Estou com uma dúvida sobre a base tratada em CSV (https://bit.ly/2GTGHHM). Vc reporta que há 45.153.764 CNPJs, mas encontrei apenas 20.363.178 (CNPJs únicos) no arquivo cnpj_dados_cadastrais_pj.csv. Estou lendo no R, com o read.csv.

Pode haver alguma imprecisão minha, no CSV ou no texto explicativo?

Muito Obrigado, Fabio

Evaluation error: object 'df_qsa_6' not found.

Olá, George! Primeiro, parabéns pelo excelente trabalho com a base de CNPJs!

Estou com um problema quando vou rodar a sugestão 4, localizar um conjunto de CNPJs e armazená-lo em um csv:

qsacnpj::gerar_bd_cnpj(path_arquivos_txt = "~/Downloads/CNPJ/Dados",
localizar_cnpj = c("00000000000191", "07237373000120",
"00360305000104", "04902979000144"),
n_lines = 100000,
armazenar = "csv")

Usando os próprios CNPJs de exemplo do manual, está dando um erro na leitura do penúltimo arquivo. A execução do código é interrompida no seguinte ponto e com a seguinte mensagem:

22% 1145 MB[1] "Analisando linhas: 900001 a 1000000 - arq: K3241.K03200DV.D00422.L00019"

Error in read_lines_chunked_(ds, locale, na, chunk_size, callback, progress) :
Evaluation error: object 'df_qsa_6' not found.

Estou usando os últimos dados disponíveis da Receita, Data de geração do arquivo: 26/04/2020.
Já refiz o download do arquivo 19, achando que poderia ter sido problema no arquivo, mas não resolveu.

Sabe como posso resolver isso?
Obrigado.

Atualização de Dados

Olá George,

Primeiro parabéns pelo trabalho e disponibilização.

Estou tentando apoiar minha esposa em um projeto de mestrado e para isso ela precisa acessar os dados atualizados dos CNPJ. Li todo seu trabalho aqui e não entendi totalmente como rodar estes dados, pode nos ajudar? há uma nova atualização depois da última que você disponibilizou aqui. Obrigado, Att, Mateus

Dúvida - Como conectar o script com SQLite, MS SQL Server, Oracle e MySQL

Olá !

Lendo o README, reparei nesta parte:

1.2 - Reformulado o código para conexão com os SGBDs. Agora, é possível conectar o script com SQLite, MS SQL Server, Oracle e MySQL. Os desenvolvedores conseguirão também implementar a conexão com outros SGBDs.

Como meu objetivo é tratar os dados com o pacote e subir para postgreSQL, fiquei curioso.

Como funcionaria esta conexão? Poderia dar um exemplo?

Obrigado!

Problema com coluna qualificacao responsavel/socio em diferentes tabelas

Encontrei um problema para fazer join entre as tabelas usando a coluna qualificacao_responsavel. Nas tabelas cnpj_dados_cadastrais_pj e cnpj_dados_socios_pj as colunas estão sempre com 2 dígitos, com o zero à esquerda quando é o caso.

Na tabela tab_qualificacao_responsavel_socio aparecem valores com apenas 1 dígito, sem zero à esquerda.

Possível erro na coluna "opção_pelo_mei"

Antes de mais nada, parabéns pelo trabalho com esse pacote e muito obrigado por disponibilizar os csv's. É incrível o benefício que está gerando ao facilitar o acesso a esses dados!

Trabalhando com o csv da ultima atualização (set/2020), notei um número muito grande de células vazias na coluna "opção_pelo_mei", que deveria ter valores "S" ou "N". Eu estava procurando a quantidade de MEI na situação cadastral "8" (que significa "baixado") e o resultado foi absurdamente pequeno, se não me engano 225 linhas em toda a base, quando na verdade deveria ter sido algo na casa dos milhões.

Pensei ser algum erro no download ou no carregamento da base que fiz por aqui. Mas repeti o processo e deu a mesma coisa. Pode me ajudar a solucionar essa questão?

Nova versão da base tratada

Percebi que mais ou menos de dois em dois meses uma nova versão processada da base é lançada e o ultimo lançamento ocorreu no mês 09, então teoricamente o próximo lançamento seria esse mês, porém ainda não aconteceu.

Existe previsão para a liberação da próxima versão tratada da base?

Parabéns pelo excelente trabalho, de verdade.

Isaac Souza

Atualização do CSV com a base tratada

Oi, pessoal, tudo bem?

Primeiramente, parabéns pelo trabalho! Me ajudou muito.

Venho aqui pedir uma atualização das bases tratadas disponíveis para download. Consegui usar o csv com a base liberada pela RFB no dia 23/11/2022:

Base de dados liberada pela RFB no dia 23/11/2020 e Processada com a versão 0.2.2 do pacote:
Base de Dados do CNPJ - SQLite
Base de Dados do CNPJ - CSV (OBS: Delimitador do CSV: ‘#’)
Informações sobre a Base de Dados:
Número de CNPJ: 46.535.803

É possível atualizar os csv's disponíveis para download para as bases mais recentes? Não estou conseguindo trabalhar com as bases originais, pois são muito pesadas e meu notebook não tem processador/memória RAM muito potentes.

Agradeço novamente pelo trabalho e grande abraço!

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.