Giter Club home page Giter Club logo

knod's Introduction

Katalog nejen otevřených dat

Středobod českých otevřených dat je NKOD, národní katalog otevřených dat. Je v něm spousta zajímavých informací, ale pro takový ten letmý přehled o tom, jaká data jsou k dispozici, je celkem obtížně použitelný.

Nechceme tedy NKOD replikovat, jde nám o trochu obecnější přehled, aby si každý mohl dohledat data pro jednotlivé oblasti zájmu.

Katalogy

Národní katalog otevřených dat (NKOD) je katalog všech katalogů, jednotlivé úřady a instituce si ale občas založí vlastní katalog, lokální katalog otevřených dat (LKOD), zde je výpis některých z nich.

Administrativni informace

K transakčním datům (dotace, smlouvy, zakázky, ...) je třeba doplnit data o smluvních stranách, protože tato data jsou v transakčních datasetech zpravidla nedostačující. Neexistuje jedno centrální úložiště, je několik zdrojů těchto informací, záleží na tom, co člověk požaduje.

  • Některé informace o některých fyzických, právnických a veřejných entitách jde získat z exportů datových schránek
    • Orgány veřejné moci mají sice DS povinně, ale u privátních subjektů to tak není, takže v datech nejsou zdaleka všechny.
    • Dobré pro přehled o orgánech veřejné moci, případně jako zdroj pro mapování z adres datových schránek na IČO či naopak.
  • Administrativní registr ekonomických subjektů (ARES)
    • Historicky nejpodstatnější dataset pro administrativní data, do dneška má svou relevanci.
    • V sekci XML služby najdete popis řady endpointů, ideální pro získání informací o několika málo subjektech. Nejdůležitější je OR (obchodní rejstřík - údaje z Justice), RES (registr ekonomických subjektů - základní údaje od Českého statistického úřadu) a RŽP (živnostenský rejstřík).
    • API mají limity v řádek desítek tisíc dotazů denně, tak pozor na to, protože můžete být snadno zablokováni.
    • V sekci otevřená data je relativně nově bulkový export obchodního rejstříku. Obsahuje skoro vše, co by člověk potřeboval o právnických osobách - chybí historie názvů subjektů a data narození fyzických osob (jednatelů, společníků atd.).
    • MFČR tento registr provozuje, ale data jen poskytuje dál, nejsou v jeho vlastnictví.
  • Otevřená data Veřejného rejstříku a Sbírky listin
    • Ministerstvo Spravedlnosti poskytuje export dat z webu Justice.cz, zejm. z rejstříku právnických osob. Cokoliv vidíte na webové verzi rejstříku, to si můžete stáhnout v XML v bulkové formě.
    • Pro aktuální informace stačí stáhnout data pro současný rok a všechny rejstříkové soudy a právní formy. Bohužel nejde stáhnout vše najednou nějak jednodušeji.
    • Informace o zaniklých subjektech je trochu těžší získat, protože firma zaniklá v roce 2009 bude naposledy v datasetu pro rok 2009, takže člověk musí stáhnout data pro všechny roky, aby získal informace o všech zaniklých subjektech. Tato limitace se netýká exportů ARES výše, tam je snadné získat informace o zaniklých subjektech.
    • Oproti ARES člověk získá informace o akcionářích, insolvencích a dalších metadatech.
    • Tento dataset bude v budoucnu jediný nutný pro identifikaci smluvních stran, v tuto chvíli má stále několik zádrhelů.

Dotace

  • DotInfo
    • Ze systému DotInfo existuje jeden export z roku 2017
    • TODO: vysvětlit, proč bohužel tenhle dataset existuje
  • IS ReD
    • obsahuje CSV exporty pro dotace, rozhodnutí nebo příjemce
    • je možné dohledat informace v číselnících
    • doporučuji diagram pro lepší pochopení relačního modelu
    • nástupce systému CEDR III
  • MS2014+ a Seznam operací/příjemců
    • Dva datasety od MMR ohledně evropských dotací, tedy vyšších desítkách miliard ročně.
    • MS2014+ jsou otevřená data přímo z informačního systému pro správu dotací, obsahují strukturovaná data o dotacích pro období 2014-2020.
    • Druhý dataset, Seznam operací, obsahuje data pro období 2007-13 a 2014-20, jde ale o celkem zvláštně strukturované Excely, které se navíc v čase mění. Takže pro nahlížení dobré, ale pro analytiku je lepší export z MS2014+.
  • CzechInvest
    • udělené investiční pobídky
    • starší data neobsahují IČO informace, tak pozor na to
  • Státní zemědělský invervenční fond (SZIF)
    • Fond operuje s 30-40 miliardami ročně, na webu jsou jednotliví žadatelé k dohledání.
    • Existují XML exporty pro poslední dva roky dat.

Smlouvy

  • Registr smluv
    • Jde o přelomový informační systém, kam mají tisíce veřejných subjektů povinnost publikovat skoro všechny smlouvy přesahující hodnotu 50 tisíc Kč (jsou výjimky mj. z důvodů bezpečnosti či obchodních tajemství).
    • Poskytuje otevřená data na denní bázi ve formátu XML.
    • Systém lze používat napřímo, zprácováním dat nebo přes Hlídače státu, nejznámějšího zpracovatele těchto dat, kde jsou krom smluvních dat prolinkovány další datasety pro lepší kontext a analytiku.
  • Ad hoc smluvní data
    • Před účinností Registru smluv publikovaly některé subjekty smluvní informace z vlastního popudu.
    • Výhodou těchto dat je, že smlouvy často predatují vznik Registru smluv - do registru totiž subjekty vkládají jen nové smlouvy (případně staré smlouvy, pokud je nové smlouvy rozšiřují, žádné dávkové vkládání starých smluv se ale nekoná).
    • Příklady exportů

Zakázky

  • vestnik (jak se liší?)
  • profil zadavatele
  • vsechny zakazky?

Faktury

Neexistuje centralizace faktur, je na jednotlivých úřadech či jiných entitách, jestli své faktury zveřejní. Tato data jsou často cennější než smlouvy nebo zakázky, protože obsahují reálné útraty a jejich metadata jsou kvalitnější než např. u registru smluv.

Ostatní výdaje

Rozpočty

  • Monitor Státní pokladny je aplikace pro rozklikávání rozpočtů a dalších účetních informací o spoustě složek státu - měst, obcí, příspěvkových organizací, škol atd.
  • CityVizor - původně projekt z Ministerstva financí se přesunul pod spolek Otevřená města a jde mu o vizualizaci rozpočtů samosprávních jednotek
    • Hlavní rozdíl proti Monitoru je ten, že Monitor má rozpočty na úrovni rozpočtových kapitol (např. odvoz odpadu), ale nemáte tam jednotlivé faktury, průběžné plnění, informace o dodavatelích atd. To je přesně mezera, kterou vyplňuje CityVizor.
    • Praha má vlastní instanci CityVizoru.

Metainfo o státu

TODO: prolinkovat toto nějak s admin informacemi výše? Aby člověk nemusel scrollovat mezi nima, obojí patří pod stejnou podkategorii

  • Orgány veřejné moci
    • Často je třeba identifikovat složky státu, ať už pro kategorizaci dat (jdou finance od soukromníka státu nebo mezi soukromníky atd.) nebo třeba pro adresnou komunikaci. Bohužel neexistuje jeden autoritativní zdroj.
    • Seznam orgánů veřejné moci (OVM) je možné získat z exportu datových schránek
    • Otevřená data Czech POINTu mají též seznam orgánů veřejné moci
    • Registr práv a povinností má webový náhled a JSON export těchto dat
  • Data Poslanecké sněmovny a Senátu
    • Jde o sadu datasetů, kterou na webu nikdy nenajdete, je ale velmi cenná.
    • Jde o denně aktualizované soubory, ve formátu podobné CSV, jejich zpracování je celkem snadné, jen pozor, jsou normalizovaná, takže budete občas joinovat přes několik tabulek.
    • Obsahuje mj.
      • Hlasování ve Sněmovně (od vzniku České republiky)
      • Stenozáznamy
      • Tisky ze Sněmovny i Senátu
      • Plány schůzí
      • Interpelace
  • Volby
    • Český statistický úřad nabízí data z voleb jako otevřená data, má to však několik zádrhelů.
    • Starší data jsou zpravidla v jiném formátu než ta současná (např. FoxPro vs. XML vs. CSV), takže pro delší časové řady musí člověk trochu pracovat.
    • Otevřená data neobsahují informace o historicky všech volbách v České republice, plné pokrytí je až cca od roku 2004. Pro starší informace musí jít člověk na web volby.cz a dohledat údaje tam.
    • Kandidáti ani zvolení zastupitelé nemají žádný unikátní identifikátor, celkem špatně se tedy mapují např. na angažované osoby z ARES nebo Justice, nemáme totiž ani datum narození, jen věk osoby, který není platný k nějakém určitému datu.
  • Centrální registr oznámení je informační systém založen pro účely zákona o střetu zájmů.
    • Obsahuje data o veřejných činitelích (soudci, zastupitelé, poslanci, ...), zejména pak jejich majetkové poměry, účastnictví ve firmách a funkce/členství.
    • Systém nemá datový export nebo veřejné API, k nahližení je ale i tak užitečný.
  • registr prav a povinnosti
  • wikidata?
  • sčítání?

Legislativa

  • psp.cz o tvorbě
  • eklep, veklep
  • bude elegislativa, esbírka
  • zákony pro lidi + ASPI?

Regionální data

  • golemio
  • data.brno.cz

Zdravotnictví

  • ÚZIS (viz hackathon 2019, ale bude toho i víc)
  • SÚKL
  • má něco ministerstvo?

Geodata

  • ČUZK
  • městská
  • katastr
  • IPR prazsky model

Ostatní

knod's People

Contributors

kokes avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar

Forkers

chriss-0x01

knod's Issues

https

asi staci zapnout v settings

CI pro kontrolu linků

Grepni README.md, provolej všechny linky jestli vracej 2xx, případně 3xx (a ty bychom asi chtěli přepsat?)

Geodata

  • ČUZK
  • městská (golemio atd.)
  • katastr - co z toho je placené, co není, jaká to má pravidla atd.
  • IPR prazsky model
  • openstreetmapy, routing

Rendering v HTML

On mi to nakonec Github renderoval sám, já si mezitim psal nějakej kód, tak si ho odzálohuju sem, kdyby byl potřeba.

<!DOCTYPE html>
<html>
<head>
    <meta charset='utf-8' />
        <title>Katalog nejen otevřených dat</title>

    <script src='https://cdnjs.cloudflare.com/ajax/libs/marked/0.3.6/marked.min.js'></script>    

    <style type='text/css'>
        body {
            font: 1.2em Georgia, serif;
            background-color: white;
        }
        div#content {
            width: 800px;
            margin: 0 auto;
        }
        
    </style>

</head>
<body>

<div id='content'></div>

<script type='text/javascript'>
    fetch('README.md').then((x) => x.text()).then((text) => {
        const doc = document.getElementById('content');
        doc.innerHTML = marked(text);
    })
    
</script>


</body>
</html>

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.