Giter Club home page Giter Club logo

hubofdata's People

Contributors

5ghz avatar ivbeg avatar shorstko avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar

hubofdata's Issues

Написать код импорта наборов данных и регулярного обновления из data.gov.spb.ru

Написать код сбора и импорта данных из http://data.gov.spb.ru/ в хаб открытых данных

Цель: архивация открытых данных Санкт-Петербурга

Необходимо:

  • импортировать всё что там есть на хаб, полностью копируя данные и добавляя ссылку на оригинальный набор данных
  • предусмотреть возможность регулярного (еженедельного) обновления датасетов
  • создать профиль каждой организации поставщика на хабе и привязывать данные к профилям организаций
  • реализовать всё в виде утилиты командной строки.

Преобразовать таблицы из государственных докладов «О состоянии и использовании водных ресурсов Российской Федерации» в открытые данные

Цель

На портале Минприроды опубликованы государственные доклады http://www.mnr.gov.ru/docs/gosudarstvennye_doklady/o_sostoyanii_i_ispolzovanii_vodnykh_resursov_rossiyskoy_federatsii/ в которых приведены цифры и таблицы с состоянием водных ресурсов по территориям, городам и индикаторам

Необходимо проанализировать эти отчёты, спроектировать структуры данных и извлечь данные из докладов и выложить их как открытые данные.

Задача

  • выбрать язык программирования Python / R или иной, на выбор
  • проанализировать структуру докладов и описать её
  • написать парсер для докладов http://www.mnr.gov.ru/regulatory/list.php?part=1253
  • выгрузить все данные в формате CSV или JSON или XML
  • загрузить набор данных на хаб открытых данных hubofdata.ru

Требования

  • открытый исходный код в Github под свободной лицензией
  • открытые данные под лицензией Creative Commons

Пожелания

  • сделать описание к выгруженным данным. Структуры данных и набора целиком.

Оценки трудоёмкости

Ожидаемое время на задачу не более 3 недель

Вспомогательные материалы:

Вопросы

Вопросы можно писать на [email protected] или в комментариях к этой задаче

Извлечь данные с сайта Московской патриархии о персоналиях, организациях, богослужебных указаниях и храмах

Цель

Собрать базу открытых данных с сайта Московской патриархии о персоналиях, организациях, богослужебных указаниях и храмах, структурировать их и загрузить в хаб открытых данных

Задача

  • проинвентаризировать данные на сайте Московской патриархии
  • написать парсеры и выгрузить данные в форматах CSV и JSON
  • загрузить данные в хаб открытых данных http://hubofdata.ru в удобном виде.

Требования

  • открытый исходный код в Github под свободной лицензией
  • межплатформенный код (возможность запуска на Linux/Windows)
  • предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
  • переносить все данные в CKAN или на отдельный хостинг (например, в Github)

Данные

Пожелания

  • реализация в виде программы командной строки или веб-приложения
  • возможность запуска на MacOSX
  • использовать скриптовые языки такие как Python, Perl, R и другие.

Оценки трудоёмкости

Задача должна занять не более 1 недели.

Вспомогательные материалы:

Преобразовать таблицы из государственных докладов «О состоянии и использовании минерально-сырьевых ресурсов Российской Федерации» в открытые данные

Цель

На портале Минприроды опубликованы государственные доклады http://www.mnr.gov.ru/regulatory/list.php?part=1257 в которых приведены цифры и таблицы с состоянием минирально-сырьевых ресурсов по территориям, городам и индикаторам

Необходимо проанализировать эти отчёты, спроектировать структуры данных и извлечь данные из докладов и выложить их как открытые данные.

Задача

  • выбрать язык программирования Python / R или иной, на выбор
  • проанализировать структуру докладов и описать её
  • написать парсер для докладов http://www.mnr.gov.ru/regulatory/list.php?part=1257
  • выгрузить все данные в формате CSV или JSON или XML
  • загрузить набор данных на github и на хаб открытых данных hubofdata.ru

Требования

  • открытый исходный код в Github под свободной лицензией
  • открытые данные под лицензией Creative Commons
  • загрузить данные на Хаб открытых данных https://hubofdata.ru

Пожелания

  • сделать описание к выгруженным данным. Структуры данных и набора целиком.

Оценки трудоёмкости

Ожидаемое время на задачу не более 3 недель

Вспомогательные материалы:

Вопросы

Вопросы можно писать на [email protected] или в комментариях к этой задаче

Разместить ТЗ для фрилансеров по созданию парсеров с официальных порталов открытых данных

Необходимо архивировать данные с госпорталов открытых данных на хаб. Для этой цели необходимо:

  • [ составить список порталов и приложить к задаче]
  • [ подготовить ТЗ]
  • [найти и зарезервировать средства на эту работу]

Собрать данные портала "База данных рассекреченных дел и документов федеральных государственных архивов" (unsecret.rusarchives.ru)

Цель

На портале unsecret.rusarchives.ru размещена общедоступная база рассекреченных документов. Необходимо собрать данные из этой базы и выложить их как открытые данные.

Задача

  • выбрать язык программирования Python / R или иной, на выбор
  • написать парсер для сайта unsecret.rusarchives.ru
  • выгрузить все данные в формате CSV или JSON или XML
  • загрузить набор данных на хаб открытых данных hubofdata.ru

Требования

  • открытый исходный код в Github под свободной лицензией
  • открытые данные под лицензией Creative Commons

Пожелания

  • сделать описание к выгруженным данным. Структуры данных и набора целиком.

Оценки трудоёмкости

Ожидаемое время на задачу не более 1 дня

Вспомогательные материалы:

  • База данных рассекреченных дел и документов федеральных государственных архивов http://unsecret.rusarchives.ru

Вопросы

Вопросы можно писать на [email protected] или в комментариях к этой задаче

Извлечь данные с сайта Правительства РФ и превратить их в несколько наборов данных

Цель

Собрать базу открытых данных с сайта правительства, government,ru

Задача

  • проинвентаризировать данные на сайте правительства
  • написать парсеры и выгрузить данные в форматах CSV и JSON
  • загрузить данные в хаб открытых данных http://hubofdata.ru в удобном виде.

Требования

  • открытый исходный код в Github под свободной лицензией
  • межплатформенный код (возможность запуска на Linux/Windows)
  • предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
  • переносить все данные в CKAN или на отдельный хостинг (например, в Github)

Данные

Пожелания

  • реализация в виде программы командной строки или веб-приложения
  • возможность запуска на MacOSX
  • использовать скриптовые языки такие как Python, Perl, R и другие.

Оценки трудоёмкости

Задача должна занять не более 1 недели.

Вспомогательные материалы:

Извлечь данные из сайта Управления статистики уровня жизни и обследований домашних хозяйств Федеральной службы государственной статистики (Росстат) и загрузить их в хаб открытых данных

Цель

На сайте управления Росстата http://obdx.gks.ru/ публикуются результаты обследования домохозяйств с 2003 по 2012 годы, в форматах NESSTAR (http://www.nesstar.com/), Excel и описанием структур данных в DOC файлах.

Собрать данные из базы данных сайта управление статистики уровня жизни и обследований домашних хозяйств Федеральной службы государственной статистики (Росстат) и перенести на хаб открытых данных

Задача

  • написать парсеры и выгрузить данные структуры данных в форматах CSV и JSON
  • выгрузить данные в формате NESSTAR и Excel
  • загрузить данные в хаб открытых данных

Требования

  • открытый исходный код в Github под свободной лицензией
  • межплатформенный код (возможность запуска на Linux/Windows)
  • предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
  • переносить все данные в CKAN или на отдельный хостинг (например, в Github)

Пожелания

  • реализация в виде программы командной строки или веб-приложения
  • возможность запуска на MacOSX
  • использовать скриптовые языки такие как Python, Ruby, R или другие.
  • преобразовать данные из формата NESSTAR в форматы удобные для работы, такие как CSV и загрузить их в github и/или хаб открытых данных

Оценки трудоёмкости

Ожидаемое время на задачу не более 1-3 дня (8-24 часа).

Вспомогательные материалы:

Перевести наборы данных ЕМИСС под Росстат

В хабе много наборов данных из системы ЕМИСС - https://fedstat.ru не привязанных к Росстату
Эти наборы данных имеют префикс "emiss_" и тэг "емисс".

Необходимо:

Перевести архивы сайтов в организацию "Национальный цифровой архив России"

Есть наборы данных являющиеся архивами сайтов. Они собраны в группе "Архивы сайтов" https://hubofdata.ru/group/webarchive

Необходимо:

Собирать наборы данных и писать задачи для внесения их в хаб

Внести задачи по сбору следующих данных:

Привязать датасеты Минфина РФ к организации "Министерство финансов РФ"

В хабе есть некоторое количество наборов данных загруженных с префиксами "7710168360-", пример: https://hubofdata.ru/dataset/7710168360-budgetdebt

Необходимо:

Обновление статистики по битым ссылкам для rev20170910

Обновление статистики для rev20170910

  • Исключены ссылки на rackcdn.com
  • Добавлена статистика по файлам csv
  • Добавлена статистика по наборам, где встречаются файлы csv и xls одновременно (это почти все наборы, содержащие файлы xls - 42 из 54)

Новые данные здесь

Внести задачи по написанию парсеров из списка приоритетных источников

Неполный список, задачу необходимо обновлять.

Федеральные порталы открытых данных

Региональные порталы открытых данных

Муниципальные порталы открытых данных

Исправить ссылки перенесённые с хостинга Rackspace

Данные курсов валют хранились на сайте Rackspace. Необходимо их переуказать с Rackspace на cdn.ruarxive.org
https://hubofdata.ru/dataset?tags=%D0%BA%D1%83%D1%80%D1%81%D1%8B+%D0%B2%D0%B0%D0%BB%D1%8E%D1%82

Вместо ссылок с префиком
http://d2f6aadeaff96aaafda4-614b9ac7aa1f2556da9aa7df0eee2346.r98.cf2.rackcdn.com/
https://cdn.ruarxive.org/public/OGDHub/

Перенести отчёты политических партий в организацию "ЦИК РФ"

В хабе много наборов данных отчётов политических партий с префиксом "cikrf", пример: https://hubofdata.ru/dataset/cikrf7f6f7f6a

Необходимо:

Переписать код импорта данных индикаторов из ЦБ РФ и загрузить их на хаб

Текущий код является смешением кода на C# по выгрузке индикаторов и на Python по загрузке в хаб

Код доступен тут: https://github.com/infoculture/hubofdata/tree/master/scripts/catalogs/cbr_opendata

Необходимо:

  1. Переписать весь код на Python, актуализировать его
  2. Выгрузить данные с сайта ЦБ и
  3. Предусмотреть возможность обновления данных
  4. Наборы данных должны быть привязаны к организации "Центральный банк Российской Федерации" https://hubofdata.ru/organization/cbrf , к группе "Данные ЦБ РФ" https://hubofdata.ru/group/cbrfdata В доп свойствах необходимо указать атрибуты: govbody как "ЦБ РФ", а атрибуты ind_id, ind_name, table_id, table_name взять из данных ЦБ и тоже указать.

Пример ранее загруженных наборов данных: https://hubofdata.ru/dataset/cbrf_ind_91

Преобразовать таблицы из государственных докладов «О состоянии и об охране окружающей среды Российской Федерации» в открытые данные

Цель

На портале Минприроды опубликованы государственные доклады http://www.mnr.gov.ru/regulatory/list.php?part=1101 в которых приведены цифры и таблицы с состоянием окружающей среды по территориям, городам и индикаторам

Необходимо проанализировать эти отчёты, спроектировать структуры данных и извлечь данные из докладов и выложить их как открытые данные.

Задача

  • выбрать язык программирования Python / R или иной, на выбор
  • проанализировать структуру докладов и описать её
  • написать парсер для докладов http://www.mnr.gov.ru/regulatory/list.php?part=1101
  • выгрузить все данные в формате CSV или JSON или XML
  • загрузить набор данных на хаб открытых данных hubofdata.ru

Требования

  • открытый исходный код в Github под свободной лицензией
  • открытые данные под лицензией Creative Commons

Пожелания

  • сделать описание к выгруженным данным. Структуры данных и набора целиком.

Оценки трудоёмкости

Ожидаемое время на задачу не более 3 недель

Вспомогательные материалы:

Вопросы

Вопросы можно писать на [email protected] или в комментариях к этой задаче

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.