Giter Club home page Giter Club logo

hubofdata's Issues

Внести задачи по написанию парсеров из списка приоритетных источников

Неполный список, задачу необходимо обновлять.

Федеральные порталы открытых данных

Региональные порталы открытых данных

Муниципальные порталы открытых данных

Написать код импорта наборов данных и регулярного обновления из data.gov.spb.ru

Написать код сбора и импорта данных из http://data.gov.spb.ru/ в хаб открытых данных

Цель: архивация открытых данных Санкт-Петербурга

Необходимо:

  • импортировать всё что там есть на хаб, полностью копируя данные и добавляя ссылку на оригинальный набор данных
  • предусмотреть возможность регулярного (еженедельного) обновления датасетов
  • создать профиль каждой организации поставщика на хабе и привязывать данные к профилям организаций
  • реализовать всё в виде утилиты командной строки.

Обновление статистики по битым ссылкам для rev20170910

Обновление статистики для rev20170910

  • Исключены ссылки на rackcdn.com
  • Добавлена статистика по файлам csv
  • Добавлена статистика по наборам, где встречаются файлы csv и xls одновременно (это почти все наборы, содержащие файлы xls - 42 из 54)

Новые данные здесь

Преобразовать таблицы из государственных докладов «О состоянии и об охране окружающей среды Российской Федерации» в открытые данные

Цель

На портале Минприроды опубликованы государственные доклады http://www.mnr.gov.ru/regulatory/list.php?part=1101 в которых приведены цифры и таблицы с состоянием окружающей среды по территориям, городам и индикаторам

Необходимо проанализировать эти отчёты, спроектировать структуры данных и извлечь данные из докладов и выложить их как открытые данные.

Задача

  • выбрать язык программирования Python / R или иной, на выбор
  • проанализировать структуру докладов и описать её
  • написать парсер для докладов http://www.mnr.gov.ru/regulatory/list.php?part=1101
  • выгрузить все данные в формате CSV или JSON или XML
  • загрузить набор данных на хаб открытых данных hubofdata.ru

Требования

  • открытый исходный код в Github под свободной лицензией
  • открытые данные под лицензией Creative Commons

Пожелания

  • сделать описание к выгруженным данным. Структуры данных и набора целиком.

Оценки трудоёмкости

Ожидаемое время на задачу не более 3 недель

Вспомогательные материалы:

Вопросы

Вопросы можно писать на [email protected] или в комментариях к этой задаче

Собрать данные портала "База данных рассекреченных дел и документов федеральных государственных архивов" (unsecret.rusarchives.ru)

Цель

На портале unsecret.rusarchives.ru размещена общедоступная база рассекреченных документов. Необходимо собрать данные из этой базы и выложить их как открытые данные.

Задача

  • выбрать язык программирования Python / R или иной, на выбор
  • написать парсер для сайта unsecret.rusarchives.ru
  • выгрузить все данные в формате CSV или JSON или XML
  • загрузить набор данных на хаб открытых данных hubofdata.ru

Требования

  • открытый исходный код в Github под свободной лицензией
  • открытые данные под лицензией Creative Commons

Пожелания

  • сделать описание к выгруженным данным. Структуры данных и набора целиком.

Оценки трудоёмкости

Ожидаемое время на задачу не более 1 дня

Вспомогательные материалы:

  • База данных рассекреченных дел и документов федеральных государственных архивов http://unsecret.rusarchives.ru

Вопросы

Вопросы можно писать на [email protected] или в комментариях к этой задаче

Исправить ссылки перенесённые с хостинга Rackspace

Данные курсов валют хранились на сайте Rackspace. Необходимо их переуказать с Rackspace на cdn.ruarxive.org
https://hubofdata.ru/dataset?tags=%D0%BA%D1%83%D1%80%D1%81%D1%8B+%D0%B2%D0%B0%D0%BB%D1%8E%D1%82

Вместо ссылок с префиком
http://d2f6aadeaff96aaafda4-614b9ac7aa1f2556da9aa7df0eee2346.r98.cf2.rackcdn.com/
https://cdn.ruarxive.org/public/OGDHub/

Извлечь данные с сайта Московской патриархии о персоналиях, организациях, богослужебных указаниях и храмах

Цель

Собрать базу открытых данных с сайта Московской патриархии о персоналиях, организациях, богослужебных указаниях и храмах, структурировать их и загрузить в хаб открытых данных

Задача

  • проинвентаризировать данные на сайте Московской патриархии
  • написать парсеры и выгрузить данные в форматах CSV и JSON
  • загрузить данные в хаб открытых данных http://hubofdata.ru в удобном виде.

Требования

  • открытый исходный код в Github под свободной лицензией
  • межплатформенный код (возможность запуска на Linux/Windows)
  • предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
  • переносить все данные в CKAN или на отдельный хостинг (например, в Github)

Данные

Пожелания

  • реализация в виде программы командной строки или веб-приложения
  • возможность запуска на MacOSX
  • использовать скриптовые языки такие как Python, Perl, R и другие.

Оценки трудоёмкости

Задача должна занять не более 1 недели.

Вспомогательные материалы:

Привязать датасеты Минфина РФ к организации "Министерство финансов РФ"

В хабе есть некоторое количество наборов данных загруженных с префиксами "7710168360-", пример: https://hubofdata.ru/dataset/7710168360-budgetdebt

Необходимо:

Собирать наборы данных и писать задачи для внесения их в хаб

Внести задачи по сбору следующих данных:

Преобразовать таблицы из государственных докладов «О состоянии и использовании минерально-сырьевых ресурсов Российской Федерации» в открытые данные

Цель

На портале Минприроды опубликованы государственные доклады http://www.mnr.gov.ru/regulatory/list.php?part=1257 в которых приведены цифры и таблицы с состоянием минирально-сырьевых ресурсов по территориям, городам и индикаторам

Необходимо проанализировать эти отчёты, спроектировать структуры данных и извлечь данные из докладов и выложить их как открытые данные.

Задача

  • выбрать язык программирования Python / R или иной, на выбор
  • проанализировать структуру докладов и описать её
  • написать парсер для докладов http://www.mnr.gov.ru/regulatory/list.php?part=1257
  • выгрузить все данные в формате CSV или JSON или XML
  • загрузить набор данных на github и на хаб открытых данных hubofdata.ru

Требования

  • открытый исходный код в Github под свободной лицензией
  • открытые данные под лицензией Creative Commons
  • загрузить данные на Хаб открытых данных https://hubofdata.ru

Пожелания

  • сделать описание к выгруженным данным. Структуры данных и набора целиком.

Оценки трудоёмкости

Ожидаемое время на задачу не более 3 недель

Вспомогательные материалы:

Вопросы

Вопросы можно писать на [email protected] или в комментариях к этой задаче

Извлечь данные с сайта Правительства РФ и превратить их в несколько наборов данных

Цель

Собрать базу открытых данных с сайта правительства, government,ru

Задача

  • проинвентаризировать данные на сайте правительства
  • написать парсеры и выгрузить данные в форматах CSV и JSON
  • загрузить данные в хаб открытых данных http://hubofdata.ru в удобном виде.

Требования

  • открытый исходный код в Github под свободной лицензией
  • межплатформенный код (возможность запуска на Linux/Windows)
  • предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
  • переносить все данные в CKAN или на отдельный хостинг (например, в Github)

Данные

Пожелания

  • реализация в виде программы командной строки или веб-приложения
  • возможность запуска на MacOSX
  • использовать скриптовые языки такие как Python, Perl, R и другие.

Оценки трудоёмкости

Задача должна занять не более 1 недели.

Вспомогательные материалы:

Перевести наборы данных ЕМИСС под Росстат

В хабе много наборов данных из системы ЕМИСС - https://fedstat.ru не привязанных к Росстату
Эти наборы данных имеют префикс "emiss_" и тэг "емисс".

Необходимо:

Перевести архивы сайтов в организацию "Национальный цифровой архив России"

Есть наборы данных являющиеся архивами сайтов. Они собраны в группе "Архивы сайтов" https://hubofdata.ru/group/webarchive

Необходимо:

Извлечь данные из сайта Управления статистики уровня жизни и обследований домашних хозяйств Федеральной службы государственной статистики (Росстат) и загрузить их в хаб открытых данных

Цель

На сайте управления Росстата http://obdx.gks.ru/ публикуются результаты обследования домохозяйств с 2003 по 2012 годы, в форматах NESSTAR (http://www.nesstar.com/), Excel и описанием структур данных в DOC файлах.

Собрать данные из базы данных сайта управление статистики уровня жизни и обследований домашних хозяйств Федеральной службы государственной статистики (Росстат) и перенести на хаб открытых данных

Задача

  • написать парсеры и выгрузить данные структуры данных в форматах CSV и JSON
  • выгрузить данные в формате NESSTAR и Excel
  • загрузить данные в хаб открытых данных

Требования

  • открытый исходный код в Github под свободной лицензией
  • межплатформенный код (возможность запуска на Linux/Windows)
  • предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
  • переносить все данные в CKAN или на отдельный хостинг (например, в Github)

Пожелания

  • реализация в виде программы командной строки или веб-приложения
  • возможность запуска на MacOSX
  • использовать скриптовые языки такие как Python, Ruby, R или другие.
  • преобразовать данные из формата NESSTAR в форматы удобные для работы, такие как CSV и загрузить их в github и/или хаб открытых данных

Оценки трудоёмкости

Ожидаемое время на задачу не более 1-3 дня (8-24 часа).

Вспомогательные материалы:

Переписать код импорта данных индикаторов из ЦБ РФ и загрузить их на хаб

Текущий код является смешением кода на C# по выгрузке индикаторов и на Python по загрузке в хаб

Код доступен тут: https://github.com/infoculture/hubofdata/tree/master/scripts/catalogs/cbr_opendata

Необходимо:

  1. Переписать весь код на Python, актуализировать его
  2. Выгрузить данные с сайта ЦБ и
  3. Предусмотреть возможность обновления данных
  4. Наборы данных должны быть привязаны к организации "Центральный банк Российской Федерации" https://hubofdata.ru/organization/cbrf , к группе "Данные ЦБ РФ" https://hubofdata.ru/group/cbrfdata В доп свойствах необходимо указать атрибуты: govbody как "ЦБ РФ", а атрибуты ind_id, ind_name, table_id, table_name взять из данных ЦБ и тоже указать.

Пример ранее загруженных наборов данных: https://hubofdata.ru/dataset/cbrf_ind_91

Разместить ТЗ для фрилансеров по созданию парсеров с официальных порталов открытых данных

Необходимо архивировать данные с госпорталов открытых данных на хаб. Для этой цели необходимо:

  • [ составить список порталов и приложить к задаче]
  • [ подготовить ТЗ]
  • [найти и зарезервировать средства на эту работу]

Перенести отчёты политических партий в организацию "ЦИК РФ"

В хабе много наборов данных отчётов политических партий с префиксом "cikrf", пример: https://hubofdata.ru/dataset/cikrf7f6f7f6a

Необходимо:

Преобразовать таблицы из государственных докладов «О состоянии и использовании водных ресурсов Российской Федерации» в открытые данные

Цель

На портале Минприроды опубликованы государственные доклады http://www.mnr.gov.ru/docs/gosudarstvennye_doklady/o_sostoyanii_i_ispolzovanii_vodnykh_resursov_rossiyskoy_federatsii/ в которых приведены цифры и таблицы с состоянием водных ресурсов по территориям, городам и индикаторам

Необходимо проанализировать эти отчёты, спроектировать структуры данных и извлечь данные из докладов и выложить их как открытые данные.

Задача

  • выбрать язык программирования Python / R или иной, на выбор
  • проанализировать структуру докладов и описать её
  • написать парсер для докладов http://www.mnr.gov.ru/regulatory/list.php?part=1253
  • выгрузить все данные в формате CSV или JSON или XML
  • загрузить набор данных на хаб открытых данных hubofdata.ru

Требования

  • открытый исходный код в Github под свободной лицензией
  • открытые данные под лицензией Creative Commons

Пожелания

  • сделать описание к выгруженным данным. Структуры данных и набора целиком.

Оценки трудоёмкости

Ожидаемое время на задачу не более 3 недель

Вспомогательные материалы:

Вопросы

Вопросы можно писать на [email protected] или в комментариях к этой задаче

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.