Сервис контроля и архивации материалов портала открытых данных г. Москвы: различия между версиями

Материал из GIS-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
 
(не показано 7 промежуточных версий этого же участника)
Строка 1: Строка 1:
{{Статья|Опубликована|data-mos-control}}
{{Статья|Опубликована|data-mos-control}}
{{Аннотация|Описание сервиса контроля данных}}
{{Аннотация|Описание сервиса контроля данных}}
'''Этот сервис не является сервисом Правительства Москвы или любых его подразделений.'''


==Проблема==
==Проблема==
Строка 11: Строка 13:


==Реализация==
==Реализация==
Регулярно скачиваем реестр данных и всех существующие и новые наборы данных, сравниваем с предыдущими версиями, находим изменения, обо всех значительных - докладываем пользователям.
Регулярно скачиваем перечень наборов данных и все существующие и новые наборы данных, сравниваем с предыдущими версиями, находим изменения, обо всех значительных - докладываем пользователям.


==Функции сервиса==
==Функции сервиса==
*Ежедневная проверка
*Ежедневная проверка
*Изменение комплектации данных
*Обнаружение изменений комплектации данных:
**Обнаружение новых наборов данных
**Новые наборы данных
**Обнаружение удаленных наборов данных
**Скрытие из [http://data.mos.ru/datasets общего перечня]) наборов данных, при сохранении доступности
**Обнаружение восстановленных (после удаления) наборов данных
**Обнаружение восстановленных, после скрытия, наборов данных
*Изменение данных
**Недоступность наборов данных (возможно удаление)
**Обнаружение восстановление после недоступности
*Обнаружение изменений данных:
**Добавление/удаление атрибутивных полей
**Добавление/удаление атрибутивных полей
**Добавление/удаление записей
**Добавление/удаление записей
**Другие изменения содержания (не ведущие к изменению количества полей и/или строк)
**Другие изменения содержания (не ведущие к изменению количества полей и/или строк)
**Создание html-представлений построчных diff-файлов для наглядной оценки изменений
*Сохранение версий измененных наборов данных
*Сохранение версий измененных наборов данных
*Компрессия данных
*Компрессия данных
*Оповещение о главных событиях в [https://twitter.com/datamosru специальном твиттере] и лог-файле.
*Оповещение о главных событиях в [https://twitter.com/datamosru специальном твиттере] и [http://gis-lab.info/data/mos.ru/data/log.txt лог-файле].
*Регистрация изменений в специальных лог-файлах для каждого набора ([http://gis-lab.info/data/mos.ru/data/498/498_changes.log пример])
*Регистрация изменений в специальных лог-файлах для каждого набора ([http://gis-lab.info/data/mos.ru/data/498/498_changes.log пример])


==Планы на будущее==
==Планы на будущее==
#Интеграция с [http://gis-lab.info/qa/data-mos.html процессом нормализации и конвертации данных] с портала в более приемлемый для ГИС и разработчиков вид. Вместо пакетной конвертации, как сейчас, будут конвертироваться только измененные наборы данных.
#Интеграция с [http://gis-lab.info/qa/data-mos.html процессом нормализации и конвертации данных] с портала в более приемлемый для ГИС и разработчиков вид. Вместо пакетной конвертации, как сейчас, будут конвертироваться только измененные наборы данных.
#Генерация красивых diff-ов для отображения изменений в данных.
#<s>Генерация красивых diff-ов для отображения изменений в данных.</s> Сделано
 
[https://github.com/simgislab/datamosru/issues?state=open Тикеты] в трекере проекта.


==Результаты==
==Результаты==
Строка 43: Строка 50:
*[http://code.google.com/p/python-twitter/ python-twitter]
*[http://code.google.com/p/python-twitter/ python-twitter]
*[https://github.com/bitly/bitly-api-python bitly-api-python]
*[https://github.com/bitly/bitly-api-python bitly-api-python]
*[http://code.google.com/p/google-diff-match-patch diff-match-patch] с [http://code.activestate.com/recipes/577784-line-based-side-by-side-diff/?c=15260 line-by-line]

Текущая версия от 11:36, 20 июля 2014

Эта страница опубликована в основном списке статей сайта
по адресу http://gis-lab.info/qa/data-mos-control.html


Описание сервиса контроля данных

Этот сервис не является сервисом Правительства Москвы или любых его подразделений.

Проблема

Первым городом раскрывшим более-менее существенное количество открытых геоданных является Москва. Данные по городу выкладываются на Портал открытых данных г. Москва. Портал неплохо справляется с функцией доставки данных потребителю, нет привязки к API, для получения наборов данных не нужна регистрация. Однако, некоторые другие функции выполняются не очень хорошо: нет четкой системы оповещений об обновлениях, непонятно что же вообще обновилось. Дополнительно, нет уверенности, что отдельные наборы данных завтра не пропадут с портала окончательно.

Поскольку данные открыты, задача общественности взять на себя часть функций, с которыми неоптимально справляется сам портал.

Идея

Создать независимый сервис архивации и проверки изменений в данных портала.

Реализация

Регулярно скачиваем перечень наборов данных и все существующие и новые наборы данных, сравниваем с предыдущими версиями, находим изменения, обо всех значительных - докладываем пользователям.

Функции сервиса

  • Ежедневная проверка
  • Обнаружение изменений комплектации данных:
    • Новые наборы данных
    • Скрытие из общего перечня) наборов данных, при сохранении доступности
    • Обнаружение восстановленных, после скрытия, наборов данных
    • Недоступность наборов данных (возможно удаление)
    • Обнаружение восстановление после недоступности
  • Обнаружение изменений данных:
    • Добавление/удаление атрибутивных полей
    • Добавление/удаление записей
    • Другие изменения содержания (не ведущие к изменению количества полей и/или строк)
    • Создание html-представлений построчных diff-файлов для наглядной оценки изменений
  • Сохранение версий измененных наборов данных
  • Компрессия данных
  • Оповещение о главных событиях в специальном твиттере и лог-файле.
  • Регистрация изменений в специальных лог-файлах для каждого набора (пример)

Планы на будущее

  1. Интеграция с процессом нормализации и конвертации данных с портала в более приемлемый для ГИС и разработчиков вид. Вместо пакетной конвертации, как сейчас, будут конвертироваться только измененные наборы данных.
  2. Генерация красивых diff-ов для отображения изменений в данных. Сделано

Тикеты в трекере проекта.

Результаты

Твиттер для оповещений об изменениях: https://twitter.com/datamosru

Архивированные данные: http://gis-lab.info/data/mos.ru/data

Код

Весь исходный код на языке Python доступен на Github.

Использованы: