Нормализованные данные с портала открытых данных Москвы: различия между версиями
Строка 96: | Строка 96: | ||
! | Оригинал | ! | Оригинал | ||
! | Данные | ! | Данные | ||
|- | |||
| | |||
| Все данные | |||
| Все | |||
| | |||
| | |||
| | |||
| | |||
| [http://gis-lab.info/data/mos.ru/csv.7z csv] | |||
| [http://gis-lab.info/data/mos.ru/norm.7z csv_norm]<br>[http://gis-lab.info/data/mos.ru/shp.7z shp]<br>[http://gis-lab.info/data/mos.ru/osm.7z osm] | |||
|- | |||
| | |||
| | |||
| | |||
| | |||
| | |||
| | |||
| | |||
| | |||
| | |||
|- | |- | ||
| 493 | | 493 | ||
Строка 1590: | Строка 1610: | ||
| [http://gis-lab.info/data/mos.ru/861.7z csv] | | [http://gis-lab.info/data/mos.ru/861.7z csv] | ||
| [http://gis-lab.info/data/mos.ru/861_norm.7z csv_norm]<br>[http://gis-lab.info/data/mos.ru/861_shp.7z shp]<br>[http://gis-lab.info/data/mos.ru/861_osm.7z osm] | | [http://gis-lab.info/data/mos.ru/861_norm.7z csv_norm]<br>[http://gis-lab.info/data/mos.ru/861_shp.7z shp]<br>[http://gis-lab.info/data/mos.ru/861_osm.7z osm] | ||
|- | |||
| 914 | |||
| [http://data.mos.ru/datasets/914 Автодромы аттракционные] | |||
| Отдых | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/914.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 915 | |||
| [http://data.mos.ru/datasets/915 Автодромы детские учебные] | |||
| Образование | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/915.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 903 | |||
| [http://data.mos.ru/datasets/903 Автодромы спортивные] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/903.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 890 | |||
| [http://data.mos.ru/datasets/890 Бассейны плавательные крытые] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/890.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 894 | |||
| [http://data.mos.ru/datasets/894 Бассейны плавательные открытые] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/894.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 916 | |||
| [http://data.mos.ru/datasets/916 Велопарковки] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/916.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 911 | |||
| [http://data.mos.ru/datasets/911 Городки веревочные] | |||
| Отдых | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/911.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 896 | |||
| [http://data.mos.ru/datasets/896 Городки тренажерные (воркауты)] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/896.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 898 | |||
| [http://data.mos.ru/datasets/898 Городки тренажерные универсальные] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/898.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 901 | |||
| [http://data.mos.ru/datasets/901 Гребные базы и каналы] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/901.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 905 | |||
| [http://data.mos.ru/datasets/905 Детские развивающие центры] | |||
| Образование | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/905.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 899 | |||
| [http://data.mos.ru/datasets/899 Дорожки беговые-прогулочные] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/899.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 897 | |||
| [http://data.mos.ru/datasets/897 Дорожки велосипедные] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/897.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 919 | |||
| [http://data.mos.ru/datasets/919 Зоны отдыха у воды] | |||
| Отдых | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/919.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 906 | |||
| [http://data.mos.ru/datasets/906 Летние эстрады, сцены] | |||
| Отдых | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/906.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 907 | |||
| [http://data.mos.ru/datasets/907 Лодочные станции] | |||
| Отдых | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/907.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 909 | |||
| [http://data.mos.ru/datasets/909 Места для летнего купания] | |||
| Отдых | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/909.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 910 | |||
| [http://data.mos.ru/datasets/910 Мини-зоопарки] | |||
| Отдых | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/910.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 920 | |||
| [http://data.mos.ru/datasets/920 Пешеходные зоны] | |||
| Улично-дорожная сеть | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/920.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 904 | |||
| [http://data.mos.ru/datasets/904 Площадки детские игровые] | |||
| Отдых | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/904.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 917 | |||
| [http://data.mos.ru/datasets/917 Площадки для городошного спорта] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/917.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 913 | |||
| [http://data.mos.ru/datasets/913 Площадки для настольных игр] | |||
| Отдых | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/913.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 912 | |||
| [http://data.mos.ru/datasets/912 Площадки для пикника] | |||
| Отдых | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/912.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 884 | |||
| [http://data.mos.ru/datasets/884 Площадки для пляжных видов спорта] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/884.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 895 | |||
| [http://data.mos.ru/datasets/895 Площадки пейнтбольные] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/895.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 893 | |||
| [http://data.mos.ru/datasets/893 Площадки спортивные универсальные] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/893.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 883 | |||
| [http://data.mos.ru/datasets/883 Поля для гольфа] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/883.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 892 | |||
| [http://data.mos.ru/datasets/892 Поля для мини-гольфа] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/892.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 902 | |||
| [http://data.mos.ru/datasets/902 Поля конно-спортивные для конкура и выездки] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/902.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 885 | |||
| [http://data.mos.ru/datasets/885 Поля регбийные] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/885.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 886 | |||
| [http://data.mos.ru/datasets/886 Поля футбольные] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/886.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 887 | |||
| [http://data.mos.ru/datasets/887 Прокаты спортивного инвентаря (отдельностоящие)] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/887.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 908 | |||
| [http://data.mos.ru/datasets/908 Роллердромы, скейтпарки] | |||
| Отдых | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/908.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 900 | |||
| [http://data.mos.ru/datasets/900 Скалодромы] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/900.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 918 | |||
| [http://data.mos.ru/datasets/918 Станции проката велосипедов] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/918.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 888 | |||
| [http://data.mos.ru/datasets/888 Стрелковые тиры] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/888.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 889 | |||
| [http://data.mos.ru/datasets/889 Стрельбища] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/889.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 891 | |||
| [http://data.mos.ru/datasets/891 Теннисные корты] | |||
| Физическая культура и спорт | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/891.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 921 | |||
| [http://data.mos.ru/datasets/921 Гарантированный перечень услуг по погребению] | |||
| Справочная информация | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/921.7z csv] | |||
| еще не импортирован<br><br> | |||
|- | |||
| 941 | |||
| [http://data.mos.ru/datasets/941 Реестр контрольных мероприятий (по выявленным нарушениям)] | |||
| Справочная информация | |||
| X | |||
| bgcolor="Yellow" | еще не импортирован | |||
| да | |||
| [http://gis-lab.info/data/mos.ru/941.7z csv] | |||
| еще не импортирован<br><br> | |||
|} | |} | ||
Версия от 21:09, 31 июля 2013
по адресу http://gis-lab.info/qa/data-mos.html
Описание данных и копия данных в более удобном для ГИС формате
Источник данных: Портал открытых данных г. Москва http://data.mos.ru
Об исходных данных
Системы координат данных:
- EPSG: 4326 (latlon/WGS84)
- EPSG: 3857 (Web Mercator/WGS84)
- Местная московская система координат (ПМСК 1, 2)
Формат данных: CSV
Кодировка: UTF-8
Формат хранения геометрий: WKT или пара полей с координатами.
Лицензия данных разрешает любое использование (включая коммерческое) при условии наличия ссылки на первоисточник.
Условия использования набора данных не предполагают ограничений использования набора данных в некоммерческих и коммерческих целях.
Лицензия не указывает явным образом согласие с CT OpenStreetMap.
Сомнительные места организации исходных данных
Уровень проблемности этих пунктов разный. Некоторые из них не позволят даже начать работу с данными, многие улучшили бы данные, но не помешают их использовать специалисту. Пометка "-> исправлено" означает, что данная проблема исправлена в производной версии данных представленной в этом описании ниже.
- Служебная информация в названиях полей -> исправлено
- Исходные данные в системе координат: EPSG:3857 (плохая СК для распространения векторных данных) -> исправлено
- Исходные данные в системе координат: ПМСК (местная система координат г. Москвы) (ужасная СК для распространения векторных данных) -> исправлено
- Смешивание данных в разных системах координат в одних и тех же столбцах в одном наборе данных -> исправлено
- Непоследовательное применение WKT представлений координат, то используется, то не используется.
- Названия полей на кириллице (проблемы с конвертацией в ESRI Shape) -> исправлено
- Названия полей очень длинные (проблемы с конвертацией в ESRI Shape) -> исправлено
- Названия полей содержат спецсимволы (например "№", "/", "," - проблемы с конвертацией) -> исправлено
- Одни и те же названия полей то в кавычках, то без (просто некрасиво) -> исправлено
- Одни и те же названия полей то с пробелами, то с "_" вместо пробелов (просто некрасиво) -> исправлено
- Названия полей с опечатками (например "1_Дополнителтная информация", "0_Дифицит_профицит", просто некрасиво) -> исправлено
- Варианты в названиях полей обозначающие одно и тоже (например "0_POINT_X", "0_X", просто некрасиво) -> исправлено
- Отсутствуют вспомогательные файлы описания системы координат данных -> исправлено
- Отсутствуют файлы csvt (проблемы с конвертацией с распознаванием корректного типа значений) -> исправлено
- Отсутствуют файлы vrt (проблемы с немедленной подгрузкой данных в ГИС) -> исправлено
- Многочисленные неоправданные последовательности символов "пробел" в атрибутике -> исправлено
- Пустые поля. ";" в конце заголовка и ";" в конце каждой записи (пример: 619), иногда нерегулярно встречается "; " -> исправлено
- На данный момент (20130609) многие наборы данных, ранее имевшие геопривязку, ее потеряли - используйте архивные версии.
- Неоправданные разрывы строк в записях (например: 493.csv от 20130611, форум) -> исправлено
TODO
- *.csvt файлы пока рассматривают все поля как тип String(255). Нужно пройтись по всем полям и выяснить их тип, добавив его в fields.csv
- создать *.qml
- сконвертировать все в GeoJSON
- обновлять только обновившееся, дату можно взять из метаданных, (но вдруг нас обманут? :) либо побайтово сравнивать с пред.версией CSV
Актуальность производных данных и архив
Текущая версия данных расположенная здесь: 22 мая 2013.
Чтобы посмотреть архивную версию данных, возьмите ссылку из таблице ниже и добавьте дату в формате YYYYMMDD. Например:
Актуальная версия:
http://gis-lab.info/data/mos.ru/493_shp.7z
Архивная:
http://gis-lab.info/data/mos.ru/20130213/493_shp.7z
Доступны архивы за следующие числа:
20130213,20130222,20130503,20130522,20130611,20130626
Вы можете также воспользоваться специальным сервисом, который следит за обновлениями исходных данных на data.mos.ru и архивирует все версии. Пока этот сервис не занимается нормализацией данных. Планируется объединить эти два сервиса.
Что делать если в свежей версии поломаны данные?
ДИТ периодически "ломает" выкладываемые данные (см. перечень проблем выше). Возможно данные или геоданные не поломаны в архивной версии. Соответственно, чтобы восстановить данные, нужно взять их предыдущую версию. Для этого нужно:
- Выбрать одну из архивных версий выше, например 20130222.
- Определить старый номер набора данных (да, у ДИТа нестабильные номера наборов данных), посмотрев в файл _list.csv лежащий в папке архива. Если такого файла не, то нужно посмотреть список наборов по этой ссылке.
- Определить старый номер этого набора (если он изменился) и скачать соответствующий набор из папки архива.
Нормализованные данные
О нормализованных данных
Все данные - в UTF-8, геометрии - в EPSG:4326. Дополнительно 2 поля: LAT, LON содержащие координаты исходно хранящиеся в 3 разных системах (см. выше), приведенные в эту систему координат в преобразованных данных.
В таблице в поле Источник и Данные данные для скачивания:
- csv - исходные данные 'как есть' на data.mos.ru.
- csv-norm - данные в формате CSV, с нормализованными названиями полей, *.csvt, *.prj, *.vrt файлами.
- shp - данные в формате ESRI Shape (максимальная длина строк 255 символов).
- osm - данные в формате OSM XML, без обрезки атрибутики.
Полный перечень названий полей и их замен для нормализованых данных.
Скачать данные
Поле "изменение" показывает сравнение с версией от 20130611.
Цветами показаны: увеличение или уменьшение количества объектов, новый набор (отсутствовавший 20130611)
Известные проблемы нормализации
1. Закавыченные строки с "разделителем" слепятся, например (исходник, результат 529.csv #64):
;"www.tretyakovgallery.ru;tretyakov.ru"; -> ;www.tretyakovgallery.rutretyakov.ru;
2. Пока не обрабатываются значения вида (пример 821.csv)
55.735571:37.616719,55.735571:37.61672,55.735572:37.616719
Использованные скрипты и сопутствующие файлы, процесс обновления
Язык - Python. Все скрипты можно взять на Github.
По шагам:
1. batch_download.py - Загружаем данные в папку data. Скрипт использует http://gis-lab.info/data/mos.ru/data/_listings/_general.csv как источник кодов для ссылок:
python batch_download.py
2. Архивируем всё для истории
for %i in (*.csv) do C:/tools/7-Zip/7z.exe a -t7z -m0=lzma -mx=9 -mfb=64 -md=32m -ms=on %~ni.7z %i
и выгружаем на FTP в качестве исходников.
3. batch_field_sanitizer_read.py - Экстрагируем названия полей из CSV файлов
python batch_field_sanitizer_read.py data\ fields.csv yes yes
- fields.csv - все названия полей данных
- yes - обновлять существующий файл замен имен полей
- yes - использовать транслит для новых полей
4. Вручную редактируем файл fields.csv добавляя замены
5. batch_field_sanitizer_write.py - Нормализуем поля CSV файлов с данными, используя fields.csv
python batch_field_sanitizer_write.py data\ data-norm fields.csv
6. batch_process.py - подготовщик данных, конвертация, и т.п. Использует GDAL/OGR, использует wgs84.prj.
python batch_process.py
- wgs84.prj - файл описания результирующей нормализованной системы координат
7. batch_table.py - Формируем таблицу в вики-формате (для этой страницы), использует http://gis-lab.info/data/mos.ru/data/_listings/_general.csv
python batch_table.py > table.wiki