Геоданные МВД

Материал из GIS-Lab
Версия от 11:14, 30 марта 2014; Максим Дубинин (обсуждение | вклад) (Новая страница: «{{Статья|Черновик}} {{Аннотация|Геоданные Министерства внутренних дел}} База данных [http://da…»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску
Эта страница является черновиком статьи.


Геоданные Министерства внутренних дел

База данных предоставленная организаторами конкурса нам не подошла, так как не содержала важной части данных - адресной информации о сфере ответственности участковых.

Для районирования данных 112.ru использует административно-территориальное деление и коды ОКАТО. Классификатор этих кодов на сайте источника данных устарел и поэтому свежий классификатор использоваться не может. Поэтому сначала получается копия классификатора.

Далее поготовка данных заключается в получении данных с 112.ru в структурированном табличном виде для каждого интересующего кода ОКАТО, данные разбиваются на две таблицы, сами участковые и их сфера ответственности - таблица с перечнем адресов. Эта таблица в дальнейшем проходит процедуру геокодирования.

Геокодирование производится с помощью геокодера http://openstreetmap.ru, для геокодирование может использоваться модуль для свободной ГИС QGIS - Ru-geocoder (Автор: Евгений Никулин).

Производные базы данных (описание см. ниже) можно скачать по: ссылке

Москва - версия 1

  • RU-MOW-loc - база адресов, 42127 шт. (CSV)
  • RU-MOW-loc_geo - геокодированная база адресов, 42127 шт. (ESRI Shape)
  • RU-MOW-loc_geo_building - выборка домов из OpenStreetMap по геокодированной базе адресов, 14821 шт. (ESRI Shape)
  • RU-MOW-man - база участковых 2592 шт. (CSV)

Москва - версия 2

  • RU-MOW-v2-loc_src - база исходных строк адресов, 45451 шт. (CSV)
  • RU-MOW-v2-loc - база адресов, 7147 шт. (CSV)
  • RU-MOW-v2-loc_geo - геокодированная база адресов, NNNN шт. (ESRI Shape)
  • RU-MOW-v2-loc_geo_building - выборка домов из OpenStreetMap по геокодированной базе адресов, NNNN шт. (ESRI Shape)
  • RU-MOW-v2-man - база участковых 2237 шт. (CSV)

РФ целиком

  • RU-RU_loc - база адресов, не геокодирована, 371738 шт. (CSV)
  • RU-RU_man - база участковых, не геокодирована, 39175 шт. (CSV)
  • RU-RU_photo - фотографии всех участковых РФ - 39641 шт. (JPG)
  • RU-RU_mvd - база организаций, геокодированы только адреса по Москве - 19051 шт. (CSV)


Проблемы исходных данных

  1. Данные плохо структурированы
  2. Для поиска региона используются устаревшие коды ОКАТО
  3. В исходной базе данных отсутствуют многочисленные дома
  4. Большое количество ошибок и опечаток в исходных данных мешающих их полноценному парсингу

Недостатки представленных разработок

Качество обнаружения и определения сферы ответственности участкового целиком зависит от качества основы OpenStreetMap используемой для геокодирования адресов указанных в сфере ответственности. Рисуйте карты!

Следующие недоработки в представленном ПО было бы неплохо исправить в будущем.

  1. При парсинге не учитываются улицы указанные целиком, без домов.
  2. С улиц указанных целиком в базу данных результатов должны попадать все дома.
  3. При парсинге не обрабатываются диапазоны номеров домов (например: 1-24)
  4. Диапазон домов должен превращаться в набор домов
  5. При парсинге не обрабатываются совсем плохо структурированные данные (пример, полный список ошибочных файлов)