Геоданные МВД: различия между версиями

Материал из GIS-Lab
Перейти к навигации Перейти к поиску
 
(не показаны 4 промежуточные версии этого же участника)
Строка 2: Строка 2:
{{Аннотация|Геоданные Министерства внутренних дел}}
{{Аннотация|Геоданные Министерства внутренних дел}}


Для районирования данных 112.ru использует административно-территориальное деление и коды ОКАТО. Классификатор этих кодов на сайте источника данных устарел и поэтому свежий классификатор использоваться не может. Поэтому сначала получается копия классификатора.
==Источники данных==
Данные размещенные здесь получены с сайтов http://112.ru, http://mvd.ru.


Далее поготовка данных заключается в получении данных с 112.ru в структурированном табличном виде для каждого интересующего кода ОКАТО, данные разбиваются на две таблицы, сами участковые и их сфера ответственности - таблица с перечнем адресов. Эта таблица в дальнейшем проходит процедуру геокодирования.  
==Методика==
Для районирования данных источники используют административно-территориальное деление и коды ОКАТО. Классификатор этих кодов на некоторых источниках данных устарел (112.ru) и поэтому свежий классификатор использоваться не может. Поэтому сначала получается копия классификатора.


Геокодирование производится с помощью геокодера http://openstreetmap.ru, для геокодирование может использоваться модуль для свободной ГИС QGIS - [[Пакетное геокодирование в QGIS|Ru-geocoder]] (Автор: Евгений Никулин).
Далее поготовка данных заключается в получении данных из источников в структурированном табличном виде для каждого интересующего кода ОКАТО, данные разбиваются на две таблицы:
*участковые
*сфера ответственности - таблица с перечнем адресов. Эта таблица в дальнейшем проходит процедуру геокодирования.  


Производные базы данных (описание см. ниже) можно скачать по: [http://gis-lab.info/data/openpolice ссылке]
Геокодирование производится с помощью геокодера http://openstreetmap.ru, для геокодирование может использоваться модуль для свободной ГИС QGIS - [[Пакетное геокодирование в QGIS|Ru-geocoder]] или [https://github.com/simgislab/osm-geocode набор скриптов] для Python (Автор: Евгений Никулин).


'''Москва - версия 1'''
==Базы данных==
*RU-MOW-loc - база адресов, 42127 шт. (CSV)
Производные базы данных (описание см. ниже) можно скачать по ссылкам ниже.  
*RU-MOW-loc_geo - геокодированная база адресов, 42127 шт. (ESRI Shape)
*RU-MOW-loc_geo_building - выборка домов из [http://gis-lab.info/projects/osm_shp.html OpenStreetMap] по геокодированной базе адресов, 14821 шт. (ESRI Shape)
*RU-MOW-man - база участковых 2592 шт. (CSV)
'''Москва - версия 2'''
*RU-MOW-v2-loc_src - база исходных строк адресов, 45451 шт. (CSV)
*RU-MOW-v2-loc - база адресов, 7147 шт. (CSV)
*RU-MOW-v2-loc_geo - геокодированная база адресов, NNNN шт. (ESRI Shape)
*RU-MOW-v2-loc_geo_building - выборка домов из [http://gis-lab.info/projects/osm_shp.html OpenStreetMap] по геокодированной базе адресов, NNNN шт. (ESRI Shape)
*RU-MOW-v2-man - база участковых 2237 шт. (CSV)
'''РФ целиком'''
*RU-RU_loc - база адресов, не геокодирована, 371738 шт. (CSV)
*RU-RU_man - база участковых, не геокодирована, 39175 шт. (CSV)
*RU-RU_photo - фотографии всех участковых РФ - 39641 шт. (JPG)
*RU-RU_mvd - база организаций, геокодированы только адреса по Москве - 19051 шт. (CSV)


'''Москва - версия 1 - 112.ru'''
*RU-MOW-loc - база адресов, 42127 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-MOW-v1-loc.zip ссылка]
*RU-MOW-loc_geo - геокодированная база адресов, 42127 шт. (ESRI Shape) [http://gis-lab.info/data/openpolice/RU-MOW-v1-loc_geo.7z ссылка]
*RU-MOW-loc_geo_building - выборка домов из [http://gis-lab.info/projects/osm_shp.html OpenStreetMap] по геокодированной базе адресов, 14821 шт. (ESRI Shape) [http://gis-lab.info/data/openpolice/RU-MOW-v1-loc_geo_building.7z ссылка]
*RU-MOW-man - база участковых 2592 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-MOW-v1-man.zip ссылка]
'''Москва - версия 2 - mvd.ru'''
*RU-MOW-v2-loc_src - база исходных строк адресов, 45451 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-MOW-v2-loc_src.zip ссылка]
*RU-MOW-v2-loc - база адресов, 7147 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-MOW-v2-loc.zip ссылка]
*RU-MOW-v2-loc_geo - геокодированная база адресов, 45451 шт. (ESRI Shape) [http://gis-lab.info/data/openpolice/RU-MOW-v2-loc_geo.zip ссылка]
*RU-MOW-v2-loc_geo_building - выборка домов из [http://gis-lab.info/projects/osm_shp.html OpenStreetMap] по геокодированной базе адресов, 21140 шт. (ESRI Shape) [http://gis-lab.info/data/openpolice/RU-MOW-v2-loc_geo_building.zip ссылка]
*RU-MOW-v2-man - база участковых 2237 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-MOW-v2-man.zip ссылка]
'''РФ целиком - версия 1 - 112.ru'''
*RU-RU_loc - база адресов, не геокодирована, 371738 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-RU-v1-loc.zip ссылка]
*RU-RU_man - база участковых, не геокодирована, 39175 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-RU-v1-man.zip ссылка]
*RU-RU_photo - фотографии всех участковых РФ - 39641 шт. (JPG) [http://gis-lab.info/data/openpolice/RU-RU-v1-photos.7z ссылка]
*RU-RU_mvd - база организаций, геокодированы только адреса по Москве - 19051 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-RU-v1-mvd.zip ссылка]


==Проблемы исходных данных==
==Проблемы исходных данных==

Текущая версия от 18:21, 17 апреля 2023

Эта страница является черновиком статьи.


Геоданные Министерства внутренних дел

Источники данных

Данные размещенные здесь получены с сайтов http://112.ru, http://mvd.ru.

Методика

Для районирования данных источники используют административно-территориальное деление и коды ОКАТО. Классификатор этих кодов на некоторых источниках данных устарел (112.ru) и поэтому свежий классификатор использоваться не может. Поэтому сначала получается копия классификатора.

Далее поготовка данных заключается в получении данных из источников в структурированном табличном виде для каждого интересующего кода ОКАТО, данные разбиваются на две таблицы:

  • участковые
  • сфера ответственности - таблица с перечнем адресов. Эта таблица в дальнейшем проходит процедуру геокодирования.

Геокодирование производится с помощью геокодера http://openstreetmap.ru, для геокодирование может использоваться модуль для свободной ГИС QGIS - Ru-geocoder или набор скриптов для Python (Автор: Евгений Никулин).

Базы данных

Производные базы данных (описание см. ниже) можно скачать по ссылкам ниже.

Москва - версия 1 - 112.ru

  • RU-MOW-loc - база адресов, 42127 шт. (CSV) ссылка
  • RU-MOW-loc_geo - геокодированная база адресов, 42127 шт. (ESRI Shape) ссылка
  • RU-MOW-loc_geo_building - выборка домов из OpenStreetMap по геокодированной базе адресов, 14821 шт. (ESRI Shape) ссылка
  • RU-MOW-man - база участковых 2592 шт. (CSV) ссылка

Москва - версия 2 - mvd.ru

  • RU-MOW-v2-loc_src - база исходных строк адресов, 45451 шт. (CSV) ссылка
  • RU-MOW-v2-loc - база адресов, 7147 шт. (CSV) ссылка
  • RU-MOW-v2-loc_geo - геокодированная база адресов, 45451 шт. (ESRI Shape) ссылка
  • RU-MOW-v2-loc_geo_building - выборка домов из OpenStreetMap по геокодированной базе адресов, 21140 шт. (ESRI Shape) ссылка
  • RU-MOW-v2-man - база участковых 2237 шт. (CSV) ссылка

РФ целиком - версия 1 - 112.ru

  • RU-RU_loc - база адресов, не геокодирована, 371738 шт. (CSV) ссылка
  • RU-RU_man - база участковых, не геокодирована, 39175 шт. (CSV) ссылка
  • RU-RU_photo - фотографии всех участковых РФ - 39641 шт. (JPG) ссылка
  • RU-RU_mvd - база организаций, геокодированы только адреса по Москве - 19051 шт. (CSV) ссылка

Проблемы исходных данных

  1. Данные плохо структурированы
  2. Для поиска региона используются устаревшие коды ОКАТО
  3. В исходной базе данных отсутствуют многочисленные дома
  4. Большое количество ошибок и опечаток в исходных данных мешающих их точному геокодированию

Недостатки представленных разработок

Качество обнаружения и определения сферы ответственности участкового целиком зависит от качества основы OpenStreetMap используемой для геокодирования адресов указанных в сфере ответственности. Рисуйте карты!

Следующие недоработки в представленном ПО было бы неплохо исправить в будущем.

  1. При парсинге не учитываются улицы указанные целиком, без домов.
  2. С улиц указанных целиком в базу данных результатов должны попадать все дома.
  3. При парсинге не обрабатываются диапазоны номеров домов (например: 1-24)
  4. Диапазон домов должен превращаться в набор домов
  5. При парсинге не обрабатываются совсем плохо структурированные данные (пример, полный список ошибочных файлов)

Аналогичные базы данных

База данных предоставленная организаторами конкурса "Открытая полиция". Не содержит важной части данных - адресной информации о сфере ответственности участковых.