Геоданные МВД: различия между версиями
(не показаны 4 промежуточные версии этого же участника) | |||
Строка 2: | Строка 2: | ||
{{Аннотация|Геоданные Министерства внутренних дел}} | {{Аннотация|Геоданные Министерства внутренних дел}} | ||
==Источники данных== | |||
Данные размещенные здесь получены с сайтов http://112.ru, http://mvd.ru. | |||
==Методика== | |||
Для районирования данных источники используют административно-территориальное деление и коды ОКАТО. Классификатор этих кодов на некоторых источниках данных устарел (112.ru) и поэтому свежий классификатор использоваться не может. Поэтому сначала получается копия классификатора. | |||
Далее поготовка данных заключается в получении данных из источников в структурированном табличном виде для каждого интересующего кода ОКАТО, данные разбиваются на две таблицы: | |||
*участковые | |||
*сфера ответственности - таблица с перечнем адресов. Эта таблица в дальнейшем проходит процедуру геокодирования. | |||
Геокодирование производится с помощью геокодера http://openstreetmap.ru, для геокодирование может использоваться модуль для свободной ГИС QGIS - [[Пакетное геокодирование в QGIS|Ru-geocoder]] или [https://github.com/simgislab/osm-geocode набор скриптов] для Python (Автор: Евгений Никулин). | |||
==Базы данных== | |||
Производные базы данных (описание см. ниже) можно скачать по ссылкам ниже. | |||
'''Москва - версия 1 - 112.ru''' | |||
*RU-MOW-loc - база адресов, 42127 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-MOW-v1-loc.zip ссылка] | |||
*RU-MOW-loc_geo - геокодированная база адресов, 42127 шт. (ESRI Shape) [http://gis-lab.info/data/openpolice/RU-MOW-v1-loc_geo.7z ссылка] | |||
*RU-MOW-loc_geo_building - выборка домов из [http://gis-lab.info/projects/osm_shp.html OpenStreetMap] по геокодированной базе адресов, 14821 шт. (ESRI Shape) [http://gis-lab.info/data/openpolice/RU-MOW-v1-loc_geo_building.7z ссылка] | |||
*RU-MOW-man - база участковых 2592 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-MOW-v1-man.zip ссылка] | |||
'''Москва - версия 2 - mvd.ru''' | |||
*RU-MOW-v2-loc_src - база исходных строк адресов, 45451 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-MOW-v2-loc_src.zip ссылка] | |||
*RU-MOW-v2-loc - база адресов, 7147 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-MOW-v2-loc.zip ссылка] | |||
*RU-MOW-v2-loc_geo - геокодированная база адресов, 45451 шт. (ESRI Shape) [http://gis-lab.info/data/openpolice/RU-MOW-v2-loc_geo.zip ссылка] | |||
*RU-MOW-v2-loc_geo_building - выборка домов из [http://gis-lab.info/projects/osm_shp.html OpenStreetMap] по геокодированной базе адресов, 21140 шт. (ESRI Shape) [http://gis-lab.info/data/openpolice/RU-MOW-v2-loc_geo_building.zip ссылка] | |||
*RU-MOW-v2-man - база участковых 2237 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-MOW-v2-man.zip ссылка] | |||
'''РФ целиком - версия 1 - 112.ru''' | |||
*RU-RU_loc - база адресов, не геокодирована, 371738 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-RU-v1-loc.zip ссылка] | |||
*RU-RU_man - база участковых, не геокодирована, 39175 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-RU-v1-man.zip ссылка] | |||
*RU-RU_photo - фотографии всех участковых РФ - 39641 шт. (JPG) [http://gis-lab.info/data/openpolice/RU-RU-v1-photos.7z ссылка] | |||
*RU-RU_mvd - база организаций, геокодированы только адреса по Москве - 19051 шт. (CSV) [http://gis-lab.info/data/openpolice/RU-RU-v1-mvd.zip ссылка] | |||
==Проблемы исходных данных== | ==Проблемы исходных данных== |
Текущая версия от 18:21, 17 апреля 2023
Геоданные Министерства внутренних дел
Источники данных
Данные размещенные здесь получены с сайтов http://112.ru, http://mvd.ru.
Методика
Для районирования данных источники используют административно-территориальное деление и коды ОКАТО. Классификатор этих кодов на некоторых источниках данных устарел (112.ru) и поэтому свежий классификатор использоваться не может. Поэтому сначала получается копия классификатора.
Далее поготовка данных заключается в получении данных из источников в структурированном табличном виде для каждого интересующего кода ОКАТО, данные разбиваются на две таблицы:
- участковые
- сфера ответственности - таблица с перечнем адресов. Эта таблица в дальнейшем проходит процедуру геокодирования.
Геокодирование производится с помощью геокодера http://openstreetmap.ru, для геокодирование может использоваться модуль для свободной ГИС QGIS - Ru-geocoder или набор скриптов для Python (Автор: Евгений Никулин).
Базы данных
Производные базы данных (описание см. ниже) можно скачать по ссылкам ниже.
Москва - версия 1 - 112.ru
- RU-MOW-loc - база адресов, 42127 шт. (CSV) ссылка
- RU-MOW-loc_geo - геокодированная база адресов, 42127 шт. (ESRI Shape) ссылка
- RU-MOW-loc_geo_building - выборка домов из OpenStreetMap по геокодированной базе адресов, 14821 шт. (ESRI Shape) ссылка
- RU-MOW-man - база участковых 2592 шт. (CSV) ссылка
Москва - версия 2 - mvd.ru
- RU-MOW-v2-loc_src - база исходных строк адресов, 45451 шт. (CSV) ссылка
- RU-MOW-v2-loc - база адресов, 7147 шт. (CSV) ссылка
- RU-MOW-v2-loc_geo - геокодированная база адресов, 45451 шт. (ESRI Shape) ссылка
- RU-MOW-v2-loc_geo_building - выборка домов из OpenStreetMap по геокодированной базе адресов, 21140 шт. (ESRI Shape) ссылка
- RU-MOW-v2-man - база участковых 2237 шт. (CSV) ссылка
РФ целиком - версия 1 - 112.ru
- RU-RU_loc - база адресов, не геокодирована, 371738 шт. (CSV) ссылка
- RU-RU_man - база участковых, не геокодирована, 39175 шт. (CSV) ссылка
- RU-RU_photo - фотографии всех участковых РФ - 39641 шт. (JPG) ссылка
- RU-RU_mvd - база организаций, геокодированы только адреса по Москве - 19051 шт. (CSV) ссылка
Проблемы исходных данных
- Данные плохо структурированы
- Для поиска региона используются устаревшие коды ОКАТО
- В исходной базе данных отсутствуют многочисленные дома
- Большое количество ошибок и опечаток в исходных данных мешающих их точному геокодированию
Недостатки представленных разработок
Качество обнаружения и определения сферы ответственности участкового целиком зависит от качества основы OpenStreetMap используемой для геокодирования адресов указанных в сфере ответственности. Рисуйте карты!
Следующие недоработки в представленном ПО было бы неплохо исправить в будущем.
- При парсинге не учитываются улицы указанные целиком, без домов.
- С улиц указанных целиком в базу данных результатов должны попадать все дома.
- При парсинге не обрабатываются диапазоны номеров домов (например: 1-24)
- Диапазон домов должен превращаться в набор домов
- При парсинге не обрабатываются совсем плохо структурированные данные (пример, полный список ошибочных файлов)
Аналогичные базы данных
База данных предоставленная организаторами конкурса "Открытая полиция". Не содержит важной части данных - адресной информации о сфере ответственности участковых.