SPARQL на примерах Wikidata
SPARQL — это язык запросов к данным, основанных на модели "субъект-предикат-значение" (в терминах Wikidata элемент-свойство-значения, item-property-values). Wikidata - это открытый проект, потенциально интересный в гео-проектах и доступный в виде публичной SPARQL-точки
Инструментарий запросов
Запросы к Wikidata можно составлять с помощью различных SPARQL-клиентов. Ключевая особенность Wikidata — это общедоступная и публичная точка доступа SPARQL, включающая в том числе простой веб-интерфейс.
query.wikidata.org
У этого сервиса есть целое руководство на английском языке https://www.mediawiki.org/wiki/Wikidata_query_service/User_Manual и репозиторий для разработчиков https://github.com/wikimedia/wikidata-query-rdf.
Обратите внимание, что результаты запросов можно скачать в формате CSV — хорошее подспорье для более серьёзной работы с помощью других инструментов.
В таблице результатов (в нижней части экрана) можно отфильтровать результаты, используя поиск по всем полям сразу (например, можно попробовать найти "Moscow").
Wikidata
Для помощи по терминологии и модели Wikidata можно посмотреть сюда: https://www.wikidata.org/wiki/Wikidata:Glossary/ru Викиданные:Глоссарий]
Диаграмма русскоязычной терминологии утверждений в Викиданных
Свойства Wikidata
Полный перечень свойств: Wikidata:List_of_properties
Отчёт количества объектов по каждому свойству - Wikidata:Database_reports/List_of_properties/all
- дата прекращения существования - https://www.wikidata.org/wiki/Property:P576
- дата окончания - https://www.wikidata.org/wiki/Property:P582
Географические свойства в Wikidata
Полный перечень: Wikidata:List_of_properties/Geographical_feature
- Принадлежность стране - https://www.wikidata.org/wiki/Property:P17
- Принадлежность админ делению - https://www.wikidata.org/wiki/Property:P131
- Координаты (точка) - https://www.wikidata.org/wiki/Property:P625 (при выборке этого свойства появляется возможность представить результаты на карте в нижней части экрана)
- Численность населения - https://www.wikidata.org/wiki/Property:P1082
- ID отношения из OpenStreetMap - https://www.wikidata.org/wiki/Property:P402
- Столица - https://www.wikidata.org/wiki/Property:P36
- Город-побратим - https://www.wikidata.org/wiki/Property:P190
- Относительная высота https://www.wikidata.org/wiki/Property:P2660
- Официальный язык - https://www.wikidata.org/wiki/Property:P37
Российские свойства в Wikidata
- код ОКАТО https://www.wikidata.org/wiki/Property:P721
- код ОКТМО https://www.wikidata.org/wiki/Property:P764
- Портал «Герои страны» ID https://www.wikidata.org/wiki/Property:P2943
Географические элементы в Wikidata
- континент - https://www.wikidata.org/wiki/Q5107
- суверенное государство - https://www.wikidata.org/wiki/Q3624078
- историческое государство - https://www.wikidata.org/wiki/Q3024240
- город - https://www.wikidata.org/wiki/Q515
- северный полюс - https://www.wikidata.org/wiki/Q934
- южный полюс - https://www.wikidata.org/wiki/Q933
Wikidata Blazegraph
blazegraph - расширения от Wikidata к Blazegraph чтобы сделать запросы к Wikibase более эффективными. Лицензия GPLv2.
- функция geof:distance возвращает минимальное расстояние между двумя точками.
Элементы SPARQL запросов
Т.к. исходные данные представляют граф (элемент-свойство-значения) и его расширения (в Wikidata: квалификаторы, ссылки и др.), то большинство запросов SPARQL строятся вокруг поиска паттернов в графе[1], зачастую нескольких.
Города в России с телефонными кодами
Самый простой пример.
- 1 строка: SELECT запросы[2] выбирают данные или их часть
- 2 строка: выбираем субъекты (?item) у которых явно указано, что они в стране - Россия (Q159)
- 3 строка: выбираем субъекты (?item) у которых явно указано, что они суть - города (Q515)
- 4-6 строка: т.к. значения предиката "ID отношения из OpenStreetMap" P402 могут быть просто не заполнены у отдельных объектов, такие объекты будут исключены из результатов. Это не совсем интуитивно понятно для людей, привыкших к SQL-запросам (где NULL-значения возвращаются в большинстве случаев). В SPARQL необязательные значения[3] нужно включать в результаты вручную.
- 7 строка: выбираем все возможные субъекты и объекты у предиката P473 (код города). Примечание о части "?localdialingcode": в Wikidata у Москвы указано сразу два объекта "495" и "499" у предиката P473, поэтому вернутся 2 результата, а не один. В SQL пришлось бы писать JOIN на ровном месте, а в SPARQL его нет вообще.
SELECT ?item ?relationid ?itemLabel ?countrydialingcode ?localdialingcode WHERE {
?item wdt:P17 wd:Q159.
?item wdt:P31 wd:Q515.
OPTIONAL {
?item wdt:P402 ?relationid.
}
?item wdt:P473 ?localdialingcode.
wd:Q159 wdt:P474 ?countrydialingcode.
SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}
Объекты-побратимы всех российских объектов и их страны
Этот пример призван показать всю простоту JOIN-ов в SPARQL.
Для подходящего первичного ключа (в реляционных терминах) было достаточно найти только сам предикат (город-побратим).
Более того, в отличие от реляционных подходов, мы избавлены от вопросов: "в какой именно таблице хранятся города", "в какой таблице хранится информация о побратимстве". Сложность отличий нормальных форм не сбрасывается сразу на пользователя на уровне языка запросов. Необходимость в тщательном дизайне баз данных (таблиц и отношений) тоже уменьшается (по сравнению с табличным подходом и SQL).
Составители запросов SPARQL просто исследуют данные запросами, а не постоянно думают где именно эти данные расположены и как именно их будут связывать.
- Строка 2: Академический район будет выбран как находящийся в России.
- Строка 4: Мелитополь (Украина) будет выбран как побратим Академического района.
- Строка 7: исключаем исторические страны у городов-побратимов в результатах
SELECT DISTINCT ?wikidataCity ?russianPlace ?country WHERE {
?russianPlace wdt:P17 wd:Q159 .
?russianPlace wdt:P190 ?wikidataCity .
?wikidataCity wdt:P17 ?country .
FILTER NOT EXISTS {?country wdt:P31 wd:Q3024240}
}
ORDER BY ?russianPlace ?country
Существующие страны и их столицы
В отличие от OpenStreetMap, Wikidata не ограничен "существующими прямо сейчас" объектами. Это можно использовать как хороший пример исключения из результатов.
- 5 строка: исключаем[4] те страны, которые - исторические
- 10 строка: результаты упорядочены[5] по названиям на русском или английском
SELECT DISTINCT ?country ?countryLabel ?capital ?capitalLabel
WHERE
{
?country wdt:P31 wd:Q3624078 .
FILTER NOT EXISTS {?country wdt:P31 wd:Q3024240}
OPTIONAL { ?country wdt:P36 ?capital } .
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru", "en" }
}
ORDER BY ?countryLabel
Города примерно с таким же населением как и Пермь
Города, отличающиеся менее чем на 1000 населения от Перми.
- 6 строка: abs[6] это одна из множества возможных функций на числах в тестовых выражениях и фильтрах[7]
#defaultView:Map
SELECT DISTINCT ?city ?cityLabel ?populatie2 ?coor WHERE {
wd:Q915 wdt:P1082 ?populatie .
?city wdt:P1082 ?populatie2 .
?city wdt:P625 ?coor .
FILTER (abs(?populatie - ?populatie2) < 1000)
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru,en" }
}
Ранжирование городов по населению
- Строка 10-17: BIND конструкция[8] позволяет создать переменную и присвоить ей значение. В данном примере мы использовали другую переменную (?population) чтобы создать новую (?layer)
- Строка 11: первый из 5 вложенных в "хвостовую часть" IF(условие, значение при истине, значение при не истине)
#defaultView:Map
SELECT DISTINCT ?city ?cityLabel ?population ?layer ?coordinates WHERE {
?city wdt:P17 wd:Q159.
?city wdt:P31 wd:Q515.
OPTIONAL { ?city wdt:P1082 ?population. }
?city wdt:P625 ?coordinates.
BIND(
IF(?population < 500, "500",
IF(?population < 10000, "10K",
IF(?population < 100000, "100K",
IF(?population < 1000000, "1M",
IF(?population < 10000000, "10M",
">20M")))))
AS ?layer).
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru,en" }
}
ORDER BY
DESC(?population)
Бывшие столицы государств
#defaultView:Map
SELECT DISTINCT ?country ?countryLabel ?capital ?capitalLabel ?coordinates ?ended
WHERE
{
?country p:P36 ?stat.
?stat ps:P36 ?capital.
?capital wdt:P625 ?coordinates.
OPTIONAL {
?country wdt:P582|wdt:P576 ?ended.
}
OPTIONAL {
?capital wdt:P582|wdt:P576 ?ended.
}
OPTIONAL {
?stat pq:P582 ?ended.
}
FILTER(BOUND(?ended)).
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru,en". }
}
Города, которые соединяются с Транссибирской магистралью или Трансмонгольской железной дорогой
- 5 строка: конструкция VALUES[9] используется чтобы вручную указать значения у отдельных элементов[10]
#defaultView:Map
SELECT ?city ?cityLabel ?coordinates
WHERE
{
VALUES ?highway { wd:Q559037 wd:Q58767 }
?highway wdt:P2789 ?city .
?city wdt:P625 ?coordinates .
SERVICE wikibase:label { bd:serviceParam wikibase:language "ru,en". }
}
Wikidata префиксы
Квалификаторы (qualifier)
Если открыть Пермь, то там указанно множество значений у численности населения (P1082), причём все значения - одного ранга (нормальный).
У некоторых из значений численности населения указаны квалификаторы (qualifier) P585 (момент времени) и P459 (метод определения).
- 2 строка: будут выбраны все 43 высказывания у элемента Q915 и свойства P1082
- 3 строка: выбираем их значения
- 4-5 строка: выбираем нужные квалификаторы
SELECT ?val ?qualifier ?wikidataid WHERE {
wd:Q915 p:P1082 ?statements .
?statements ps:P1082 ?val .
?statements pq:P585 ?qualifier .
OPTIONAL { ?statements pq:P459 ?wikidataid . }
}
Ранг (rank)
Показать все страны относящиеся у Перми и их ранги.
SELECT DISTINCT ?doLabel ?do ?rank WHERE {
# VALUES ?rank { wikibase:DeprecatedRank wikibase:NormalRank wikibase:PreferredRank }
wd:Q915 p:P17 ?value.
?value ps:P17 ?do .
?value wikibase:rank ?rank .
SERVICE wikibase:label {
bd:serviceParam wikibase:language "ru" .
}
}
Примеры запросов
Часть примеров:
- Все континенты из Wikidata, отсортированные по убыванию их Wikidata идентификатора
- Объекты в более чем 3000 км от южного полюса, но всё ещё относящиеся к Антарктике
- Страны по убыванию населения
- Самый населённый город в каждой стране
- Количество записей о людях в Викиданных на каждый миллион населения в данной стране
Более сложные примеры: https://bitbucket.org/sulab/wikidatasparqlexamples
Альтернативы SPARQL у Wikidata
Нужно отметить что SPARQL подразумевает только запросы на чтение. Часть языка на обновление, добавление и удаление данных это SPARQL 1.1 Update, в данной статье не рассматривалась.
Для доступа на запись (ботом или массово) вам необходимо ознакомиться с короткой процедурой регистрации ботов и отправить заявку участника-ботовода.
- wikidata-cli
- wikidata-sdk
- Wikidata API. Заявления у Q915: в JSON или в XML
- pywikidata - проект для доступа и на чтение и запись к элементам Wikidata. руководство по созданию ботов и примеры скриптов миграции данных из Википедии и Wikidata.
Источники
- ↑ https://www.w3.org/TR/sparql11-query/#GraphPattern
- ↑ https://www.w3.org/TR/sparql11-query/#QueryForms
- ↑ https://www.w3.org/TR/sparql11-query/#optionals
- ↑ https://www.w3.org/TR/sparql11-query/#negation
- ↑ https://www.w3.org/TR/sparql11-query/#solutionModifiers
- ↑ https://www.w3.org/TR/sparql11-query/#func-abs
- ↑ https://www.w3.org/TR/sparql11-query/#expressions
- ↑ https://www.w3.org/TR/sparql11-query/#assignment
- ↑ https://www.w3.org/TR/sparql11-query/#inline-data
- ↑ http://www.snee.com/bobdc.blog/2012/09/sparql-11s-new-values-keyword.html
Внешние ссылки
- Справочный портал Wikidata
- Обучающие материалы OpenLink Software о SPARQL - части 10 и 11 покрывают основы GeoSPARQL