Метод весомости признака (weight of evidence)

Материал из GIS-Lab
Перейти к навигации Перейти к поиску

Введение

Изначально метод весомости признака (weight of evidence) был разработан для работы с непространственными данными в задачах медицинской диагностики. Признаком в подобных приложениях считался набор симптомов, а тестируемой гипотезой - предположение о том, что "пациент болен болезнью X". В этом случае для каждого симптома по определенному алгоритму вычислялась пара весов, один из которых соответствовал наличию симптома, а другой - его отсутствию. Абсолютная величина веса отражала степень достоверности связи между симптомом и наличием/отсутствием болезни (связь выявлялась на основе обследования большой группы пациентов). Соответственно, полученные веса могли быть использованы для определения вероятности того, что вновь поступивший пациент болен данной болезнью, основываясь на наличии/отсутствии у него определенных симптомов.

В последствии метод весомости признака был адаптирован для анализа пространственных данных, этот метод может быть применен для проверки гипотез о совместном появлении определенных событий. Например, в геологии, используя этот метод и основываясь на наличии или отсутствии определенных пород на исследуемой территории, можно оценить справедливость гипотезы "В данном месте ожидается наличие залежи типа X". Метод также широко применяется в экологических задачах, при анализе изменений территорий и т.п. Особенностью данного метода является простота в реализации - анализ может быть выполнен стандартными инструментами ГИС (пространственная выборка, пересечение и объединение объектов и т.п.).

В данной статье рассматривается простейший случай метода весомости признака - бинарный, когда анализируемые признаки подразделяются на два класса (например, наличие/отсутствие).

Описание метода

Представим, что имеются некоторые события или явления, которые предположительно связаны с какими-то другими пространственными явлениями. Например, какой-либо вид растений может быть встречен на определенных участках в зависимости от характера этих участков (влажность, экспозиция склона и т.д.). Пусть нас интересует выявление закономерностей - какие именно характеристики влияют на вероятность появления данного события, насколько сильна взаимосвязь, положительна она или отрицательна, решить данную задачу можно путем построения уравнения регрессии и дальнейшего анализа его коэффициентов. Метод весомости признака предлагает подобный подход, но коэффициенты, полученные при помощи данного метода, легче интерпретируются.

По своей сути метод весомости признака представляет статистический метод, основанный на теореме Байеса. Метод требует набора "объясняющих" слоев, содержащих данные, относительно которых строится гипотеза, что эти данные влияют на вероятность появления анализируемого события. В данной статье рассматривается простейший вариант метода - бинарный, который имеет дело с двоичными категориями данных, т.е. когда слои содержат информацию, представимую двумя классами (влажный/сухой, высокий/низкий, наличие/отсутсвие и т.п.). Далее необходим набор точек, отмечающие места, в которых произошло событие.

Обозначения

Введем необходимые обозначения.

Пусть - исследуемая территория, разобьем ее на квадраты равной площади, и пусть Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle u} - размер квадрата.

Пусть Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle A()} - функция возвращающая площадь какого-либо участка, например, Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle A(T)} вернет площадь данной территории. Пусть Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle N()} - функция, возвращающая число квадратов размера Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle u} , в таком случае Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle N(T)} - число квадратов, уместившихся на территории Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle T} (заметим, что величина Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle N(T)={A(T)}/{u}} представляет собой дробную величину, и что не следует ее округлять до целых чисел).

Пусть Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle B} - признак, т.е. некоторая объясняющая переменная (например, влажность), тогда Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle A(B)} - площадь территории, где величина Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle B} присутствует (например, значение категории = 2), Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle A(\overline{B})} - площадь территории, где величина Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle B} отсутствует (например, значение категории = 1). Пусть Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle N(B)} будет означать количество квадратов размера Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle u} , на которых замечено присутствие признака Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle B} (обратим внимание, что Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle N(B)={A(B)}/{u}} ), аналогично, Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle N(\overline{B})} - количество квадратов, для которых признак Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle B} отсутствует. Предположим, что слой не содержит пропущенных данных, то есть Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle N(B)+N(\overline{B})=N(T)} .

Наконец, пусть Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle N(D)} - число точек, помечающих места, в которых произошло событие. Эта величина является целочисленной и не зависит от выбора размера квадрата Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle u} .

Ход рассуждений

Используя инструментарий ГИС несложно измерить величины Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle N(T)} , Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle N(B)} и Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle N(\overline{B})} . Также нетрудно подсчитать число обучающих точек, попадающих на участки Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle B} и Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle B} , т.е. величины <math>N(D\cap\overline{B})