Метод весомости признака (weight of evidence): различия между версиями

Текущая версия от 08:41, 11 декабря 2012

Введение

Изначально метод весомости признака (weight of evidence) был разработан для работы с непространственными данными в задачах медицинской диагностики. Признаками в подобных приложениях считался набор симптомов, а тестируемой гипотезой - предположение о том, что "пациент болен болезнью X". В этом случае для каждого симптома по определенному алгоритму вычислялась пара весов, один из которых соответствовал наличию симптома, а другой - его отсутствию. Абсолютная величина веса отражала степень достоверности связи между симптомом и наличием/отсутствием болезни (связь выявлялась на основе обследования большой группы пациентов). Соответственно, полученные веса в дальнейшем могли быть использованы для определения вероятности того, что вновь поступивший пациент болен данной болезнью, основываясь на наличии/отсутствии у него определенных симптомов.

В последствии метод весомости признака был адаптирован для анализа пространственных данных. Этот метод может быть применен для проверки гипотез о совместном появлении определенных событий, например, в геологии, используя этот метод и основываясь на наличии или отсутствии определенных пород на исследуемой территории, можно оценить справедливость гипотезы "В данном месте ожидается наличие залежи типа X". Метод также широко применяется в экологических задачах, при анализе изменений территорий и т.п. Особенностью данного метода является простота в реализации - анализ может быть выполнен стандартными инструментами ГИС (пространственная выборка, пересечение и объединение объектов и т.п.).

Описание метода и конкретные примеры его применения описаны в многочисленной литературе, например, здесь дается обзор метода. В статье Bonham-Carter, G.F., Agterberg, F.P. and Wright, D.F., 1988, Integration of geological datasets for gold exploration in Nova Scotia: Photogrammetric Engineering and Remote Sensing, v. 54(11), p. 1585-1592 рассматривается применение метода для выделения золотоносных районов. В статье De Almeida, C.M. and Monteiro, A.M.V. and Camara, G. and Soares-Filho, B.S. and Cerqueira, G.C. and Pennachin, C.L. and Batty, M. GIS and remote sensing as tools for the simulation of urban land‐use change: International Journal of Remote Sensing, 2005, p. 759--774 описывается применение метода для анализа изменений городской среды.

В данной статье рассматривается простейший случай метода весомости признака - бинарный, когда анализируемые признаки подразделяются на два класса (например, наличие/отсутствие).

Описание метода

Представим, что имеются некоторые события или явления, которые предположительно связаны с какими-то другими пространственными явлениями. Например, какой-либо вид растений может быть встречен на определенных участках в зависимости от характера этих участков (влажность, экспозиция склона и т.д.). Пусть нас интересует выявление закономерностей - какие именно характеристики влияют на вероятность появления данного события, насколько сильна взаимосвязь, положительна она или отрицательна. Понятно, что можно решить данную задачу путем построения уравнения регрессии и дальнейшего анализа его коэффициентов. Метод весомости признака предлагает подобный подход, но коэффициенты, полученные при помощи данного метода, легче интерпретируются.

По своей сути метод весомости признака представляет статистический метод, основанный на теореме Байеса. Метод требует набора точек (маркирующих места, в которых произошло анализируемое событие) и "объясняющих" слоев, содержащих данные, относительно которых строится гипотеза, что эти данные влияют на вероятность появления интересующего нас события. В данной статье рассматривается простейший вариант метода - бинарный, который имеет дело с двоичными категориями данных, т.е. когда слои содержат информацию, представимую двумя классами (влажный/сухой, высокий/низкий, наличие/отсутсвие и т.п.).

Обозначения

Введем необходимые обозначения.

Пусть $T$ - исследуемая территория, разобьем ее на квадраты равной площади, и пусть $u$ - размер квадрата.

Пусть $A()$ - функция возвращающая площадь какого-либо участка, например, $A(T)$ вернет площадь данной территории. Пусть $N()$ - функция, возвращающая число квадратов размера $u$ , в таком случае $N(T)$ - число квадратов, уместившихся на территории $T$ (заметим, что величина $N(T)={A(T)}/{u}$ представляет собой дробную величину, и что не следует ее округлять до целых чисел).

Пусть $B$ - признак, т.е. некоторая объясняющая переменная (например, влажность), тогда $A(B)$ - площадь территории, где величина $B$ присутствует (например, "влажность высокая"), $A({\overline {B}})$ - площадь территории, где величина $B$ отсутствует (например, "влажность низкая"). Пусть $N(B)$ будет означать количество квадратов размера $u$ , на которых замечено присутствие признака $B$ (обратим внимание, что $N(B)={A(B)}/{u}$ ), аналогично, $N({\overline {B}})$ - количество квадратов, для которых признак $B$ отсутствует. Предположим, что слой не содержит пропущенных данных, то есть $N(B)+N({\overline {B}})=N(T)$ .

Наконец, пусть $N(D)$ - число точек, помечающих места, в которых произошло событие. Эта величина является целочисленной и не зависит от выбора размера квадрата $u$ .

Используя инструментарий ГИС несложно измерить величины $N(T)$ , $N(B)$ и $N({\overline {B}})$ . Также нетрудно подсчитать число обучающих точек, попадающих на участки $B$ и ${\overline {B}}$ , т.е. величины $N({B}\cap D)$ и $N({\overline {B}}\cap D)$ .

Интерпретация весов

Искомые веса оценивают меру пространственной связи между обучающими точками и признаками. Веса вычисляются по каждому классу из $B$ , положительный вес означает, что число точек, пространственно попавших в данный класс выше, чем могло бы быть при независмом распределении точек и признаков на территории, отрицательный вес означает, что число точек, попавших в данный класс ниже, чем ожидалось в случае независимости точек и признаков.

Поскольку в данной статье рассматривается двоичная реализация метода, то с принаком $B$ будут связаны два веса $W^{+}$ (признак присутсвует) и $W^{-}$ (признак осутствует). Разность между этими весами называется контрастом и представляет собой обобщенную меру связи между точками и признаком: $C=W^{+}-W^{-}$ .

По величинам весов $W^{\pm }$ и контрасту судят о наличии и силе взаимосвязи между точками и признаками. Считается, что если значения весов лежат около 0-0.5, то отмечается слабая взаимосвязь, если веса находятся в диапазоне 1-2, то связь считается сильной, и, наконец, если веса превышают значение 2, то связь считается очень сильной. Может случиться так, что некоторый вес например, $W^{+}$ близок к нулю, а второй вес, например, $W^{-}$ величина отрицательная, показывающая сильную связь. В этом случае получается, что появление признака не повышает вероятности появления исследуемого события, но отсутствие признака делает появление события маловероятным.

Рассчет весов

Веса рассчитываются в соотвествии со следующими правилами:

W^{+}=\ln {\frac {P(B|D)}{P(B|{\overline {D}})}}

и

W^{+}=\ln {\frac {P({\overline {B}}|D)}{P({\overline {B}}|{\overline {D}})}}

где $P()$ означает вероятность, а $\ln$ - натуральный логарифм. Поскольку истинные вероятности неизвестны, то они аппроксимируются по обучающим данным на основе отношения площадей:

P(B|D)={\frac {N(B\cap D)}{N(D)}}

,

P(B|{\overline {D}})={\frac {N(B\cap {\overline {D}})}{N({\overline {D}})}}

,

P({\overline {B}}|D)={\frac {N({\overline {B}}\cap D)}{N(D)}}

и

P({\overline {B}}|{\overline {D}})={\frac {N({\overline {B}}\cap {\overline {D}})}{N({\overline {D}})}}

.

Здесь ${N({B}\cap D)}$ (и аналогичные выражения) означает число точек, попавших в область наличия признака $B$ . Таким образом нетрудно получить рассчетную формулу для веса $W^{+}$ :

W^{+}=\ln {\frac {N(B\cap D)/N(D)}{(N(B)-N(B\cap D))/(N(T)-N(D))}}

и аналогичную формулу для $W^{-}$ .

Случай нескольких признаков

Рассмотренные ранее формулы удобны для вычислений и интерпретаций, когда имеется только один признак, однако, в случае появления нескольких признаков интерпретировать веса становится сложно. Решением служит переход в формуле от вероятностей событий к отношению вероятностей с последующим логарифмированием.

Пусть $P$ - вероятность появления некоторого события или признака, рассмотрим функцию $O()$ - отношение вероятности появления события к вероятности того, что оно не произошло:

O(P)={\frac {P}{1-P}}

.

Тогда известная теорема Байеса

P(D|B)=P(D){\frac {P(B|D)}{P(B)}}

,

связывающая условные вероятности событий, может быть записана в следующей форме

O(D|B)=O(D){\frac {P(B|D)}{P(B|{\overline {D}})}}

.

Если произвести преобразование обеих частей уравнения с помощью $logit$ -функции, т.е. преобразования по формуле

logit(x)=\ln({\frac {x}{1-x}})

,

получаем краткую запись:

logit(D|B)=logit(D)+W^{+}

logit(D|{\overline {B}})=logit(D)+W^{-}

Данная форма записи легко расширяется на большое число признаков. Например, для случая двух признаков получаем следующие соотношения:

logit(D|B_{1}\cap B_{2})=logit(D)+W_{1}^{+}+W_{2}^{+}

logit(D|{\overline {B_{1}}}\cap B_{2})=logit(D)+W_{1}^{-}+W_{2}^{+}

logit(D|B_{1}\cap {\overline {B_{2}}})=logit(D)+W_{1}^{+}+W_{2}^{-}

logit(D|{\overline {B_{1}}}\cap {\overline {B_{2}}})=logit(D)+W_{1}^{-}+W_{2}^{-}

Аналогично выглядят формулы, в который участвуют три и более признака.

@@ Строка 1: / Строка 1: @@
 == Введение ==
-Изначально метод весомости признака (weight of evidence) был разработан для работы с непространственными данными в задачах медицинской диагностики. Признаком в подобных приложениях считался набор симптомов, а тестируемой гипотезой - предположение о том, что "пациент болен болезнью X". В этом случае для каждого симптома по определенному алгоритму вычислялась пара весов, один из которых соответствовал наличию симптома, а другой - его отсутствию. Абсолютная величина веса отражала степень достоверности связи между симптомом и наличием/отсутствием болезни (связь выявлялась на основе обследования большой группы пациентов). Соответственно, полученные веса могли быть использованы для определения вероятности того, что вновь поступивший пациент болен данной болезнью, основываясь на наличии/отсутствии у него определенных симптомов.
+Изначально метод весомости признака (weight of evidence) был разработан для работы с непространственными данными в задачах медицинской диагностики. Признаками в подобных приложениях считался набор симптомов, а тестируемой гипотезой - предположение о том, что "пациент болен болезнью X". В этом случае для каждого симптома по определенному алгоритму вычислялась пара весов, один из которых соответствовал наличию симптома, а другой - его отсутствию. Абсолютная величина веса отражала степень достоверности связи между симптомом и наличием/отсутствием болезни (связь выявлялась на основе обследования большой группы пациентов). Соответственно, полученные веса в дальнейшем могли быть использованы для определения вероятности того, что вновь поступивший пациент болен данной болезнью, основываясь на наличии/отсутствии у него определенных симптомов.
-В последствии метод весомости признака был адаптирован для анализа пространственных данных, этот метод может быть применен для проверки гипотез о совместном появлении определенных событий. Например, в геологии, используя этот метод и основываясь на наличии или отсутствии определенных пород на исследуемой территории, можно оценить справедливость гипотезы "В данном месте ожидается наличие залежи типа X". Метод также широко применяется в экологических задачах, при анализе изменений территорий и т.п. Особенностью данного метода является простота в реализации - анализ может быть выполнен стандартными инструментами ГИС (пространственная выборка, пересечение и объединение объектов и т.п.).
+В последствии метод весомости признака был адаптирован для анализа пространственных данных. Этот метод может быть применен для проверки гипотез о совместном появлении определенных событий, например, в геологии, используя этот метод и основываясь на наличии или отсутствии определенных пород на исследуемой территории, можно оценить справедливость гипотезы "В данном месте ожидается наличие залежи типа X". Метод также широко применяется в экологических задачах, при анализе изменений территорий и т.п. Особенностью данного метода является простота в реализации - анализ может быть выполнен стандартными инструментами ГИС (пространственная выборка, пересечение и объединение объектов и т.п.).
+Описание метода и конкретные примеры его применения описаны в многочисленной литературе, например, [http://www.ige.unicamp.br/wofe/documentation/wofeintr.htm здесь] дается обзор метода. В статье Bonham-Carter, G.F., Agterberg, F.P. and Wright, D.F., 1988, Integration of geological datasets for gold exploration in Nova Scotia: Photogrammetric Engineering and Remote Sensing, v. 54(11), p. 1585-1592 рассматривается применение метода для выделения золотоносных районов. В статье De Almeida, C.M. and Monteiro, A.M.V. and Camara, G. and Soares-Filho, B.S. and Cerqueira, G.C. and Pennachin, C.L. and Batty, M. GIS and remote sensing as tools for the simulation of urban land‐use change: International Journal of Remote Sensing, 2005, p. 759--774 описывается применение метода для анализа изменений городской среды.
 В данной статье рассматривается простейший случай метода весомости признака - бинарный, когда анализируемые признаки подразделяются на два класса (например, наличие/отсутствие).
 == Описание метода ==
-Представим, что имеются некоторые события или явления, которые предположительно связаны с какими-то другими пространственными явлениями. Например, какой-либо вид растений может быть встречен на определенных участках в зависимости от характера этих участков (влажность, экспозиция склона и т.д.). Пусть нас интересует выявление закономерностей - какие именно характеристики влияют на вероятность появления данного события, насколько сильна взаимосвязь, положительна она или отрицательна, решить данную задачу можно путем построения уравнения регрессии и дальнейшего анализа его коэффициентов. Метод весомости признака предлагает подобный подход, но коэффициенты, полученные при помощи данного метода, легче интерпретируются.
+Представим, что имеются некоторые события или явления, которые предположительно связаны с какими-то другими пространственными явлениями. Например, какой-либо вид растений может быть встречен на определенных участках в зависимости от характера этих участков (влажность, экспозиция склона и т.д.). Пусть нас интересует выявление закономерностей - какие именно характеристики влияют на вероятность появления данного события, насколько сильна взаимосвязь, положительна она или отрицательна. Понятно, что можно решить данную задачу путем построения уравнения регрессии и дальнейшего анализа его коэффициентов. Метод весомости признака предлагает подобный подход, но коэффициенты, полученные при помощи данного метода, легче интерпретируются.
+По своей сути метод весомости признака представляет статистический метод, основанный на теореме Байеса. Метод требует набора точек (маркирующих места, в которых произошло анализируемое событие) и "объясняющих" слоев, содержащих данные, относительно которых строится гипотеза, что эти данные влияют на вероятность появления интересующего нас события. В данной статье рассматривается простейший вариант метода - бинарный, который имеет дело с двоичными категориями данных, т.е. когда слои содержат информацию, представимую двумя классами (влажный/сухой, высокий/низкий, наличие/отсутсвие и т.п.).
+=== Обозначения ===
+Введем необходимые обозначения.
+Пусть <math>T</math> - исследуемая территория, разобьем ее на квадраты равной площади, и пусть <math>u</math> - размер квадрата.
+Пусть <math>A()</math> - функция возвращающая площадь какого-либо участка, например, <math>A(T)</math> вернет площадь данной территории. Пусть <math>N()</math> - функция, возвращающая число квадратов размера <math>u</math>, в таком случае <math>N(T)</math> - число квадратов, уместившихся на территории <math>T</math> (заметим, что величина <math>N(T)={A(T)}/{u}</math> представляет собой дробную величину, и что не следует ее округлять до целых чисел).
+Пусть <math>B</math> - признак, т.е. некоторая объясняющая переменная (например, влажность), тогда <math>A(B)</math> - площадь территории, где величина <math>B</math> присутствует (например, "влажность высокая"), <math>A(\overline{B})</math> - площадь территории, где величина <math>B</math> отсутствует (например, "влажность низкая"). Пусть <math>N(B)</math> будет означать количество квадратов размера <math>u</math>, на которых замечено присутствие признака <math>B</math> (обратим внимание, что <math>N(B)={A(B)}/{u}</math>), аналогично, <math>N(\overline{B})</math> - количество квадратов, для которых признак <math>B</math> отсутствует. Предположим, что слой не содержит пропущенных данных, то есть <math>N(B)+N(\overline{B})=N(T)</math>.
+Наконец, пусть <math>N(D)</math> - число точек, помечающих места, в которых произошло событие. Эта величина является целочисленной и не зависит от выбора размера квадрата <math>u</math>.
+Используя инструментарий ГИС несложно измерить величины <math>N(T)</math>, <math>N(B)</math> и <math>N(\overline{B})</math>. Также нетрудно подсчитать число обучающих точек, попадающих на участки <math>B</math> и <math>\overline{B}</math>, т.е. величины <math>N({B}\cap D)</math> и <math>N(\overline{B}\cap D)</math>.
+=== Интерпретация весов ===
+Искомые веса оценивают меру пространственной связи между обучающими точками и признаками. Веса вычисляются по каждому классу из <math>B</math>, положительный вес означает, что число точек, пространственно попавших в данный класс выше, чем могло бы быть при независмом распределении точек и признаков на территории, отрицательный вес означает, что число точек, попавших в данный класс ниже, чем ожидалось в случае независимости точек и признаков.
+Поскольку в данной статье рассматривается двоичная реализация метода, то с принаком <math>B</math> будут связаны два веса <math>W^{+}</math> (признак присутсвует) и <math>W^{-}</math> (признак осутствует). Разность между этими весами называется контрастом и представляет собой обобщенную меру связи между точками и признаком: <math>C =  W^{+} - W^{-}</math>.
+По величинам весов <math>W^{\pm}</math> и контрасту судят о наличии и силе взаимосвязи между точками и признаками. Считается, что если значения весов лежат около 0-0.5, то отмечается слабая взаимосвязь, если веса находятся в диапазоне 1-2, то связь считается сильной, и, наконец, если веса превышают значение 2, то связь считается очень сильной. Может случиться так, что некоторый вес например, <math>W^{+}</math> близок к нулю, а второй вес, например, <math>W^{-}</math> величина отрицательная, показывающая сильную связь. В этом случае получается, что появление признака не повышает вероятности появления исследуемого события, но отсутствие признака делает появление события маловероятным.
+=== Рассчет весов ===
+Веса рассчитываются в соотвествии со следующими правилами:
+:<math>W^{+} = \ln\frac{P(B|D)}{P(B|\overline{D})}</math>
+и
+:<math>W^{+} = \ln\frac{P(\overline{B}|D)}{P(\overline{B}|\overline{D})}</math>
+где <math>P()</math> означает вероятность, а <math>\ln</math> - натуральный логарифм. Поскольку истинные вероятности неизвестны, то они аппроксимируются по обучающим данным на основе отношения площадей:
+:<math>P(B|D) = \frac{N(B\cap D)}{N(D)}</math>,
+:<math>P(B|\overline{D}) = \frac{N(B\cap \overline{D})}{N(\overline{D})}</math>,
+:<math>P(\overline{B}|D) = \frac{N(\overline{B}\cap D)}{N(D)}</math>
+и
+:<math>P(\overline{B}|\overline{D}) = \frac{N(\overline{B}\cap \overline{D})}{N(\overline{D})}</math>.
+Здесь <math>{N({B}\cap D)}</math> (и аналогичные выражения) означает число точек, попавших в область наличия признака <math>B</math>. Таким образом нетрудно получить рассчетную формулу для веса <math>W^{+}</math>:
+:<math>W^{+} = \ln\frac{N(B\cap D)/N(D)}  {(N(B) - N(B\cap D))/(N(T)-N(D)) }</math>
+и аналогичную формулу для <math>W^{-}</math>.
+=== Случай нескольких признаков ===
+Рассмотренные ранее формулы удобны для вычислений и интерпретаций, когда имеется только один признак, однако, в случае появления нескольких признаков интерпретировать веса становится сложно. Решением служит переход в формуле от вероятностей событий к отношению вероятностей с последующим логарифмированием.
+Пусть <math>P</math> - вероятность появления некоторого события или признака, рассмотрим функцию <math>O()</math> - отношение вероятности появления события к вероятности того, что оно не произошло:
+:<math>O(P) = \frac{P}{1-P}</math>.
+Тогда известная теорема Байеса
+:<math>P(D|B) = P(D)\frac{P(B|D)}{P(B)}</math>,
+связывающая условные вероятности событий, может быть записана в следующей форме
+:<math>O(D|B) = O(D)\frac{P(B|D)}{P(B|\overline{D})}</math>.
+Если произвести преобразование обеих частей уравнения с помощью <math>logit</math>-функции, т.е. преобразования по формуле
+:<math>logit(x) = \ln(\frac{x}{1-x})</math>,
+получаем краткую запись:
+:<math>logit(D|B) = logit(D) + W^{+}</math>
+:<math>logit(D|\overline{B}) = logit(D) + W^{-}</math>
+Данная форма записи легко расширяется на большое число признаков. Например, для случая двух признаков получаем следующие соотношения:
+:<math>logit(D|B_1 \cap B_2) = logit(D) + W^{+}_1 + W^{+}_2</math>
+:<math>logit(D|\overline{B_1} \cap B_2) = logit(D) + W^{-}_1 + W^{+}_2</math>
+:<math>logit(D|B_1 \cap \overline{B_2}) = logit(D) + W^{+}_1 + W^{-}_2</math>
-По своей сути метод весомости признака представляет статистический метод, основанный на теореме Байеса. Метод требует набора "объясняющих" слоев, содержащих данные, относительно которых строится гипотеза, что эти данные влияют на вероятность появления анализируемого события. В данной статье рассматривается простейший вариант метода - бинарный, который имеет дело с двоичными категориями данных, т.е. когда слои содержат информацию, представимую двумя классами (влажный/сухой, высокий/низкий, наличие/отсутсвие и т.п.). Далее необходим набор точек, отмечающие места, в которых произошло событие. Введем необходимые обозначения.
+:<math>logit(D|\overline{B_1} \cap \overline{B_2}) = logit(D) + W^{-}_1 + W^{-}_2</math>
-Пусть T - исследуемая территория, разобьем территорию на квадраты равной площади, и пусть u - размер квадрата. Пусть A() - функция возвращающая площадь какого-либо участка, например, A(T) вернет площадь данной территории. Пусть N() - функция, возвращающая число квадратов размера u, в таком случае N(T) - число квадратов, уместившихся на территории T (заметим, что величина N(T)=A(T)/u представляет собой дробную величину, и что не следует ее округлять до целых чисел). Пусть B - некоторая объясняющая переменная (например, влажность), тогда A(B) - площадь территории, где величина B присутствует (например, значение категории = 2), . Пусть N(B) будет означать количество (площадь) квадратов (заметим, что N(B)=A(B)/u)
+Аналогично выглядят формулы, в который участвуют три и более признака.

Метод весомости признака (weight of evidence): различия между версиями

Текущая версия от 08:41, 11 декабря 2012

Содержание

Введение