Оценка точности тематических карт: различия между версиями

Материал из GIS-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
Нет описания правки
Строка 3: Строка 3:


== Введение ==
== Введение ==
Данная статья является кратким и довольно вольным переводом работы «Making better use of accuracy data in land change studies: Estimating accuracy and area and quantifying uncertainty using stratified estimation» [1]. Основной целью авторов данной работы было описание стратегии использования информации о точности тематической карты для оценки площади выделенных классов с указанием доверительных интервалов. Авторы имеют еще одна работу по данной тематике [2], позволяющую глубже погрузиться в механизм расчетов точности тематических карт.
Данная статья является кратким и довольно вольным переводом работы «Making better use of accuracy data in land change studies: Estimating accuracy and area and quantifying uncertainty using stratified estimation» [1]. Основной целью авторов данной работы было описание стратегии использования информации о точности тематической карты для оценки площади выделенных классов с указанием доверительных интервалов. Авторы имеют еще одну работу по данной тематике [2], позволяющую глубже погрузиться в механизм расчетов точности тематических карт.
Авторы указывают [1], что в статьях посвященных исследованию изменений растительного покрова довольно часто упускается важная информация о точности созданных тематических карт или ошибках в определении площадей выделенных классов. Отмечается, что для более полного использования информации, представленных на данных картах в статьях необходимо обязательно указывать:  
Авторы указывают [1], что в статьях посвященных исследованию изменений растительного покрова довольно часто упускается важная информация о точности созданных тематических карт или ошибках в определении площадей выделенных категорий/классов. Отмечается, что для более полного использования информации, представленных на данных картах в публикуемых статьях необходимо обязательно указывать:  
# Показатели точности: "общая точность классификации" (Overall accuracy), "точность пользователя" (User's accuracy) и "точность производителя" (Producer's accuracy). Более подробно со смысловым содержанием данных ошибок можно познакомиться в данной статье [3].
# Показатели точности: "общая точность классификации" (Overall accuracy), "точность пользователя" (User's accuracy) и "точность производителя" (Producer's accuracy). Более подробно со смысловым содержанием данных показателей можно познакомиться в данной статье [3].
# Площади выделенных классов с поправкой на ошибки классификации.
# Площади выделенных классов с поправкой на ошибки классификации.
# Указание ошибки среднего (SE) или доверительного интервала (CI) оцениваемых площадей.
# Указание ошибки среднего (SE) или доверительного интервала (CI) оцениваемых площадей.
Несколько простых числовых примеров позволят проследить последовательность расчетов данных показателей для простой случайной, систематической и стратифицированной случайной выборки. Выборка - это набор точек на оцениваемой тематической карты в атрибутах которых записаны значения класса взятые непосредственно с самой карты (map categories), а также справочные (эталонные, ссылочные) значения (reference categories) полученные из иных источников (полевых исследований, снимков более высокого пространственного разрешения и т.д.).
Несколько простых числовых примеров позволят проследить последовательность расчетов данных показателей для случайной, систематической и стратифицированной случайной выборки. Выборка - это набор точек расположенных на оцениваемой тематической карты в атрибутах которых записаны значения класса взятые непосредственно с самой карты (map categories), а также справочные (эталонные, ссылочные) значения (reference categories) полученные из иных источников (полевых исследований, снимков более высокого пространственного разрешения и т.д.).


==Практическая часть==
==Практическая часть==
Строка 126: Строка 126:
Рассчитаем матрицу ошибок с учетом значений площади для каждой категории по формуле (1), но сначала рассчитаем процентное соотношение площадей для 1-ой категории по формуле (2):
Рассчитаем матрицу ошибок с учетом значений площади для каждой категории по формуле (1), но сначала рассчитаем процентное соотношение площадей для 1-ой категории по формуле (2):


<center><math>{W_i}=\frac {300}{600} = \frac {1}{2}</math></center>
<center><math>{W_1}=\frac {300}{600} = \frac {1}{2}</math></center>


Аналогичным образом рассчитаем значения для остальных категорий: 2-3. Занесем результаты расчетов в соответствующие ячейки 5-ой колонки таблицы 4.
Аналогичным образом рассчитаем значения для остальных категорий: 2-3. Занесем результаты расчетов в соответствующие ячейки 5-ой колонки таблицы 4.

Версия от 06:02, 14 января 2016

Эта страница является черновиком статьи.


Методические подходы для оценки точности тематических карт

Введение

Данная статья является кратким и довольно вольным переводом работы «Making better use of accuracy data in land change studies: Estimating accuracy and area and quantifying uncertainty using stratified estimation» [1]. Основной целью авторов данной работы было описание стратегии использования информации о точности тематической карты для оценки площади выделенных классов с указанием доверительных интервалов. Авторы имеют еще одну работу по данной тематике [2], позволяющую глубже погрузиться в механизм расчетов точности тематических карт. Авторы указывают [1], что в статьях посвященных исследованию изменений растительного покрова довольно часто упускается важная информация о точности созданных тематических карт или ошибках в определении площадей выделенных категорий/классов. Отмечается, что для более полного использования информации, представленных на данных картах в публикуемых статьях необходимо обязательно указывать:

  1. Показатели точности: "общая точность классификации" (Overall accuracy), "точность пользователя" (User's accuracy) и "точность производителя" (Producer's accuracy). Более подробно со смысловым содержанием данных показателей можно познакомиться в данной статье [3].
  2. Площади выделенных классов с поправкой на ошибки классификации.
  3. Указание ошибки среднего (SE) или доверительного интервала (CI) оцениваемых площадей.

Несколько простых числовых примеров позволят проследить последовательность расчетов данных показателей для случайной, систематической и стратифицированной случайной выборки. Выборка - это набор точек расположенных на оцениваемой тематической карты в атрибутах которых записаны значения класса взятые непосредственно с самой карты (map categories), а также справочные (эталонные, ссылочные) значения (reference categories) полученные из иных источников (полевых исследований, снимков более высокого пространственного разрешения и т.д.).

Практическая часть

Приведем пример расчета ошибок классификации тематической карты в общем виде. Предположим необходимо оценить точность классификации космического снимка с q категориями/классами и оценить площадь каждой уникальной категории с указанием ошибки. Для этого либо случайным, либо систематическим образом закладывается выборка из n-го количества точек и строится типовая матрица ошибок (matrix error, табл.1). В рядах данной таблицы записываются категории карты (i = 1, 2, … q), а в колонках – справочные (экспертные) категории (j = 1,2, …, q). Правила, по которым заполняется данная таблица можно посмотреть здесь [3]. Отметим, что справочные категории считаются эталонными, т.е. получены из источников заведомо более точных, чем оцениваемая тематическая карта.

Таблица 1. Типовая матрица ошибок (matrix error)
Категория/класс 1 2 ... q Всего
1 n11 n1q n1
2 ... ... ... ... ...
... ... ... ... ... ...
q nq1 ... ... nqq nq
Всего n1 ... ... nq n

Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.

Однако как считают авторы приводимой здесь методики [1,2], более информативной является так называемая преобразованная матрица ошибок, учитывающая относительные значения площади каждой категории (табл. 2). Значения для каждой ячейки данной матрицы (табл. 2) вычисляются по формуле:

, (1)

где nij – значение в соответствующей ячейки матрицы с координатами i, j (табл. 1);

ni – суммарное значение i-ой категории карты (табл. 1);

Wi – отношение суммарной площади i-ой категории, к общей площади карты, т.е.:

Результаты расчетов записываются в преобразованную матрицу ошибок (табл. 2).

Таблица 2. Преобразованная матрица ошибок, учитывающая соотношения площадей категорий
Категория/класс 1 2 ... q Всего
1 p11 p1q p1
2 ... ... ... ... ...
... ... ... ... ... ...
q pq1 ... ... pqq pq
Всего p1 ... ... pq 1
Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.

Ошибки классификации оказывают влияние на оценку площади соответствующей категории. Оценить общую площадь категории можно путем непосредственных измерений с тематической карты. Другой способ оценки площади опирается на справочные (экспертные) категории карты (столбцы в табл. 2). В этом случае площадь соответствующей категории находится путем переумножения общей площади карты на суммарные значения категорий колонок:

, (2)

Выражение (2) может быть записано в развернутом виде:

, (2')

Т.е. происходит переоценка площадей категорий, опирающиеся на справочные значения категорий.

Среднее квадратичное отклонение площади соответствующей категории определяется по формулам (3)-(4):

, (3)

, (4)

Значение площади с доверительным интервалом равным 95% записывается в виде:

, (5)

Принимается, что ошибка имеет z-распределения, при 95% доверительном интервале, z=1.96, округлили до z=2.

Формулы (1) – (5) применены как к случайной, так и систематической или стратифицированной выборке.

Точность пользователя (6), точность производителя (7) и общая точность карты (8) также оценивается с учетом площадей каждой категории, т.е. данные для расчетов берутся из табл. 2.

, (6)
, (7)
, (8)

Приведем пример с числовыми данными. Допустим, имеется тематическая карта с тремя категориями/классами. Для оценки точности в каждой категории случайный образом заложено по 10 точек. Для каждой точки определена категория карты (map categories) и справочная (эталонная) категория (reference categories), на основании этих данных составлена типовая матрица ошибок (табл. 3).

Таблица 3. Типовая матрица ошибок (matrix error)
Категория/класс 1 2 3 Всего Площадь
1 9 1 0 10 300
2 1 7 2 10 200
3 2 4 4 10 100
Всего 12 12 6 30 600

Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.

Рассчитаем матрицу ошибок с учетом значений площади для каждой категории по формуле (1), но сначала рассчитаем процентное соотношение площадей для 1-ой категории по формуле (2):

Аналогичным образом рассчитаем значения для остальных категорий: 2-3. Занесем результаты расчетов в соответствующие ячейки 5-ой колонки таблицы 4.


Аналогичным образом рассчитаем значения для остальных ячеек таблицы 3. Занесем результаты расчетов в соответствующие ячейки 3-5 колонок таблицы 4.

Таблица 4. Преобразованная матрица ошибок, учитывающая соотношения площадей категорий
Категория/класс 1 2 3 Всего Точность пользователя Точность производителя Общая точность
1 9/20 1/20 0 1/2 90% 87% 75%
2 1/30 7/30 2/30 1/3 70% 67% -
3 1/30 2/30 2/30 1/6 40% 50% -
Всего 31/60 21/60 8/60 1 - - -

Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.

Рассчитаем площади с учетом категорий продукта (2):

Таким образом производится перерасчет площадей с учетом ошибок справочных категорий, то есть ошибка в одно значение может составить площадь для:

1-ой категории
2-ой категории
3-ей категории

Тогда значение площади для каждой справочной категории с учетом ошибок классификации можно получить так:

Как видно, получаем идентичные результаты, но запись в более развернутом виде, возможно, делает расчет более прозрачным.

Среднее квадратичное отклонение вычисляем по формуле (3) и (4):

Аналогичны образом производится расчет для остальных категорий (2-3).

Окончательных результат записывается в виде (5):

Точность пользователя вычисляется по формуле (6):

для 1-ой категории:

для 2-ой категории:

для 3-ей категории:

Точность производителя вычисляется по формуле (7): для 1-ой категории:

для 2-ой категории:

для 3-ей категории:

Общая точность вычисляется по формуле (8):

Для сравнения можно рассчитать данные показатели точности традиционным образом исходя из значений матрицы ошибок [3]: точность пользователя:

для 1-ой категории:


для 2-ой категории:


для 3-ей категории:

Как видно, результаты точности пользователя вычисленные двумя методами оказались идентичными, но так происходит далеко не всегда!

Точность производителя:

для 1-ой категории:


для 2-ой категории:


для 3-ей категории:

При сравнении видно, что точность продукта вычисленное вторым способом для 1 и 2 категории занижена, а для 3-ей категории завышено по сравнению с результатами вычисленными по первому способу.

Вывод

Ссылки