Оценка точности тематических карт
Методические подходы для оценки точности тематических карт
Введение
Данная статья является кратким и довольно вольным переводом работы «Making better use of accuracy data in land change studies: Estimating accuracy and area and quantifying uncertainty using stratified estimation» [1]. Основной целью авторов данной работы было описание стратегии использования информации о точности тематической карты для оценки площади выделенных классов с указанием доверительных интервалов. Авторы имеют еще одну работу по данной тематике [2], позволяющую глубже погрузиться в механизм расчетов точности тематических карт. Авторы указывают [1], что в статьях посвященных исследованию изменений растительного покрова довольно часто упускается важная информация о точности созданных тематических карт или ошибках в определении площадей выделенных категорий/классов. Отмечается, что для более полного использования информации, представленных на данных картах в публикуемых статьях необходимо обязательно указывать:
- Показатели точности: "общая точность классификации" (Overall accuracy), "точность пользователя" (User's accuracy) и "точность производителя" (Producer's accuracy). Более подробно со смысловым содержанием данных показателей можно познакомиться в данной статье [3].
- Площади выделенных классов с поправкой на ошибки классификации.
- Указание ошибки среднего (SE) или доверительного интервала (CI) оцениваемых площадей.
Несколько простых числовых примеров позволят проследить последовательность расчетов данных показателей для случайной, систематической и стратифицированной случайной выборки. Выборка - это набор точек расположенных на оцениваемой тематической карты в атрибутах которых записаны значения класса взятые непосредственно с самой карты (map categories), а также справочные (эталонные, ссылочные) значения (reference categories) полученные из иных источников (полевых исследований, снимков более высокого пространственного разрешения и т.д.).
Практическая часть
Приведем пример расчета ошибок классификации тематической карты в общем виде. Предположим необходимо оценить точность классификации космического снимка с q категориями/классами и оценить площадь каждой уникальной категории с указанием ошибки. Для этого либо случайным, либо систематическим образом закладывается выборка из n-го количества точек и строится типовая матрица ошибок (matrix error, табл.1). В рядах данной таблицы записываются категории карты (i = 1, 2, … q), а в колонках – справочные (экспертные) категории (j = 1,2, …, q). Правила, по которым заполняется данная таблица можно посмотреть здесь [3]. Отметим, что справочные категории считаются эталонными, т.е. получены из источников заведомо более точных, чем оцениваемая тематическая карта.
Категория/класс | 1 | 2 | ... | q | Всего |
---|---|---|---|---|---|
1 | n11 | n1q | n1 | ||
2 | ... | ... | ... | ... | ... |
... | ... | ... | ... | ... | ... |
q | nq1 | ... | ... | nqq | nq |
Всего | n1 | ... | ... | nq | n |
Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.
Однако как считают авторы приводимой здесь методики [1,2], более информативной является так называемая преобразованная матрица ошибок, учитывающая относительные значения площади каждой категории (табл. 2). Значения для каждой ячейки данной матрицы (табл. 2) вычисляются по формуле:
где nij – значение в соответствующей ячейки матрицы с координатами i, j (табл. 1);
ni – суммарное значение i-ой категории карты (табл. 1);
Wi – отношение суммарной площади i-ой категории, к общей площади карты, т.е.:
Результаты расчетов записываются в преобразованную матрицу ошибок (табл. 2).
Категория/класс | 1 | 2 | ... | q | Всего |
---|---|---|---|---|---|
1 | p11 | p1q | p1 | ||
2 | ... | ... | ... | ... | ... |
... | ... | ... | ... | ... | ... |
q | pq1 | ... | ... | pqq | pq |
Всего | p1 | ... | ... | pq | 1 |
Ошибки классификации оказывают влияние на оценку площади соответствующей категории. Оценить общую площадь категории можно путем непосредственных измерений с тематической карты. Другой способ оценки площади опирается на справочные (экспертные) категории карты (столбцы в табл. 2). В этом случае площадь соответствующей категории находится путем переумножения общей площади карты на суммарные значения категорий колонок:
Выражение (2) может быть записано в развернутом виде:
Т.е. происходит переоценка площадей категорий, опирающиеся на справочные значения категорий.
Среднее квадратичное отклонение площади соответствующей категории определяется по формулам (3)-(4):
, (3)
Значение площади с доверительным интервалом равным 95% записывается в виде:
Принимается, что ошибка имеет z-распределения, при 95% доверительном интервале, z=1.96, округлили до z=2.
Формулы (1) – (5) применены как к случайной, так и систематической или стратифицированной выборке.
Точность пользователя (6), точность производителя (7) и общая точность карты (8) также оценивается с учетом площадей каждой категории, т.е. данные для расчетов берутся из табл. 2.
Приведем пример с числовыми данными. Допустим, имеется тематическая карта с тремя категориями/классами. Для оценки точности в каждой категории случайный образом заложено по 10 точек. Для каждой точки определена категория карты (map categories) и справочная (эталонная) категория (reference categories), на основании этих данных составлена типовая матрица ошибок (табл. 3).
Категория/класс | 1 | 2 | 3 | Всего | Площадь |
---|---|---|---|---|---|
1 | 9 | 1 | 0 | 10 | 300 |
2 | 1 | 7 | 2 | 10 | 200 |
3 | 2 | 4 | 4 | 10 | 100 |
Всего | 12 | 12 | 6 | 30 | 600 |
Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.
Рассчитаем матрицу ошибок с учетом значений площади для каждой категории по формуле (1), но сначала рассчитаем процентное соотношение площадей для 1-ой категории по формуле (2):
Аналогичным образом рассчитаем значения для остальных категорий: 2-3. Результаты расчетов заносятся в соответствующие ячейки 5-ой колонки таблицы 4.
Аналогичным образом рассчитаем значения для остальных ячеек таблицы 3. Занесем результаты расчетов в соответствующие ячейки 3-5 колонок таблицы 4.
Категория/класс | 1 | 2 | 3 | Всего | Точность пользователя | Точность производителя | Общая точность |
---|---|---|---|---|---|---|---|
1 | 9/20 | 1/20 | 0 | 1/2 | 90% | 87% | 75% |
2 | 1/30 | 7/30 | 2/30 | 1/3 | 70% | 67% | - |
3 | 1/30 | 2/30 | 2/30 | 1/6 | 40% | 50% | - |
Всего | 31/60 | 21/60 | 8/60 | 1 | - | - | - |
Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.
Рассчитаем площади с учетом категорий продукта (2):
Таким образом производится перерасчет площадей с учетом ошибок справочных категорий, то есть ошибка в одно значение может составить площадь для:
1-ой категории
2-ой категории
3-ей категории
Тогда значение площади для каждой справочной категории с учетом ошибок классификации можно получить так:
Как видно, получаем идентичные результаты, но запись в более развернутом виде, возможно, делает расчет более прозрачным.
Среднее квадратичное отклонение вычисляем по формуле (3) и (4):
Аналогичны образом производится расчет для остальных категорий (2-3).
Окончательных результат записывается в виде (5):
Точность пользователя вычисляется по формуле (6):
для 1-ой категории:
для 2-ой категории:
для 3-ей категории:
Точность производителя вычисляется по формуле (7):
для 1-ой категории:
для 2-ой категории:
для 3-ей категории:
Общая точность вычисляется по формуле (8):
Для сравнения можно рассчитать данные показатели точности традиционным образом исходя из значений матрицы ошибок [3]: точность пользователя:
для 1-ой категории:
для 2-ой категории:
для 3-ей категории:
Как видно, результаты точности пользователя вычисленные двумя методами оказались идентичными, но так происходит далеко не всегда!
Точность производителя:
для 1-ой категории:
для 2-ой категории:
для 3-ей категории:
При сравнении видно, что точность производителя вычисленное вторым способом для 1 и 2 категории занижена, а для 3-ей категории завышено по сравнению с результатами вычисленными по первому способу.
Автоматизация расчетов
Для автоматизации расчетов по данной методике [1] имеется модуль "Validation Tool 1.1" к QGIS. Устанавливается из официального репозитория QGIS. Исходный код выложен здесь [4].
Вывод
Как видно способ оценки точности тематических карт, описанный в статье [1] является относительно простым и интуитивно понятным. При желании данные расчеты можно выполнить даже на бумаге. Однако следует помнить и понимать, что это только один из способов оценки точности тематических карт и его выбор будет зависеть от ваших целей и задач.
Ссылки
1. Olofsson P., et al. Making better use of accuracy data in land change studies: Estimating accuracy and area and quantifying uncertainty using stratified estimation / Pontus Olofsson, Giles M. Foody, Stephen V. Stehman, Curtis E. Woodcock // Remote Sensing of Environment 129 (2013) 122–131.
2. Olofsson P., et al. Good practices for estimating area and assessing accuracy of land change / Pontus Olofsson, Giles M. Foody, Martin Herold, Stephen V. Stehman, Curtis E.Woodcock, Michael A. Wulder // Remote Sensing of Environment 148 (2014) 42–57.