Эта страница является черновиком статьи.
Методические подходы для оценки точности тематических карт
Введение
Данная статья является кратким и довольно вольным переводом работы «Making better use of accuracy data in land change studies: Estimating accuracy and area and quantifying uncertainty using stratified estimation» [1]. Основной целью авторов данной работы было описание стратегии использования информации о точности тематической карты для оценки площади выделенных классов с указанием доверительных интервалов. Авторы имеют еще одна работу по данной тематике [2], позволяющую глубже погрузиться в механизм расчетов точности тематических карт.
Авторы указывают [1], что в статьях посвященных исследованию изменений растительного покрова довольно часто упускается важная информация о точности созданных тематических карт или ошибках в определении площадей выделенных классов. Отмечается, что для более полного использования информации, представленных на данных картах в статьях необходимо обязательно указывать:
- Показатели точности: "общая точность классификации" (Overall accuracy), "точность пользователя" (User's accuracy) и "точность производителя" (Producer's accuracy). Более подробно со смысловым содержанием данных ошибок можно познакомиться в данной статье [3].
- Площади выделенных классов с поправкой на ошибки классификации.
- Указание ошибки среднего (SE) или доверительного интервала (CI) оцениваемых площадей.
Несколько простых числовых примеров позволят проследить последовательность расчетов данных показателей для простой случайной, систематической и стратифицированной случайной выборки. Выборка - это набор точек на оцениваемой тематической карты в атрибутах которых записаны значения класса взятые с самой карты, а также полученные из иных источников (полевых исследований, снимков более высокого пространственного разрешения и т.д.).
Практическая часть
Приведем пример расчета ошибок классификации тематической карты в общем виде.
Предположим необходимо оценить точность классификации космического снимка с q категориями/классами и оценить площадь каждой уникальной категории с указанием ошибки. Для этого либо случайным, либо систематическим образом закладывается выборка из n-го количества точек и строится типовая матрица ошибок (matrix error, табл.1). В рядах данной таблицы записываются категории карты (i = 1, 2, … q), а в колонках – справочные (экспертные) категории (j = 1,2, …, q). Правила, по которым заполняется данная таблица можно посмотреть здесь [3]. Отметим, что справочные категории считаются эталонными, т.е. получены из источников заведомо более точных, чем оцениваемая тематическая карта.
Таблица 1. Типовая матрица ошибок (matrix error)
| Категория/класс |
1 |
2 |
... |
q |
Всего
|
| 1 |
n11 |
|
|
n1q |
n1
|
| 2 |
... |
... |
... |
... |
...
|
| ... |
... |
... |
... |
... |
...
|
| q |
nq1 |
... |
... |
nqq |
nq
|
| Всего |
n1 |
... |
... |
nq |
n
|
Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.
Однако как считают авторы приводимой здесь методики [1,2], более информативной является так называемая преобразованная матрица ошибок, учитывающая относительные значения площади каждой категории (табл. 2). Значения для каждой ячейки данной матрицы (табл. 2) вычисляются по формуле:
, (1)
где nij – значение в соответствующей ячейки матрицы с координатами i, j (табл. 1);
ni – суммарное значение i-ой категории карты (табл. 1);
Wi – отношение суммарной площади i-ой категории, к общей площади карты, т.е.:
Результаты расчетов записываются в преобразованную матрицу ошибок (табл. 2).
Таблица 2. Преобразованная матрица ошибок, учитывающая соотношения площадей категорий
| Категория/класс |
1 |
2 |
... |
q |
Всего
|
| 1 |
p11 |
|
|
p1q |
p1
|
| 2 |
... |
... |
... |
... |
...
|
| ... |
... |
... |
... |
... |
...
|
| q |
pq1 |
... |
... |
pqq |
pq
|
| Всего |
p1 |
... |
... |
pq |
1
|
Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.
Ошибки классификации оказывают влияние на оценку площади соответствующей категории. Оценить общую площадь категории можно путем непосредственных измерений с тематической карты. Другой способ оценки площади опирается на справочные (экспертные) категории карты (столбцы в табл. 2). В этом случае площадь соответствующей категории находится путем переумножения общей площади карты на суммарные значения категорий колонок:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {A_j} = {A_{tot}} \times {p_j}}
, (2)
Выражение (2) может быть записано в развернутом виде:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {A_j} = {A_{tot}}\sum^{q}_{i} {W_i}\frac{n_{ij}}{n_i}}
, (2')
Т.е. происходит переоценка площадей категорий, опирающиеся на справочные значения категорий.
Среднее квадратичное отклонение площади соответствующей категории определяется по формулам (3)-(4):
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle S({p_j})= \sqrt{ \sum^{q}_{i=1} {W_i^2} \frac{\frac{{n_{ij}}}{n_i}(1-\frac{{n_{ij}}}{n_i})}{n_i-1} } }
, (3)
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle S({A_j})= {A_{tot}} \times S({p_j}) }
, (4)
Значение площади с доверительным интервалом равным 95% записывается в виде:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {A_j} \pm 2 \times S({A_j})}
, (5)
Принимается, что ошибка имеет z-распределения, при 95% доверительном интервале, z=1.96, округлили до z=2.
Формулы (1) – (5) применены как к случайной, так и систематической или стратифицированной выборке.
Точность пользователя (6), точность производителя (7) и общая точность карты (8) также оценивается с учетом площадей каждой категории, т.е. данные для расчетов берутся из табл. 2.
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {U_i} = \frac{p_{ii}}{p_i}}
, (6)
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {P_j} = \frac{p_{jj}}{p_j}}
, (7)
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {O} = \sum^{q}_{j=1} {p_{jj}}}
, (8)
Приведем пример с числовыми данными. Допустим, имеется тематическая карта с тремя категориями/классами. Для оценки точности в каждой категории случайный образом заложено по 10 точек. Для каждой точки определена категория карты (map categories) и справочная (эталонная) категория (reference categories), на основании этих данных составлена типовая матрица ошибок (табл. 3).
Таблица 3. Типовая матрица ошибок (matrix error)
| Категория/класс |
1 |
2 |
3 |
Всего |
Площадь
|
| 1 |
9 |
1 |
0 |
10 |
300
|
| 2 |
1 |
7 |
2 |
10 |
200
|
| 3 |
2 |
4 |
4 |
10 |
100
|
| Всего |
12 |
12 |
6 |
30 |
600
|
Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.
Рассчитаем матрицу ошибок с учетом значений площади для каждой категории по формуле (1), но сначала рассчитаем процентное соотношение площадей для 1-ой категории по формуле (2):
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {W_i}=\frac {300}{600} = \frac {1}{2}}
Аналогичным образом рассчитаем значения для остальных категорий: 2-3. Занесем результаты расчетов в соответствующие ячейки 5-ой колонки таблицы 4.
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {p_{11}}=\frac {1}{2} \times \frac {9}{10} = \frac {9}{20}}
Аналогичным образом рассчитаем значения для остальных ячеек таблицы 3. Занесем результаты расчетов в соответствующие ячейки 3-5 колонок таблицы 4.
Таблица 4. Преобразованная матрица ошибок, учитывающая соотношения площадей категорий
| Категория/класс |
1 |
2 |
3 |
Всего |
Точность пользователя |
Точность производителя |
Общая точность
|
| 1 |
9/20 |
1/20 |
0 |
1/2 |
90% |
87% |
75%
|
| 2 |
1/30 |
7/30 |
2/30 |
1/3 |
70% |
67% |
-
|
| 3 |
1/30 |
2/30 |
2/30 |
1/6 |
40% |
50% |
-
|
| Всего |
31/60 |
21/60 |
8/60 |
1 |
- |
- |
-
|
Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.
Рассчитаем площади с учетом категорий продукта (2):
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {A_1} = {600} \times \frac{31}{60} = 310;}
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {A_2} = {600} \times \frac{21}{60} = 210;}
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {A_3} = {600} \times \frac{8}{60} = 80.}
Таким образом производится перерасчет площадей с учетом ошибок справочных категорий, то есть ошибка в одно значение может составить площадь для:
1-ой категории
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle 600 \times 1/2 \times 1/10 = 30;}
2-ой категории
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle 600 \times 1/3 \times 1/10 = 20;}
3-ей категории
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle 600 \times 1/6 \times 1/10 = 10.}
Тогда значение площади для каждой справочной категории с учетом ошибок классификации можно получить так:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {A_1} = {300} - (1 + 0) \times 30 + 1 \times 20 + 2 \times 10 = 310;}
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {A_2} = {200} - (1 + 2) \times 20 + 1 \times 30 + 4 \times 10 = 210;}
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {A_3} = {100} - (2 + 4) \times 10 + 0 \times 30 + 2 \times 20 = 80.}
Как видно, получаем идентичные результаты, но запись в более развернутом виде, возможно, делает расчет более прозрачным.
Среднее квадратичное отклонение вычисляем по формуле (3) и (4):
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle S({p_1})= \sqrt{ {(\frac{1}{2})^2} \times \frac{\frac{{9}}{10}(1-\frac{{9}}{10})}{10-1} + {(\frac{1}{3})^2} \times \frac{\frac{{1}}{10}(1-\frac{{1}}{10})}{10-1} + {(\frac{1}{6})^2} \times \frac{\frac{{2}}{10}(1-\frac{{2}}{10})}{10-1} } = 0.064; }
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle S({A_1}) = 600 \times 0.064 = 38.43. }
Аналогичны образом производится расчет для остальных категорий (2-3).
Окончательных результат записывается в виде (5):
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {A_1} \pm 2 \times S({A_1}) = 310 \pm 76; }
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {A_2} \pm 2 \times S({A_2}) = 210 \pm 90; }
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {A_3} \pm 2 \times S({A_3}) = 80 \pm 61. }
Точность пользователя вычисляется по формуле (6):
для 1-ой категории:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {9}{20} : \frac{1}{2} = \frac{18}{20} = 0.9; }
для 2-ой категории:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {7}{30} : \frac{1}{3} = \frac{21}{30} = 0.7; }
для 3-ей категории:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {2}{30} : \frac{1}{6} = \frac{12}{30} = 0.4; }
Точность производителя вычисляется по формуле (7):
для 1-ой категории:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {9}{20} : \frac{31}{60} = \frac{27}{31} = 0.9; }
для 2-ой категории:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {7}{30} : \frac{21}{60} = \frac{14}{21} = 0.67; }
для 3-ей категории:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {2}{30} : \frac{8}{60} = \frac{1}{2} = 0.5; }
Общая точность вычисляется по формуле (8):
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {9}{20} + \frac{7}{30} + \frac{2}{30} = \frac{3}{4} = 0.75; }
Для сравнения можно рассчитать данные показатели точности традиционным образом исходя из значений матрицы ошибок [3]:
точность пользователя:
для 1-ой категории:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {9}{10} = 0.9; }
для 2-ой категории:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {7}{10} = 0.7; }
для 3-ей категории:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {4}{10} = 0.4; }
Как видно, результаты точности пользователя вычисленные двумя методами оказались идентичными, но так происходит далеко не всегда!
Точность производителя:
для 1-ой категории:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {9}{12} = 0.75; }
для 2-ой категории:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {7}{12} = 0.58; }
для 3-ей категории:
Невозможно разобрать выражение (SVG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \frac {4}{6} = 0.67; }
При сравнении видно, что точность продукта вычисленное вторым способом для 1 и 2 категории занижена, а для 3-ей категории завышено по сравнению с результатами вычисленными по первому способу.