Оценка точности тематических карт

Эта страница является черновиком статьи.

Методические подходы к оценке точности тематических карт

Введение

Данная статья является кратким и довольно вольным переводом работы «Making better use of accuracy data in land change studies: Estimating accuracy and area and quantifying uncertainty using stratiﬁed estimation» [1]. Основной целью авторов данной работы было описание стратегии использования информации о точности тематической карты для оценки площади выделенных классов с указанием доверительных интервалов. Авторы имеют еще одну работу по данной тематике [2], позволяющую глубже погрузиться в механизм расчетов точности тематических карт. Авторы указывают [1], что в статьях посвященных исследованию изменений растительного покрова довольно часто упускается важная информация о точности созданных тематических карт или ошибках в определении площадей выделенных категорий/классов. Отмечается, что для более полного использования информации, представленных на данных картах в публикуемых статьях необходимо обязательно указывать:

Показатели точности: "общая точность классификации" (Overall accuracy), "точность пользователя" (User's accuracy) и "точность производителя" (Producer's accuracy). Более подробно со смысловым содержанием данных показателей можно познакомиться в данной статье [3].
Площади выделенных классов с поправкой на ошибки классификации.
Указание
ошибки среднего (SE)
и доверительного интервала (CI) оцениваемых площадей.

Несколько простых числовых примеров позволят проследить последовательность расчетов данных показателей для случайной, систематической и стратифицированной случайной выборки. Выборка - это набор точек расположенных на оцениваемой тематической карте в атрибутах которых записаны значения класса взятые непосредственно с самой карты (map categories), а также справочные (эталонные, ссылочные) значения (reference categories) полученные из иных источников (полевых исследований, снимков более высокого пространственного разрешения и т.д.).

Определение точности тематических карт

Расчет в общем виде

Приведем пример расчета ошибок классификации тематической карты в общем виде. Предположим необходимо оценить точность классификации космического снимка с q категориями/классами и оценить площадь каждой уникальной категории с указанием ошибки. Для этого либо случайным, либо систематическим образом закладывается выборка из n-го количества точек и строится типовая матрица ошибок (matrix error, табл.1). В рядах данной таблицы записываются категории карты (i = 1, 2, … q), а в колонках – справочные (экспертные) категории (j = 1,2, …, q). Правила, по которым заполняется данная таблица можно посмотреть здесь [3]. Отметим, что справочные категории считаются эталонными, т.е. получены из источников заведомо более точных, чем оцениваемая тематическая карта.

Таблица 1. Типовая матрица ошибок (matrix error)

Категория/класс	1	2	...	q	Всего
1	n₁₁			n_1q	n₁
2	...	...	...	...	...
...	...	...	...	...	...
q	n_q1	...	...	n_qq	n_q
Всего	n₁	...	...	n_q	n

Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.

Однако как считают авторы приводимой здесь методики [1,2], более информативной является так называемая преобразованная матрица ошибок, учитывающая относительные значения площади каждой категории (табл. 2). Значения для каждой ячейки данной матрицы (табл. 2) вычисляются по формуле:

{p_{ij}}={W_{i}}\times {\frac {n_{ij}}{n_{i}}}

, (1)

где n_ij – значение в соответствующей ячейки матрицы с координатами i, j (табл. 1);

n_i – суммарное значение i-ой категории карты (табл. 1);

W_i – отношение суммарной площади i-ой категории, к общей площади карты, т.е.:

{W_{i}}={\frac {A_{i}}{A_{tot}}}

Результаты расчетов записываются в преобразованную матрицу ошибок (табл. 2).

Таблица 2. Преобразованная матрица ошибок, учитывающая соотношения площадей категорий

Категория/класс	1	2	...	q	Всего
1	p₁₁			p_1q	p₁
2	...	...	...	...	...
...	...	...	...	...	...
q	p_q1	...	...	p_qq	p_q
Всего	p₁	...	...	p_q	1

Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.

Ошибки классификации оказывают влияние на оценку площади соответствующей категории. Оценить общую площадь категории можно путем непосредственных измерений с тематической карты. Другой способ оценки площади опирается на справочные (экспертные) категории карты (столбцы в табл. 2). В этом случае площадь соответствующей категории находится путем переумножения общей площади карты на суммарные значения категорий колонок:

{A_{j}}={A_{tot}}\times {p_{j}}

, (2)

Выражение (2) может быть записано в развернутом виде:

{A_{j}}={A_{tot}}\sum _{i}^{q}{W_{i}}{\frac {n_{ij}}{n_{i}}}

, (2')

Т.е. происходит переоценка площадей категорий, опирающиеся на справочные значения категорий.

Среднее квадратичное отклонение площади соответствующей категории определяется по формулам (3)-(4):

$S({p_{j}})={\sqrt {\sum _{i=1}^{q}{W_{i}^{2}}{\frac {{\frac {n_{ij}}{n_{i}}}(1-{\frac {n_{ij}}{n_{i}}})}{n_{i}-1}}}}$ , (3)

S({A_{j}})={A_{tot}}\times S({p_{j}})

, (4)

Значение площади с доверительным интервалом равным 95% записывается в виде:

{A_{j}}\pm 2\times S({A_{j}})

, (5)

Принимается, что ошибка имеет z-распределения, при 95% доверительном интервале, z=1.96, округлили до z=2.

Формулы (1) – (5) применены как к случайной, так и систематической или стратифицированной выборке.

Точность пользователя (6), точность производителя (7) и общая точность карты (8) также оценивается с учетом площадей каждой категории, т.е. данные для расчетов берутся из табл. 2.

{U_{i}}={\frac {p_{ii}}{p_{i}}}

, (6)

{P_{j}}={\frac {p_{jj}}{p_{j}}}

, (7)

{O}=\sum _{j=1}^{q}{p_{jj}}

, (8)

Расчет с числовыми данными

Приведем пример с числовыми данными. Допустим, имеется тематическая карта с тремя категориями/классами. Для оценки точности в каждой категории случайный образом заложено по 10 точек. Для каждой точки определена категория карты (map categories) и справочная (эталонная) категория (reference categories), на основании этих данных составлена типовая матрица ошибок (табл. 3).

Таблица 3. Типовая матрица ошибок (matrix error)

Категория/класс	1	2	3	Всего	Площадь
1	9	1	0	10	300
2	1	7	2	10	200
3	2	4	4	10	100
Всего	12	12	6	30	600

Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.

Рассчитаем матрицу ошибок с учетом значений площади для каждой категории по формуле (1), но сначала рассчитаем процентное соотношение площадей для 1-ой категории по формуле (2):

{W_{1}}={\frac {300}{600}}={\frac {1}{2}}

Аналогичным образом рассчитаем значения для остальных категорий: 2-3. Результаты расчетов заносятся в соответствующие ячейки 5-ой колонки таблицы 4.

{p_{11}}={\frac {1}{2}}\times {\frac {9}{10}}={\frac {9}{20}}

Аналогичным образом рассчитаем значения для остальных ячеек таблицы 3. Занесем результаты расчетов в соответствующие ячейки 3-5 колонок таблицы 4.

Таблица 4. Преобразованная матрица ошибок, учитывающая соотношения площадей категорий

Категория/класс	1	2	3	Всего	Точность пользователя	Точность производителя	Общая точность
1	9/20	1/20	0	1/2	90%	87%	75%
2	1/30	7/30	2/30	1/3	70%	67%	-
3	1/30	2/30	2/30	1/6	40%	50%	-
Всего	31/60	21/60	8/60	1	-	-	-

Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.

Рассчитаем площади с учетом категорий продукта (2):

{A_{1}}={600}\times {\frac {31}{60}}=310;

{A_{2}}={600}\times {\frac {21}{60}}=210;

{A_{3}}={600}\times {\frac {8}{60}}=80.

Таким образом производится перерасчет площадей с учетом ошибок справочных категорий, то есть ошибка в одно значение может составить площадь для:

1-ой категории

600\times 1/2\times 1/10=30;

2-ой категории

600\times 1/3\times 1/10=20;

3-ей категории

600\times 1/6\times 1/10=10.

Тогда значение площади для каждой справочной категории с учетом ошибок классификации можно получить так:

{A_{1}}={300}-(1+0)\times 30+1\times 20+2\times 10=310;

{A_{2}}={200}-(1+2)\times 20+1\times 30+4\times 10=210;

{A_{3}}={100}-(2+4)\times 10+0\times 30+2\times 20=80.

Как видно, получаем идентичные результаты, но запись в более развернутом виде, возможно, делает расчет более прозрачным.

Среднее квадратичное отклонение вычисляем по формуле (3) и (4):

$S({p_{1}})={\sqrt {{({\frac {1}{2}})^{2}}\times {\frac {{\frac {9}{10}}(1-{\frac {9}{10}})}{10-1}}+{({\frac {1}{3}})^{2}}\times {\frac {{\frac {1}{10}}(1-{\frac {1}{10}})}{10-1}}+{({\frac {1}{6}})^{2}}\times {\frac {{\frac {2}{10}}(1-{\frac {2}{10}})}{10-1}}}}=0.064;$

$S({A_{1}})=600\times 0.064=38.43.$

Аналогичны образом производится расчет для остальных категорий (2-3).

Окончательных результат записывается в виде (5):

{A_{1}}\pm 2\times S({A_{1}})=310\pm 76;

{A_{2}}\pm 2\times S({A_{2}})=210\pm 90;

{A_{3}}\pm 2\times S({A_{3}})=80\pm 61.

Произведем вычисление остальных показателей точности. Точность пользователя вычисляется по формуле (6):

для 1-ой категории:

{\frac {9}{20}}:{\frac {1}{2}}={\frac {18}{20}}=0.9;

для 2-ой категории:

{\frac {7}{30}}:{\frac {1}{3}}={\frac {21}{30}}=0.7;

для 3-ей категории:

{\frac {2}{30}}:{\frac {1}{6}}={\frac {12}{30}}=0.4;

Точность производителя вычисляется по формуле (7):

для 1-ой категории:

{\frac {9}{20}}:{\frac {31}{60}}={\frac {27}{31}}=0.9;

для 2-ой категории:

{\frac {7}{30}}:{\frac {21}{60}}={\frac {14}{21}}=0.67;

для 3-ей категории:

{\frac {2}{30}}:{\frac {8}{60}}={\frac {1}{2}}=0.5;

Общая точность вычисляется по формуле (8):

{\frac {9}{20}}+{\frac {7}{30}}+{\frac {2}{30}}={\frac {3}{4}}=0.75;

Для сравнения можно рассчитать данные показатели точности традиционным образом исходя из значений матрицы ошибок [3]: точность пользователя:

для 1-ой категории:

{\frac {9}{10}}=0.9;

для 2-ой категории:

{\frac {7}{10}}=0.7;

для 3-ей категории:

{\frac {4}{10}}=0.4;

Как видно, результаты точности пользователя вычисленные двумя методами оказались идентичными, но так происходит далеко не всегда!

Точность производителя:

для 1-ой категории:

{\frac {9}{12}}=0.75;

для 2-ой категории:

{\frac {7}{12}}=0.58;

для 3-ей категории:

{\frac {4}{6}}=0.67;

При сравнении видно, что точность производителя вычисленное вторым способом для 1 и 2 категории занижена, а для 3-ей категории завышена по сравнению с результатами вычисленными по первому способу.

Также в статье Olofsson P., et al. [1] рассматривается пример оценки точности карты изменений лесного покрова (change detection forest cover), полученной на основе совмещения двух разновременных тематических карт (2005 и 2010 гг.). Указывается, что имеющийся расчет точности отдельно по каждой карте (см. табл. 4) не позволяет объективно оценить площади изменений лесного покрова. Для этого необходимо совместить тематические карты и произвести оценку полученного продукта. Обе тематические карты содержали только две категории – лес и не лес. Таким образом, в результате их совмещения на результирующей карте получается следующая комбинация категорий/классов (см. табл. 5).

Таблица 5. Таблица совмещения двух тематических карт

категории на карте 2005 г.	категории на карте 2010 г.	категории на совмещенной карте 2005-2010 гг.
лес	лес	лес
не лес	не лес	не лес
лес	не лес	вырубка
не лес	лес	лесовосстановление

Для совмещенной тематической карты, по приведенной выше методике осуществляется расчет площадей и соответствующих показателей точности.

Определение размеров выборки и метода заложения точек

Немаловажным моментом при расчете точности тематической карты является количество проверочных точек (размер/объем выборки), а также метод их заложения.

При расчете размера выборки Olofsson et al. [2] ссылаются на работу Cochran (1977), который для оценки полной точности карты при простой случайной выборке рекомендовал формулу (Cochran (1977), Eq.(4.2)):

n={\frac {z^{2}\times O\times (1-O)}{d^{2}}}

, (9)

где O - общая точность (overall accuracy), выраженная как пропорция;

z - процентиль от стандартного нормального распределения (z=1.96 для 95%-ого доверительного интервала, z = 1.645 для 90%-ого доверительного интервала);

d - полуширина доверительного интервала O.

Формула (9) служит отправной точкой для расчета размера выборки при оценке полной точности тематической карты.

Для стратифицированной случайной выборки Cochran (1977, Eq. (5.25)) рекомендует следующую формулу для определения объема выборки:

$n={\frac {(\sum _{i=1}W_{i}S_{i})^{2}}{[S(O)]^{2}+(1/N)\sum _{i=1}W_{i}S_{i}^{2}}}\approx ({\frac {\sum _{i=1}W_{i}S_{i})}{S(O)}})^{2}$ , (10)

где N – число элементарных единиц (пикселей) в растровом изображении;

S(O) - стандартная ошибка для предполагаемой общей точности, которую необходимо достигнуть;

W_i – доля i-го класса от общей площади;

S_i - стандартное отклонение i-ой страты, определяется по формуле $S_{i}={\sqrt {U_{i}(1-U_{i})}}$ (Cochran, 1977, Eq. (5.55)).

Поскольку N, как правило, является очень большим числом (зависит от размера растра), то второе слагаемое в знаменателе формулы (10) можно проигнорировать.

Пример определения объемов выборки

При определении размеров выборки, значения некоторых показателей из формулы (10) задаются на основе предыдущего опыта исследователя. Так из предыдущего опыта по тематическому картографированию (напр. выявлению изменений растительного покрова) Olofsson et al. [2] указывает, что бόльшие ошибки комиссии (ошибки пользователя) характерны для территорий, на которых произошли изменения (напр. рубка леса, лесной пожар и т.д.), в то время для относительно «стабильных» территорий данные ошибки менее значительны. Из этих соображений для каждой категории выбираются значения ошибок пользователя (U_i), указанные в табл. 6. Самостоятельно выбирается и стандартная ошибка показателя общей точности (S(O)) – 0.01.

Таблица 6. Вспомогательная таблица

Категория/класс	W_i	S_i	U_i	${\sqrt {U_{i}(1-U_{i})}}$
вырубка	0.02	18000	0.7	0.46
лесовосстановление	0.02	13500	0.6	0.49
лес	0.32	288000	0.9	0.3
не лес	0.65	580500	0.95	0.22
Всего	1	900000

Определяем размер выборки (10):

n=({\frac {0.02\times 0.46+0.02\times 0.49+0.32\times 0.3+0.65\times 0.22}{0.01}})^{2}=({\frac {0.258}{0.01}})^{2}=665

Таким образом, необходимый размер выборки составляет 665 точек. Авторы отмечают [2], что необходимо поэкспериментировать со значениями S(O) и U_i, прежде чем принять окончательное решение о размере выборки.

Примеры методов заложения выборки

Распределение точек по категориям (метод заложение) – также важный момент для определения точности оценки тематической карты. Существует несколько методов заложения [1,2]: равномерное случайное, стратифицированное случайное и систематическое. Равномерное случайное – когда точки закладываются равномерно случайным образом по все территории тематической карты. Стратифицированное случайное – когда N_i-ое количество точек случайным образом закладывается в каждом i-ом классе. Систематическое – когда точки закладываются по территории согласно определенному правилу, напр. сеткой квадратов. Выбор метода заложения зависит от характера распределения и соотношения площадей категорий на тематической карте. Если выделенные категории равномерно расположены по территории карты и имеют относительно равные площади, то для оценки можно использовать или равномерное или систематическое заложение точек. Если же некоторые категории на тематической карте имеют значительно меньшую площадь, то для оценки необходимо использовать стратифицированный метод заложения точек. То есть необходимо, чтобы определенное количество точек обязательно «попали» в данную категорию. В этом случае оценка точности тематической карты, возможно, будет более объективной. В целом выбор способа заложения зависит от целей и задач оценки, например Oloffson et al. [2], указывает, что равномерное распределение дает наименьшую стандартную ошибку пользователя (S(U_i)) для изменившихся территорий (категория - «вырубка»), но одновременно наблюдаются высокие значений стандартной ошибки площади (S(A_i)) для данной категории. Стратифицированное пропорциональное распределение отличается небольшими значениями стандартной ошибки для полной точности (S(O)) и ошибки площади (S(A_i)) для неизменившихся территорий (категория – «устойчивый лес» или "устойчивый не лес"), однако стандартная ошибка пользователя для категории «вырубка» в два – четыре раза выше, чем соответствующая ошибка для других распределений. Прийти к окончательному выбору способа заложения точек для оценки точности можно только входе серий экспериментов.

Автоматизация расчетов

Для автоматизации расчетов по данной методике [1] имеется модуль "Validation Tool 1.1" к QGIS. Устанавливается из официального репозитория QGIS. Исходный код выложен здесь [4].

Последовательность действий для работы в модуле.

1. Выбираем точечный шейп-файл (Select Input File). Для примера можно воспользоваться шейп-файлом, который лежим в папке с модулем (C:\Users\user\.qgis2\python\plugins\vTool\example_data\) и на его основе посмотреть каким образом заполняется таблица атрибутов.

2. Указываем соответствие полей в таблице атрибутов, где содержатся ссылочные (справочные) категории (reference) и категории карты (predicted).

3. Выбираем тип расчета: с учетом площадей категорий (Weight-based) или нет (Normal).

3.1. Если выбрали способ расчета без учета площадей, то указываем путь выходного файла (Select Output File) и нажимаем на кнопку - Validation.

4. Если выбрали расчет с учетом площадей, то устанавливаем значение площадей либо загружая *.csv файл (Load Area from CSV file) либо вручную (Set Area manually from List).

4.1. Пример заполнения *.csv - файла можно посмотреть в папке с модулем (C:\Users\user\.qgis2\python\plugins\vTool\example_data\).

4.2. Если выбрали ручной способ загрузки, то попадаете на вторую вкладку - Area. В ней представлена таблица: в первой колонке (Labels) номера категорий/классов, во вторую заносите соответствующие значения площадей (Weights). Нажимаете кнопку отправить (Submit).

5. Вас возвращает на вкладку Validation, где необходимо выбрать путь выходного *.csv файла (Select Output File).

6. Все готово к расчету - нажимаем на кнопку Validate и анализируем полученный результат.

Для примера можно воспользоваться шейп-файлом на основе которого приведен разбор числового примера [5].

Вывод

Как видно способ оценки точности тематических карт, описанный в статье [1,2] является относительно простым и интуитивно понятным. При желании данные расчеты можно выполнить даже на бумаге. Однако следует помнить и понимать, что это только один из способов оценки точности тематических карт и его выбор будет зависеть от ваших целей и задач.

Ссылки

1. Olofsson P., et al. Making better use of accuracy data in land change studies: Estimating accuracy and area and quantifying uncertainty using stratiﬁed estimation / Pontus Olofsson, Giles M. Foody, Stephen V. Stehman, Curtis E. Woodcock // Remote Sensing of Environment 129 (2013) 122–131.

2. Olofsson P., et al. Good practices for estimating area and assessing accuracy of land change / Pontus Olofsson, Giles M. Foody, Martin Herold, Stephen V. Stehman, Curtis E.Woodcock, Michael A. Wulder // Remote Sensing of Environment 148 (2014) 42–57.

3. http://gis-lab.info/qa/error-matrix.html

4. https://github.com/g07kore/vTool

5. http://wiki.gis-lab.info/images/e/e7/Point.zip

См. также

Видео по теме - http://www.youtube.com/watch?v=xAes7ddZ7CQ

Оценка точности тематических карт

Содержание

Введение

Определение точности тематических карт

Расчет в общем виде

Расчет с числовыми данными

Определение размеров выборки и метода заложения точек

Пример определения объемов выборки

Примеры методов заложения выборки

Автоматизация расчетов

Вывод

Ссылки

См. также

Навигация

Оценка точности тематических карт

Введение

Определение точности тематических карт

Расчет в общем виде

Расчет с числовыми данными

Определение размеров выборки и метода заложения точек

Пример определения объемов выборки

Примеры методов заложения выборки

Автоматизация расчетов

Вывод

Ссылки

См. также

Навигация

Поиск