Оценка точности тематических карт: различия между версиями

Материал из GIS-Lab
Перейти к навигации Перейти к поиску
Строка 326: Строка 326:
4. https://github.com/g07kore/vTool
4. https://github.com/g07kore/vTool


5. Ссылка на шейп-файл.
5. http://wiki.gis-lab.info/images/e/e7/Point.zip

Версия от 16:01, 14 января 2016

Эта страница является черновиком статьи.


Методические подходы для оценки точности тематических карт

Введение

Данная статья является кратким и довольно вольным переводом работы «Making better use of accuracy data in land change studies: Estimating accuracy and area and quantifying uncertainty using stratified estimation» [1]. Основной целью авторов данной работы было описание стратегии использования информации о точности тематической карты для оценки площади выделенных классов с указанием доверительных интервалов. Авторы имеют еще одну работу по данной тематике [2], позволяющую глубже погрузиться в механизм расчетов точности тематических карт. Авторы указывают [1], что в статьях посвященных исследованию изменений растительного покрова довольно часто упускается важная информация о точности созданных тематических карт или ошибках в определении площадей выделенных категорий/классов. Отмечается, что для более полного использования информации, представленных на данных картах в публикуемых статьях необходимо обязательно указывать:

  1. Показатели точности: "общая точность классификации" (Overall accuracy), "точность пользователя" (User's accuracy) и "точность производителя" (Producer's accuracy). Более подробно со смысловым содержанием данных показателей можно познакомиться в данной статье [3].
  2. Площади выделенных классов с поправкой на ошибки классификации.
  3. Указание ошибки среднего (SE) и доверительного интервала (CI) оцениваемых площадей.

Несколько простых числовых примеров позволят проследить последовательность расчетов данных показателей для случайной, систематической и стратифицированной случайной выборки. Выборка - это набор точек расположенных на оцениваемой тематической карты в атрибутах которых записаны значения класса взятые непосредственно с самой карты (map categories), а также справочные (эталонные, ссылочные) значения (reference categories) полученные из иных источников (полевых исследований, снимков более высокого пространственного разрешения и т.д.).

Практическая часть

Приведем пример расчета ошибок классификации тематической карты в общем виде. Предположим необходимо оценить точность классификации космического снимка с q категориями/классами и оценить площадь каждой уникальной категории с указанием ошибки. Для этого либо случайным, либо систематическим образом закладывается выборка из n-го количества точек и строится типовая матрица ошибок (matrix error, табл.1). В рядах данной таблицы записываются категории карты (i = 1, 2, … q), а в колонках – справочные (экспертные) категории (j = 1,2, …, q). Правила, по которым заполняется данная таблица можно посмотреть здесь [3]. Отметим, что справочные категории считаются эталонными, т.е. получены из источников заведомо более точных, чем оцениваемая тематическая карта.

Таблица 1. Типовая матрица ошибок (matrix error)
Категория/класс 1 2 ... q Всего
1 n11 n1q n1
2 ... ... ... ... ...
... ... ... ... ... ...
q nq1 ... ... nqq nq
Всего n1 ... ... nq n

Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.

Однако как считают авторы приводимой здесь методики [1,2], более информативной является так называемая преобразованная матрица ошибок, учитывающая относительные значения площади каждой категории (табл. 2). Значения для каждой ячейки данной матрицы (табл. 2) вычисляются по формуле:

, (1)

где nij – значение в соответствующей ячейки матрицы с координатами i, j (табл. 1);

ni – суммарное значение i-ой категории карты (табл. 1);

Wi – отношение суммарной площади i-ой категории, к общей площади карты, т.е.:

Результаты расчетов записываются в преобразованную матрицу ошибок (табл. 2).

Таблица 2. Преобразованная матрица ошибок, учитывающая соотношения площадей категорий
Категория/класс 1 2 ... q Всего
1 p11 p1q p1
2 ... ... ... ... ...
... ... ... ... ... ...
q pq1 ... ... pqq pq
Всего p1 ... ... pq 1
Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.

Ошибки классификации оказывают влияние на оценку площади соответствующей категории. Оценить общую площадь категории можно путем непосредственных измерений с тематической карты. Другой способ оценки площади опирается на справочные (экспертные) категории карты (столбцы в табл. 2). В этом случае площадь соответствующей категории находится путем переумножения общей площади карты на суммарные значения категорий колонок:

, (2)

Выражение (2) может быть записано в развернутом виде:

, (2')

Т.е. происходит переоценка площадей категорий, опирающиеся на справочные значения категорий.

Среднее квадратичное отклонение площади соответствующей категории определяется по формулам (3)-(4):

, (3)

, (4)

Значение площади с доверительным интервалом равным 95% записывается в виде:

, (5)

Принимается, что ошибка имеет z-распределения, при 95% доверительном интервале, z=1.96, округлили до z=2.

Формулы (1) – (5) применены как к случайной, так и систематической или стратифицированной выборке.

Точность пользователя (6), точность производителя (7) и общая точность карты (8) также оценивается с учетом площадей каждой категории, т.е. данные для расчетов берутся из табл. 2.

, (6)
, (7)
, (8)

Приведем пример с числовыми данными. Допустим, имеется тематическая карта с тремя категориями/классами. Для оценки точности в каждой категории случайный образом заложено по 10 точек. Для каждой точки определена категория карты (map categories) и справочная (эталонная) категория (reference categories), на основании этих данных составлена типовая матрица ошибок (табл. 3).

Таблица 3. Типовая матрица ошибок (matrix error)
Категория/класс 1 2 3 Всего Площадь
1 9 1 0 10 300
2 1 7 2 10 200
3 2 4 4 10 100
Всего 12 12 6 30 600

Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.

Рассчитаем матрицу ошибок с учетом значений площади для каждой категории по формуле (1), но сначала рассчитаем процентное соотношение площадей для 1-ой категории по формуле (2):

Аналогичным образом рассчитаем значения для остальных категорий: 2-3. Результаты расчетов заносятся в соответствующие ячейки 5-ой колонки таблицы 4.


Аналогичным образом рассчитаем значения для остальных ячеек таблицы 3. Занесем результаты расчетов в соответствующие ячейки 3-5 колонок таблицы 4.

Таблица 4. Преобразованная матрица ошибок, учитывающая соотношения площадей категорий
Категория/класс 1 2 3 Всего Точность пользователя Точность производителя Общая точность
1 9/20 1/20 0 1/2 90% 87% 75%
2 1/30 7/30 2/30 1/3 70% 67% -
3 1/30 2/30 2/30 1/6 40% 50% -
Всего 31/60 21/60 8/60 1 - - -

Примечание: категории карты указаны в строках, а справочные (экспертные) категории в колонках таблицы.

Рассчитаем площади с учетом категорий продукта (2):

Таким образом производится перерасчет площадей с учетом ошибок справочных категорий, то есть ошибка в одно значение может составить площадь для:

1-ой категории

2-ой категории

3-ей категории

Тогда значение площади для каждой справочной категории с учетом ошибок классификации можно получить так:

Как видно, получаем идентичные результаты, но запись в более развернутом виде, возможно, делает расчет более прозрачным.

Среднее квадратичное отклонение вычисляем по формуле (3) и (4):

Аналогичны образом производится расчет для остальных категорий (2-3).

Окончательных результат записывается в виде (5):

Произведем вычисление остальных показателей точности. Точность пользователя вычисляется по формуле (6):

для 1-ой категории:

для 2-ой категории:

для 3-ей категории:

Точность производителя вычисляется по формуле (7):

для 1-ой категории:

для 2-ой категории:

для 3-ей категории:

Общая точность вычисляется по формуле (8):

Для сравнения можно рассчитать данные показатели точности традиционным образом исходя из значений матрицы ошибок [3]: точность пользователя:

для 1-ой категории:


для 2-ой категории:


для 3-ей категории:

Как видно, результаты точности пользователя вычисленные двумя методами оказались идентичными, но так происходит далеко не всегда!

Точность производителя:

для 1-ой категории:


для 2-ой категории:


для 3-ей категории:

При сравнении видно, что точность производителя вычисленное вторым способом для 1 и 2 категории занижена, а для 3-ей категории завышена по сравнению с результатами вычисленными по первому способу.

Также в статье Olofsson P., et al. [1] рассматривается пример оценки точности карты изменений лесного покрова (change detection forest cover), полученной на основе совмещения двух разновременных тематических карт (2005 и 2010 гг.). Указывается, что имеющийся расчет точности отдельно по каждой карте (см. табл. 4) не позволяет объективно оценить площади изменений лесного покрова. Для этого необходимо совместить тематические карты и произвести оценку полученного продукта. Обе тематические карты содержали только две категории – лес и не лес. Таким образом, в результате их совмещения на результирующей карте получается следующая комбинация категорий/классов:

Таблица 3. Таблица совмещения двух тематических карт
карта на 2005 г. карта на 2010 г. совмещенная
лес лес лес
не лес не лес не лес
лес не лес вырубка
не лес лес лесовосстановление

Для совмещенной тематической карты, по приведенной выше методике осуществляется расчет площадей и соответствующих показателей точности.

Автоматизация расчетов

Для автоматизации расчетов по данной методике [1] имеется модуль "Validation Tool 1.1" к QGIS. Устанавливается из официального репозитория QGIS. Исходный код выложен здесь [4].

Последовательность действий для работы в модуле.

1. Выбираем точечный шейп-файл (Select Input File) - можно воспользоваться шейп-файлом, который лежим в папке с модулем (C:\Users\user\.qgis2\python\plugins\vTool\example_data\).

2. Указываем соответствие полей в таблице атрибутов, где содержатся ссылочные (справочные) категории (reference) и категории карты (predicted).

http://wiki.gis-lab.info/images/7/7a/Screenshot_2016_01_14_16_42_11.png

3. Выбираем тип расчета: с учетом площадей категорий (Weight-based) или нет (Normal).

3.1. Если выбрали способ расчета без учета площадей, то указываем путь выходного файла (Select Output File) и нажимаем на кнопку (Validation).

4. Если выбрали расчет с учетом площадей, то устанавливаем значение площадей либо загружая *.csv файл (Load Area from CSV file) либо вручную (Set Area manually from List).

4.1. Пример заполнения *.csv - файла можно посмотреть в папке с модулем (C:\Users\user\.qgis2\python\plugins\vTool\example_data\).

4.2. Если выбрали ручной способ загрузки, то попадаете на вторую вкладку - Area. В ней представлена таблица: в первой колонке (Labels) номера категорий/классов, во вторую заносите соответствующие значения площадей (Weights). Нажимаете кнопку отправить (Submit).

http://wiki.gis-lab.info/w/%D0%A4%D0%B0%D0%B9%D0%BB:Screenshot_2016_01_14_16_42_42.png

5. Вас возвращает на вкладку Validation, где необходимо выбрать путь выходного *.csv файла (Select Output File).

6. Все готово к расчету - нажимаем на кнопку Validate и анализируем полученный результат.

Для примера можно воспользоваться шейп-файлом на основе которого приведен разбор числового примера [5].

Вывод

Как видно способ оценки точности тематических карт, описанный в статье [1] является относительно простым и интуитивно понятным. При желании данные расчеты можно выполнить даже на бумаге. Однако следует помнить и понимать, что это только один из способов оценки точности тематических карт и его выбор будет зависеть от ваших целей и задач.

Ссылки

1. Olofsson P., et al. Making better use of accuracy data in land change studies: Estimating accuracy and area and quantifying uncertainty using stratified estimation / Pontus Olofsson, Giles M. Foody, Stephen V. Stehman, Curtis E. Woodcock // Remote Sensing of Environment 129 (2013) 122–131.

2. Olofsson P., et al. Good practices for estimating area and assessing accuracy of land change / Pontus Olofsson, Giles M. Foody, Martin Herold, Stephen V. Stehman, Curtis E.Woodcock, Michael A. Wulder // Remote Sensing of Environment 148 (2014) 42–57.

3. http://gis-lab.info/qa/error-matrix.html

4. https://github.com/g07kore/vTool

5. http://wiki.gis-lab.info/images/e/e7/Point.zip