Распознавание образов что выбрать
Как пройти квест «Распознавание образов» в Cyberpunk 2077 и что выбрать в диалоге с агентом?
А еще тут можно избежать босс-файта.
Рассказываем, как пройти квест «Распознавание образов» в Киберпанке 2077. Это пошаговый гайд по побочному квесту I Walk the Line в Cyberpunk 2077 – в нем вы найдете руководство по всем этапам задания.
Квест «Распознавание образов»
Гайды и квесты Cyberpunk 2077
Описание квеста «Распознавание образов»: «Этот Пласид меня тоже бесит, но теперь хотя бы все ясно. Найдешь нетраннера в ГИМе – эти парни удостоят тебя аудиенции у своей королевы. Какие плюсы? Может, я наконец увижу нормального нетраннера, а то у меня сложилось впечатление, что это уже вымерший вид. Человек, который не зассал выступить против «Вудуистов», должен чего-то стоить. Какие минусы? У тебя в любую минуту может потечь мозг из ушей. Так что знакомство с памятниками золотого века Пасифики оставим лучше на потом».
Отправляйтесь к моллу. Лучше всего проходить эту миссию скрытно, т.к. внутри очень много хорошо вооруженных животных. Обойдите врагов снаружи – там расставлены ящики, сделать это будет несложно. Постоянно сканируйте пространство, чтобы не пропустить камеру и не спалиться.
Когда пройдете комнаты вокруг ринга и подниметесь наверх (если все время держаться левой стороны, можно сделать это без убийства бойцов на ринге и в тренажерном зале), пробирайтесь в главный зал. Врагов много, но самый опасный враг – турели. Обезвредьте их с помощью взлома.
Грузовик находится с левой стороны на первом этаже. Пробирайтесь через бутики, чтобы пройти незамеченным. Фургон охраняют бандиты, и совсем недалеко находятся турели, так что будьте осторожны. Как только доберетесь до фургона – подключайтесь и поговорите с Пласидом.
Есть два выбора, от которых зависит жизнь Брижитт и ее подчиненных в следующем задании «Человеческий фактор».
Возвращайтесь к Пласиду и компании. Внизу стоит машина с людьми Пласида – можете поехать с ними или добраться самостоятельно. Поговорите с Пласидом (как видно на скриншоте ниже, разговор будет не очень дружелюбным).
После этого появится Брижитт. Поговорите с ней. На этом квест завершится.
Сразу после него начнется следующий квест «Человеческий фактор».
Как пройти квест «Распознавание образов» в Cyberpunk 2077
Покиньте отель и зайдите в торговый центр Grand Imperial. Снаружи, на стоянке с левой стороны, шпионят два члена Вуду Бойз. Лучший способ попасть внутрь — это попытаться пробраться в гараж позади торгового центра. Спускаясь по гаражу, вы видите трех говорящих «Животных». Вы можете просто пройти мимо них с левой стороны, чтобы они вас не заметили.
Следующие два вы можете пройти, крадясь влево или вправо от них, прикрываясь препятствиями. Через несколько секунд они оба все равно уезжают. Есть еще трое парней. Двое уедут на машине, третий разнесет пиццу остальным наверх.
Подпрыгните и идите направо, избегая поднимающегося по лестнице «Животного». Плэсид говорит вам избегать камер, очевидно, «Животные» их исправили. Если вы взломаете камеру, нетраннер будет предупрежден, он закроет некоторые двери. Кроме того, вы не можете пинговать животных по той же причине.
Если у вас есть техническая способность 10, вы можете открыть ворота прямо здесь, иначе вам придется красться через спортзал. Вы можете выбрать левый или правый маршрут. Если вы пойдете налево, вы можете разграбить сейф прямо там и позже дождаться, пока «Животное» уйдет под жим лежа. Перепрыгните в сторону и пройдите вверх или через дверь в вестибюль. Вам не нужно быстро взламывать устройства, чтобы отвлекать врагов, они время от времени будут менять свое положение самостоятельно.
Если вы находитесь на верхнем этаже, вы найдете футляр с высокоточной винтовкой SOR-22. Если вы пойдете налево, то увидите, что Саскватч прогуливается в другой комнате. Если вы решите проскользнуть мимо нее, вы точно сможете это сделать. Если вы обойдете ее, вы найдете эскалаторы или шахту, по которой можно спуститься. Затем вы можете подойти к автомобилю сзади.
После того, как вы подключились, агент NetWatch выгоняет вас. Вы должны найти его сейчас, он в кинотеатре. Плэсид говорит вам идти налево и прыгать на верхний этаж. Так как агент netwatch теперь предупрежден, вы можете быстро взломать его.
Вы можете решить сразиться с Саскватчем, если хотите, вы также можете прокрасться и пробраться к фургону или прямо найти агента в кинотеатре. Если вас заметят по пути, тогда вам просто придется иметь дело с животными.
Если вы вступите в бой с Саскватчем, у нее на спине будет усилитель, и она будет очень стабильно восстанавливать свое здоровье. Чтобы избавиться от этого, вы можете либо атаковать ее незаметно, либо использовать быстрый взлом и навык «Замыкание». Это мгновенно отнимет у нее 25% здоровья и лишит ее регенерации здоровья.
Если вы быстро и снова прячетесь от нее, прежде чем она заметит вас, у вас есть возможность сделать еще один скрытый тейкдаун, в котором вы подавите ее без сознания.
Когда битва начнется, она бросится на вас при первой же возможности. Она взломает вас, и у вас будет всего несколько минут, чтобы победить ее, иначе все готово. Вы видите, что красный эффект взлома со временем усиливается.
Если ее сок не поврежден, он будет атаковать вас, совершать комбо-атаки и бросать свой молот. Но ты можешь украсть ее молот. Ничего этого не происходит, когда у нее нет сока. После того, как вы закончите с ней, вы можете решить уйти, или быть, или прикончить ее.
ЗАКЛЮЧЕНИЕ
Победа над Саскватчем даст вам два легендарных предмета и около 1500 евро в качестве добычи прямо от нее. Это также даст вам 1500 SC и 15000 € из ее награды.
Сходите в кинотеатр, и ставни откроются. Найдите свой путь в диспетчерскую, где вы найдете агента NetWatch Брайс Мосли. Он закроет Плэсида из связи.
РЕШЕНИЕ
Он предлагает вам сделку по освобождению Бриджит и Ти Нептун из его лап, если вы его отпустите. Он также даст вам небольшую справочную информацию, если вы его спросите.
Наконец он дает вам осколок для очистки вашей системы и советует Животным отпустить вас. Вы можете выйти прямо сейчас. Если вы не сражались с Саскватчем, вы обнаружите, что она стоит рядом и отдавает приказы. Если ты ссорился с ней, ее больше нет.
Снаружи торгового центра ждут люди Пласида с машиной. Если вы сядете на заднее сиденье машины, то вы попадете прямо в отель Batty’s.
Пласид злится и обеспокоен тем, что вы заключили сделку с агентом NetWatch. Он швыряет вас к стене, но Бриджит останавливает его, отправляя прочь. Вы разговариваете с Бриджит и можете сразу следовать за ней, или сначала остановитесь и займитесь другими делами.
Распознавание образов и научное знание
Последние достижения в распознавании образов впечатляют. Достаточно вспомнить результаты соревнований на базе ImageNet. Сразу же возникает вопрос, что дальше? Как мы можем использовать полученные достижения?
Что-то важное началось, когда Fei-Fei стартовала ImageNet проект. Похоже на революцию.
Меня на подсознательном уровне не отпускала одна маленькая деталь, часто упоминаемая в обсуждении соревнований ImageNet. А именно, как точно нейронные сети распознают породы собак. Есть в этом что-то, что резонирует с моей нейронной сетью. И наконец-то я тоже понял то, что многие из вас поняли давным давно. Теперь я попытаюсь сформулировать то, что я понял.
Породы собак – это довольно узкая, хорошо проработанная и очень специализированная область наших знаний. Чтобы разбираться в породах, надо видеть и запомнить очень-очень много специфических деталей. Надо знать много связанной с породами информации, к примеру историю пород, методы скрещивания, основы генетики. Надо проштудировать массу книг и постоянно отслеживать новую информацию в этой области. Причем внешность собаки, если можно сказать, ее изображение имеет решающее значение для данной области науки. Окей, согласен, разведение пород можно отнести к науке с большой натяжкой. Давайте лучше скажем — «имеет решающее значение для данной области знаний».
Недавно я работал над системой по распознаванию автомобилей и кораблей. Используя готовые модели, которые блистали в соревновании ImageNet, я не получил хороших результатов. Очевидно в базе ImageNet фотографий кораблей было значительно меньше, чем фото собак.
Где можно найти фото кораблей? Собраны ли эти фотографии в каких-нибудь базах или реестрах? Может и собраны, но найти их я не смог. Еще один маленький вопрос опустился в мою нейронную сеть и не давал спокойно спать.
Пару дней назад я опять наткнулся на популярную базу изображений для новичков, на базу цветков ириса. Что-то щелкнуло в мозгу и стало укладываться в модель.
Имеющиеся базы знаний и изображений
Классификация – один из старейших научных методов. Сразу вспоминается Карл Линней с его единой системой классификации.
Изображение объекта в этих системах – одна из необходимых и главнейших частей классификации. Это, по сути, часть знаний, представление знаний.
Какие базы изображений нужны ученым, инженерам, специалистам на повседневной основе Давайте попробуем выбрать наугад:
Агрономия, растения
Медицина, бактерии
Рыболовство, рыбы
Геология, руды
Биология, насекомые
И так далее и тому подобное. Как только попытаешься копнуть, окажется, что буквально везде мы имеем дело с изображениями и буквально везде мы принимаем решения на основе изображений.
Необходимость баз данных изображений
Изображения объектов используются практически везде. Понятно, что работа по распознаванию объектов ускорилась и улучшилась, если бы мы могли везде и всегда использовать системы распознавания, вместо того, чтобы вручную искать объекты в горе книг или приглашать экспертов.
Изображения есть. Но они разбросаны по книгам и коллекциям. Они не представлены в формате, удобном для автоматической обработки. И их мало. Их явно недостаточно для тренировки хорошей системы распознавания.
Модель
Пришла пора представить вам мою модель. Мне стыдно, что до меня так долго доходили всем и так понятные вещи. Я понимаю, что ничего нового в этой модели нет. Но сочинение этого текста помогло мне сформулировать проблему. Поэтому я взял на себя смелость отдать этот текст вам на обсуждение.
Специализированные базы изображений
Любая область науки и инженерии, имеющая дело с видимыми объектами, получит очевидные преимущества, создав базу изображений (или базы).
Специализированные модели распознавания изображений
Любая область науки и инженерии, имеющая дело с видимыми объектами, получит очевидные преимущества, создав свои системы распознавания изображений.
Комбинация специализированных систем распознавания
Ясно, что готовые специализированные системы распознавания надо научиться встраивать, комбинировать.
Готовая система для создания баз изображений
И может быть, имеет смысл сделать готовую систему, библиотеку для создания баз изображений. Чтобы было удобно, к примеру, импортировать изображения, размечать их. Но может быть мы сможем обойтись чем-нибудь более простым, типа Amazon Mechanical Turk?
Помечтаем
Как бы упростился мой последний проект, если бы я имел доступ не только к моделям ImageNet, но и к готовым моделям распознавания кораблей, катеров, каяков, гидросамолетов, грузовиков, легковых машин, велосипедов. Если бы все эти модели можно было легко скомбинировать.
Если говорить в общем, то создание специализированных систем распознавания помогло бы формализовать знания в отношении видимой стороны сущностей. Узко специализированные знания можно будет распространять и использовать быстро, дешево и эффективно. Экспертные оценки можно будет получить, используя смартфон с камерой.
Анализ существующих подходов к распознаванию лиц
С завидной регулярностью на Хабре появляются статьи, рассказывающие о тех или иных методах распознавания лиц. Мы решили не просто поддержать эту замечательную тему, но выложить наш внутренний документ, который освещает пусть и не все, но многие подходы к распознаванию лиц, их сильные и слабые места. Он был составлен Андреем Гусаком, нашим инженером, для молодых сотрудников отдела машинного зрения, в образовательных, так сказать, целях. Сегодня предлагаем его все желающим. В конце статьи – впечатляющих размеров список литературы для самых любознательных.
Итак, начнем.
Несмотря на большое разнообразие представленных алгоритмов, можно выделить общую структуру процесса распознавания лиц:
Общий процесс обработки изображения лица при распознавании
На первом этапе производится детектирование и локализация лица на изображении. На этапе распознавания производится выравнивание изображения лица (геометрическое и яркостное), вычисление признаков и непосредственно распознавание – сравнение вычисленных признаков с заложенными в базу данных эталонами. Основным отличием всех представленных алгоритмов будет вычисление признаков и сравнение их совокупностей между собой.
1. Метод гибкого сравнения на графах (Elastic graph matching) [13].
Суть метода сводится к эластичному сопоставлению графов, описывающих изображения лиц. Лица представлены в виде графов со взвешенными вершинами и ребрами. На этапе распознавания один из графов – эталонный – остается неизменным, в то время как другой деформируется с целью наилучшей подгонки к первому. В подобных системах распознавания графы могут представлять собой как прямоугольную решетку, так и структуру, образованную характерными (антропометрическими) точками лица.
а)
б)
Пример структуры графа для распознавания лиц: а) регулярная решетка б) граф на основе антропометрических точек лица.
В вершинах графа вычисляются значения признаков, чаще всего используют комплексные значения фильтров Габора или их упорядоченных наборов – Габоровских вейвлет (строи Габора), которые вычисляются в некоторой локальной области вершины графа локально путем свертки значений яркости пикселей с фильтрами Габора.
Набор (банк, jet) фильтров Габора
Пример свертки изображения лица с двумя фильтрами Габора
Ребра графа взвешиваются расстояниями между смежными вершинами. Различие (расстояние, дискриминационная характеристика) между двумя графами вычисляется при помощи некоторой ценовой функции деформации, учитывающей как различие между значениями признаков, вычисленными в вершинах, так и степень деформации ребер графа.
Деформация графа происходит путем смещения каждой из его вершин на некоторое расстояние в определённых направлениях относительно ее исходного местоположения и выбора такой ее позиции, при которой разница между значениями признаков (откликов фильтров Габора) в вершине деформируемого графа и соответствующей ей вершине эталонного графа будет минимальной. Данная операция выполняется поочередно для всех вершин графа до тех пор, пока не будет достигнуто наименьшее суммарное различие между признаками деформируемого и эталонного графов. Значение ценовой функции деформации при таком положении деформируемого графа и будет являться мерой различия между входным изображением лица и эталонным графом. Данная «релаксационная» процедура деформации должна выполняться для всех эталонных лиц, заложенных в базу данных системы. Результат распознавания системы – эталон с наилучшим значением ценовой функции деформации.
Пример деформации графа в виде регулярной решетки
В отдельных публикациях указывается 95-97%-ая эффективность распознавания даже при наличии различных эмоциональных выражениях и изменении ракурса лица до 15 градусов. Однако разработчики систем эластичного сравнения на графах ссылаются на высокую вычислительную стоимость данного подхода. Например, для сравнения входного изображения лица с 87 эталонными тратилось приблизительно 25 секунд при работе на параллельной ЭВМ с 23 транспьютерами [15] (Примечание: публикация датирована 1993 годом). В других публикациях по данной тематике время либо не указывается, либо говорится, что оно велико.
Недостатки: высокая вычислительная сложность процедуры распознавания. Низкая технологичность при запоминании новых эталонов. Линейная зависимость времени работы от размера базы данных лиц.
2. Нейронные сети
В настоящее время существует около десятка разновидности нейронных сетей (НС). Одним из самых широко используемых вариантов являться сеть, построенная на многослойном перцептроне, которая позволяет классифицировать поданное на вход изображение/сигнал в соответствии с предварительной настройкой/обучением сети.
Обучаются нейронные сети на наборе обучающих примеров. Суть обучения сводится к настройке весов межнейронных связей в процессе решения оптимизационной задачи методом градиентного спуска. В процессе обучения НС происходит автоматическое извлечение ключевых признаков, определение их важности и построение взаимосвязей между ними. Предполагается, что обученная НС сможет применить опыт, полученный в процессе обучения, на неизвестные образы за счет обобщающих способностей.
Наилучшие результаты в области распознавания лиц (по результатам анализа публикаций) показала Convolutional Neural Network или сверточная нейронная сеть (далее – СНС) 31, которая является логическим развитием идей таких архитектур НС как когнитрона и неокогнитрона. Успех обусловлен возможностью учета двумерной топологии изображения, в отличие от многослойного перцептрона.
Отличительными особенностями СНС являются локальные рецепторные поля (обеспечивают локальную двумерную связность нейронов), общие веса (обеспечивают детектирование некоторых черт в любом месте изображения) и иерархическая организация с пространственными сэмплингом (spatial subsampling). Благодаря этим нововведениям СНС обеспечивает частичную устойчивость к изменениям масштаба, смещениям, поворотам, смене ракурса и прочим искажениям.
Схематичное изображение архитектуры сверточной нейронной сети
Тестирование СНС на базе данных ORL, содержащей изображения лиц с небольшими изменениями освещения, масштаба, пространственных поворотов, положения и различными эмоциями, показало 96% точность распознавания.
Свое развитие СНС получили в разработке DeepFace [47], которую приобрел
Facebook для распознавания лиц пользователей своей соцсети. Все особенности архитектуры носят закрытый характер.
Принцип работы DeepFace
Недостатки нейронных сетей: добавление нового эталонного лица в базу данных требует полного переобучения сети на всем имеющемся наборе (достаточно длительная процедура, в зависимости от размера выборки от 1 часа до нескольких дней). Проблемы математического характера, связанные с обучением: попадание в локальный оптимум, выбор оптимального шага оптимизации, переобучение и т. д. Трудно формализуемый этап выбора архитектуры сети (количество нейронов, слоев, характер связей). Обобщая все вышесказанное, можно заключить, что НС – «черный ящик» с трудно интерпретируемыми результатами работы.
3. Скрытые Марковские модели (СММ, HMM)
Одним из статистических методов распознавания лиц являются скрытые Марковские модели (СММ) с дискретным временем 33. СММ используют статистические свойства сигналов и учитывают непосредственно их пространственные характеристики. Элементами модели являются: множество скрытых состояний, множество наблюдаемых состояний, матрица переходных вероятностей, начальная вероятность состояний. Каждому соответствует своя Марковская модель. При распознавании объекта проверяются сгенерированные для заданной базы объектов Марковские модели и ищется максимальная из наблюдаемых вероятность того, что последовательность наблюдений для данного объекта сгенерирована соответствующей моделью.
На сегодняшний день не удалось найти примера коммерческого применения СММ для распознавания лиц.
Недостатки:
— необходимо подбирать параметры модели для каждой базы данных;
— СММ не обладает различающей способностью, то есть алгоритм обучения только максимизирует отклик каждого изображения на свою модель, но не минимизирует отклик на другие модели.
4. Метод главных компонент или principal component analysis (PCA) [11]
Одним из наиболее известных и проработанных является метод главных компонент (principal component analysis, PCA), основанный на преобразовании Карунена-Лоева.
Первоначально метод главных компонент начал применяться в статистике для снижения пространства признаков без существенной потери информации. В задаче распознавания лиц его применяют главным образом для представления изображения лица вектором малой размерности (главных компонент), который сравнивается затем с эталонными векторами, заложенными в базу данных.
Главной целью метода главных компонент является значительное уменьшение размерности пространства признаков таким образом, чтобы оно как можно лучше описывало «типичные» образы, принадлежащие множеству лиц. Используя этот метод можно выявить различные изменчивости в обучающей выборке изображений лиц и описать эту изменчивость в базисе нескольких ортогональных векторов, которые называются собственными (eigenface).
Полученный один раз на обучающей выборке изображений лиц набор собственных векторов используется для кодирования всех остальных изображений лиц, которые представляются взвешенной комбинацией этих собственных векторов. Используя ограниченное количество собственных векторов можно получить сжатую аппроксимацию входному изображению лица, которую затем можно хранить в базе данных в виде вектора коэффициентов, служащего одновременно ключом поиска в базе данных лиц.
Суть метода главных компонент сводится к следующему. Вначале весь обучающий набор лиц преобразуется в одну общую матрицу данных, где каждая строка представляет собой один экземпляр изображения лица, разложенного в строку. Все лица обучающего набора должны быть приведены к одному размеру и с нормированными гистограммами.
Преобразования обучающего набора лиц в одну общую матрицу X
Затем производится нормировка данных и приведение строк к 0-му среднему и 1-й дисперсии, вычисляется матрица ковариации. Для полученной матрицы ковариации решается задача определения собственных значений и соответствующих им собственных векторов (собственные лица). Далее производится сортировка собственных векторов в порядке убывания собственных значений и оставляют только первые k векторов по правилу:
Алгоритм РСА
Пример первых десяти собственных векторов (собственных лиц), полученных на обучаемом наборе лиц
= 0.956*
-1.842*
+0.046
…
Пример построения (синтеза) человеческого лица с помощью комбинации собственных лиц и главных компонент
Принцип выбора базиса из первых лучших собственных векторов
Пример отображения лица в трехмерное метрическое пространство, полученном по трем собственным лицам и дальнейшее распознавание
Метод главных компонент хорошо зарекомендовал себя в практических приложениях. Однако, в тех случаях, когда на изображении лица присутствуют значительные изменения в освещенности или выражении лица, эффективность метода значительно падает. Все дело в том, что PCA выбирает подпространство с такой целью, чтобы максимально аппроксимировать входной набор данных, а не выполнить дискриминацию между классами лиц.
В [22] было предложено решение этой проблемы с использование линейного дискриминанта Фишера (в литературе встречается название “Eigen-Fisher”, “Fisherface”, LDA). LDA выбирает линейное подпространство, которое максимизирует отношение:
где
матрица межклассового разброса, и
Матрица внутриклассового разброса; m – число классов в базе данных.
LDA ищет проекцию данных, при которой классы являются максимально линейно сепарабельны (см. рисунок ниже). Для сравнения PCA ищет такую проекцию данных, при которой будет максимизирован разброс по всей базе данных лиц (без учета классов). По результатам экспериментов [22] в условиях сильного бакового и нижнего затенения изображений лиц Fisherface показал 95% эффективность по сравнению с 53% Eigenface.
Принципиальное отличие формирования проекций PCA и LDA
Отличие PCA от LDA
5. Active Appearance Models (AAM) и Active Shape Models (ASM) (Хабраисточник)
Active Appearance Models (AAM)
Активные модели внешнего вида (Active Appearance Models, AAM) — это статистические модели изображений, которые путем разного рода деформаций могут быть подогнаны под реальное изображение. Данный тип моделей в двумерном варианте был предложен Тимом Кутсом и Крисом Тейлором в 1998 году [17,18]. Первоначально активные модели внешнего вида применялись для оценки параметров изображений лиц.
Активная модель внешнего вида содержит два типа параметров: параметры, связанные с формой (параметры формы), и параметры, связанные со статистической моделью пикселей изображения или текстурой (параметры внешнего вида). Перед использованием модель должна быть обучена на множестве заранее размеченных изображений. Разметка изображений производится вручную. Каждая метка имеет свой номер и определяет характерную точку, которую должна будет находить модель во время адаптации к новому изображению.
Пример разметки изображения лица из 68 точек, образующих форму AAM.
Процедура обучения AAM начинается с нормализации форм на размеченных изображениях с целью компенсации различий в масштабе, наклоне и смещении. Для этого используется так называемый обобщенный Прокрустов анализ.
Координаты точек формы лица до и после нормализации
Из всего множества нормированных точек затем выделяются главные компоненты с использованием метода PCA.
Модель формы AAM состоит из триангуляционной решетки s0 и линейной комбинации смещений si относительно s0
Далее из пикселей внутри треугольников, образуемых точками формы, формируется матрица, такая что, каждый ее столбец содержит значения пикселей соответствующей текстуры. Стоит отметить, что используемые для обучения текстуры могут быть как одноканальными (градации серого), так и многоканальными (например, пространство цветов RGB или другое). В случае многоканальных текстур векторы пикселов формируются отдельно по каждому из каналов, а потом выполняется их конкатенация. После нахождения главных компонент матрицы текстур модель AAM считается обученной.
Модель внешнего вида AAM состоит из базового вида A0, определенного пикселями внутри базовой решетки s0 и линейной комбинации смещений Ai относительно A0
Пример конкретизации AAM. Вектор параметров формы
p=(p_1,p_2,〖…,p〗_m )^T=(-54,10,-9.1,…)^T используется для синтеза модели формы s, а вектор параметров λ=(λ_1,λ_2,〖…,λ〗_m )^T=(3559,351,-256,…)^Tдля синтеза внешнего вида модели. Итоговая модель лица 〖M(W(x;p))〗^ получается как комбинация двух моделей – формы и внешнего вида.
Подгонка модели под конкретное изображение лица выполняется в процессе решения оптимизационной задачи, суть которой сводится к минимизации функционала
методом градиентного спуска. Найденные при этом параметры модели и будут отражать положение модели на конкретном изображении.
Пример подгонки модели на конкретное изображение за 20 итераций процедуры градиентного спуска.
С помощью AAM можно моделировать изображения объектов, подверженных как жесткой, так и нежесткой деформации. ААМ состоит из набора параметров, часть которых представляют форму лица, остальные задают его текстуру. Под деформации обычно понимают геометрическое преобразование в виде композиции переноса, поворота и масштабирования. При решении задачи локализации лица на изображении выполняется поиск параметров (расположение, форма, текстура) ААМ, которые представляют синтезируемое изображение, наиболее близкое к наблюдаемому. По степени близости AAM подгоняемому изображению принимается решение – есть лицо или нет.
Active Shape Models (ASM)
Суть метода ASM [16,19,20] заключается в учете статистических связей между расположением антропометрических точек. На имеющейся выборке изображений лиц, снятых в анфас. На изображении эксперт размечает расположение антропометрических точек. На каждом изображении точки пронумерованы в одинаковом порядке.
Пример представления формы лица с использованием 68 точек
Для того чтобы привести координаты на всех изображениях к единой системе обычно выполняется т.н. обобщенный прокрустов анализ, в результате которого все точки приводятся к одному масштабу и центрируются. Далее для всего набора образов вычисляется средняя форма и матрица ковариации. На основе матрицы ковариации вычисляются собственные вектора, которые затем сортируются в порядке убывания соответствующих им собственных значений. Модель ASM определяется матрицей Φ и вектором средней формы s ̅.
Тогда любая форма может быть описана с помощью модели и параметров:
Локализации ASM модели на новом, не входящем в обучающую выборку изображении осуществляется в процессе решения оптимизационной задачи.
а) б) в) г)
Иллюстрация процесса локализации модели ASM на конкретном изображении: а) начальное положение б) после 5 итераций в) после 10 итераций г) модель сошлась
Однако все же главной целью AAM и ASM является не распознавание лиц, а точная локализация лица и антропометрических точек на изображении для дальнейшей обработки.
Практически во всех алгоритмах обязательным этапом, предваряющим классификацию, является выравнивание, под которым понимается выравнивание изображения лица во фронтальное положение относительно камеры или приведение совокупности лиц (например, в обучающей выборке для обучения классификатора) к единой системе координат. Для реализации этого этапа необходима локализация на изображении характерных для всех лиц антропометрических точек – чаще всего это центры зрачков или уголки глаз. Разные исследователи выделяют разные группы таких точек. В целях сокращения вычислительных затрат для систем реального времени разработчики выделяют не более 10 таких точек [1].
Модели AAM и ASM как раз и предназначены для того чтобы точно локализовать эти антропометрические точки на изображении лица.
6. Основные проблемы, связанные с разработкой систем распознавания лиц
Проблема положения головы (лицо – это, все же, 3D объект).
С целью оценки эффективности предложенных алгоритмов распознавания лиц агентство DARPA и исследовательская лаборатория армии США разработали программу FERET (face recognition technology).
В масштабных тестах программы FERET принимали участие алгоритмы, основанные на гибком сравнении на графах и всевозможные модификации метода главных компонент (PCA). Эффективность всех алгоритмов была примерно одинаковой. В этой связи трудно или даже невозможно провести четкие различия между ними (особенно если согласовать даты тестирования). Для фронтальных изображений, сделанных в один и тот же день, приемлемая точность распознавания, как правило, составляет 95%. Для изображений, сделанных разными аппаратами и при разном освещении, точность, как правило, падает до 80%. Для изображений, сделанных с разницей в год, точность распознавания составило примерно 50%. При этом стоит заметить, что даже 50 процентов — это более чем приемлемая точность работы системы подобного рода.
Ежегодно FERET публикует отчет о сравнительном испытании современных систем распознавания лиц [55] на базе лиц более одного миллиона. К большому сожалению в последних отчетах не раскрываются принципы построения систем распознавания, а публикуются только результаты работы коммерческих систем. На сегодняшний день лидирующей является система NeoFace разработанная компанией NEC.