Python + opencv + keras: делаем распознавалку текста за полчаса

Применение методов распознавания образов в медицине

Методы Р. о. нашли практическое применение в медицине, многие узловые проблемы к-рой связаны с вопросами классификации и прогнозирования. К основным задачам медицины, решаемым с помощью методов распознавания, относятся следующие.

1. Задачи медицинской дифференциальной диагностики. Для многих групп заболеваний со сходной симптоматикой удается построить решающие правила, с помощью которых диагностика проводится с высокой точностью. 2. Прогноз осложнений при лечении. Для той или иной схемы лечения строятся решающие правила, позволяющие для каждого больного определить особенность протекания лечения (лечение пройдет без осложнений, с осложнением типа 1, типа 2 и т. д.). 3. Прогноз отдаленных результатов лечения. Для каждого больного при заданной схеме лечения прогнозируется один из возможных исходов лечения. В случае нескольких альтернативных схем лечения на основе результатов прогноза для каждой из них можно выбрать для данного больного прогностически наиболее благоприятную схему. 4. Выделение групп людей повышенного риска. Строится правило, с помощью к-рого по индивидуальным особенностям человека, характерным для него привычкам, особенностям среды, в к-рой он проживает, прогнозируется возможность заболевания конкретной болезнью. Лица с неблагоприятным прогнозом объединяются в группу риска. Оказалось, что в выделенной группе риска концентрация людей с определенной патологией в десятки раз превосходит концентрацию аналогичных больных в контрольной группе.

Большие работы по применению методов Р. о. проводятся в теоретической медицине. Напр., создаются комплексные тесты, позволяющие судить о наличии конкретного заболевания не по одному специфическому тесту, а по набору неспецифических тестов. Методами Р. о. может быть решена одна из наиболее важных задач — задача выбора целесообразного для клин, испытаний препарата. Так, в мировой онкологической клин, практике апробировано менее 100 противоопухолевых препаратов, в то же время в поисках эффективных лекарств синтезируются сотни новых противоопухолевых средств. Эти новые лекарственные средства проверяются на различных моделях опухолей (в т. ч. и на опухолях животных). Однако эффективность препарата на моделях еще не гарантирует его эффективности в клинике. Проблема состоит в том, чтобы, имея информацию о клин. активности апробированных препаратов и информацию об активности этих же препаратов на различных моделях, выбрать по результатам испытания на моделях среди вновь синтезированных препаратов наиболее активный в клинике.

Развитие методов Р. о. на практике связано с созданием автоматизированных систем управления (см.), и в частности таких систем, которые позволяют накапливать большое количество информации — банки данных. Используя эти банки, можно в режиме диалога с машиной строить решающие правила, рассчитанные на имеющуюся в данный момент информацию, оценивать точность проводимой с помощью построенного правила классификации, определять необходимые дополнительные элементы описания ситуации для увеличения точности классификации и т. д. Создание таких систем позволит использовать ЭВМ на всех уровнях принятия альтернативных решений.

См. также Математические методы в медицине, Прогнозирование, Решающее правило, Электронная вычислительная машина.

Библиография: Вапник В. Н. Восстановление зависимостей по эмпирическим данным, М., 1979; Вапник В. Н. и Червоненкис А. Я. Теория распознавания образов, М., 1974; Вапник В. H., Глазкова Т. Г. и Миллер И. Ранжирование препаратов для клинических испытаний, в кн.: Эксперим. оценка противоопухолевых препаратов в СССР и США, под ред. 3. П. Софьиной и др., с. 184, М., 1980; Глазкова Т. Г. и Гурарий К. Н. Применение математических методов в онкоэпидемиологических исследованиях, Эпидемиология в странах СЭВ, М., 1979; Гублер Е. В. Вычислительные методы анализа и распознавания патологических процессов, JI., 1978; Распознавание образов и медицинская диагностика, под ред. Ю. И. Неймарка, М., 1972.

В. Н. Вапник.

Как обмануть системы распознавания лиц

Чтобы не стать жертвой некорректной работы систем распознавания, некоторые люди стараются найти способы для их обмана.

В 2017 году директор по распространению технологий «Яндекса» Григорий Бакунов разработал специальную систему макияжа, якобы помогающего обмануть нейросети. Для этого он использовал алгоритм, подбирающий образ по принципу антисходства. Примерно в том же ключе действовали участники протестов в Лондоне в 2020 году: они пытались обмануть системы распознавания лиц с помощью цветных патчей на лице.

Пост из инстаграм the Dazzle Club

Исследователи также занимаются разработками, которые не позволяют ИИ учиться на личных данных, говорится в статье MIT Technology Review. Один из первых представленных инструментов — это программа Fawkes, которую разработала Эмили Венгер из Чикагского университета. «Мне не нравится, когда люди берут у меня то, что не должно им принадлежать», — объясняет она свою мотивацию.

Большинство подобных инструментов используют один и тот же алгоритм: они вносят в изображения небольшие изменения, которые незаметны для человеческого глаза, и заставляют ИИ неправильно определять лица на фотографиях. Этот метод очень близок к состязательной атаке, когда небольшие изменения данных могут привести модели глубокого обучения к ошибкам.

Благодаря такому подходу современные системы распознавания лиц перестанут работать. В отличие от предыдущих попыток запутать ИИ (например, нанесение краски на лица), новая технология оставляет изображения неизменными для зрительного восприятия человека. Программа Fawkes на сайте Чикагского университета для свободного скачивания и использования. С тех пор её загрузили свыше 500 тысяч раз.

Автор Fawkes Эмили Венгер и её коллеги протестировали свой инструмент на известных коммерческих системах распознавания лиц — Amazon AWS Rekognition, Microsoft Azure и Face++. В небольшом эксперименте с набором данных из 50 фотографий алгоритм был эффективен на 100 %. Позднее Fawkes не позволяла моделям, обученным на изменённых изображениях людей, распознавать эти же лица на свежих снимках. То есть небольшие изменения, внесённые в фотографии, помешали инструментам сформировать точное представление о лицах.

Видео: Emily Wenger / YouTube

Fawkes может помешать новой системе распознавания определять людей по фото. Но у программы не получится противодействовать существующим системам, которые уже были обучены на незащищённых изображениях. Впрочем, технология постоянно совершенствуется.

Создатель Fawkes считает, что инструмент LowKey, разработанный Валерией Черепановой и ее коллегами из Университета Мэриленда, может решить эту проблему. LowKey расширяет возможности Fawkes: он противодействует системам, основанным на более сильном виде состязательной атаки, а также обманывает предварительно обученные коммерческие модели. Как и Fawkes, LowKey доступен как веб-сервис.

Большинство подобных инструментов, включая Fawkes, используют один и тот же базовый подход: в изображение вносятся микроизменения, которые трудно заметить человеческим глазом, но они нарушают работу ИИ. В частности, если дать Fawkes на ввод серию фотографий, он добавит к ним искажения на уровне пикселей, которые не позволят современным системам распознавания лиц определить, кто изображён на снимках.

Намеренное «загрязнение» данных может затруднить для компаний тренировку моделей машинного обучения, предположил директор по продуктам компании Ivideon Заур Абуталимов в разговоре со Skillbox Media.

«Однако отличием этих новых методов является то, что они работают с фотографиями одного человека. Такие инструменты, как Fawkes, могут помешать новой системе распознавания лиц распознать именно вас, но они не помешают существующим системам, которые уже обучались на ваших „незащищённых“ изображениях», — подчеркнул Заур Абуталимов.

Преподаватель Deep Learning School, автор блога об искусственном интеллекте и нейронных сетях Татьяна Гайнцева рассказала Skillbox Media, что инструменты Fawkes и LowKey могут быть перспективными, но не стоит ожидать от них абсолютной эффективности.

Признание памяти

Когда кто-то видит объект, он знает, что это за объект, потому что видел его в прошлом; это память узнавания . На нашу способность распознавать объект влияют не только отклонения вентрального (какого) потока зрительного пути, но и то, как объект нам преподносят. Одной из примечательных характеристик памяти визуального распознавания является ее замечательная способность: даже после просмотра тысяч изображений в отдельных испытаниях, люди выполняют с высокой точностью в последующих тестах памяти и они запоминают значительные детали об изображениях, которые они видели.

Контекст

Контекст обеспечивает гораздо большую точность распознавания объектов. Когда идентифицируемый объект размыт, точность распознавания намного выше, если объект помещен в знакомый контекст. В дополнение к этому, даже незнакомый контекст позволяет более точно распознавать объект по сравнению с объектом, показываемым изолированно. Это можно объяснить тем фактом, что объекты обычно видны в какой-то обстановке, а не вообще без нее. Когда установка, в которой находится объект, знакома зрителю, становится намного проще определить, что это за объект. Хотя контекст не требуется для правильного распознавания, он является частью ассоциации, которая создается с определенным объектом.

Контекст становится особенно важным при распознавании лиц или эмоций. Когда эмоции лица представлены без какого-либо контекста, способность, с которой кто-то может точно описать показываемые эмоции, значительно ниже, чем при задании контекста. Это явление сохраняется во всех возрастных группах и культурах, что означает, что контекст важен для точного определения эмоций на лице у всех людей.

Знакомство

Знакомство — это механизм, не зависящий от контекста, в том смысле, что то, что человек узнает, кажется знакомым, не тратя время на попытки выяснить, в каком контексте он знаком с объектом. Вентро-латеральная область лобной доли участвует в кодировании памяти во время случайного обучения, а затем в поддержании и извлечении семантических воспоминаний. Знакомство может вызывать процессы восприятия, отличные от процессов восприятия незнакомых объектов, что означает, что наше восприятие конечного числа знакомых объектов уникально. Отклонения от типичных точек зрения и контекстов могут повлиять на эффективность, благодаря которой объект распознается наиболее эффективно. Было обнаружено, что не только знакомые объекты распознаются более эффективно, если смотреть со знакомой точки зрения в противоположность незнакомой, но также этот принцип применим к новым объектам. Это приводит к мысли, что представления объектов в нашем мозгу организованы более знакомым образом, чем объекты, наблюдаемые в окружающей среде. Распознавание во многом определяется не только формой объекта и / или видами, но и динамической информацией. Знакомство может улучшить восприятие динамических точечных световых индикаторов, движущихся объектов, пола лиц и распознавания лиц.

Воспоминание

Воспоминание имеет много общего со знакомым; однако это зависит от контекста и требует конкретной информации из запрашиваемого инцидента.

Классификация по ближайшему среднему значению

В классическом подходе распознавания образов, в котором неизвестный объект для классификации представляется в виде вектора элементарных признаков. Система распознавания на основе признаков может быть разработана различными способами. Эти векторы могут быть известны системе заранее в результате обучения или предсказаны в режиме реального времени на основе каких-либо моделей.

Простой алгоритм классификации заключается в группировке эталонных данных класса с использованием вектора математического ожидания класса (среднего значения).

где x(i,j)– j-й эталонный признак класса i, n_j– количество эталонных векторов класса i.

Тогда неизвестный объект будет относиться к классу i, если он существенно ближе к вектору математического ожидания класса i, чем к векторам математических ожиданий других классов. Этот метод подходит для задач, в которых точки каждого класса располагаются компактно и далеко от точек других классов.

Трудности возникнут, если классы будут иметь несколько более сложную структуру, например, как на рисунке. В данном случае класс 2 разделен на два непересекающихся участка, которые плохо описываются одним средним значением. Также класс 3 слишком вытянут, образцы 3-го класса с большими значениями координат x_2 ближе к среднему значению 1-го класса, нежели 3-го. 

Описанная проблема в некоторых случаях может быть решена изменением расчета расстояния.

Будем учитывать характеристику «разброса» значений класса – σ_i, вдоль каждого координатного направления i. Среднеквадратичное отклонение равно квадратному корню из дисперсии. Шкалированное евклидово расстояние между вектором x и вектором математического ожидания x_c равно

Эта формула расстояния уменьшит количество ошибок классификации, но на деле большинство задач не удается представить таким простым классом.

Какие преимущества получают потребители

Люди уже давно и полностью опробовали на себе работу нейросетей для распознавания изображений, преимущественно в сфере развлечений:

  1. Активные пользователи Facebook уже привыкли к тому, что искусственный интеллект распознаёт и отмечает их друзей на фотографиях.
  2. Любители накладывать фильтры и эффекты пользуются преимуществами искусственного интеллекта, чтобы создавать уникальные шедевры из обычных фотографий.
  3. С помощью приложений-фоторедакторов за пару кликов можно «омолодить» лицо пенсионера или «состарить» подростка, а также трансформировать мужчину в женщину или наоборот.

Однако программы распознавания изображений не ограничиваются развлекательными функциями. Некоторые способны помогать людям в опознании увиденного. Теперь пользователи могут быстро найти информацию о желаемой вещи в интернете, например, её точное название, где и по какой цене такую можно купить. Приложения распознают афиши фильмов и концертов, логотипы, бренды, штрихкоды, QR-коды и многое другое.

Технология открыла много возможностей для маркетинга и коммуникации с потребителями. Компании теперь могут легко отслеживать лидеров мнений о них, упоминания бренда на фото при отсутствии текста, не отмеченные хештегами отзывы на свою продукцию, получать пользовательские инсайты. Ритейлерам стало проще увеличивать продажи, качественнее обслуживать клиентов, подбирать им подходящие товары, следить за их выкладкой на витринах. Так что в выигрыше не только пользователи, но и те, кто работает на удовлетворение их потребностей.

Какие выгоды получит ваш бизнес с распознавания изображений

Существует много способов применения распознавания изображений, которые дадут вашему бизнесу преимущество в своей сфере. Такие системы помогут изучить социальный обмен, улучшить взаимосвязь с пользователями, привлечь больше клиентов. Их внедрение позволит вашему приложению расширить возможности и выйти за пределы мобильного устройства. Наши разработчики готовы создать или интегрировать программное обеспечение любой сложности, с адаптацией под вашу сферу деятельности.

Иерархическая обработка распознавания

Обработка визуального распознавания обычно рассматривается как восходящая иерархия, в которой информация обрабатывается последовательно с возрастающей сложностью. Во время этого процесса корковые процессоры более низкого уровня, такие как первичная зрительная кора , находятся внизу иерархии. Корковые процессоры более высокого уровня, такие как нижневисочная кора (ИТ), находятся наверху, где облегчается визуальное распознавание. Широко признанной восходящей иерархической теорией является описание Джеймса ДиКарло «Распутывание», согласно которому каждый этап иерархически организованного вентрального зрительного пути выполняет операции по постепенному преобразованию представлений объектов в легко извлекаемый формат. Напротив, все более популярной теорией обработки распознавания является нисходящая обработка. Одна модель, предложенная Моше Баром (2003), описывает метод «быстрого доступа», при котором ранние визуальные сигналы отправляются, частично анализируясь, из ранней зрительной коры в префронтальную кору (ПФК). Возможные интерпретации грубого визуального ввода генерируются в PFC и затем отправляются в нижневисочную кору (ИТ), после чего активируются соответствующие представления объектов, которые затем включаются в более медленный восходящий процесс. Этот «ярлык» предназначен для минимизации количества представлений объектов, необходимых для сопоставления, тем самым облегчая распознавание объектов. Исследования поражений подтвердили это предложение с выводами о более медленном времени ответа для людей с поражениями ПФК, предлагая использовать только восходящую обработку.

Что такое распознавание лиц?

Итак, в создании алгоритмов обнаружения лиц мы (люди) преуспели. А можно ли также распознавать, чьи это лица?

Распознавание лиц — это метод идентификации или подтверждения личности человека по его лицу. Существуют различные алгоритмы распознавания лиц, но их точность может различаться. Здесь мы собираемся описать распознавание лиц при помощи глубокого обучения.

Итак, давайте разберемся, как мы распознаем лица при помощи глубокого обучения. Для начала мы производим преобразование, или, иными словами, эмбеддинг (embedding), изображения лица в числовой вектор. Это также называется глубоким метрическим обучением.

Для облегчения понимания давайте разобьем весь процесс на три простых шага:

Обнаружение лиц

Наша первая задача — это обнаружение лиц на изображении или в видеопотоке. Далее, когда мы знаем точное местоположение или координаты лица, мы берем это лицо для дальнейшей обработки.

Извлечение признаков

Вырезав лицо из изображения, мы должны извлечь из него характерные черты. Для этого мы будем использовать процедуру под названием эмбеддинг.

Нейронная сеть принимает на вход изображение, а на выходе возвращает числовой вектор, характеризующий основные признаки данного лица. (Более подробно об этом рассказано, например, в нашей серии статей про сверточные нейронные сети — прим. переводчика). В машинном обучении данный вектор как раз и называется эмбеддингом.

Теперь давайте разберемся, как это помогает в распознавании лиц разных людей.

Во время обучения нейронная сеть учится выдавать близкие векторы для лиц, которые выглядят похожими друг на друга.

Например, если у вас есть несколько изображений вашего лица в разные моменты времени, то естественно, что некоторые черты лица могут меняться, но все же незначительно. Таким образом, векторы этих изображений будут очень близки в векторном пространстве. Чтобы получить общее представление об этом, взгляните на график:

Чтобы определять лица одного и того же человека, сеть будет учиться выводить векторы, находящиеся рядом в векторном пространстве. После обучения эти векторы трансформируются следующим образом:

Здесь мы не будем заниматься обучением подобной сети. Это требует значительных вычислительных мощностей и большого объема размеченных данных. Вместо этого мы используем уже предобученную Дэвисом Кингом нейронную сеть. Она обучалась приблизительно на 3000000 изображений. Эта сеть выдает вектор длиной 128 чисел, который и определяет основные черты лица.

Познакомившись с принципами работы подобных сетей, давайте посмотрим, как мы будем использовать такую сеть для наших собственных данных.

Мы передадим все наши изображения в эту предобученную сеть, получим соответствующие вектора (эмбеддинги) и затем сохраним их в файл для следующего шага.

Скачивайте книгу у нас в телеграм

Скачать

×

Сравнение лиц

Теперь, когда у нас есть вектор (эмбеддинг) для каждого лица из нашей базы данных, нам нужно научиться распознавать лица из новых изображений. Таким образом, нам нужно, как и раньше, вычислить вектор для нового лица, а затем сравнить его с уже имеющимися векторами. Мы сможем распознать лицо, если оно похоже на одно из лиц, уже имеющихся в нашей базе данных. Это означает, что их вектора будут расположены вблизи друг от друга, как показано на примере ниже:

Итак, мы передали в сеть две фотографии, одна Владимира Путина, другая Джорджа Буша. Для изображений Буша у нас были вектора (эмбеддинги), а для Путина ничего не было. Таким образом, когда мы сравнили эмбеддинг нового изображения Буша, он был близок с уже имеющимися векторам,и и мы распознали его. А вот изображений Путина в нашей базе не было, поэтому распознать его не удалось.

Использует

Лицо было автоматически обнаружено специальным программным обеспечением.

В медицинской науке распознавание образов является основой систем компьютерной диагностики (CAD). CAD описывает процедуру, которая поддерживает интерпретацию и выводы врача. Другими типичными применениями методов распознавания образов являются автоматическое распознавание речи , идентификация говорящего , классификация текста на несколько категорий (например, спам / не спамовые сообщения электронной почты), автоматическое распознавание почерка на почтовых конвертах, автоматическое распознавание изображений человеческих лиц и т. Д. или извлечение изображения почерка из медицинских бланков. Последние два примера образуют подтемный анализ изображений для распознавания образов, в котором цифровые изображения используются в качестве входных данных для систем распознавания образов.

Распознавание образов имеет множество реальных приложений для обработки изображений, некоторые примеры включают:

  • идентификация и аутентификация: например, распознавание номерных знаков , анализ отпечатков пальцев, обнаружение / проверка лиц и голосовая аутентификация.
  • медицинский диагноз: например, обследование на рак шейки матки (Папнет), опухоли груди или тоны сердца;
  • защита: различные системы навигации и наведения, системы распознавания целей, технологии распознавания форм и т. д.
  • мобильность: передовые системы помощи водителю , технологии автономных транспортных средств и т. д.

В психологии распознавание образов (осмысление и идентификация объектов) тесно связано с восприятием, которое объясняет, как сенсорные сигналы, получаемые людьми, становятся значимыми. Распознавание образов можно рассматривать двумя разными способами: первый — сопоставление с шаблоном, а второй — обнаружение признаков. Шаблон — это шаблон, используемый для создания предметов одинаковых пропорций. Гипотеза соответствия шаблону предполагает, что входящие стимулы сравниваются с шаблонами в долговременной памяти. Если есть совпадение, стимул идентифицируется. Модели обнаружения признаков, такие как система классификации букв Pandemonium (Selfridge, 1959), предполагают, что стимулы разбиваются на составные части для идентификации. Например, заглавная буква E состоит из трех горизонтальных линий и одной вертикальной линии.

Применение алгоритмов обучения распознаванию образов

Выделяют два типа задач Р. о.: задачи, связанные с классификацией естественной для человека информации, т. е. такой информации, к-рая возникала в процессе его фило- и онтогенеза (напр., классификация зрительных образов, классификация звуков речи и т. д.); задачи, связанные с классификацией не естественной для человека информации, т. е. не встречавшейся в фило- и онтогенезе (напр., задачи технической и медицинской диагностики, задачи прогнозирования и т. п.).

Для решения задач первого типа пока не удается построить устройство, работающее с той же точностью, что и человек, тогда как при решении задач второго типа технические устройства, как правило, проводят классификацию точнее человека.

Работы по внедрению методов Р. о. ведутся для обоих типов задач. Так, на принципе Р. о., связанных с классификацией естественной для человека информации, разрабатываются устройства автоматического чтения печатного и машинописного текстов, что позволяет непосредственно вводить документы в ЭВМ. Разработаны читающие автоматы. Ведутся работы по созданию устройств для подачи ЭВМ команды голосом, обмена с нею информацией голосом (автоматический синтезатор звуков речи уже создан), построения автоматического стенографического устройства и т. д.

Созданы устройства, способные различать до 100 слов, что достаточно, чтобы задавать машине голосом программу действий.

Еще более успешно применяются методы Р. о. для решения задач второго типа (т. е. классификация не естественной для человека информации). Так, методы распознавания широко используются в геологии при принятии решений о наличии полезных ископаемых по результатам комплексного обследования региона (напр., при поиске нефти распознавание нефтеносных пластов), в метеорологии при составлении по синоптической информации прогнозов гололеда, шквалов, заморозков и т. д. Имеется опыт применения методов Р. о. для организации неразрушающего контроля качества продукции. Так, по особенностям работы электронных приборов в различных режимах судят об их долговечности.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector