Обзор Альманаха по ИИ #3 про Computer Vision

В прошлых статьях из этой серии я рассказывал про первый и второй альманахи ИИ от Центра AI на базе МФТИ, выпущенные в июне и сентябре 2019 года. В декабре того же года подъехала новый выпуск альманаха, в этот раз посвященный компьютерному зрению. В этой статье мы заглянем внутрь этого отчета и посмотрим что интересного подготовили нам эксперты рынка и аналитики центра AI.

Рис.1 “Заглавная страница Альманаха #3”

Альманах состоит из 190 страниц и 10 частей, начиная с введения и заканчивая приложением, в котором приведено несколько сотен ссылок на внешние ресурсы. Содержимое альманаха приведено ниже.

В первой части, а именно во введении, приводится красивый таймлайн с историей развития Computer Vision с разбивкой по десятилетиям и областям, среди которых выделены значимые события, приложения, алгоритмы, Hardware, датасеты и фреймворки. Там же Илья Захаркин захватывающее обозревает Deep Learning в CV в статье “Вижу, значит существую”, рассматривая базовую теорию нейросетей в зрении, а дальше применения наподобие распознавания лиц, детектирования объектов, детектирования и распознавания текста, а также трекинга объектов в видео. Основное содержимое альманаха состоит из

  • общего обзора технологий и примеры их применения в разных отраслях промышленности

Обзор технологий краткий, сочный и интересный:) Он уже сделан в виде выжимки современного состояния технологий в computer vision причем крайне доступным языком. Рекомендую изучить этот раздел самостоятельно.

Примеры применения приведены на mind map ниже. Из изображения ниже видны горячие области:

  • Интернет

Конкретные примеры приведены в соответствующих статьях

Если смотреть на топ компаний мира, то в верхней половине неожиданностей достаточно мало. Мы видем там такие компании как Google, Facebook, Microsoft, … Но в нижней части топа есть ряд китайских компаний второго эшелона, которые широко известны, но в узких кругах, например, Megvii Technology Limited, SenseTime и YITU Technology, Deep Glint. Часть разработок этих компаний используются правительством Китая, чтобы исполнять роль Большого Брата … Список компаний России тоже достаточно предсказуем: Яндекс, Vision Labs, Mail.ru, ABBYY и другие.

Если смотреть на списки ключевых людей в мире и в России, то можно заметить, что многие мировые эксперты работают в крупных технологических гигантах, указанных выше. В России же крупные компании редко публикуют свои работы, а ведущие сотрудники этих компаний являются скорее затворниками, о которых мало что известно и которые не публикуются в научных журналах. В итоге ключевые люди России — это скорее сотрудники разнообразных научных организаций или иностранных компаний, например, Samsung.

Напоследок этот альманах содержит две интересные статьи, одна про то как выглядит индустрия, а вторая о том, что ее ждет. Портрет индустрии содержит следующие интересные моменты:

  • основными отраслями являются те, что перечислены на mindmap’е выше

Тренды и аналитика еще интереснее. Авторы выделяют технологические и рыночные тренды, которые приведены на mind map ниже. В принципе, и перечисления этих трендов достаточно, чтобы захотеть пролистать этот альманах и внимательно остановиться на этой финальной статье.

Итого

Отчет по CV получился интересным и сравнимым по качеству с первым отчетом и вторым отчетом, где рассматривалось общее состояние дел и состояние дел в области NLP. Надеюсь, что и следующие отчеты будут настолько же интересны и проработаны. Спасибо ребятам из Центра AI на базе МФТИ за их труд.

Director of digital ecosystem development department at Tinkoff. Bachelor at applied math, Master at system analysis, Postgraduate studies at economics.

Director of digital ecosystem development department at Tinkoff. Bachelor at applied math, Master at system analysis, Postgraduate studies at economics.