Обзор Альманаха по ИИ #2 про NLP

В прошлой статье из этой серии я рассказывал про первый альманаха ИИ #1 от Центра AI на базе МФТИ, выпущенный в июне. Но наступил сентябрь и подъехала новая серия, в этот раз посвященная обработке естественного языка. В этой статье мы заглянем внутрь этого отчета и посмотрим что интересного подготовили нам эксперты рынка и аналитики центра AI.

Заглавная страница Альманаха #2

Альманах состоит из 180 страниц и 10 частей, начиная с введения и заканчивая приложениями.

В первой части, а именно во введении приводится красивый таймлайн с историей развития NLP и речевых технологий с разбивкой по десятилетиям и областям. Дальше в статье “Машинная обработка естественного язык” Сергей Шумский рассматривает эволюцию подходов, выделяя следующие этапы:

Автор отмечает интересный момент, что сейчас технологии уже почти доросли до момента, когда качество достаточно и на первый план выходит экономика решения.

Вторая часть посвящена рассмотрению технологий, входящих под зонтик “Обработка естественного языка, распознавание и синтез речи” и которые будут рассмотрены в этом сборнике. В список этих технологий входят:

Приведена интересная карта компаний, играющих на каждом технологическом участке NLP рынка

Карта компаний NLP рынка

Дальше начинается самое интересное, а именно обзор состояния дел в каждой из ветви технологий, перечисленных в карте.

Обработка естественного языка, поиск и извлечение информации из текстов

В этой статье рассматривается вопрос почему компьютерам так трудно дается изучение человеческих языков и одним из основных факторов является закон Ципфа. Этот закон устанавливает эмпирическую закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.

Закон Ципфа: График для частот слов из статей русской Википедии с рангами от 3 до 170

Эпоха машинного обучения принесла нам алгоритм Word2Vec, который представлял собой набор моделей для анализа семантики естественных языков, которые основаны на дистрибутивной семантике и векторном представлении слов. Этот инструмент был разработан группой исследователей Google в 2013 году. Данную работу можно считать одним из первых успешных примеров применения «transfer learning» — обучения с переносом знаний — к анализу текста.

Дальше на сцену вышли языковые модели с использованием рекуррентных нейронных сетей. И наиболее успешными стали нейронные сети с использованием LSTM (long short-term memory) и GRU (gated recurrent unit).

Дальше добавился так называемый механизм внимания и архитектура трансформер в статье “Attention is all your need”. А также большие предобученные модели, например, BERT от Google.

И в самом конце автор отвечает на вопросы умеют ли сейчас машины:

Распознавание речи

Сегодня распознавание речи — это горячая тема, которая является частью большого количества продуктов, например, голосовых помощников (Cortana, Google Assistant, Siri, …).

В этой области есть значимые результаты, причем при идеальных условиях аудиозаписи нейронные сети уже могут выдавать результат сравнимый или лучше людей. А вот с более сложной задачей, а именно распознаванием речи, записанной на удалённый микрофон, в условиях диалога или полилога нескольких дикторов, нейронные сети справляются не так хорошо и сильно уступает человеку.

Синтез речи

Система TTS (text-to-speech) включает три ключевых компонента, каждый из которых может реализован в виде нейронной сети:

Нейронные системы синтеза речи дали большой скачок в плавности и натуральности звучания. Это привело к тому, что они уже могут использоваться мошенниками для различных нужд.

Машинный перевод

Статья посвящена сравнению разных систем машинного перевода и основные выводы следующие:

Генерация текстов

Основные технологии в порядке появления были следующие:

Но как говорит автор статьи

Главное препятствие сегодня состоит в том, что модель генерирует речь слово за словом

что не позволяет генерировать историю с каким-то замыслом:)

Диалоговые системы (чат-боты)

Диалоговые системы можно поделить на 2 группы по способу построения:

А по назначению на

Схема чатбота

Чатботы состоят из 3х частей:

Оценивать чатботы можно следующими способами:

Подробнее про чатботов можно почитать в подробном отчете с рейтингом 50 чат-бот платформ, доступном здесь.

Анализ тональности

Статья от CTO компании Intento, которая занимается унификацией API разных сервисов распознавания тональности посредством предоставления своего единого API Gateway. В самой статье производится сравнение разнообразных сервисов для sentiment analysis.

В конце этого раздела авторы сборника приводят глоссарий, который к этому моменту кажется, что уже немного запоздал:) А за глоссарием следует небольшая рекламная вставка от Яндекс Толока, в которой рассказывается какой это крутой сервис для разметки данных для ML.

В третьей части сборника авторы говорят о применениях технологий в областях:

Финансы и страхование

Основной фокус на

Например, по исследованию emerj.com около 13,5% всех продуктов, производимых вендорами для банка — это чатботы, причем они же дают 39% AI use-cases среди топ 100 американских банков. А вообще AI вендоры предлагают для банков следующее

This is visualized data from our full AI in Banking Vendor Scorecard and Capability Map report. For access to more of the charts, graphs, and insights from this report, download the Executive Summary Brief at the bottom of the report page. From emerj.com

Промышленность и логистика

Здесь одно из самых популярных направлений связанных с задачами обработки естественного языка — это реализация чат-ботов. И в крупных ERP системах, например, в SAP, есть функции для построения чатботов как конструкторов. Об этом и рассказывают авторы статьи:)

Медицина

Здесь врачи мечтают избавиться от «писанины», с помощью технологий Speech-to-Text. В статье упоминается несколько любопытных моментов

IT и Telecom

Здесь все сконцентрировано вокруг

Приводятся примеры мировых и российских телеком операторов, которые завели сбе кто чат-ботов, а кто виртуальных помощников, вроде Елены у Мегафона:)

NLP в юридической практике

Есть кейсы, которые показывают, что NLP может помочь в автоматизации рутинной работы. И за последние 2–3 года использование ИИ в работе юристов стало трендом. Пока количество юристов, которое реально применяет ИИ на практике (а не только говорит об этом), относительно маленькое. Есть инструменты для анализа документов. Автор отмечает, что

2018 г. стало годом первых существенных инвестиций в legal AI — Kira Systems привлекла 50 млн долларов США

Медиа и реклама

Подача в статье CEO компании Brand Analytics уж больно хороша:) Рекомендую вам прочитать статью полностью, а сам приведу пару цитат выделенных самим автором:

Относительно NLP в рекламе:

Вывод очевиден — рекламный канал в интернете стал главным рекламным каналом для брендов, а сами рекламные технологии и форматы с успехом применяют NLP для построения нужных рекламодателю аудиторных сегментов, создания рекламных сообщений, выбора точек контакта и последующей аналитики

и NLP в медиа

Вывод тут только один. Все надежды удовлетворить ожидания читателей связаны с персонализацией контента для пользователей и узкоцелевых групп с учетом их интересов. Многократные эксперименты подтверждают гипотезу, что ИИ способен выявлять и интересы, и соответствующий им контент. Уже в ближайшее ИИ, возможно, вернет нам веру в интересные медиа.

Государство и безопасность

Забавно, что в этой предметной области ни один из экспертов не решился написать статью. Думаю, что они решили, что это не безопасно писать про использование NLP в области государства и безопасности:) В итоге, авторы сборника сами комментируют несколько применений

Пожалуй самое острое применение технологий NLP сегодня — это информационные войны, которые идут на уровне государств.

Также в этой области технологии NLP активно применяются для быстрого анализа информационного поля и ситуативного реагирования.

Еще одно применение, активно используемое государственными службами, это анализ информационного пространства (в основном соц сетей) с попыткой выявления активных групп граждан.

Одно из самых последних применений технологий NLP в этой сфере — это генерация текстов на заданную тему.

Наука и образование

В этой области применения автор выделяет нерешенные проблемы:

Дальше автор описывает применения NLP для следующих задач:

Голосовые помощники

Приводится список помощников с их стоимостью и занимаемой долей рынка:

В четвертом и пятом разделе рассказывается про компании, которые выделяются на мировом и российском рынке. В мире лидируют:

ТОП мировых компаний

Для российских компаний помимо самого топа приводится прикольный анализ их схем монетизации. Очень рекомендую его для изучения.

ТОП российских компаний

В шестом и седьмом разделе приводятся люди, которые являются ключевыми в мире и в России.

В восьмом разделе приводится общий список мероприятий в виде бизнес и научных конференций, которые стоит посетить специалистам в данной области.

Самые интересные статьи идут в 9 разделе “Тренды и аналитика”.

Портрет индустрии

Судя по количеству ответов респондентов:

Публикации и открытость

На российском рынке не принято публиковать результаты. Авторы предполагают, что они все-таки есть, но хорошо скрываются самими компаниями:)

Почему невозможно оценить рынок искусственного интеллекта?

Автор рассказывает про проблемы аттрибуции. Основная проблема, что AI — это уже элемент технологического стека, а не отдельный продукт. Поэтому и оценки получаются такими, какие нужны оценивающему:) В общем, статья определенно интересная и стоит прочтения.

Тренды и прогнозы

Если у вас есть время на одну статью из этого альманаха, то вам стоит прочесть его последнюю статью, посвященную трендам и прогнозам:)

Общие технологические тренды

Рыночные тренды

Тренды отдельных отраслей

Здесь упомяну только 3 области

Итого

Отчет по NLP получился интересным и сравнимым по качеству с первым отчетом, где рассматривалось общее состояние дел. Надеюсь, что и следующие отчеты будут настолько же интересны и проработаны. Спасибо ребятам из Центра AI на базе МФТИ за их труд.

Director of digital ecosystem development department at Tinkoff. Bachelor at applied math, Master at system analysis, Postgraduate studies at economics.

Director of digital ecosystem development department at Tinkoff. Bachelor at applied math, Master at system analysis, Postgraduate studies at economics.