Робот VS Учитель: разработка платформы ПРО//ЧТЕНИЕ для соревнований между человеком и ИИ

Заказчик: государственный фонд «Российская венчурная компания»‎ (РВК)

Исполнитель: Вебпрактик

readable.upgreat.one

Робот VS Учитель: разработка платформы ПРО//ЧТЕНИЕ для соревнований между человеком и ИИ

Главное о кейсе

1. Уникальная IT-платформа, на которой будут вестись испытания до 2022 года.
2. Датасеты, которые можно использовать для будущих исследований в области понимания естественного языка.

Результаты в цифрах:
80 пользователей-редакторов,
более 200 команд, среди которых МФТИ, МГУ, «Анти-Плагиат», «Ашманов и партнеры»,
9 команд-финалистов,
500 минут бесперебойной работы платформы в день финальных испытаний,
8000 файлов, обработанных в ходе финалов по русской и английской грамматике.

The teams completed qualifying sessions successfully have connected the platform via PPC simultaneously on the competition day. Their algorithms were receiving files from the platform realtime, recognizing and partitioning texts and sending them back. The examination took longer than 8 hours (500 minutes to be specific), working out one file per minute. The final test engaged datasets with completely new texts that were not used in the training phase during the qualifying session.
Our solutions are open source, you can get familiar with them and leave feedback on GitHub.

Бизнес-задача и ее решение

Чтобы конкурс состоялся, для испытаний программных комплексов необходимо с нуля разработать и запустить высокотехнологичную платформу. Общие требования ко всем сервисам — высокая отказоустойчивость и принцип open source.

В техзадании заказчика был дан список задач, но без подробных указаний, как именно надо их решить. Ведь никто не проводил подобные испытания ранее. Таким образом, провести бизнес-анализ, разработать архитектуру платформы, отладить все процессы нам предстояло самостоятельно. При этом надо было уложиться в жесткий дедлайн. Техзадание мы увидели в мае, а 1 октября конкурсанты должны были получить доступ к работающей платформе.

В чём суть испытаний? Платформа должна сравнить то, как тексты проанализировал программный комплекс, с анализом специалистов-учителей. Поэтому для старта испытаний на платформе нужны: сами тексты, учителя, инструменты для анализа текстов.

Сервис “Разметчик”

Тексты и учителей — сертифицированных специалистов по ЕГЭ — ‎ предоставили организаторы конкурса.

Как обычно происходит? Учитель выделяет красным ошибки, «на полях»‎ поясняет, в чем ошибка заключается. Но проверяющие, прежде всего, — ‎ люди. А значит, могут формулировать одни и те же мысли разными словами. Человек-читатель поймет смысл в любом случае, а вот искусственный интеллект — ‎ нет.

Для того, чтобы все проверяющие внесли правки в текст единообразно, мы разработали уникальный сервис — браузерный Разметчик. Он помогает специалистам выделять смысловые блоки в тексте и оставлять единообразные комментарии с описанием ошибки, сверяясь с Классификатором. Его составил доктор физико-математических наук, зав.лабораторией машинного интеллекта МФТИ Константин Воронцов.

Разметчик был запущен в августе. Разметки специалистов мы назвали Экспертными. Самих проверяющих объединили в группу пользователей Редакторы. Запустить сервисы для Участников было необходимо не позднее 29 сентября.
Сначала мы собрали обучающие и тестовые датасеты, которые загрузили в систему. Чтобы программные комплексы конкурсантов смогли в реальном времени передавать размеченные файлы на платформу для испытаний, был разработан модуль Программный Комплекс Участника (ПКУ).

Программный Комплекс Участника (ПКУ)

В ПКУ входит консольная утилита и два пакета данных. PSR — c метриками сравнения, Criteria — c критериями точности разметки (метрики и критерии даны в техническом регламенте от организаторов). Архивы для скачивания доступны в личном кабинете Участника и на GitHub.

Используя ПКУ, Участник может в любой момент через API установить сессию между своим локальным устройством и платформой. Последняя по запросу отдаёт файлы в расширении txt с неразмеченным эссе. Затем на локальном устройстве ПК участника размечает их и передает обратно. Пакет парсера собирает разметку и преобразует в машиночитаемую JSON-структуру.

Чтобы Участники были независимы от языка платформы (TypeScript), мы «завернули»‎ приложение и пакеты в Docker-контейнер и предоставили к ним готовый консольный интерфейс. Его можно использовать из любого языка программирования.

Данные сессии и результаты проверки размеченных файлов отображаются в ЛК Участника. Пользователь может скачать отчёт и логи, посмотреть в визуальном интерфейсе, чем отличается его вариант разметки от Экспертной.
Когда на платформу приходят размеченные файлы, включается автоматическая система проверки решений, которая анализирует присланные разметки, сравнивая с Экспертными. Это алгоритмическая квалификация. Кроме того, система проверяет состояние подключенного ПКУ каждые 4 часа и оценивает его готовность к работе. Этот процесс — техническая квалификация, имитирующая финальные состязания.

Чтобы снизить нагрузку на Систему проверки решений, мы разработали вспомогательный инструмент — Валидатор. Он автоматически проверяет присланные файлы на наличие логических ошибок в разметке и высылает Участнику багрепорт.

Программа сравнения решений (ПСР)

Для проведения финальных испытаний 9 ноября 2020 мы разработали отдельный сервис — Программу Сравнения Решений (ПСР). Он представляет собой worker, который считывает задачи из сервера очередей и сохраняет результаты в базу датасетов. Она хранится на отказоустойчивом облаке Yandex Object Storage. Логи сессий отправляются в ELK стек.

Сохраненные файлы с алгоритмической разметкой проверяют 20 лучших специалистов из числа тех, кто делал Экспертную разметку. За результатами проверки Участники могли следить на Лидерборде в личном кабинете.

Лидерборд динамически обновляется через сервис финала и квалификаций с websocket-интерфейсом для платформы и http-интерфейсом для скачивания и загрузки файлов датасетов с выданным токеном. В этом сервисе хранится информация по финалу и квалификациям, он отвечает за выдачу файлов датасетов с необходимыми таймаутами и сохранение данных (для статистики).

В день финальных состязаний команды, успешно прошедшие квалификацию, одновременно установили сессии с платформой, используя ПКУ. В режиме реального времени Программные Комплексы получали файлы от платформы, размечали в них тексты и возвращали обратно. Испытания длились более 8 часов, а точнее, 500 минут, из расчета по минуте на файл. Для финала были использованы датасеты с новыми текстами, которые не использовались для обучения ПК на этапе квалификаций.

Итого, в ходе разработки платформы мы создали:

- Разметчик,
- Датасеты,
- Систему проверки решений,
- Персональный Комплекс Участника,
- Программу Сравнения Решений.

А также вспомогательные микросервисы, обучающие материалы и техническую документацию. Как и хотел заказчик, наши решения имеют открытый код, ознакомиться с которым и дать фидбэк можно на GitHub.

Системы личных кабинетов на платформе получилось две, с разной архитектурой и функционалом. С визуальным интерфейсом, но без программного для Редакторов и с обоими для Участников.

В день состязаний команды, успешно прошедшие квалификацию, одновременно установили сессии с платформой, используя ПКУ. В режиме реального времени их алгоритмы получали файлы от платформы, размечали в них тексты и возвращали обратно. Испытания длились более 8 часов, а точнее, 500 минут, из расчета по минуте на файл. Для финала были использованы датасеты с новыми текстами, которые не использовались для обучения на этапе квалификаций.

Наши решения имеют открытый код, ознакомиться с которым и дать фидбэк можно на GitHub.

ТЕХНОЛОГИИ: Node.js, NestJS, RabbitMQ, SSR, React, SPA, Microservice, CodeceptJS, Kubernetes, Helm

It is an International contest for AI developers working in the area of natural language processing. The contest’s main goal is to train AI to understand human written text successfully.

Our role is to develop and launch a hightech platform which is supposed to test participants’ projects in all phases of competition: qualifying session, technical and the final test. Platform main requirements: good failover and open source (in order to provide examination transparency). The platform is supposed to compare how texts are analyzed by AI with how they are analyzed by language experts.

Language experts, texts, technical guidelines (specifying score system) and errors classifier were provided by the client.
We have developed:
1.”Razmetchik” (Partitioner) service

2.“Validator” service

3.Examing technical solutions system

4.”Participant’s personal complex” module (PPC)

5.Comparing technical solutions program. In addition, data packets, satellite microservices, manuals and technical documentation. As the client requires all our solutions are open source, you can get familiar with them and leave feedback on GitHub.

Platform runs two systems of personal accounts based on different architectures and providing different functionality. The first one is for editors: includes a visual interface, but no programm one. The second is for participants: includes both.

The teams completed qualifying sessions successfully have connected the platform via PPC simultaneously on the competition day. Their algorithms were receiving files from the platform realtime, recognizing and partitioning texts and sending them back. The examination took longer than 8 hours (500 minutes to be specific), working out one file per minute. The final test engaged datasets with completely new texts that were not used in the training phase during the qualifying session.

Used technologies: Node.js, NestJS, RabbitMQ, SSR, React, SPA, Microservice, CodeceptJS, Kubernetes, Helm

Прочая информация о кейсе

«ПРО//ЧТЕНИЕ. Технологии понимания»‎ — конкурс для разработчиков и исследователей в области машинного обучения и больших данных. Его цель — стимулировать поиск новых подходов к проблеме столетия. А именно: как научить искусственный интеллект понимать естественные языки?

Речь идет про глубокое понимание содержания текста: изложенных в нем фактов и художественных образов. А не просто поиск грамматических ошибок и опечаток, как умеют уже существующие сервисы проверки правописания.

В первом цикле командам надо разработать программный комплекс (ПК), который будет
находить смысловые и фактические ошибки в текстах на русском и английском,
классифицировать ошибки с комментарием-пояснением

И делать это в 30 раз быстрее, чем человек. То есть за 30 секунд вместо 15 минут. Команда, чье решение сумеет преодолеть технологический барьер, получит премию 100 млн рублей.

Возможность глубокого обучения и обработки естественного языка крайне важна для реализации ИИ. Уже существующие системы имеют узкую специализацию. Например, система, настроенная на выявление мошенничества, не сможет водить машину-беспилотник или консультировать по юридическим вопросам. Она умеет находить взаимосвязи в массивах информации исключительно на одну заданную тему, по которой её обучили.

В случае преодоления технологического барьера, новая технология позволит не просто автоматизировать анализ текстов. “Роботы”, обученные по ней, смогут самостоятельно находить причинно-следственные связи в массиве информации независимо от темы. А значит, им можно будет делегировать самые разные задачи из любых отраслей. И это кардинально изменит всю мировую экономику.

А еще новая технология поможет расшифровать древние и искусственные языки, в перспективе ‎ — понять инопланетные расы. Даже если это будут автоботы или десептиконы.

Если сам конкурс ПРО//ЧТЕНИЕ‎ — вызов для профессионалов в BigData и Machine Learning, то реализация его технической части ‎ — вызов для Вебпрактик.

Ведь подобные испытания проводятся впервые в мире. А значит, рабочей платформы, которую можно скопировать и адаптировать под задачи «ПРО//ЧТЕНИЕ»‎, не существует.

Скриншоты

Номинации

— Сайты → Разработка и интеграция
— Сервисы для digital-индустрии → Международный проект

Дата запуска

1 октября 2020 года

Ориентировочный бюджет

13 ₽

Авторы

Руководитель отдела разработки Иван Поддубный, Back-end teamlead Алексей Кореньков, старший дизайнер Николай Цай, старший Front-end разработчик Павел Воробьев, старший Back-end разработчик Петр Кленкин, QA тестировщик Илья Рыбаков, Back-end разработчик Сергей Аверкиев, Front-end разработчик Сергей Близнюк, Back-end разработчик Александр Гурнак

Ссылки

readable.upgreat.one ai.upgreat.one