Главное о кейсе
За 1 день собрали сценарий на Пайтоне для автоматической проверки сайта на иностранные слова и орфографию. Сценарий обходит 103 страницы через карту сайта, анализирует текст через ЛэнгвичТул и выдаёт структурированный отчёт за 10 минут. Раньше авторы тратили на вычитку дни, теперь — минуты на точечные правки. Риск штрафов снижен, рутина ушла. Попутно нашли баг, который годами скрывал полсайта от поисковиков. Весь проект — на бесплатных инструментах, без внешних подрядчиков.
Как проект изменил жизнь пользователей
Авторы контента перестали вычитывать 103 страницы вручную. Раньше на это уходили дни, а ошибки всё равно просачивались в продакшен — на сотой странице глаз замыливался, внимание рассеивалось. Теперь они получают готовый отчёт за 10 минут: какие слова нашлись, на каких страницах, что предлагается исправить. Это не 103 страницы для чтения от корки до корки, а несколько находок для проверки на адекватность. Рутина ушла, риск штрафов — под контролем.
Бизнес-задача и ее решение
С 1 марта 2026 года в России вступил в силу закон об ограничении иностранных слов. Для корпоративного сайта с сотней страниц на русском и английском это стало проблемой: ручная вычитка такого объёма гарантированно вела к пропущенным ошибкам и риску штрафов.
Мы пришли к тестировщикам с запросом на разовую проверку — просто найти англицизмы. Те быстро выгрузили текст и прогнали через сервисы. Но почти сразу мы вернулись с новыми вводными: нужна не разовая акция, а постоянная система, которая проверяет ещё и орфографию, грамматику, пробелы, знаки препинания. И чтобы работала сама, без нашего участия.
Решение: за 1 день собрали сценарий на Пайтоне. Он берёт карту сайта, обходит все страницы, отправляет текст в ЛэнгвичТул — смесь нейросети и лингвистической базы, — и формирует структурированный отчёт с аналитикой. Сейчас закладываем интеграцию в серверную часть, чтобы отчёт автоматически приходил на почту раз в месяц.
Крафт (мастерство), реализация, технические детали
Сценарий имитирует работу робота: берёт карту сайта как источник всех адресов, методично обходит каждую страницу и собирает текст. Дальше — отправка в ЛэнгвичТул, который анализирует не просто орфографию, а построение предложений и контекст. Он может сказать: «Вот эту фразу стоит переформулировать, она звучит неестественно».
Настроили белый список разрешённых слов и правила-исключения: например, сервис ругался на заголовки без точек, считая это ошибкой. Добавили правило — ошибки ушли. Формат отчёта дорабатывали итерационно: сначала был просто список, потом сделали отдельную страницу с аналитикой — где какое слово, на каких страницах, сколько уникальных заимствований. Весь код написан с использованием генерации кода через нейросеть.
Принципиальный момент: весь проект — на бесплатных открытых инструментах. ЛэнгвичТул — бесплатный, Пайтон — открытый язык. Никаких платных лицензий, никаких внешних подрядчиков.
Инсайты, гипотезы, процесс создания и взаимодействия с заказчиком
На старте скрипт работал подозрительно долго и возвращал только 30 страниц из 103. Мы грешили на код, на API, на что угодно. Когда стали копать, выяснилось: половина страниц сайта открывалась только по клику в браузере, а не по прямой ссылке. Для обычного посетителя это норма — кликнул и увидел. Но для робота, поискового или нашего, это мёртвая зона. Робот не умеет кликать на кнопки.
Мы жили с этим годами. Материалы для зарубежных заказчиков, статьи, истории — всё это не индексировалось поисковиками и просто не существовало для внешнего мира. Ии проверка сайта вскрыла архитектурную проблему, о которой никто не подозревал. Мы отправили баг команде фронтенда, они исправили — и скрипт впервые увидел все 103 страницы.
Изначально проект задумывался как разовая проверка на англицизмы, а превратился в полноценный конвейер с периодическими отчётами, белыми списками и попутным спасением индексации.
Скриншоты