Как мы помогли агрегатору остановить отток пользователей и вернуть доверие с помощью внедрения RAG-технологии интеллектуального поиска

Заказчик: Онлайн-агрегатор инвестиционных проектов, консалтинга, компаний, торгующих драг.металлами и недвижимостью - цифровая экосистема для получения финансирования, расширения деловых связей, инвестирования.

Исполнитель: ItFox

itfox-web.ru

Как мы помогли агрегатору остановить отток пользователей и вернуть доверие с помощью внедрения RAG-технологии интеллектуального поиска

Главное о кейсе

Внедрение интеллектуального поиска на базе RAG в онлайн-агрегатор инвестиционных проектов превратил платформу из справочника в источник профессиональной экспертизы.
До внедрения технологии, пользователь получал результат в виде списка в той или иной степени подходящих под запрос источников. Далее ему необходимо было вручную его обработать и найти максимально подходящую для него информацию. Теперь - пользователь получает конкретный ответ, релевантный бизнес-контексту запроса. Система работает с естественным языком и формирует ответы, опираясь на точные данные, без "галлюцинаций".
Это стало весомым конкурентным преимуществом для платформы. По данным внутренней аналитики, количество повторных обращений выросло примерно на 30 %, что подтверждает рост доверия пользователей.

Как проект изменил жизнь пользователей

Интеллектуальный поиск на сайте значительно сократил время на поиск необходимой информации. Пользователи перестали тратить усилия на ручную обработку выдачи и сразу получают структурированные, проверенные данные в удобной форме. Это ускоряет принятие решений.

Бизнес-задача и ее решение

Современным пользователям гораздо удобнее формировать запросы на естественном языке. При этом используются профессиональные термины, указываются конкретные ограничительные условия. Например:
· Для инвесторов важно найти бизнес на определенной стадии развития, конкретными патентами, или подобрать возможность вклада в недвижимость или драг.металлы;
· корпоративный клиент подбирает стартапы с определенной технологией или бизнес-моделью;
· предпринимателя интересуют доступные для его бизнеса программы гос.поддержки.

При стандартном поиске пользователь получает результат в виде списка источников. Далее ему необходимо вручную его фильтровать, т.к. многие варианты подходят под запрос только отдаленно. Создается ощущение, что платформа не улавливает сути запроса. Такая проблема типична для сервисов с отсутствием технологий обработки естественного языка и инструментов персонализации поиска.

Для заказчика возникают три угрозы:
· снижение доверия ЦА,
· платформа не рассматривается как инструмент принятия решений,
· пользователи теряют интерес к агрегатору и уходят.

Для решения этой проблемы команда АЙТИФОКС предложила заказчику изменить логику взаимодействия с пользователями и модернизировать поиск с применением RAG-технологии.

Внедренная интеллектуальная поисковая система на базе RAG работает с естественным языком, учитывает бизнес-контекст и формирует релевантные ответы, опираясь на точные данные из анкет участников ресурса.

Внедрение этой системы дало для платформы три эффекта:
1. Экономия времени пользователей. Клиенты получают готовые точные ответы сразу. Ручная фильтрация данных теперь не нужна.
2. Укрепление конкурентных позиций. Интеллектуальный поиск учитывает инвестиционный контекст — от анализа стартапов и объектов недвижимости до подбора проектов по параметрам доходности, рисков и сроков. Это стало весомым конкурентным преимуществом. По данным внутренней аналитики, количество повторных обращений выросло примерно на 30 %, что подтверждает рост доверия к платформе.
3. Фундамент для масштабирования. Созданная векторная база открыла возможности для дальнейшего развития: интеллектуальных рекомендаций, глубокой аналитики рынка и расширения экосистемы платформы.

Внедрение решения на базе Rag позволило Заказчику продемонстрировать стратегический подхода к клиентскому опыту и готовности платформы добавлять новые сегменты.

Интеллектуальный поиск применим в любых отраслях, где есть массивы разнородных документов, требуется быстрый доступ к регламентированной информации, много времени уходит на поиск сведений, важна точность и актуальность данных.

Такие решения становятся стандартом современных цифровых платформ, и команда АЙТИФОКС готова переносить свой опыт в новые проекты.

Крафт (мастерство), реализация, технические детали

Подход к реализации.

Чтобы изменить характер поисковой выдачи, нужно было начать с архитектуры. Поисковый модуль состоит из:
1. Индексирование данных (Indexing) — сбор, очистка и унификация информации об участниках платформы.
2. Поиск и генерация ответа (Retrieval + Generation) — контекстная обработка пользовательских запросов.

Индексация данных:
· Для создания базы данных был разработан инструмент автоматического сбора информации с сайтов участников платформы.
· Собранные данные преобразовывались в унифицированные анкеты с помощью специально подготовленного промпта. Такое предварительное приведение анкет к единому формату упрощает их дальнейшую обработку.
· Каждый блок данных преобразовывался в векторное представление (эмбеддинг) с помощью YandexGPT PRO и сохранялся в векторное хранилище ChromaDB. Для быстрого поиска по смысловому сходству.

Время подготовки одной анкеты при первоначальном заполнении базы составляло около 1 минуты. Нагрузка на модель — порядка 3 000 токенов.

Поиск и генерация ответа:
· При запросе пользователя система обращается к векторному хранилищу и выбирает анкеты компаний, проектов или консультантов, наиболее близкие по смыслу.
· Регулирование качеством совпадений происходит с помощью параметра MMR (Maximal Marginal Relevance) и порогового значения сходства. Это позволяет учитывать релевантность документа, а также уникальность данных относительно ранее выбранных.
· Извлеченные данные вместе с запросом передаются в языковую модель, которая формирует итоговый ответ на основе фактической информации из базы.

Такой подход снижает риск «галлюцинаций» модели, уменьшает количество нерелевантных ответов и обеспечивает их точность даже при работе с неполными или зашумленными данными.

Технологический стек:

В основе сервиса используется Python 3.11.
FastAPI применён в качестве web-фреймворка.
LangChain выступает как rag-framework для взаимодействия с LLM-агентами.
Apache Kafka — message queues — для масштабирования и параллельной обработки задач.
ChromaDB — векторное хранилище embeddings.
text-search-doc / text-search-query — инструменты для векторизации текстовых данных.
YandexGPT Pro используется для генерации и нормализации текстов.
Для проекта выбраны Yandex Foundation Models, т.к. соответствуют российской юрисдикции.
BeautifulSoup, lxml, TfidfVectorizer — инструменты для парсинга и предобработки данных.

Инсайты, гипотезы, процесс создания и взаимодействия с заказчиком

Технические особенности проекта.

Приступая к работе над проектом, команда АЙТИФОКС столкнулась с типичной для таких кейсов ситуацией — исходные данные были неструктурированы, содержали много посторонней информации. Расскажем подробнее.
Первоначальная информация для интеллектуального поиска поступала из анкет, которые представители компаний вручную заполняли на платформе-агрегаторе. Форма заполнения была неунифицирована, не были установлены обязательные поля для заполнения. Из-за этого анкеты были либо не полностью заполнены, либо содержали дубли. Такое состояние данных сделало невозможным их прямое использование. Решением стало формирование с помощью ИИ новых унифицированных анкет, собирая информацию напрямую с сайтов участников-платформы.

Для сбора данных был разработан скрапер, осуществлявший автоматический обход ресурсов. Из более чем 120 тысяч организаций, проектов и профилей экспертов, зарегистрированных на платформе, актуальные сайты имели порядка 105 тысяч. После проверки их доступности и технического состояния к дальнейшей обработке было отобрано около 98 тысяч ресурсов.

Тем не менее сайты-первоисточники также содержали: рекламные блоки, служебные элементы, повторяющиеся фрагменты и другую нерелевантную информацию. Чтобы получить только нужную информацию, нами была реализована многоступенчатая система предобработки:
1. Удаление лишних пробелов, табуляции и пустых строк.
2. Фильтрация по стоп-словам с использованием стандартных инструментов Python. Список включал элементы меню («главная», «о нас» и др.), названия разделов («клиенты», «партнеры»), футер-тексты («copyright», «все права защищены»), технические обозначения («логин», «регистрация») и ряд кастомных исключений.
3. Исключение строк, содержащих только цифры, специальные символы или подчеркивания.
4. Удаление дубликатов через TfidfVectorizer библиотеки Scikit-learn. На основе TF-IDF матрицы проводился анализ попарного сходства, а его порог задавался параметром Threshold.

Такая очистка позволила нам сформировать качественный массив унифицированных анкет, который стал фундаментом для векторизации и последующего построения интеллектуального поиска.

Еще раз подчеркнем, зашумленные данные — проблема распространенная, но решаемая за счет продуманного алгоритма очистки.

Скриншоты

Дата запуска

1 мая 2025 года

Авторы

Алексей Алимов
Артем Кутья

Ссылки

itfox-web.ru