Реализовано
Архив как рабочий ресурс
Реорганизация большого массива контентных данных.
Задача клиента
За более чем двадцать лет работы у клиента накопился большой текстовый архив: десятки тысяч материалов, связанные публикации, даты, авторы, рубрики, служебные признаки и другие важные данные.
Материалы создавались и сохранялись в разное время с использованием разных технологических решений: старых баз данных, интерфейсов и наборов атрибутов. Позже эти данные оказались в разрозненных локальных бэкапах, что затрудняло поиск, проверку полноты архива, перенос материалов в новые интерфейсы и дальнейшую работу с ними.
Необходимо было извлечь и сохранить тексты без потери значимой информации, восстановить структуру архива, отделить полезный контент от устаревших технических элементов и тяжёлого медиаконтента, а также подготовить данные для современного поиска, группировки, новых интерфейсов и дальнейшей работы с использованием ИИ.
Отрасль / тип бизнеса
Медиа и журналистика. В таких архивах ценность представляют не только сами тексты, но и контекст вокруг них: дата публикации, авторство, рубрика, тематические связи, источник, служебные метки и возможность быстро найти нужный материал спустя годы.
Реализованное решение
Была выполнена автоматизированная обработка локальных бэкапов и старой HTML-разметки. Для проекта была разработана новая структура базы данных, которая объединила разные старые варианты хранения материалов и позволила привести архив к единой логике.
Из архивных файлов были извлечены тексты статей, заголовки, даты, рубрики, связи между материалами и сопутствующие метаданные. Контент был очищен от устаревшей служебной информации, технических артефактов и лишних медиафайлов, которые больше не требовались для дальнейшей работы с архивом.
После обработки материалы были заново разложены по единой структуре в современной базе данных. Был добавлен быстрый полнотекстовый поиск по всему архиву и подготовлена основа для будущих интерфейсов, фильтров, тематических подборок и более точного поиска по смыслу запроса.
Отдельно был создан слой для работы внешних ИИ-агентов с архивом. Это позволяет использовать материалы не только для обычного поиска по словам, но и для последующего анализа, группировки, отбора и подготовки ответов на более сложные запросы.
Использованные технологии
Для проекта были созданы специальные скрипты, которые разбирали старую разметку, отделяли полезный текст и метаданные от технического окружения и проверяли результат на целостность.
В качестве хранилища использована SQLite — компактная база данных, не требующая обслуживания отдельного серверного окружения. Для поиска был подключён встроенный полнотекстовый индекс, позволяющий быстро искать материалы по словам и фразам внутри всего архива.
Дополнительно была подготовлена структура данных, удобная для подключения внешних ИИ-инструментов и дальнейшего развития смыслового поиска.
Результат для бизнеса
Многолетний архив был сохранён и перенесён из устаревшей инфраструктуры в надёжную современную структуру. Компания больше не зависит от нескольких старых технических окружений, которые сложно поддерживать, развивать и безопасно эксплуатировать.
Материалы можно быстро искать, фильтровать по признакам, группировать, готовить к публикации в новых интерфейсах и использовать как основу для дальнейшего анализа. Архив стал не набором старых файлов, а рабочим информационным ресурсом, пригодным для развития новых продуктов, редакционных инструментов и интеллектуального поиска.