Реализовано

Архив как рабочий ресурс

Реорганизация большого массива контентных данных.

Задача клиента

За более чем двадцать лет работы у клиента накопился большой текстовый архив: десятки тысяч материалов, связанные публикации, даты, авторы, рубрики, служебные признаки и другие важные данные.

Материалы создавались и сохранялись в разное время с использованием разных технологических решений: старых баз данных, интерфейсов и наборов атрибутов. Позже эти данные оказались в разрозненных локальных бэкапах, что затрудняло поиск, проверку полноты архива, перенос материалов в новые интерфейсы и дальнейшую работу с ними.

Необходимо было извлечь и сохранить тексты без потери значимой информации, восстановить структуру архива, отделить полезный контент от устаревших технических элементов и тяжёлого медиаконтента, а также подготовить данные для современного поиска, группировки, новых интерфейсов и дальнейшей работы с использованием ИИ.

Отрасль / тип бизнеса

Медиа и журналистика. В таких архивах ценность представляют не только сами тексты, но и контекст вокруг них: дата публикации, авторство, рубрика, тематические связи, источник, служебные метки и возможность быстро найти нужный материал спустя годы.

Реализованное решение

Была выполнена автоматизированная обработка локальных бэкапов и старой HTML-разметки. Для проекта была разработана новая структура базы данных, которая объединила разные старые варианты хранения материалов и позволила привести архив к единой логике.

Из архивных файлов были извлечены тексты статей, заголовки, даты, рубрики, связи между материалами и сопутствующие метаданные. Контент был очищен от устаревшей служебной информации, технических артефактов и лишних медиафайлов, которые больше не требовались для дальнейшей работы с архивом.

После обработки материалы были заново разложены по единой структуре в современной базе данных. Был добавлен быстрый полнотекстовый поиск по всему архиву и подготовлена основа для будущих интерфейсов, фильтров, тематических подборок и более точного поиска по смыслу запроса.

Отдельно был создан слой для работы внешних ИИ-агентов с архивом. Это позволяет использовать материалы не только для обычного поиска по словам, но и для последующего анализа, группировки, отбора и подготовки ответов на более сложные запросы.

Использованные технологии

Для проекта были созданы специальные скрипты, которые разбирали старую разметку, отделяли полезный текст и метаданные от технического окружения и проверяли результат на целостность.

В качестве хранилища использована SQLite — компактная база данных, не требующая обслуживания отдельного серверного окружения. Для поиска был подключён встроенный полнотекстовый индекс, позволяющий быстро искать материалы по словам и фразам внутри всего архива.

Дополнительно была подготовлена структура данных, удобная для подключения внешних ИИ-инструментов и дальнейшего развития смыслового поиска.

Результат для бизнеса

Многолетний архив был сохранён и перенесён из устаревшей инфраструктуры в надёжную современную структуру. Компания больше не зависит от нескольких старых технических окружений, которые сложно поддерживать, развивать и безопасно эксплуатировать.

Материалы можно быстро искать, фильтровать по признакам, группировать, готовить к публикации в новых интерфейсах и использовать как основу для дальнейшего анализа. Архив стал не набором старых файлов, а рабочим информационным ресурсом, пригодным для развития новых продуктов, редакционных инструментов и интеллектуального поиска.