Центр Трансфера ТехнологийСибирского федерального университета

Учёные СФУ ускорили поиск в базах данных для систем ИИ

Сибирский федеральный университет выполнил проект по разработке и оптимизации программного обеспечения. Специалисты создали новый алгоритм, который на 5% ускоряет поиск данных в векторных базах — ключевом компоненте современных систем искусственного интеллекта.

Суть технологии:

С развитием нейросетей и машинного обучения информация всё чаще хранится в виде «векторов» — цифровых отпечатков данных (текстов, изображений, звуков). Чтобы найти что-то похожее, системе нужно быстро сравнить миллиарды таких векторов. Это сложная задача, от скорости решения которой зависит работа поисковиков, рекомендательных сервисов и систем безопасности.

Актуальность разработки:

Стандартные алгоритмы поиска в промышленных реляционных базах данных не всегда эффективны для векторных данных. Основная сложность — в ограниченном объеме оперативной памяти и медленном доступе к диску при работе с огромными массивами информации. Каждый лишний запрос значительно замедляет весь процесс.

Результаты:

Исследователи сфокусировались на улучшении двух аспектов:

  1. Качество индекса. Ученые разработали новые алгоритмы «умной» группировки векторов, которые позволяют системе точнее определять, где искать, и реже обращаться к диску;
  2. Эффективность сканирования. Был оптимизирован процесс поиска по индексу, чтобы сократить количество необходимых операций.

Результатом стал новый программный модуль (код) для СУБД GaussDB, готовый к интеграции, а также детальный отчёт с измерениями, подтверждающими его эффективность. Новый алгоритм обеспечил снижение времени поиска минимум на 5% без потери точности, которая осталась на уровне 99% — то есть система находит 99 из 100 релевантных результатов.

Сферы применения:

Разработка востребована в сферах, где важны скорость и надежность обработки больших данных:

Работа выполнена на основе многолетних исследований коллектива СФУ в области алгоритмов кластеризации и анализа больших данных.

Фото: Freepik