Сибирский федеральный университет выполнил проект по разработке и оптимизации программного обеспечения. Специалисты создали новый алгоритм, который на 5% ускоряет поиск данных в векторных базах — ключевом компоненте современных систем искусственного интеллекта.
Суть технологии:
С развитием нейросетей и машинного обучения информация всё чаще хранится в виде «векторов» — цифровых отпечатков данных (текстов, изображений, звуков). Чтобы найти что-то похожее, системе нужно быстро сравнить миллиарды таких векторов. Это сложная задача, от скорости решения которой зависит работа поисковиков, рекомендательных сервисов и систем безопасности.
Актуальность разработки:
Стандартные алгоритмы поиска в промышленных реляционных базах данных не всегда эффективны для векторных данных. Основная сложность — в ограниченном объеме оперативной памяти и медленном доступе к диску при работе с огромными массивами информации. Каждый лишний запрос значительно замедляет весь процесс.
Результаты:
Исследователи сфокусировались на улучшении двух аспектов:
Результатом стал новый программный модуль (код) для СУБД GaussDB, готовый к интеграции, а также детальный отчёт с измерениями, подтверждающими его эффективность. Новый алгоритм обеспечил снижение времени поиска минимум на 5% без потери точности, которая осталась на уровне 99% — то есть система находит 99 из 100 релевантных результатов.
Сферы применения:
Разработка востребована в сферах, где важны скорость и надежность обработки больших данных:
Работа выполнена на основе многолетних исследований коллектива СФУ в области алгоритмов кластеризации и анализа больших данных.
Фото: Freepik