Ускорение приложений на основе больших языковых моделей (LLM) на компьютерах с Windows и системами N...

Ускорение приложений на основе больших языковых моделей (LLM) на компьютерах с Windows и системами NVIDIA RTX

Большие языковые модели (LLM) кардинально меняют то, как мы взаимодействуем с компьютерами. Эти модели интегрируются в широкий спектр приложений, от поиска в Интернете до офисных инструментов повышения производительности. Они продвигают генерацию контента в режиме реального времени, суммирование текста, чат-боты для обслуживания клиентов и случаи ответов на вопросы.

Сегодня приложения, работающие на основе LLM, преимущественно запускаются в облаке. Однако многие случаи использования, которые бы выиграли от запуска LLM локально на компьютерах с Windows, включают игры, творчество, повышение производительности и опыт разработчиков.

Новые инструменты для разработчиков

На CES 2024 NVIDIA объявила о нескольких инструментах для разработчиков, направленных на ускорение вывода LLM и разработку на системах NVIDIA RTX для компьютеров с Windows. Теперь вы можете использовать инструменты NVIDIA для создания и развертывания приложений LLM на компьютерах с Windows, оснащенных системами NVIDIA RTX AI.

Поддержка моделей сообщества и родных коннекторов

NVIDIA объявила об оптимизированной поддержке популярных моделей сообщества, включая Phi-2, в дополнение к существующей поддержке Llama2, Mistral-7B и Code Llama на системах NVIDIA RTX. Эти модели обеспечивают широкий выбор для разработчиков, а также лучшую производительность с использованием бэкенда вывода NVIDIA TensorRT-LLM.

NVIDIA сотрудничала с сообществом с открытым исходным кодом для разработки родных коннекторов для TensorRT-LLM к популярным фреймворкам приложений, таким как LlamaIndex. Эти коннекторы предлагают бесшовную интеграцию на компьютерах с Windows в широко используемые инструменты разработки приложений.

Преимущества локального запуска LLM

Локальный запуск LLM на компьютерах предлагает несколько преимуществ:

Стоимость: Отсутствие затрат на облачные API или инфраструктуру для вывода LLM. Прямой доступ к вычислительным ресурсам.
Всегда включено: Доступность возможностей LLM везде, где бы вы ни находились, без зависимости от высокоскоростного сетевого подключения.
Производительность: Задержка не зависит от качества сети, предлагая более низкую задержку, поскольку вся модель запускается локально. Это важно для случаев использования в режиме реального времени, таких как игры или видеоконференции. Системы NVIDIA RTX предлагают самый быстрый ускоритель для компьютеров с производительностью до 1300 TOPS.
Конфиденциальность данных: Частные и конфиденциальные данные всегда остаются на устройстве.

Рабочие процессы разработчиков для LLM на системах NVIDIA RTX

Теперь вы можете без проблем запускать LLM на компьютерах с Windows, оснащенных системами NVIDIA RTX AI, с помощью следующих вариантов:

Доступ к предварительно оптимизированным моделям на HuggingFace, NGC и NVIDIA AI Foundations.
Обучение или настройка моделей на пользовательских данных в NVIDIA DGX Cloud с помощью фреймворка NVIDIA NeMo.
Квантование и оптимизация моделей для лучшей производительности на системах NVIDIA RTX с помощью TensorRT-LLM.

Начало работы

С последними обновлениями вы можете использовать популярные модели сообщества и фреймворки в одном и том же рабочем процессе для создания приложений, работающих либо в облаке, либо локально на компьютере с Windows и системой NVIDIA RTX. Легко добавляйте возможности LLM в приложения, работающие на основе установленной базы из 100 миллионов компьютеров с системами NVIDIA RTX.

Для получения дополнительной информации о разработке приложений и проектов на основе LLM см. раздел «Начало работы с разработкой генеративного ИИ на компьютерах с Windows и системами NVIDIA RTX».

Конкурс разработчиков

Если у вас есть идея для приложения или плагина, работающего на основе генеративного ИИ для Windows, участвуйте в конкурсе разработчиков NVIDIA Generative AI на системах NVIDIA RTX и выиграйте видеокарту GeForce RTX 4090, полный пропуск на конференцию NVIDIA GTC и многое другое.

Дополнительные ресурсы

Пример проекта RAG на Windows:

Используйте Llama-2 13B, TensorRT-LLM, LlamaIndex и библиотеку векторного поиска FAISS для создания приложения, позволяющего взаимодействовать с данными.

Пример проекта Continue.dev:

Запускайте плагин continue.dev полностью на локальном компьютере с Windows, используя модель Code Llama-13B и обертку OpenAI Chat API для TensorRT-LLM.

Начало работы с TensorRT-LLM:

Посетите репозиторий NVIDIA/TensorRT-LLM на GitHub и ознакомьтесь с подробностями настройки среды разработки для Windows.

Квантование моделей с помощью TensorRT-LLM:

Используйте инструментарий квантования TensorRT-LLM для оптимизации моделей и уменьшения их памяти.

Заключение

Используйте ресурсы, представленные в этой статье, чтобы легко добавить возможности генеративного ИИ в приложения, работающие на основе установленной базы из 100 миллионов компьютеров с системами NVIDIA RTX. Разделите то, что вы разрабатываете, с сообществом разработчиков NVIDIA, участвуя в конкурсе разработчиков NVIDIA Generative AI на системах NVIDIA RTX.