Ускорение приложений на основе больших языковых моделей (LLM) на компьютерах с Windows и системами N...

Ускорение приложений на основе больших языковых моделей (LLM) на компьютерах с Windows и системами NVIDIA RTX

Большие языковые модели (LLM) кардинально меняют то, как мы взаимодействуем с компьютерами. Эти модели интегрируются в широкий спектр приложений, от поиска в Интернете до офисных инструментов повышения производительности. Они продвигают генерацию контента в режиме реального времени, суммирование текста, чат-боты для обслуживания клиентов и случаи ответов на вопросы.

Сегодня приложения, работающие на основе LLM, преимущественно запускаются в облаке. Однако многие случаи использования, которые бы выиграли от запуска LLM локально на компьютерах с Windows, включают игры, творчество, повышение производительности и опыт разработчиков.

Новые инструменты для разработчиков

На CES 2024 NVIDIA объявила о нескольких инструментах для разработчиков, направленных на ускорение вывода LLM и разработку на системах NVIDIA RTX для компьютеров с Windows. Теперь вы можете использовать инструменты NVIDIA для создания и развертывания приложений LLM на компьютерах с Windows, оснащенных системами NVIDIA RTX AI.

Поддержка моделей сообщества и родных коннекторов

NVIDIA объявила об оптимизированной поддержке популярных моделей сообщества, включая Phi-2, в дополнение к существующей поддержке Llama2, Mistral-7B и Code Llama на системах NVIDIA RTX. Эти модели обеспечивают широкий выбор для разработчиков, а также лучшую производительность с использованием бэкенда вывода NVIDIA TensorRT-LLM.

NVIDIA сотрудничала с сообществом с открытым исходным кодом для разработки родных коннекторов для TensorRT-LLM к популярным фреймворкам приложений, таким как LlamaIndex. Эти коннекторы предлагают бесшовную интеграцию на компьютерах с Windows в широко используемые инструменты разработки приложений.

Преимущества локального запуска LLM

Локальный запуск LLM на компьютерах предлагает несколько преимуществ:
    1. Стоимость: Отсутствие затрат на облачные API или инфраструктуру для вывода LLM. Прямой доступ к вычислительным ресурсам.
    2. Всегда включено: Доступность возможностей LLM везде, где бы вы ни находились, без зависимости от высокоскоростного сетевого подключения.
    3. Производительность: Задержка не зависит от качества сети, предлагая более низкую задержку, поскольку вся модель запускается локально. Это важно для случаев использования в режиме реального времени, таких как игры или видеоконференции. Системы NVIDIA RTX предлагают самый быстрый ускоритель для компьютеров с производительностью до 1300 TOPS.
    4. Конфиденциальность данных: Частные и конфиденциальные данные всегда остаются на устройстве.
Рабочие процессы разработчиков для LLM на системах NVIDIA RTX

Теперь вы можете без проблем запускать LLM на компьютерах с Windows, оснащенных системами NVIDIA RTX AI, с помощью следующих вариантов:
    1. Доступ к предварительно оптимизированным моделям на HuggingFace, NGC и NVIDIA AI Foundations.
    2. Обучение или настройка моделей на пользовательских данных в NVIDIA DGX Cloud с помощью фреймворка NVIDIA NeMo.
    3. Квантование и оптимизация моделей для лучшей производительности на системах NVIDIA RTX с помощью TensorRT-LLM.
Начало работы

С последними обновлениями вы можете использовать популярные модели сообщества и фреймворки в одном и том же рабочем процессе для создания приложений, работающих либо в облаке, либо локально на компьютере с Windows и системой NVIDIA RTX. Легко добавляйте возможности LLM в приложения, работающие на основе установленной базы из 100 миллионов компьютеров с системами NVIDIA RTX.

Для получения дополнительной информации о разработке приложений и проектов на основе LLM см. раздел «Начало работы с разработкой генеративного ИИ на компьютерах с Windows и системами NVIDIA RTX».

Конкурс разработчиков

Если у вас есть идея для приложения или плагина, работающего на основе генеративного ИИ для Windows, участвуйте в конкурсе разработчиков NVIDIA Generative AI на системах NVIDIA RTX и выиграйте видеокарту GeForce RTX 4090, полный пропуск на конференцию NVIDIA GTC и многое другое.

Дополнительные ресурсы
    1. Пример проекта RAG на Windows:
Используйте Llama-2 13B, TensorRT-LLM, LlamaIndex и библиотеку векторного поиска FAISS для создания приложения, позволяющего взаимодействовать с данными.
    1. Пример проекта Continue.dev:
Запускайте плагин continue.dev полностью на локальном компьютере с Windows, используя модель Code Llama-13B и обертку OpenAI Chat API для TensorRT-LLM.
    1. Начало работы с TensorRT-LLM:
Посетите репозиторий NVIDIA/TensorRT-LLM на GitHub и ознакомьтесь с подробностями настройки среды разработки для Windows.
    1. Квантование моделей с помощью TensorRT-LLM:
Используйте инструментарий квантования TensorRT-LLM для оптимизации моделей и уменьшения их памяти.

Заключение

Используйте ресурсы, представленные в этой статье, чтобы легко добавить возможности генеративного ИИ в приложения, работающие на основе установленной базы из 100 миллионов компьютеров с системами NVIDIA RTX. Разделите то, что вы разрабатываете, с сообществом разработчиков NVIDIA, участвуя в конкурсе разработчиков NVIDIA Generative AI на системах NVIDIA RTX.
Cookie-файлы
Настройка cookie-файлов
Детальная информация о целях обработки данных и поставщиках, которые мы используем на наших сайтах
Аналитические Cookie-файлы Отключить все
Технические Cookie-файлы
Другие Cookie-файлы
Мы используем файлы Cookie для улучшения работы, персонализации и повышения удобства пользования нашим сайтом. Продолжая посещать сайт, вы соглашаетесь на использование нами файлов Cookie. Подробнее о нашей политике в отношении Cookie.
Понятно Подробнее
Cookies