Ускорение приложений на основе больших языковых моделей (LLM) на компьютерах с Windows и системами N...
Ускорение приложений на основе больших языковых моделей (LLM) на компьютерах с Windows и системами NVIDIA RTX
Большие языковые модели (LLM) кардинально меняют то, как мы взаимодействуем с компьютерами. Эти модели интегрируются в широкий спектр приложений, от поиска в Интернете до офисных инструментов повышения производительности. Они продвигают генерацию контента в режиме реального времени, суммирование текста, чат-боты для обслуживания клиентов и случаи ответов на вопросы.
Сегодня приложения, работающие на основе LLM, преимущественно запускаются в облаке. Однако многие случаи использования, которые бы выиграли от запуска LLM локально на компьютерах с Windows, включают игры, творчество, повышение производительности и опыт разработчиков.
Новые инструменты для разработчиков
На CES 2024 NVIDIA объявила о нескольких инструментах для разработчиков, направленных на ускорение вывода LLM и разработку на системах NVIDIA RTX для компьютеров с Windows. Теперь вы можете использовать инструменты NVIDIA для создания и развертывания приложений LLM на компьютерах с Windows, оснащенных системами NVIDIA RTX AI.
Поддержка моделей сообщества и родных коннекторов
NVIDIA объявила об оптимизированной поддержке популярных моделей сообщества, включая Phi-2, в дополнение к существующей поддержке Llama2, Mistral-7B и Code Llama на системах NVIDIA RTX. Эти модели обеспечивают широкий выбор для разработчиков, а также лучшую производительность с использованием бэкенда вывода NVIDIA TensorRT-LLM.
NVIDIA сотрудничала с сообществом с открытым исходным кодом для разработки родных коннекторов для TensorRT-LLM к популярным фреймворкам приложений, таким как LlamaIndex. Эти коннекторы предлагают бесшовную интеграцию на компьютерах с Windows в широко используемые инструменты разработки приложений.
Преимущества локального запуска LLM
Локальный запуск LLM на компьютерах предлагает несколько преимуществ:
Теперь вы можете без проблем запускать LLM на компьютерах с Windows, оснащенных системами NVIDIA RTX AI, с помощью следующих вариантов:
С последними обновлениями вы можете использовать популярные модели сообщества и фреймворки в одном и том же рабочем процессе для создания приложений, работающих либо в облаке, либо локально на компьютере с Windows и системой NVIDIA RTX. Легко добавляйте возможности LLM в приложения, работающие на основе установленной базы из 100 миллионов компьютеров с системами NVIDIA RTX.
Для получения дополнительной информации о разработке приложений и проектов на основе LLM см. раздел «Начало работы с разработкой генеративного ИИ на компьютерах с Windows и системами NVIDIA RTX».
Конкурс разработчиков
Если у вас есть идея для приложения или плагина, работающего на основе генеративного ИИ для Windows, участвуйте в конкурсе разработчиков NVIDIA Generative AI на системах NVIDIA RTX и выиграйте видеокарту GeForce RTX 4090, полный пропуск на конференцию NVIDIA GTC и многое другое.
Дополнительные ресурсы
Заключение
Используйте ресурсы, представленные в этой статье, чтобы легко добавить возможности генеративного ИИ в приложения, работающие на основе установленной базы из 100 миллионов компьютеров с системами NVIDIA RTX. Разделите то, что вы разрабатываете, с сообществом разработчиков NVIDIA, участвуя в конкурсе разработчиков NVIDIA Generative AI на системах NVIDIA RTX.
Большие языковые модели (LLM) кардинально меняют то, как мы взаимодействуем с компьютерами. Эти модели интегрируются в широкий спектр приложений, от поиска в Интернете до офисных инструментов повышения производительности. Они продвигают генерацию контента в режиме реального времени, суммирование текста, чат-боты для обслуживания клиентов и случаи ответов на вопросы.
Сегодня приложения, работающие на основе LLM, преимущественно запускаются в облаке. Однако многие случаи использования, которые бы выиграли от запуска LLM локально на компьютерах с Windows, включают игры, творчество, повышение производительности и опыт разработчиков.
Новые инструменты для разработчиков
На CES 2024 NVIDIA объявила о нескольких инструментах для разработчиков, направленных на ускорение вывода LLM и разработку на системах NVIDIA RTX для компьютеров с Windows. Теперь вы можете использовать инструменты NVIDIA для создания и развертывания приложений LLM на компьютерах с Windows, оснащенных системами NVIDIA RTX AI.
Поддержка моделей сообщества и родных коннекторов
NVIDIA объявила об оптимизированной поддержке популярных моделей сообщества, включая Phi-2, в дополнение к существующей поддержке Llama2, Mistral-7B и Code Llama на системах NVIDIA RTX. Эти модели обеспечивают широкий выбор для разработчиков, а также лучшую производительность с использованием бэкенда вывода NVIDIA TensorRT-LLM.
NVIDIA сотрудничала с сообществом с открытым исходным кодом для разработки родных коннекторов для TensorRT-LLM к популярным фреймворкам приложений, таким как LlamaIndex. Эти коннекторы предлагают бесшовную интеграцию на компьютерах с Windows в широко используемые инструменты разработки приложений.
Преимущества локального запуска LLM
Локальный запуск LLM на компьютерах предлагает несколько преимуществ:
- Стоимость: Отсутствие затрат на облачные API или инфраструктуру для вывода LLM. Прямой доступ к вычислительным ресурсам.
- Всегда включено: Доступность возможностей LLM везде, где бы вы ни находились, без зависимости от высокоскоростного сетевого подключения.
- Производительность: Задержка не зависит от качества сети, предлагая более низкую задержку, поскольку вся модель запускается локально. Это важно для случаев использования в режиме реального времени, таких как игры или видеоконференции. Системы NVIDIA RTX предлагают самый быстрый ускоритель для компьютеров с производительностью до 1300 TOPS.
- Конфиденциальность данных: Частные и конфиденциальные данные всегда остаются на устройстве.
Теперь вы можете без проблем запускать LLM на компьютерах с Windows, оснащенных системами NVIDIA RTX AI, с помощью следующих вариантов:
- Доступ к предварительно оптимизированным моделям на HuggingFace, NGC и NVIDIA AI Foundations.
- Обучение или настройка моделей на пользовательских данных в NVIDIA DGX Cloud с помощью фреймворка NVIDIA NeMo.
- Квантование и оптимизация моделей для лучшей производительности на системах NVIDIA RTX с помощью TensorRT-LLM.
С последними обновлениями вы можете использовать популярные модели сообщества и фреймворки в одном и том же рабочем процессе для создания приложений, работающих либо в облаке, либо локально на компьютере с Windows и системой NVIDIA RTX. Легко добавляйте возможности LLM в приложения, работающие на основе установленной базы из 100 миллионов компьютеров с системами NVIDIA RTX.
Для получения дополнительной информации о разработке приложений и проектов на основе LLM см. раздел «Начало работы с разработкой генеративного ИИ на компьютерах с Windows и системами NVIDIA RTX».
Конкурс разработчиков
Если у вас есть идея для приложения или плагина, работающего на основе генеративного ИИ для Windows, участвуйте в конкурсе разработчиков NVIDIA Generative AI на системах NVIDIA RTX и выиграйте видеокарту GeForce RTX 4090, полный пропуск на конференцию NVIDIA GTC и многое другое.
Дополнительные ресурсы
- Пример проекта RAG на Windows:
- Пример проекта Continue.dev:
- Начало работы с TensorRT-LLM:
- Квантование моделей с помощью TensorRT-LLM:
Заключение
Используйте ресурсы, представленные в этой статье, чтобы легко добавить возможности генеративного ИИ в приложения, работающие на основе установленной базы из 100 миллионов компьютеров с системами NVIDIA RTX. Разделите то, что вы разрабатываете, с сообществом разработчиков NVIDIA, участвуя в конкурсе разработчиков NVIDIA Generative AI на системах NVIDIA RTX.