Новые рекорды производительности NVIDIA в тестах MLPerf: Революция в области генеративного ИИ В нед...

Новые рекорды производительности NVIDIA в тестах MLPerf: Революция в области генеративного ИИ

В недавно опубликованных результатах тестов MLPerf Inference v4.0 компания NVIDIA продемонстрировала выдающуюся производительность своих графических процессоров (GPU) H200 Tensor Core и программного обеспечения TensorRT-LLM. Эти достижения подчеркивают лидерство NVIDIA в области генеративного искусственного интеллекта (ИИ) и демонстрируют способность компании обеспечивать высокую производительность в самых требовательных приложениях ИИ.

Генеративный ИИ: Новый этап в развитии вычислительных технологий

Генеративные модели ИИ, включая крупные языковые модели (LLM), используются для создания маркетинговых текстов, написания компьютерного кода, генерации детальных изображений, композиции музыки и видео, и многого другого. Количество вычислений, необходимых для работы этих моделей, огромно и продолжает расти. Поэтому компании, занимающиеся разработкой ИИ, ищут способы оптимизации и ускорения этих процессов.

NVIDIA H200 Tensor Core GPU и TensorRT-LLM: Новые рекорды производительности

В тестах MLPerf Inference v4.0 графические процессоры NVIDIA H200 Tensor Core, работающие с программным обеспечением TensorRT-LLM, установили новые рекорды производительности. В частности, в тесте Llama 2 70B, который является одним из самых требовательных тестов генеративного ИИ, H200 GPU показали производительность до 31 000 токенов в секунду, что на 45% превышает показатели предыдущей модели H100 GPU.

Кроме того, в тесте Stable Diffusion XL, который используется для генерации изображений на основе текстовых подсказок, система из 8 GPU NVIDIA HGX H200 с конфигурацией 700 Вт TDP показала производительность 13,8 запросов в секунду и 13,7 образцов в секунду в сценариях сервера и автономной работы соответственно.

Полный стек технологий NVIDIA: Ключ к успеху

Достижения NVIDIA в тестах MLPerf Inference v4.0 демонстрируют силу полного стека технологий компании, включая графические процессоры, системы и программное обеспечение. TensorRT-LLM, в частности, является ключевым компонентом этого стека, позволяющим оптимизировать и ускорить процесс инференции в крупных языковых моделях.

Преимущества H200 GPU: Более быстрая память и повышенная производительность

Графические процессоры H200 оснащены 141 ГБ памяти HBM3e с пропускной способностью 4,8 ТБ/с, что на 76% больше, чем у предыдущей модели H100, и работает на 43% быстрее. Это позволяет выполнять инференцию в крупных языковых моделях без необходимости в параллельной или последовательной обработке, что снижает накладные расходы на коммуникацию и повышает производительность.

Развитие генеративного ИИ: Будущие перспективы

Развитие генеративного ИИ продолжает набирать обороты, и компании, занимающиеся разработкой ИИ, ищут новые способы оптимизации и ускорения этих процессов. NVIDIA, как лидер в этой области, продолжает инвестировать в разработку новых технологий и улучшение существующих. В ближайшем будущем компания планирует представить новые графические процессоры архитектуры Blackwell, которые будут способны обеспечивать еще более высокую производительность для многотриллионных параметрических моделей ИИ.

Заключение

Достижения NVIDIA в тестах MLPerf Inference v4.0 демонстрируют лидерство компании в области генеративного ИИ и подчеркивают способность компании обеспечивать высокую производительность в самых требовательных приложениях ИИ. Полный стек технологий NVIDIA, включая графические процессоры, системы и программное обеспечение, является ключом к успеху компании в этой области. Будущие перспективы развития генеративного ИИ выглядят многообещающе, и NVIDIA продолжает быть на передовой этого развития.