В ходе мероприятия Vision 2024 Intel объявила несколько новостей, в частности подробно рассказала о своих новых процессорах Gaudi 3 AI, которые, как утверждает, предлагают до 1,7 раза большую производительность обучения, на 50% точнее решение и на 40% более высокую эффективность, чем процессоры NVIDIA H100, но за гораздо меньшие деньги.
Доминирование NVIDIA в инфраструктуре искусственного интеллекта и программном обеспечении бесспорно. Однако Intel, как и AMD, стремится стать альтернативой NVIDIA, поскольку отрасль продолжает бороться с сокрушительной нехваткой графических процессоров с искусственным интеллектом.
С этой целью Intel также очертила полный спектр своих программ поддержки искусственного интеллекта, которые охватывают аппаратное и программное обеспечение, поскольку она стремится к популярности на бурном рынке искусственного интеллекта, на котором сейчас доминируют NVIDIA и AMD.
Усилия Intel сосредоточены на развитии своей партнерской экосистемы для формирования готовых решений Gaudi 3, компания работает над созданием открытого стека корпоративного программного обеспечения, которое будет служить альтернативой фирменной системе NVIDIA CUDA.
Intel предоставила подробную информацию об архитектуре Gaudi 3 вместе с множеством убедительных тестов по сравнению с имеющимся графическим процессором NVIDIA H100.
Gaudi 3 от Intel является третьим поколением ускорителя Gaudi, ставшего результатом приобретения Intel Habana Labs за 2 миллиарда долларов США в 2019 году. В 3 квартале 2024 г. ускорители Gaudi поступят в производство и станут общедоступными для OEM-систем.
Intel также сделает системы Gaudi 3 доступными в своем облаке для разработчиков, обеспечивая тем самым доступность потенциальным клиентам для тестирования чипов.
Gaudi доступен в двух формфакторах, причем OAM (модуль ускорителя OCP) HL-325L является распространённым мезонинным формфактором в высокопроизводительных системах на базе GPU. Этот ускоритель имеет 128 ГБ памяти HBM2e, что обеспечивает 3,7 ТБ/с пропускной способности. Он также имеет 24 200 Гбит/с Ethernet RDMA сетевых карт. Модуль OAM HL-325L имеет TDP 900 Вт и рассчитан на 1835 TFLOPS производительности FP8.
Intel утверждает, что Gaudi 3 обеспечивает вдвое более высокую производительность FP8 и вчетверо более высокую производительность BF16, чем предыдущее поколение, а также удвоенную пропускную способность сети и 1,5-кратную пропускную способность памяти. Модули OAM вставляются в универсальную панель, на которой размещено восемь OAM.
Intel уже поставила OAM и базовые платы своим партнерам, готовя их к общей доступности позже в этом году. Масштабирование до восьми OAM на базовой плате HLB-325 обеспечивает производительность до 14,6 PFLOPS FP8, тогда как все остальные показатели, такие как объем памяти и пропускная способность, линейно масштабируются.
Intel также имеет двухслотовую карту Gaudi 3 PCIe с TDP 600 Вт. Эта карта также имеет 128 ГБ HBM2e и двадцать четыре сетевых карт Ethernet 200 Гбит/с – Intel говорит, что двойные сетевые карты 400 Гбит/с используются для масштабирования. Intel заявляет, что карта PCIe имеет такую же пиковую производительность 1835 TFLOPS FP8, что и OAM. Кроме того, компания добавляет, что эта карта также может масштабироваться для создания более крупных кластеров, но не предоставила подробностей.
Dell, HPE, Lenovo и Supermicro уже разрабатывают готовые решения на основе Gaudi 3. Образцы моделей Gaudi с воздушным охлаждением были отобраны, а выборка моделей с жидкостным охлаждением состоится во втором квартале. Они станут общедоступными в третьем и четвертом кварталах 2024 соответственно. Карта PCIe также будет доступна в четвертом квартале.
Intel поделилась прогнозами производительности для Gaudi 3. Как вы увидите на последнем изображении в альбоме выше, Intel предоставляет QR-код для информации о своих контрольных показателях тестирования. Intel сравнила общедоступные тесты для систем H100, но не сравнила с будущим Blackwell B200 от NVIDIA из-за отсутствия реальных сравнительных данных.
Компания также не предоставила сравнение с перспективными графическими процессорами Instinct MI300 от AMD, но это невозможно, поскольку AMD продолжает избегать публикации общедоступных данных о производительности в принятых отраслью тестах MLPerf.
Intel предоставила много сравнений как для обучения, так и для логической нагрузки по сравнению с H100 с подобными размерами кластеров, но ключевым выводом является то, что Intel утверждает, что Gaudi в 1,5 раза до 1,7 раза быстрее в обучении. Сравнение содержит модели LLAMA2-7B (7 миллиардов параметров) и LLAMA2-13B с 8 и 16 Gaudi соответственно, а также модель GPT 3-175B, протестированную на 8192 ускорителях Gaudi, все с использованием FP8.
Интересно, что здесь Intel не сравнивался с H200 от NVIDIA, который имеет на 76% большую емкость памяти и на 43% больше пропускной способности памяти, чем H100.
Intel действительно использовала H200 для получения выводов, но сравнила производительность с одной картой в отличие от сравнения производительности на уровне кластеров. Здесь мы видим смешанный результат: пять рабочих нагрузок LLAMA2-7B/70B на 10–20% ниже графических процессоров H100, тогда как два совпадают, а один немного превышает H200.
Intel утверждает, что производительность Gaudi лучше масштабируется с большими исходными последовательностями, при этом Gaudi обеспечивает в 3,8 раза большую производительность с помощью модели параметров Falcon 180 миллиардов с выводом 2048 длин.
Intel также заявляет о 2,6-кратном преимуществе в энергопотреблении для рабочих нагрузок с выводами, являющимися критическим фактором, учитывая ограничительные ограничения мощности в центрах обработки данных, но она не предоставила подобных контрольных показателей для обучающих нагрузок.
Для этих рабочих нагрузок Intel протестировала один H100 в открытом экземпляре и зарегистрировала энергопотребление H100 (как сообщает H100), но не предоставила примеры вывода с одним узлом или большими кластерами. С большими исходными последовательностями Intel снова заявляет о лучшей производительности и, следовательно, эффективности.