Главный управляющий Nvidia Corp. Дженсен Хуан (Jensen Huang) и главный управляющий израильской компании Mellanox Эяль Вальдман (Eyal Waldman) выступили на конференции Nvidia GPU Technology, которая проходит на этой неделе в Сан-Хосе. Оба руководителя подчеркнули, что объединение двух компаний навсегда изменит ландшафт высокопроизводительных вычислений.

12 лет вместе

Открывая конференцию во вторник, Дженсен Хуан напомнил собравшимся, что покупка Mellanox стоимостью 6,9 млрд долл. имеет за собой 12-летнюю историю сотрудничества двух компаний в создании суперкомпьютеров.

«Если взглянуть на наш путь, пройденный вместе, то мы начали с суперкомпьютеров, и почти все крупные суперкомпьютеры, над которыми мы работали, несут на себе печать и вашего труда, — сказал Хуан, обращаясь к Вальдману. — Наши инженеры работали рука об руку. И причина здесь в том, что когда все эти вычислительные узлы работают вместе, требуется постоянная синхронизация информации, интенсивный обмен информацией, [чтобы свести это] в одну большую [вычислительную] модель».

Nvidia заявила, что покупка Mellanox, завершение которой ожидается к концу года, изменит расклад сил на рынке высокопроизводительных вычислений (HPC).

Хуан рассматривает это объединение как ключ к началу новой эры в сфере приложений искусственного интеллекта и интеллектуального анализа данных с миллиардами одновременно обслуживаемых пользователей. Это потребует новой целостной архитектуры, которая соединяет огромное количество высокопроизводительных вычислительных узлов посредством интеллектуальной программно-коммутируемой сети, создавая единую вычислительную среду масштаба ЦОДа, сказал Хуан.

О нарастающем объеме данных

Эяль Вальдман: Мы наблюдаем быстрый рост данных. Экспоненциальный рост. И мы начинаем также видеть, что старая концепция ЦОДа, где всё определяется программным обеспечением, трансформируется в дата-центр, управляемый данными. Это означает, что программирование будет создаваться потоком данных. Если раньше, имея данные, вы программировали их обработку, то теперь сами данные будут создавать программы обработки. Мы можем разрабатывать такие вещи и получить очень синергичные архитектурные решения для будущих дата-центров.

Об истории сотрудничества компаний

Дженсен Хуан: Если взглянуть на наш путь, пройденный вместе, то мы начали с суперкомпьютеров, и почти все крупные суперкомпьютеры, над которыми мы работали, несут на себе печать и вашего труда. Наши инженеры работали рука об руку. И причина здесь в том, что когда все эти вычислительные узлы работают вместе, требуется постоянная синхронизация информации, интенсивный обмен информацией, [чтобы свести это] в одну большую [вычислительную] модель. И мы видим, что это происходит сейчас в гипермасштабируемых дата-центрах. И то же самое происходит в корпоративных [ЦОДах]. Что вы все наблюдаете? И какова динамика?

О преимуществах гипермасштабируемой вычислительной среды

Вальдман: Если вы посмотрите на крупных гиперскейлеров, то одно из их больших преимуществ это масштабируемая вычислительная среда (compute engine) — суперкомпьютеры в их дата-центрах по всему миру, позволяющие обслуживать одновременно сотни миллионов пользователей. По сути, что мы делаем, это соединяем вычислительный узел с вычислительным узлом и вычислительный узел с хранилищем наиболее эффективным образом с минимальной задержкой и самой высокой масштабируемостью. Именно это позволяет нам значительно повысить продуктивность, эффективность для [заказчиков].

Одна из вещей, которую мы здесь продемонстрировали, та, что задержка — один из самых важных параметров с точки зрения масштабируемости и эффективности. Но задержка — это то, где мы впереди всех. Мы обеспечиваем межсоединения с платформой с самой низкой задержкой через InfiniBand и Ethernet и сейчас даже еще улучшаем этот [показатель], предлагая [200-Гбит/с] InfiniBand HDR 200G, а также 200- и 400-Gbit Ethernet. И мы продолжим разрабатывать больше синергичных продуктов в будущем.

Прицел на ускорение сети

Хуан: Задержка в ваших системах действительно невероятная. Другая вещь, с которой вы намного опередили свое время, это идея разгрузки ЦП,, RDMA. И мы сами, конечно, думали о том же, только не называли это разгрузкой процессора. Мы назвали это ускорением. Но вы, в некотором смысле, всё время занимались ускорением сети.

О машине выгрузки ИИ

Вальдман: Итак, мы убедились, что прогонять программы на ЦП это хорошо, но выполнять очень муторные операции с большим объемом ввода-вывода на ЦП очень неэффективно. И мы в Mellanox пошли этим путем и делаем это главным образом на оконечных устройствах Ethernet и InfiniBand. И тогда мы поняли, что можем осуществлять вычисления в коммутаторе. И именно это мы реализовали с Nvidia. ... У нас есть машина выгрузки ИИ, машины вычислений с плавающей запятой внутри коммутатора, чтобы повысить эффективность программ искусственного интеллекта в дата-центре. И мы увидели очень интересные результаты. Не знаю, показывали ли уже вам это, но мы видим, что можем выгрузить всё больше нагрузки с ЦП и GPU в сеть и затем свести всё это в целое решение для ЦОДа для ИИ.

О будущих задачах

Хуан: Таков наш путь дальше. Мы намного опередили то время, когда будет развиваться масштабирование ЦП. И теперь, когда это замедлилось, мы должны (ускорить) каждую рабочую нагрузку, какую только можем. И, конечно, перенести ее в (GPU-)ускоритель это одно дело, а перенести в сеть — совсем другое. Но мы должны делать и то, и другое.

По материалам crn.com.

Источник: Джозеф Ф. Ковар, CRN/США

Версия для печати (без изображений)   Все новости