cloud fabric и ai для сетей центров обработки ... - huaweimanual...

24
Партнерская конференция 2020 Cloud Fabric и AI для сетей центров обработки данных следующего поколения Гомонюк Алексей Викторович

Upload: others

Post on 14-Mar-2021

14 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Cloud Fabric и AI для сетей центров обработки данных следующего поколения

Гомонюк Алексей Викторович

Page 2: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Технологическая эволюция корпративных центров обработки данных (ЦОД)

Data source: IDC report, excluding the US

Ассоциация с вычислительными

ресурсами

Взаимодействие с облачной

платформой для реализации

предоставления услуг L2-L7 E2E

Облачные

приложения,

эффективно

е

развертыван

ие услуг

Виртуализация Облачные

вычисления

AI (Искуственный

Интеллект - ИИ)

Порты высокой плотности и

коммутаторы с большим

буфером

Управление ресурсами SDN

контроллером

Совместное

использование ,

эффективная

загрузка

ресурсов

AI big dataInternet+

Распределенные системы

хранения,

HPC,

Big Data

Обработка

данных,

монетизация

бизнеса

SEA, Singapore

NBP, South Korea Siemens, Germany

Yandex, Russia

SB Cloud, Japan

Royal Thai Police,

Thailand

BTK, Turkey Sberbank, Russia

Volkswagen DC, Germany Bank Mandiri, Indonesia

China Merchants Bank Baidu

Internet Корпоративный

секторФинансы Internet Корпоративный

секторФинансы

BPM, Italy

DBS, Singapore

Internet Корпоративный

секторФинансы

Hyundai, South

Korea

LG, South KoreaTencentPing An, China

Page 3: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Сети ЦОД и четыре тенденции «В 100-раз больше»

Тенденция 1:

Производительность

сети

Тенденция 2:

Производтельность

вычислени

Тенденция 3:

Время

развертывания

Тенденция 4:

Масштабы

инфраструктуры

100-раз увеличение

полосы пропускания

NIC: 1GE 100GE

100-раз увеличение

мощности вычислений

CPU: 1T FLOPS

GPU: 100T FLOPS

100-раз увеличение

степени виртуализации

100-раз увеличение

размеров ЦОД

1 BM 100 containers

Single cluster: 100

NEs 10,000 NEs

Page 4: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Server Port TOR downlink port Core switch portTOR uplink port

100GE

10GE

40GE

100GE

400GE

25GE

10GE

GE

Удвоение каждые 18 месяцев, влечет модернизацию сети.

“100-раз” Тенденция 1: Скорость на порту сервераувеличена в100-раз, как следствие увеличение производительности сети.

Page 5: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Первое в индустрии решение для сети ЦОД со

встроенным ИИ чипом

CloudEngine 16800

CP

U

NP AI chipset

Собственная разработка3

3x48 x 400G 16 x 400GСлот

Модель

GTM

04/08/16

2020 Q2

Only 04/08

16-chassis not

supported

*Target Jul 2019

Delayed

Емкость

шасси

768 (16

slots)128 (8 slots)6x

* CiscoLive San Diego, 2019

48*400GE

48*10GE 24/36*40GE

18/36*100GE

1 48 x 400GE/слот

768 x 400GE/шасси

2 Полная совместимость:

10G40G100G400G

Nexus9500

X9716D-GX

CloudEngine 16800

CEL48DQHG-P

Page 6: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Более высокая

эффективность на стойку95%

Интеллектуальные силовые модули, которые

можно переключать за миллисекунды

Более высокая эффективность в рассеивании тепла4x

Технология теплообмена с изменением

фазы и теплопроводность углеродных

нанотрубок

Эффективное

охлаждение

Высокая

скорость SuperFastЭффективное

потребление SuperPower SuperCooling

30% Более высокая

эффективность в передаче

электрического сигнала

Субмикронная ультрагладкая технология

склеивания медной фольги и полимера

Преимущества High-Density 400G технологии

Среднее энергопотребление каждого бита данных на 50% ниже, чем в среднем по отрасли. То есть каждый коммутатор в режиме полной

конфигурации экономит 320 000 кВт-ч и снижает выбросы углерода более чем на 250 тонн в год. Это сокращение затрат на электроэнергию

на 260 000 юаней

Page 7: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

“100-раз” Тенденция 2: Производительность вычислений и систем хранения

возросла в 100-раз, при ограничениях из-за потерь пакетов и задержек в сети

Compute server Storage serverNetwork

10 ms 10 ms1 ms

0.02 ms 0.02 ms1 ms

E2E требования к задержке перед повышением производительности вычислений и

систем хранения:

E2E требования к задержке после повышения производительности вычислений и систем хранения:

99% задержек в сети вызвано потерей

пакетов.

CPU GPU HDD SSD

Page 8: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

N:1 Модель потока данных в сети ЦОД и «узкие места»

GPU GPU GPU

ИИ распределенное обучение

ИИ сервер

параметров

Каждый раз, когда

графический

процессор

выполняет

итерацию ИИ,

графический

процессор

синхронизирует

данные параметров

с сервером

параметров.

Возникновение перегрузки в сети при ИИ итерации.

Congestion

100

G

100

G

100

G

100

G

Распределенные системы хранения

Сервер

приложений

Возникновение перегрузки в сети при передаче данных.

25

G

25

G

25

G

25

G

Данные хранятся на

нескольких

распределенных

узлах хранения

одновременно.

Congestion

Page 9: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Как добиться «нулевой» потери пакетов в сети

Решение 2: Ethernet сеть + ?

Схема: Передающая сторона отправляет пакеты с низкой скоростью.

Проблема: скорость зависит от статического порога буфера. Если порог

слишком низкий, происходит потеря пакета. Если порог слишком высок,

пропускная способность низкая.

Решение 1: Выделеннная сеть

Дорожная карта: используется выделенная сеть, такая как

InfiniBand.

Проблема: отсутствие взаимодействия с действующей сетью,

отсутствие взаимодействия с облачной платформой и сложная

эксплуатация и обслуживание

Нестандартный интерфейс O & M, требующий

специального подготовки

Dedicated cables

Non-Ethernet

interface card

Exclusive supply, no room for price

negotiationManual

configuration

Static threshold, random backpressure, and

transmission at a reduced rate

Distributed storage

GPU server

Packet loss

Packet loss Slow rate

Модель трафика N: 1 вызывает потерю пакетов, а время

ожидания простоя GPU составляет более 50% от общего

времени.

Page 10: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

AI Fabric это Ethernet сеть ЦОД без потерь и с

минимальной задержкой

iLossless алгоритм

AI chip

< 10 µs E2E

задержка

Zero потери

пакетов

100% полосы

пропускания

Compute cluster Storage cluster

CloudEngine

8861

CloudEngine 686xCloudEngine 885x

CloudEngine

16800CloudEngine

16800

Page 11: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Технология 1: Инновационный iLossless алгоритм

< 10 µs E2E задержка Zero потери пакетов 100% полосы пропускания

Number of PFC

frames

Queue egress

utilization

Detect

network

Detect

services

AI Training

High-performance

database

Flows and

queues

Dynamic

waterline

iLosslessTM алгоритм

Per-flow балансировкаМиллионы потоков и

десятки тысяч очередей

Интеллектуальное

оптимальное соответствие

между потоками и очередями

Page 12: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Технология 2: Коммутатор ЦОД со встроенным чипом ИИ

Встроенный рядом с ЦПУ ИИ чип

CloudEngine 16800 iLossless алгоритм работает на ИИ чипе

AI

8 TFLOPS

25

Dual-channel high-

performance CPU server

Note: ML/DL running efficiency comparison

Page 13: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

NexusAI Fabric

478 в секунду 375 в секунду

Эффективность

вычислений

> 27%

NexusAI Fabric

1,670 раз в

секунду

1,256 раз в

секунду

> 30%

Эффективность

операций записи

Third-party international

authoritative testing

institution

Best of ShowNet Award

at Interop in 2018

Tolly результаты: Производительность AI Fabric лучше на

~30% традиционной сети ЦОД

(Количество итераций обучения ИИ в

секунду)(IOPS в секунду)

Page 14: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

“100-раз” Тенденция 3: 100-раз увеличение степени виртуализации и

более быстрое развертывание вычислительных узлов (часы -> секунды)

Configure VLANs.

[~SwitchA] vlan batch 2 3

[*SwitchA] interface 10ge 1/0/1

[*SwitchA-10GE1/0/1] port default vlan 2

[*SwitchA-10GE1/0/1] quit

[*SwitchA] interface 10ge 1/0/2

[*SwitchA-10GE1/0/2] port default vlan 3

Configure a serial port.

[~SwitchA] interface 10ge 1/0/3

[~SwitchA-10GE1/0/3] port link-type trunk

[*SwitchA-10GE1/0/3] port trunk allow-pass vlan 2 3

[*SwitchA-10GE1/0/3] commit

Assign an IP address to a server.

BOOTPROTO=static

ONBOOT=yes

IPADDER=192.168.1.100 PREFIX=24

GATEWAY=192.168.1.1

DNS1=192.168.1.1

Каждый раз, когда добавляется вычислительный узел, администратору сети необходимо настроить более 10 команд.

Эволюция

виртуализации

Схемв

Количество

сетевых

устройств

Время

развертывания

сети

PM PM

Физические сервера

Один сервер эквивалентен одному вычислительному

узлу.

Сотни узлов

TOR switch

A network must be

configured for each

PM.

X hoursXX часов

IT планирование

ресурсов

Конфигурация

сети

Contai

ner

Contai

ner

Контейнеризация

Один сервер содержит 100 вычислительных узлов.

Миллионы узлов

TOR switch

A network must be

configured for

each container.

ContainerЗа секунды создаются

контейнеры

X секунд

Виртуальные сервера

Один сервер виртуализируется в 10 вычислительных узлов.

Десятки тысяч узлов

VM VM VM VM VM

Virtualization layer

TOR switch

A network must be

configured for

each VM.

X минутXX минут

VM создаютмся

за минутыVM

X секунд

Page 15: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Планирование

Конфигурация и

проверка

Поиск

проблем

3-5 дней

10 минут для

имплементации

1-2 дня для

конфигурации

1-2 дня

Решение без SDN-контроллера: полуавтоматическое

развертывание и слабая автоматизация поиска

проблем

Решение Huawei: Drag-and-Drop режим эмуляция

сценариев

One-click операции в GUI

Развертывание Container:

10,000/минут

1

2

3Автоматическая

проверка перед

доставкой конфигурации

Характеристики Huawei SDN решения

Page 16: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Western

Europe

China

Japan

and

South

Korea

Russia

South

Pacific

South

America

Carrier: AM (Mexico) South

Africa

the Middle

East

Finance: Volkswagen Finance ISP: Aruba (Italy) Large enterprises: Volkswagen

(Germany), SIEMENS (Germany) Carrier: Swisscom, Italy Telecom,

PT

Government: Ministry of

Interior (Saudi Arabia) Carrier: CMpak

Finance: Sberbank, Central

Bank of Russia, NSPK ISP: Mail.ru Enterprise: Russian Post

ISP: Naver (South Korea), SB cloud (Japan) Media and entertainment: CJEM (South Korea) Finance: Tong Yang Life (South Korea) Carrier: SKT (South Korea)

Large enterprises: Semen Indonesia/SMGR Finance: Bank Mandiri (Indonesia) Carrier: Globe (Philippines)

Коммерческое использщование в 850+ в проектах реализации

CloudFabric SDN решения

Page 17: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Количество серверов: 100

?

В условиях небольшого серверного масштаба возможно ручное O & M.

"100-раз" Тенденция 4: Количество серверов увеличивается в 100 раз,

ручной O&M становится невозможным

Page 18: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Производственные системы перемещаются в облако, но устранение

неполадок после события не позволяет достичь нулевого прерывания

обслуживания

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

VM

Cloud hosting service

Cash/Investment/Wealth

management

Online banking

service

Невидимые некорректные потоки

274,046 потоков в день, 0.3%

Cloud

platform

Media Medical

serviceRetail Manufacturing Telecom Energy Finance

2.02.8

6.48

1.61.10.630.09(US$ млн.)

Source: Network Computing, the Meta Group and Contingency Planning Research

Потери в

час из-за

простоя

систнмы

В 50 раз

сложнее O&M

30% можно

определить

традиционным

O&M

70% не

определяются

традиционнымO&

M

Облачная производственная система сильно подвержена

сбоям и несет огромные потери

Автоматизация превращает сеть в черный ящик и

традиционные методы O&M неэффективны

Облачная производственная система:

24/7, безопасный и удобный сервисКогда происходит

сбой сети ЦОД,

затрагивается вся

сеть.

O&M объекты теперь

не только

физические

устройства но и

логические/виртуаль

ные.

3% потоков в

день - это

некорректные

потоки (с

ошибками)

Page 19: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

FabricInsight -это 100% прозоачности сети и эффективный мониторинг

100% прозрачностьИнтеллектуальные корреляции между

сетями, потоками услуг и ИТ-

системами

Предсказание

событийИнтеллектуальное обслуживание

на базе ИИ

Нет предсказания

Интеллектуальные O&M и устранение

потенциальных рискованалитика событий и

мониторинг

работоспособности

Вариант использования 1: прогнозирует

аппаратные сбои устройства

Вариант использования 2: обнаруживает

аномалии поведения сети

Вариант использования 3: активно

обнаруживает проблемы с типом службы

Вариант использования 4: быстро выявляет

проблемы типа безопасности

Нет корреляцииУслуг и сети

3rd Vendor

Collector Analyser

VM VM

ERSPAN

Telemetry

Network

Service

IT

smart

correlations

Page 20: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

"1-3-5" Интеллектуальный O&M находит неисправности в

реальном времени и устраняет неконфигурационные

неисправности сети

1 минута на обнаружение 3 минуты на локализацию 5 минут на ликвидацию причин

Сбор всей информации в режиме

реального времени с использованием

телеметрии

Модуль работоспособности сети быстро

обнаруживает неисправности

Находит и рекомендует решение.

Автоматически устранять

неисправности

Находит и

рекомендует

решение.

Моделирует

ситуацию

Автоматически

устранять

неисправности

Алгоритм ИИ строит граф знаний сети и

быстро определяет причину ошибки.

network knowledge graph

causeHealth:100

Page 21: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

Основные преимущества решения Huawei длявысокопроизводительной сети ЦОД

CloudEngine 16800

Высокая плотность 400G в отрасли, совместимость с 10G и

100G, защита инвестиций при одновременном

удовлетворении текущих и будущих потребностей

Большой масштаб управления и 3-кратная эффективность

развертывания

Непревзойденная открытость для легкого взаимодействия с

основными облачными платформами, реализуя эластичное

масштабирование

Полная видимость неисправностей, проактивное

обнаружение и прогнозное эксплуатационных рисков, а

также отсутствие прерывания обслуживания

Нулевая потеря пакетов, низкая задержка и высокая

пропускная способность в ЦОД

Превосходит всех других поставщиков и предпочтительных

поставщиков оставшихся клиентов

Одно устройство вместо 5

Zero потери пакетов, 100%

пропускная способность

3x эффективность

развертывания

Новый O&M и zero прерывания услуг

Высокая

производительность

Сеть ЦОД без потери

пакетов

Скорость развертывания

Интеллектуальный анализатор

Page 22: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

Партнерская конференция 2020

AI Fabric:Производительность сопоставима с выделенными сетями,

а цены сопоставимы с традиционным Ethernet

Waterline

FastCNP+PFC

VIQ1 VIQ2

VIQ+ Dynamic

ECN waterline

Spine

FPGA

iNIC

leaf

Время обучения:

40%

В сравнении с Ethernet

TCO:

53%

По сравнению с

выделенной сетью

AI Fabric

Традиционный Ethernet: низкая

производительность

100% потери пакетов при

перегрузке и динамическая

задержка в миллисекундах

Выделенная сеть:

высокая TCO

O & M выполняется

обученным персоналом,

удваивая CAPEX

Узкое место: задержка в сети и потеря пакетов

Система автономного вождения.

1 день

10 TB данных

7 дней

Обучениена 500 GPU серверах

Пример: AI Fabric сокращает время обучения для автономного вождения на 40%

Page 23: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

СПАСИБО!

Page 24: Cloud Fabric и AI для сетей центров обработки ... - HuaweiManual configuration Static threshold, random backpressure, and transmission at a reduced rate Distributed

ПАРТНЕРСКАЯКОНФЕРЕНЦИЯ HUAWEI 2020