cloud fabric и ai для сетей центров обработки ... - huaweimanual...
TRANSCRIPT
Партнерская конференция 2020
Cloud Fabric и AI для сетей центров обработки данных следующего поколения
Гомонюк Алексей Викторович
Партнерская конференция 2020
Технологическая эволюция корпративных центров обработки данных (ЦОД)
Data source: IDC report, excluding the US
Ассоциация с вычислительными
ресурсами
Взаимодействие с облачной
платформой для реализации
предоставления услуг L2-L7 E2E
Облачные
приложения,
эффективно
е
развертыван
ие услуг
Виртуализация Облачные
вычисления
AI (Искуственный
Интеллект - ИИ)
Порты высокой плотности и
коммутаторы с большим
буфером
Управление ресурсами SDN
контроллером
Совместное
использование ,
эффективная
загрузка
ресурсов
AI big dataInternet+
Распределенные системы
хранения,
HPC,
Big Data
Обработка
данных,
монетизация
бизнеса
SEA, Singapore
NBP, South Korea Siemens, Germany
Yandex, Russia
SB Cloud, Japan
Royal Thai Police,
Thailand
BTK, Turkey Sberbank, Russia
Volkswagen DC, Germany Bank Mandiri, Indonesia
China Merchants Bank Baidu
Internet Корпоративный
секторФинансы Internet Корпоративный
секторФинансы
BPM, Italy
DBS, Singapore
Internet Корпоративный
секторФинансы
Hyundai, South
Korea
LG, South KoreaTencentPing An, China
Партнерская конференция 2020
Сети ЦОД и четыре тенденции «В 100-раз больше»
Тенденция 1:
Производительность
сети
Тенденция 2:
Производтельность
вычислени
Тенденция 3:
Время
развертывания
Тенденция 4:
Масштабы
инфраструктуры
100-раз увеличение
полосы пропускания
NIC: 1GE 100GE
100-раз увеличение
мощности вычислений
CPU: 1T FLOPS
GPU: 100T FLOPS
100-раз увеличение
степени виртуализации
100-раз увеличение
размеров ЦОД
1 BM 100 containers
Single cluster: 100
NEs 10,000 NEs
Партнерская конференция 2020
Server Port TOR downlink port Core switch portTOR uplink port
100GE
10GE
40GE
100GE
400GE
25GE
10GE
GE
Удвоение каждые 18 месяцев, влечет модернизацию сети.
“100-раз” Тенденция 1: Скорость на порту сервераувеличена в100-раз, как следствие увеличение производительности сети.
Партнерская конференция 2020
Первое в индустрии решение для сети ЦОД со
встроенным ИИ чипом
CloudEngine 16800
CP
U
NP AI chipset
Собственная разработка3
3x48 x 400G 16 x 400GСлот
Модель
GTM
04/08/16
2020 Q2
Only 04/08
16-chassis not
supported
*Target Jul 2019
Delayed
Емкость
шасси
768 (16
slots)128 (8 slots)6x
* CiscoLive San Diego, 2019
48*400GE
48*10GE 24/36*40GE
18/36*100GE
1 48 x 400GE/слот
768 x 400GE/шасси
2 Полная совместимость:
10G40G100G400G
Nexus9500
X9716D-GX
CloudEngine 16800
CEL48DQHG-P
Партнерская конференция 2020
Более высокая
эффективность на стойку95%
Интеллектуальные силовые модули, которые
можно переключать за миллисекунды
Более высокая эффективность в рассеивании тепла4x
Технология теплообмена с изменением
фазы и теплопроводность углеродных
нанотрубок
Эффективное
охлаждение
Высокая
скорость SuperFastЭффективное
потребление SuperPower SuperCooling
30% Более высокая
эффективность в передаче
электрического сигнала
Субмикронная ультрагладкая технология
склеивания медной фольги и полимера
Преимущества High-Density 400G технологии
Среднее энергопотребление каждого бита данных на 50% ниже, чем в среднем по отрасли. То есть каждый коммутатор в режиме полной
конфигурации экономит 320 000 кВт-ч и снижает выбросы углерода более чем на 250 тонн в год. Это сокращение затрат на электроэнергию
на 260 000 юаней
Партнерская конференция 2020
“100-раз” Тенденция 2: Производительность вычислений и систем хранения
возросла в 100-раз, при ограничениях из-за потерь пакетов и задержек в сети
Compute server Storage serverNetwork
10 ms 10 ms1 ms
0.02 ms 0.02 ms1 ms
E2E требования к задержке перед повышением производительности вычислений и
систем хранения:
E2E требования к задержке после повышения производительности вычислений и систем хранения:
99% задержек в сети вызвано потерей
пакетов.
CPU GPU HDD SSD
Партнерская конференция 2020
N:1 Модель потока данных в сети ЦОД и «узкие места»
GPU GPU GPU
ИИ распределенное обучение
ИИ сервер
параметров
Каждый раз, когда
графический
процессор
выполняет
итерацию ИИ,
графический
процессор
синхронизирует
данные параметров
с сервером
параметров.
Возникновение перегрузки в сети при ИИ итерации.
Congestion
100
G
100
G
100
G
100
G
Распределенные системы хранения
Сервер
приложений
Возникновение перегрузки в сети при передаче данных.
25
G
25
G
25
G
25
G
Данные хранятся на
нескольких
распределенных
узлах хранения
одновременно.
Congestion
Партнерская конференция 2020
Как добиться «нулевой» потери пакетов в сети
Решение 2: Ethernet сеть + ?
Схема: Передающая сторона отправляет пакеты с низкой скоростью.
Проблема: скорость зависит от статического порога буфера. Если порог
слишком низкий, происходит потеря пакета. Если порог слишком высок,
пропускная способность низкая.
Решение 1: Выделеннная сеть
Дорожная карта: используется выделенная сеть, такая как
InfiniBand.
Проблема: отсутствие взаимодействия с действующей сетью,
отсутствие взаимодействия с облачной платформой и сложная
эксплуатация и обслуживание
Нестандартный интерфейс O & M, требующий
специального подготовки
Dedicated cables
Non-Ethernet
interface card
Exclusive supply, no room for price
negotiationManual
configuration
Static threshold, random backpressure, and
transmission at a reduced rate
Distributed storage
GPU server
Packet loss
Packet loss Slow rate
Модель трафика N: 1 вызывает потерю пакетов, а время
ожидания простоя GPU составляет более 50% от общего
времени.
Партнерская конференция 2020
AI Fabric это Ethernet сеть ЦОД без потерь и с
минимальной задержкой
iLossless алгоритм
AI chip
< 10 µs E2E
задержка
Zero потери
пакетов
100% полосы
пропускания
Compute cluster Storage cluster
CloudEngine
8861
CloudEngine 686xCloudEngine 885x
CloudEngine
16800CloudEngine
16800
Партнерская конференция 2020
Технология 1: Инновационный iLossless алгоритм
< 10 µs E2E задержка Zero потери пакетов 100% полосы пропускания
Number of PFC
frames
Queue egress
utilization
…
Detect
network
Detect
services
AI Training
High-performance
database
…
Flows and
queues
Dynamic
waterline
iLosslessTM алгоритм
Per-flow балансировкаМиллионы потоков и
десятки тысяч очередей
Интеллектуальное
оптимальное соответствие
между потоками и очередями
Партнерская конференция 2020
Технология 2: Коммутатор ЦОД со встроенным чипом ИИ
Встроенный рядом с ЦПУ ИИ чип
CloudEngine 16800 iLossless алгоритм работает на ИИ чипе
AI
8 TFLOPS
25
Dual-channel high-
performance CPU server
Note: ML/DL running efficiency comparison
Партнерская конференция 2020
NexusAI Fabric
478 в секунду 375 в секунду
Эффективность
вычислений
> 27%
NexusAI Fabric
1,670 раз в
секунду
1,256 раз в
секунду
> 30%
Эффективность
операций записи
Third-party international
authoritative testing
institution
Best of ShowNet Award
at Interop in 2018
Tolly результаты: Производительность AI Fabric лучше на
~30% традиционной сети ЦОД
(Количество итераций обучения ИИ в
секунду)(IOPS в секунду)
Партнерская конференция 2020
“100-раз” Тенденция 3: 100-раз увеличение степени виртуализации и
более быстрое развертывание вычислительных узлов (часы -> секунды)
Configure VLANs.
[~SwitchA] vlan batch 2 3
[*SwitchA] interface 10ge 1/0/1
[*SwitchA-10GE1/0/1] port default vlan 2
[*SwitchA-10GE1/0/1] quit
[*SwitchA] interface 10ge 1/0/2
[*SwitchA-10GE1/0/2] port default vlan 3
Configure a serial port.
[~SwitchA] interface 10ge 1/0/3
[~SwitchA-10GE1/0/3] port link-type trunk
[*SwitchA-10GE1/0/3] port trunk allow-pass vlan 2 3
[*SwitchA-10GE1/0/3] commit
…
Assign an IP address to a server.
BOOTPROTO=static
ONBOOT=yes
IPADDER=192.168.1.100 PREFIX=24
GATEWAY=192.168.1.1
DNS1=192.168.1.1
Каждый раз, когда добавляется вычислительный узел, администратору сети необходимо настроить более 10 команд.
Эволюция
виртуализации
Схемв
Количество
сетевых
устройств
Время
развертывания
сети
PM PM
Физические сервера
Один сервер эквивалентен одному вычислительному
узлу.
Сотни узлов
TOR switch
A network must be
configured for each
PM.
X hoursXX часов
IT планирование
ресурсов
Конфигурация
сети
Contai
ner
Contai
ner
Контейнеризация
Один сервер содержит 100 вычислительных узлов.
Миллионы узлов
TOR switch
A network must be
configured for
each container.
ContainerЗа секунды создаются
контейнеры
X секунд
Виртуальные сервера
Один сервер виртуализируется в 10 вычислительных узлов.
Десятки тысяч узлов
VM VM VM VM VM
Virtualization layer
TOR switch
A network must be
configured for
each VM.
X минутXX минут
VM создаютмся
за минутыVM
X секунд
Партнерская конференция 2020
Планирование
Конфигурация и
проверка
Поиск
проблем
3-5 дней
10 минут для
имплементации
1-2 дня для
конфигурации
1-2 дня
Решение без SDN-контроллера: полуавтоматическое
развертывание и слабая автоматизация поиска
проблем
Решение Huawei: Drag-and-Drop режим эмуляция
сценариев
One-click операции в GUI
Развертывание Container:
10,000/минут
1
2
3Автоматическая
проверка перед
доставкой конфигурации
Характеристики Huawei SDN решения
Партнерская конференция 2020
Western
Europe
太
China
Japan
and
South
Korea
Russia
South
Pacific
South
America
Carrier: AM (Mexico) South
Africa
the Middle
East
Finance: Volkswagen Finance ISP: Aruba (Italy) Large enterprises: Volkswagen
(Germany), SIEMENS (Germany) Carrier: Swisscom, Italy Telecom,
PT
Government: Ministry of
Interior (Saudi Arabia) Carrier: CMpak
Finance: Sberbank, Central
Bank of Russia, NSPK ISP: Mail.ru Enterprise: Russian Post
ISP: Naver (South Korea), SB cloud (Japan) Media and entertainment: CJEM (South Korea) Finance: Tong Yang Life (South Korea) Carrier: SKT (South Korea)
Large enterprises: Semen Indonesia/SMGR Finance: Bank Mandiri (Indonesia) Carrier: Globe (Philippines)
Коммерческое использщование в 850+ в проектах реализации
CloudFabric SDN решения
Партнерская конференция 2020
Количество серверов: 100
?
В условиях небольшого серверного масштаба возможно ручное O & M.
"100-раз" Тенденция 4: Количество серверов увеличивается в 100 раз,
ручной O&M становится невозможным
Партнерская конференция 2020
Производственные системы перемещаются в облако, но устранение
неполадок после события не позволяет достичь нулевого прерывания
обслуживания
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
VM
Cloud hosting service
Cash/Investment/Wealth
management
Online banking
service
Невидимые некорректные потоки
274,046 потоков в день, 0.3%
Cloud
platform
Media Medical
serviceRetail Manufacturing Telecom Energy Finance
2.02.8
6.48
1.61.10.630.09(US$ млн.)
Source: Network Computing, the Meta Group and Contingency Planning Research
Потери в
час из-за
простоя
систнмы
В 50 раз
сложнее O&M
30% можно
определить
традиционным
O&M
70% не
определяются
традиционнымO&
M
Облачная производственная система сильно подвержена
сбоям и несет огромные потери
Автоматизация превращает сеть в черный ящик и
традиционные методы O&M неэффективны
Облачная производственная система:
24/7, безопасный и удобный сервисКогда происходит
сбой сети ЦОД,
затрагивается вся
сеть.
O&M объекты теперь
не только
физические
устройства но и
логические/виртуаль
ные.
3% потоков в
день - это
некорректные
потоки (с
ошибками)
Партнерская конференция 2020
FabricInsight -это 100% прозоачности сети и эффективный мониторинг
100% прозрачностьИнтеллектуальные корреляции между
сетями, потоками услуг и ИТ-
системами
Предсказание
событийИнтеллектуальное обслуживание
на базе ИИ
Нет предсказания
Интеллектуальные O&M и устранение
потенциальных рискованалитика событий и
мониторинг
работоспособности
Вариант использования 1: прогнозирует
аппаратные сбои устройства
Вариант использования 2: обнаруживает
аномалии поведения сети
Вариант использования 3: активно
обнаруживает проблемы с типом службы
Вариант использования 4: быстро выявляет
проблемы типа безопасности
Нет корреляцииУслуг и сети
3rd Vendor
Collector Analyser
VM VM
ERSPAN
Telemetry
Network
Service
IT
smart
correlations
Партнерская конференция 2020
"1-3-5" Интеллектуальный O&M находит неисправности в
реальном времени и устраняет неконфигурационные
неисправности сети
1 минута на обнаружение 3 минуты на локализацию 5 минут на ликвидацию причин
Сбор всей информации в режиме
реального времени с использованием
телеметрии
Модуль работоспособности сети быстро
обнаруживает неисправности
Находит и рекомендует решение.
Автоматически устранять
неисправности
Находит и
рекомендует
решение.
Моделирует
ситуацию
Автоматически
устранять
неисправности
Алгоритм ИИ строит граф знаний сети и
быстро определяет причину ошибки.
network knowledge graph
causeHealth:100
Партнерская конференция 2020
Основные преимущества решения Huawei длявысокопроизводительной сети ЦОД
CloudEngine 16800
Высокая плотность 400G в отрасли, совместимость с 10G и
100G, защита инвестиций при одновременном
удовлетворении текущих и будущих потребностей
Большой масштаб управления и 3-кратная эффективность
развертывания
Непревзойденная открытость для легкого взаимодействия с
основными облачными платформами, реализуя эластичное
масштабирование
Полная видимость неисправностей, проактивное
обнаружение и прогнозное эксплуатационных рисков, а
также отсутствие прерывания обслуживания
Нулевая потеря пакетов, низкая задержка и высокая
пропускная способность в ЦОД
Превосходит всех других поставщиков и предпочтительных
поставщиков оставшихся клиентов
Одно устройство вместо 5
Zero потери пакетов, 100%
пропускная способность
3x эффективность
развертывания
Новый O&M и zero прерывания услуг
Высокая
производительность
Сеть ЦОД без потери
пакетов
Скорость развертывания
Интеллектуальный анализатор
Партнерская конференция 2020
AI Fabric:Производительность сопоставима с выделенными сетями,
а цены сопоставимы с традиционным Ethernet
…
Waterline
FastCNP+PFC
VIQ1 VIQ2
VIQ+ Dynamic
ECN waterline
Spine
FPGA
iNIC
leaf
Время обучения:
40%
В сравнении с Ethernet
TCO:
53%
По сравнению с
выделенной сетью
AI Fabric
Традиционный Ethernet: низкая
производительность
100% потери пакетов при
перегрузке и динамическая
задержка в миллисекундах
Выделенная сеть:
высокая TCO
O & M выполняется
обученным персоналом,
удваивая CAPEX
Узкое место: задержка в сети и потеря пакетов
Система автономного вождения.
1 день
10 TB данных
7 дней
Обучениена 500 GPU серверах
Пример: AI Fabric сокращает время обучения для автономного вождения на 40%
СПАСИБО!
ПАРТНЕРСКАЯКОНФЕРЕНЦИЯ HUAWEI 2020