AIDC（人工智能数据中心）全面梳理报告

用于领导汇报参考更新时间：2026年3月

一、AIDC概述

1.1 什么是AIDC？

AIDC（Artificial Intelligence Data Center，人工智能数据中心）是专门为人工智能 workloads 设计的新型数据中心。与传统数据中心不同，AIDC 需要支持：

大规模并行计算：GPU/TPU 集群训练
高密度算力：单柜功率可达 30-50kW
高带宽网络：RDMA 互联，200G/400G 骨干
大规模存储：PB 级数据访问

1.2 AIDC vs 传统数据中心

维度	传统数据中心	AIDC
核心负载	通用计算 (CPU)	AI训练/推理 (GPU/TPU)
单机柜功率	5-8kW	15-50kW
网络带宽	10-40G	200-400G
存储类型	HDD为主	NVMe SSD + 分布式存储
制冷方式	房间级制冷	液冷/浸没式制冷
能效要求	PUE 1.3-1.5	PUE < 1.2

二、核心硬件设备

2.1 智算设备

2.1.1 GPU服务器

类型	典型型号	算力 (FP16)	功耗	适用场景
训练服务器	NVIDIA A100 8-GPU	15 PFlops	6.5kW	大模型训练
训练服务器	NVIDIA H100 8-GPU	51 PFlops	10kW	大模型训练
推理服务器	NVIDIA L40S 8-GPU	18.8 PFlops	3.2kW	推理服务
推理服务器	NVIDIA L2	500 TFlops	275W	边缘推理

2.1.2 国产算力卡

厂商	型号	算力	备注
华为	Ascend 910	640 TFLOPS (FP16)	国产替代
寒武纪	MLU370	256 TFLOPS	国产替代
海光	DCU Z100	256 TFLOPS	国产替代
摩尔线程	MTT X400	256 TFLOPS	国产替代

2.1.3 关键配套

GPU托盘/基板：NVLink/NVSwitch 互联
高速网卡：ConnectX-7 (400G) 或国产替代
NVMe SSD：用于模型存储 (7.68TB-15.36TB)

2.2 存储设备

2.2.1 存储类型

存储类型	典型产品	容量	带宽	延迟	用途
分布式存储	华为OceanStor	10PB+	100GB/s	ms级	训练数据
全闪存存储	Dell PowerMax	1PB	50GB/s	μs级	模型存储
对象存储	MinIO/Ceph	EB级	50GB/s	ms级	归档数据
本地NVMe	三星PM9A3	15.36TB	7GB/s	μs级	缓存/临时数据

2.2.2 存储网络

NVMe-oF：通过RDMA访问远程NVMe
IB网络：InfiniBand HDR (200G) / NDR (400G)
RoCE网络：25G/100G 以太网 + RDMA

2.2.3 核心部件

部件	主流规格	备注
SSD	NVMe 7.68TB/15.36TB	三星/Intel/长江存储
HDD	16TB/20TB HAMR	数据归档
存储控制器	双控/多控	高可用
扩展柜	12/24盘位	JBOD

2.3 网络设备

2.3.1 交换机

层级	产品	端口	带宽	备注
接入层	NVIDIA QM9700	64 port	400G	GPU互联
汇聚层	华为 CloudEngine 16800	64 port	400G	高性能
核心层	Cisco Nexus 9336C	36 port	400G	骨干
安全管理	华为防火墙	100G	安全隔离

2.3.2 网卡

类型	型号	带宽	协议	用途
HCA	ConnectX-7	400G	IB/RoCE	GPU服务器
OCP网卡	Mellanox ConnectX-6	200G	IB/RoCE	通用服务器
智能网卡	NVIDIA BlueField-3	200G	DPU	安全/卸载

2.3.3 光模块/线缆

类型	速率	距离	功耗
AOC光缆	400G	30m	5W
QSFP-DD	400G	2km	10W
OSFP	800G	2km	15W

2.3.4 光纤跳线/线缆

MPO预端接光缆：多模OM4/单模LC
DAC高速线缆：直连铜缆 (3m以内)

三、组网方案

3.1 网络架构设计

┌─────────────────────────────────────────────────────────────┐ │ 互联网/专线出口 │ └─────────────────┬───────────────────────────────────────────┘ │ ┌────────▼────────┐ │ 核心交换机 │ (核心层 - 400G) └────────┬────────┘ │ ┌─────────────┼─────────────┐ │ │ │ ┌───▼───┐ ┌───▼───┐ ┌───▼───┐ │汇聚1 │ │汇聚2 │ │汇聚3 │ (汇聚层 - 400G) └───┬───┘ └───┬───┘ └───┬───┘ │ │ │ ┌───┴───┐ ┌───┴───┐ ┌───┴───┐ │GPU池1 │ │GPU池2 │ │GPU池3 │ (接入层 - 200G/400G) │(32卡) │ │(32卡) │ │(32卡) │ └───────┘ └───────┘ └───────┘

3.2 典型组网方案

3.2.1 方案一：InfiniBand 组网（推荐）

优点： - 超低延迟 (< 1μs) - 高带宽 (200G/400G) - GPUDirect RDMA 原生支持

拓扑： Full-mesh + Switch

┌──────────────┐ │ IB Switch │ │ NDR 400G │ └──────┬───────┘ │ ┌──────────┼──────────┐ │ │ │ ┌───┴───┐ ┌───┴───┐ ┌───┴───┐ │ A100×8│ │ A100×8│ │ A100×8│ │ GPU1 │ │ GPU2 │ │ GPU3 │ └───────┘ └───────┘ └───────┘

设备清单：

设备	数量	单价参考	备注
IB交换机 (NDR)	2-4台	30-50万	核心互联
IB网卡 (ConnectX-7)	按服务器	1.5万/块	每服务器2-4块
光模块 (400G)	若干	8000/个
MPO光纤线缆	若干	2000/条

3.2.2 方案二：RoCE 以太网组网（成本优先）

优点： - 成本较低 - 运维成熟 - 与现有网络兼容

**拓扑：Leaf-Spine 两层

┌──────────────┐ │ Spine │ 100G/400G │ 交换机 │ └──────┬───────┘ │ ┌──────────┼──────────┐ │ │ │ ┌───┴───┐ ┌───┴───┐ ┌───┴───┐ │ Leaf │ │ Leaf │ │ Leaf │ 100G接入 └───┬───┘ └───┬───┘ └───┬───┘ │ │ │ ┌───┴───┐ ┌───┴───┐ ┌───┴───┐ │服务器 │ │服务器 │ │服务器 │ └───────┘ └───────┘ └───────┘

3.3 网络平面设计

平面	带宽	用途	VLAN/独立
管理网	10G	设备管理、BMC	独立VLAN
业务网	100G-400G	AI训练流量	独立VLAN
存储网	100G	NVMe-oF/iSCSI	独立VLAN
带外管理	1G	IPMI/BMC	物理隔离

四、容量评估

4.1 算力容量评估

4.1.1 需求估算公式

总算力 (PFlops) = 模型参数量 × 训练Token数 × 计算系数 / (GPU算力 × GPU数量 × 训练效率 × 时间)

简化估算： - 175B参数模型，300B tokens，使用 A100 训练： - 预计需要 3000+ A100-GPU 天 - 或 500台 8-GPU 服务器

4.1.2 常见模型算力需求

模型	参数量	训练算力需求 (PFlops-day)	A100数量(约)
GPT-3	175B	3,000	500
LLaMA-70B	70B	1,200	200
ChatGLM-6B	6B	30	5
Stable Diffusion	1B	50	8

4.2 存储容量评估

4.2.1 存储需求估算

数据类型	估算方式	典型规模
训练数据	原始数据 × 压缩率	100TB - 10PB
模型参数	参数量 × 2字节(FP16)	350GB (175B模型)
Checkpoint	参数 × 3份	1TB/份
日志/中间结果	视情况	10-100TB

4.2.2 存储容量规划

总存储 = 训练数据存储 + 模型存储 + 临时缓存 + 安全冗余

示例：1000台GPU服务器

存储类型	容量需求	典型配置
对象存储	5PB	3副本/EC
分布式块存储	2PB	全闪存
本地SSD缓存	500TB	NVMe 7.68TB × 64

4.3 网络带宽评估

4.3.1 带宽需求

场景	单GPU带宽需求	总带宽需求
训练 (数据并行)	10-20 Gbps	200G-400G/服务器
训练 (模型并行)	50-100 Gbps	800G+/服务器
推理	1-5 Gbps	25G-100G/服务器

4.3.2 接入交换机端口

接入交换机端口 = 服务器数量 × 每服务器网卡数 × 2 (冗余)

示例：100台AI服务器 - 每台 2×200G网卡 - 需要 100 × 2 × 2 = 400 个 200G 端口 - 约 7-8 台 64口交换机

4.4 电力与制冷评估

4.4.1 电力需求估算

设备类型	单机柜功率	备注
A100 8-GPU服务器	6-8 kW	风冷
H100 8-GPU服务器	10-12 kW	液冷
存储服务器	3-5 kW
网络设备	2-4 kW

总电力估算： 总功率 = 服务器数量 × 单机功率 × 1.2 (UPS/制冷冗余)

示例：500台AI服务器 (10kW/台) - IT负载：500 × 10kW = 5000kW - 加上制冷/照明：5000 × 1.3 = 6500kW - 建议变压器：2×4000kVA 或 3×2500kVA

4.4.2 制冷方案

方案	适用功率密度	PUE	优点	缺点
风冷	< 8kW/柜	1.4-1.6	简单	噪音大
液冷 (冷板)	8-20kW/柜	1.1-1.3	高效	需要改造成本
浸没式	> 20kW/柜	< 1.1	最高效	维护复杂

建议： 10kW以上机柜优先考虑液冷

4.5 机柜空间评估

设备类型	占用空间	典型配置
GPU服务器	4U-6U	42U机柜可放6-8台
存储服务器	2U-4U	42U机柜可放8-12台
网络交换机	1U-2U	42U机柜可放20+台
液冷CDU	2U-4U	需独立机柜

五、建设成本估算

5.1 典型AIDC投资构成

占比	组成部分	1亿元AIDC示例
35%	IT设备 (服务器/存储)	3500万
25%	网络设备	2500万
15%	电力系统	1500万
10%	制冷系统	1000万
8%	机柜/布线	800万
7%	其他 (消防/装修)	700万

5.2 单机柜建设成本

功率密度	建设成本 (参考)
5kW/柜	8-10万
8kW/柜	12-15万
15kW/柜	20-25万

六、主流厂商方案

6.1 整体解决方案厂商

厂商	优势	代表产品
华为	国产全栈	昇腾+OceanStor+CloudEngine
浪潮	性价比	NF5688M7服务器
新华三	网络优势	UniServer+交换机
阿里云	运营经验	灵骏AIDC

6.2 专业设备厂商

类别	主流厂商
GPU服务器	浪潮、华为、新华三、宁畅
存储	华为、Dell、NetApp、宏杉
网络	华为、新华三、Cisco、Mellanox
液冷	浪潮、维谛、华为

七、实施建议

7.1 建设流程

1. 需求分析 → 2. 方案设计 → 3. 设备选型 → 4. 集采招标 5. 机房改造 → 6. 设备交付 → 7. 部署调试 → 8. 验收上线

7.2 关键考量点

算力规划：根据业务选择合适GPU型号，兼顾当下需求和未来扩展
网络架构：优先考虑RDMA网络（IB或RoCE），保障训练效率
存储分层：热数据用NVMe，温数据用SSD，冷数据用对象存储
绿色节能：高功率密度机房优先液冷，PUE目标<1.3
国产化：考虑昇腾等国产方案，降低供应链风险

附录：术语表

术语	全称	解释
AIDC	Artificial Intelligence Data Center	人工智能数据中心
GPU	Graphics Processing Unit	图形处理器
RDMA	Remote Direct Memory Access	远程直接内存访问
NVMe	Non-Volatile Memory Express	高速存储协议
IB	InfiniBand	高性能计算网络
RoCE	RDMA over Converged Ethernet	以太网上的RDMA
PUE	Power Usage Effectiveness	能效比
CDU	Coolant Distribution Unit	冷却液分配单元
OCP	Open Compute Project	开放计算项目

本报告供领导参考，内容基于行业通用实践整理