Data Link
导言
There are some new concepts in data link needed to learn
Excellent Video Resource
We're still on the lookout for an exceptional blog or overview paper to complement our understanding of this topic. Stay tuned for updates!
Outstanding Blog or Overview Paper
The key words are "rethink", "perspective"
对比图¶
类型 | Ethernet 家用网 | InfiniBand Network |
---|---|---|
线材 Cable | Cat.5e | Copper/Fiber InfiniBand Cable |
网络物理连接器 Transceiver | 以太网连接器(RJ45) | QSFP |
网络接口卡 Adapters | 网卡(NIC) | IB卡 |
交换机 Switches | normal | IB Switches |
Ethernet 消费者网络¶
Cat.5e 铜线¶
只要网线够短,cat.5e至少有5Gb/s,一般都不是瓶颈。3
ROCE无损以太网¶
- RDMA over Converged Ethernet, 基于融合以太网的RDMA6
- RoCE协议的优势:用户从以太网切换到RoCE只需要购买支持RoCE的网卡就可以了,其他网络设备都是兼容的。所以RoCE相比于Infiniband主要优势在于成本更低。
- 无损先行要求:由于RDMA要求承载网络无丢包,否则效率就会急剧下降,所以RoCE技术如果选用以太网进行承载,就需要通过PFC,ECN以及DCQCN等技术对传统以太网络改造,打造无损以太网络,以确保零丢包。
RDMA¶
RDMA(Remote Direct Memory Access),全称远端内存直接访问技术,可以在极少占用CPU的情况下,把数据从一台服务器传输到另一台服务器,或从存储到服务器。
Ethernet传输的劣势¶
传统应用要发送数据,需要通过OS封装TCP/IP,然后依次经过主缓存、网卡缓存,再发出去。这样会导致两个限制。
- 时延高:TCP/IP协议栈处理会带来数10微秒的时延。TCP协议栈在接收发送报文时,内核需要做多次上下文的切换,每次切换需要耗费5-10微秒。另外还需要至少三次的数据拷贝和依赖CPU进行协议工作,这导致仅仅协议上处理就会带来数10微秒的固定时延,协议栈时延成为最明显的瓶颈。
- CPU负载居高不下:TCP协议栈处理导致服务器CPU负载居高不下。除了固定时延较长的问题,TCP/IP网络需要主机CPU多次参与协议的内存拷贝,网络规模越大,网络带宽越高,CPU在收发数据时的调度负担越大,导致CPU持续高负载。
在数据中心内部,超大规模分布式计算存储资源之间,如果使用传统的TCP/IP进行网络互连,将占用系统大量的计算资源,造成IO瓶颈,无法满足更高吞吐,更低时延的网络需求。
RDMA相对Ethernet优势¶
- 内存零拷贝(Zero Copy):RDMA应用程序可以绕过内核网络栈直接进行数据传输,不需要再将数据从应用程序的用户态内存空间拷贝到内核网络栈内存空间。
- 内核旁路(Kernel bypass):RDMA应用程序可以直接在用户态发起数据传输,不需要在内核态与用户态之间做上下文切换。
- CPU减负(CPU offload):RDMA可以直接访问远程主机内存,不需要消耗远程主机中的任何CPU,这样远端主机的CPU可以专注自己的业务,避免其cache被干扰并充满大量被访问的内存内容。
InfiniBand¶
与以太网相比,InfiniBand提供了更高的数据传输速率和更低的延迟,这对于要求严格的计算密集型应用非常重要。默认支持远程直接内存访问(RDMA)功能
Speeds¶
InfiniBand supports an array of transmission modes, including
- SDR (Single Data Rate),
- DDR (Double Data Rate),
- QDR (Quad Data Rate),
- FDR (Fourteen Data Rate),
- EDR (Enhanced Data Rate),
- HDR (Hundred Gigabit Data Rate), and
- NDR (Next Data Rate).
Each mode exhibits unique characteristics and advantages tailored for diverse application scenarios.
Latency¶
SerDes link¶
A SerDes, or serializer/deserializer, is an integrated circuit (IC or chip) transceiver that converts parallel data to serial data and vice versa.2
The transmitter section is a parallel-to-serial converter, and the receiver section is a serial-to-parallel converter.
Most SerDes devices support full-duplex operations, meaning that data conversion can take place in both directions simultaneously.
SERDES TECHNIQUES COMPARISON¶
Reference | [10] | [25] | [69] (GRS) |
---|---|---|---|
Media | SMA Cable | Ribbon Cable | PCB |
Singal Rate | 6Gb/s/pin | 16Gb/s/pin | 25Gb/s/pin |
Distance Reach | 953mm | 500mm | 80mm |
Energy Eff. (pJ/b) | 0.58 | 2.58 | 1.17 |
- SMA cable 线状电缆 Ribbon Cable 带状电缆???1
参考文献¶
-
HPCA'23 best paper DIMM-Link: Enabling Efficient Inter-DIMM Communication for Near-Memory Processing ↩