加速網路效能:基於聚合式乙太網路的 RDMA (RoCE) 所帶來的影響

作者:Tawfeeq Ahmad

運算密集型應用的快速演進已讓更快、更高效且可擴充的網路解決方案需求攀升。為了滿足這個需求而出現的創新技術中,有一個就是基於聚合乙太網路的遠端直接記憶體存取 (RDMA) (RoCE)。這項開創性的技術有助於在系統之間直接傳輸資料,而無需 CPU 干預,因此能大幅降低延遲並提高系統整體效能。iWave 是著名的 FPGA 設計廠且一直位於進步的前線,已經在其嵌入式運算模組產品組合中整合 AMD 的 ERNIC IP (乙太網路 RDMA 網路介面控制器智慧財產權),進而實現強大的 100G 乙太網路解決方案。透過此整合,可在高效能應用中增強 RDMA 的能力。

RoCE 有利於在系統之間直接傳輸資料示意圖圖 1:RoCE 有利於在系統之間直接傳輸資料,無需 CPU 干預,因此能大幅降低延遲並提高系統整體效能。(圖片來源:iWave)

瞭解基於聚合乙太網路的 RDMA (RoCE)

RDMA 是一項關鍵技術,可在主機或伺服器之間促成直接記憶體傳輸,能有效繞過 CPU。此功能能讓 CPU 專注於應用程式的執行和資料處理,因此能顯著提升網路效能,特色在於降低延遲、減輕 CPU 負載和加大頻寬 - 皆可用符合成本效益的方式達成。RoCE 是一種特定的網路協定,有利於 RDMA 在乙太網路上運作。RoCE 可利用現有的乙太網路基礎架構,對於想要增進效能,但無法徹底改造當前網路設置的組織來說,是相當有吸引力的選項。

RoCE 的類型

RoCE 依據使用的網路配接器可分為兩個不同的版本:RoCE v1 和 RoCE v2。

  1. RoCE v1:此協定能讓位於同一個乙太網路廣播域 (VLAN) 中的兩台主機之間進行通訊。利用 Ethertype 0x8915 並將標準乙太網路訊框限制在 1500 位元組,同時讓乙太網路巨型訊框擴充到 9000 位元組。
  2. RoCE v2:為了因應 RoCE v1 的限制,RoCE v2 納入了 IP 和 UDP 標頭,藉此對數據封包進行增強。此修改能讓 RoCE v2 在 Layer 2 層 (數據鏈路層) 和 Layer 3 (網路層) 網路中順暢運作,因此可支援跨多重子網路的 Layer 3 路由和可擴充性。RoCE v2 通常稱為可路由 RoCE (RRoCE),更添加對 IP 多點傳播的支援,可進一步擴大適用性。

ERNIC IP:增強 RDMA 功能

ERNIC (具有嵌入式 RDMA 能力的 NIC) IP 是一種可自訂的乙太網路 RDMA 網路介面控制器 IP 核心,其設計可順利整合 AMD FPGA、MPSoC 和軟體式 MAC IP 實作。此解決方案的特色在於高吞吐量、低延遲以及可透過標準乙太網路達到全硬體卸載的可靠資料傳輸機制。iWave 以 100G 乙太網路解決方案的順利實作,展現其對技術進步的承諾。此成就是透過 iWave 的 Zynq UltraScale+ MPSoC 功能開發套件達成,其中整合了 AMD 的 ERNIC IP。

Zynq UltraScale+ MPSoC 開發套件專為 100G 乙太網路解決方案的原型設計與評估所打造,採用高速 QSFP-28 連接器。

示範配置

典型的示範配置 (圖 2) 包括:

iWave Zynq UltraScale+ MPSoC 開發套件的圖片圖 2:Zynq UltraScale+ MPSoC 開發套件的典型配置。(圖片來源:iWave)

系統架構概覽

此系統架構的設計能達到最佳化資料傳輸,並且將處理系統 (PS) 和可編程邏輯 (PL) 元件兩者的作用明確界定。此實作亦具有精確時間協定 (PTP) 同步功能,這對於即時應用來說相當關鍵。憑藉卓越的效能指標,例如能以每秒超過 100 畫格的速度處理 8K 視訊,其潛在應用涵蓋各個領域,包括資料中心、多媒體和高效能計算,一再凸顯此技術在現代運算環境中的多功能性和重要性。

圖 3 所示的高階系統架構就凸顯出 PS 和 PL 元件在 Zynq UltraScale+ MPSoC 中的不同作用。PS 具有 ARM Cortex-A53 架構的硬體式 SoC,這是系統配置、控制和診斷的必備要件。此架構的關鍵元件包括:

  • 100G 乙太網路 MAC 驅動程式:確保 100 Gb/s 的穩健效能和低延遲數據傳輸
  • ERNIC 控制器驅動程式:負責管理傳入 DDR 的數據,並透過高效的門鈴交換促進使用者應用程式和 ERNIC IP 之間的通訊
  • RDMA 核心和使用者空間函式庫:確保跨內核和使用者空間的 RDMA 運作達到相容性和最佳效能

iWave Zynq UltraScale+ MPSoC 中的處理系統和可編程邏輯元件圖片圖 3:重點說明 Zynq UltraScale+ MPSoC 中處理系統和可編程邏輯元件的不同作用。(圖片來源:iWave)

AMD ERNIC IP 能有效將 RoCE v2 堆疊的負載轉移到 FPGA,並由 ERNIC 控制器管理各個模組之間的握手,以利數據傳輸。可產生工作佇列項目並向 ERNIC IP 發送通知 (門鈴)。同時,Zynq UltraScale+ MPSoC 的 100G 乙太網路子系統會管理 MAC 和實體層,而資料模式產生器則會負責產生原始資料和視訊資料模式。

精確時間協定 (PTP)

PTP (IEEE 1588 標準) 的時間戳記在乙太網路上的跨系統時間同步化層面有關鍵作用。這個同步化對於增進即時應用程式的效能來說至關重要,可促成納秒等級的同步化、低延遲數據交換。

設置的關鍵要點

此設置的顯著特點包括:

  • 利用 AMD ERNIC IP 以 RoCE v2 實作 100G 乙太網路
  • 可靠的連接傳輸類型
  • 用於封包處理的 RDMA SEND、RDMA READ 和 RDMA WRITE 功能
  • 支援 RDMA Send with Immediate 和 RDMA Write with Immediate 訊息類型
  • 使用 XRPING 和 PERFTEST 應用程式對 RDMA 進行效能測試
  • 用於 RAW 和視訊資料模式的自訂資料模式產生器
  • 隨著資料一同插入 PTP 時間戳記

依據從 Zynq UltraScale+ MPSoC 開發套件到伺服器 PC 的視訊資料傳輸來看,其詳細的吞吐量統計數據展現出令人印象深刻的效能,更能處理超過 100 fps 的 8K 視訊和超過 400 fps 的 4K 視訊。

潛在應用

基於聚合乙太網路的 RDMA 和 ERNIC IP 兩者的整合為眾多產業開啟新契機,可在眾多應用中大幅增進連線、效能與效率,包括:

  • 資料中心和雲端運算:在雲端架構中促進高效的伺服器通訊並加速資料處理
  • 視訊/影像的擷取和傳輸:有利於多媒體應用、廣播和虛擬實境 (VR) 環境
  • 儲存解決方案:可在儲存裝置和伺服器之間促成更快速的資料傳輸,進而增進儲存系統效能
  • 高效能運算 (HPC):提高 HPC 叢集內的資料傳送速度並降低延遲,進而加快運算任務和模擬作業
  • IoT 邊緣裝置:能從感測器和裝置即時收集和傳輸資料

對更快、更高效的資料傳輸解決方案的需求不斷增長,基於聚合乙太網路的 RDMA 和 ERNIC IP 有望在未來的高效能運算中發揮關鍵作用。

結論

iWave 豐富的 FPGA 和 SoC FPGA 平台產品組合,搭配自家深厚的技術專業,就能讓客戶開發可運用人工智慧 (AI)、機器學習和邊緣運算領域最新進展的尖端產品。與 iWave 合作,企業就可加快產品開發速度、降低風險,並在日益複雜的技術環境中保持領先。

如需進一步資訊或要討論客製化要求,請透過 [email protected] 與我們聯繫

聲明:各作者及/或論壇參與者於本網站所發表之意見、理念和觀點,概不反映 DigiKey 的意見、理念和觀點,亦非 DigiKey 的正式原則。

關於作者

Image of Tawfeeq Ahmad

Tawfeeq Ahmad

Tawfeeq Ahmad 是 iWave Systems Technologies Pvt.Ltd. 的產品行銷主管。Tawfeeq 對電子產業懷有熱情,並熱衷於行銷和業務。力求協助全球企業組織透過 iWave 深厚的嵌入式專業,提升產品開發的開發循環及效率。Tawfeeq 持有電子與通訊工程學士和工商管理碩士學位,致力於擴充 iWave Systems,使其成為生產工程的全球領導組織。