如何快速設計和部署智慧機械視覺系統

作者:Jeff Shepard

資料提供者:DigiKey 北美編輯群

對機械視覺的需求在眾多應用中不斷增長,包括保全、交通和城市攝影機、零售分析、自動化檢驗、流程控制和視覺引導機器人。機械視覺的實作非常複雜,需要整合各種技術和子系統,包括高效能硬體和先進的人工智慧機器學習 (AI/ML) 軟體。首先會將視訊擷取技術和視覺 I/O 最佳化,以滿足應用需求,並且延伸到多個圖像處理管線達到有效的連接。最終還是要促進嵌入式視覺系統能夠運用高效能硬體,例如現場可編程閘陣列 (FPGA)、系統模組 (SOM)、系統單晶片 (SoC),甚至多處理器系統單晶片 (MPSoC),即時進行視覺式分析,以執行所需的 AI/ML 影像處理和辨識軟體。這可能是複雜、昂貴且耗時的過程,並且有許多費用超支和計劃延遲的機會。

設計人員無需從頭開始,可以轉向精心策劃的高效能開發平台,不僅可加快上市時間、控制成本並降低開發風險,同時還可支援高度的應用程式靈活性和效能。基於 SOM 的開發平台可以提供整合式軟硬體環境,以便開發人員專注於應用客製化,並節省長達九個月的開發時間。除開發環境外,同一個 SOM 架構也提供商業和工業環境用的生產最佳化配置,因此可增進應用可靠性和品質,進一步降低風險並加快上市時間。

本文首先會探討在開發高效能機械視覺系統時的相關難題,接著會說明 AMD XilinxKria KV260 視覺 AI 入門套件提供的全方位開發環境,最後再介紹基於 Kira 26 平台的生產就緒 SOM 範例,此設計可插入具有解決方案專屬周邊的載卡中。

首先從數據類型最佳化開始

深度學習演算法的需求不斷演進。並非每個應用都需要高精度計算。較低精度的數據類型,如 INT8 或自訂數據格式等,也有人使用。基於 GPU 的系統可能會面臨的難題在於,要試著修改架構,以達到高精度數據最佳化,藉此有效地適應低精度的數據格式。Kria K26 SOM 可以重新配置,即可支援從 FP32 到 INT8 在內的多種數據類型。此重新配置性亦可降低整體能耗。例如,針對 INT8 最佳化的運算會比 FP32 運算所消耗的能量少一個數量級 (圖 1)。

INT8 運算與 FP32 運算所需的能量示意圖圖 1:與 FP32 運算 (32b Add) 相比,INT8 運算 (8b Add) 所需的能量減少了一個數量級。(圖片來源: AMD Xilinx)

最佳架構可達到最低功耗

以多核心 GPU 或 CPU 架構實作的設計,依據典型電力使用模式,可能會相當耗電:

  • 30% 用於核心
  • 30% 用於內部記憶體 (L1、L2、L3)
  • 40% 用於外部記憶體 (如 DDR)

GPU 必須頻繁存取低效率的 DDR 記憶體來支援編程性,對於高頻寬運算需求來說會造成瓶頸。Kria K26 SOM 所用的 Zynq MPSoC 架構可支援開發僅需少許甚至不需存取外部記憶體的應用。舉例而言,在典型汽車應用中,GPU 和多種模組之間的通訊皆要多次存取外部 DDR 記憶體,但 Zynq MPSoC 架構的解決方案則含有一個管線,其設計就是用來避免絕大多數的 DDR 存取。

典型 SOC 與 AMD Xilinx Zynq MPSoC 的對照圖圖 2:在典型汽車應用中,GPU 需要多次存取 DDR 才能在眾多模塊之間進行通訊 (左圖),而 Zynq MPSoC 的管線架構 (右圖) 則可避免絕大多數的 DDR 存取。(圖片來源:AMD Xilinx)

修剪可享受優勢

K26 SOM 上的神經網路效能可以透過 AI 最佳化工具進行增強,即可促成數據最佳化與修剪。神經網路過度參數化相當常見,會導致高程度的冗餘,可以使用數據修剪和模型壓縮進行最佳化。使用 Xilinx 的 AI Optimizer 可將模型複雜性降低 50 倍,並對模型精度產生名義上的影響。例如,透過 AI Optimizer,單發偵測器 (SSD) 搭配 VGG 卷積神經網路 (CNN) 架構具有 117 十億次運算 (Gops),就可經過 11 次修剪疊代後達到精鍊。在最佳化之前,此模型在 Zynq UltraScale+ MPSoC 上運行速率為每秒 18 幀 (FPS)。經過 11 次疊代後 (模型運行第 12 次),複雜度從 117 Gops 降至 11.6 Gops (10 倍);效能從 18 FPS 提高到 103 FPS (5 倍);物件偵測的精度從 61.55 平均精度均值 (mAP) 降至 60.4 mAP (僅降低 1%) (圖 3)。

修剪的優勢示意圖圖 3:經過幾次疊代後,修剪可以將模型複雜性 (Gop) 降低 10 倍,並將效能 (FPS) 提高 5 倍,而精度 (mAP) 僅降低 1%。(圖片來源:AMD Xilinx)

實際應用範例

用於車牌偵測和辨識的機器學習應用,也稱為自動車牌辨識 (ANPR),是基於 Uncanny Vision 的視覺分析軟體而開發。ANPR 可用於自動收費系統、高速公路監測、安全門和停車場進出以及其他應用。此 ANPR 應用包含一個基於 AI 的管線,可解碼視訊並預先處理影像,接著會進行 ML 偵測和 OCR 字元辨識 (圖 4)。

基於 AI 的 ANPR 應用的典型影像處理流程圖 (按此放大)圖 4:基於 AI 的 ANPR 應用典型影像處理流程。(圖片來源:AMD Xilinx)

要實作 ANPR 需要一個或多個 H.264 或 H.265 編碼的即時串流協定 (RTSP) 源,且需經過解碼或未經壓縮。解碼後的視訊畫格會進行縮放、裁剪、色域轉換和正規化 (預處理),然後發送到 ML 偵測演算法。高效能 ANPR 的實作需要多階 AI 管線。第一階段會偵測並定位影像中的車輛,並且建立感興趣區域 (ROI)。同時,其他演算法會將畫質最佳化,以利後續進行 OCR 字元辨識演算法,並且追蹤車輛在多重畫格中的運動。車輛 ROI 會進一步裁剪以產生車牌 ROI (由 OCR 演算法處理),藉此判定車牌中的字元。與其他基於 GPU 或 CPU 的商用 SOM 相比,Uncanny Vision 的 ANPR 應用在 Kira KV260 SOM 上的運行速度提高 2 至 3 倍,每個 RTSP 源的成本不到 100 美元。

智慧視覺開發環境

交通和城市攝影機、零售分析、保全、工業自動化和機器人等智慧視覺應用的設計人員,可以轉用 Kria K26 SOM AI Starter 開發環境。此環境是使用 Zynq® UltraScale+ ™ MPSoC 架構打造,並且具有不斷擴充的精選應用軟體套裝 (圖 5)。AI Starter SOM 含有一個四核心 Arm Cortex-A53 處理器、超過 25 萬個邏輯單元,以及一個 H.264/265 視訊編解碼器。此 SOM 還具有 4 GB DDR4 記憶體、245 個 IO 和 1.4 tera-Ops 的 AI 運算能力,可支援建立高效能的視覺 AI 應用,與其他硬體作法相比,能以較低延遲與功耗提供提升 3 倍的效能。預先建構的應用能讓初始設計在不到一個小時內就可運行。

AMD Xilinx Kria KV260 視覺 AI 入門套件圖片圖 5:Kria KV260 視覺 AI 入門套件是適合機械視覺應用的完善開發環境。(圖片來源:AMD Xilinx)

為了協助利用 Kria K26 SOM 快速開始進行開發,AMD Xilinx 提供 KV260 視覺 AI 入門套件,其中含有電源配接器、乙太網路纜線、microSD 卡、USB 纜線、HDMI 纜線和攝影機模組 (圖 6)。如果不需要整個入門套件,開發人員可以單純購買選配的電源配接器,即可開始使用 Kira K26 SOM。

AMD Xilinx KV260 視覺 AI 入門套件圖片圖 6:KV260 視覺 AI 入門套件包括:(上排,從左至右) 電源、乙太網路纜線、microSD 卡;(下排,從左至右) USB 纜線、HDMI 纜線、攝影機模組。(圖片:AMD Xilinx)

加速開發的另一個因素是具有全方位功能,包括豐富的 1.8 V、3.3 V 單端和差動 I/O,更搭配四個 6 Gb/s 收發器和四個 12.5 Gb/s 收發器。藉由這些特點,就可開發每個 SOM 具有更多影像感測器的應用,還可搭配多種感測器介面,例如 MIPI、LVDS、SLVS 和 SLVS-EC,這些在應用專屬標準產品 (ASSP) 或 GPU 上並非都有支援。開發人員還可利用嵌入式可編程邏輯實作 DisplayPort、HDMI、PCIe、USB2.0/3.0 和使用者定義的標準。

最後,只要將 K26 SOM 將豐富的硬體功能與軟體環境配上生產就緒的視覺應用,就可簡化 AI 應用的開發,並且更平易近人。這些視覺應用無需 FPGA 硬體設計即可實作,因此軟體開發人員可迅速整合客製化的 AI 模型和應用程式碼,甚至修改視覺管線。Xilinx 的 Vitis 統一軟體開發平台和函式庫可支援常見的設計環境,例如 TensorFlow、Pytorch 和 Café 框架,以及多種程式設計語言,包括 C、C++、OpenCL™ 和 Python。此外,還有一個嵌入式應用程式商店,可用於採用 Xilinx 及其生態系統合作夥伴推出之 Kria SOM 的邊緣應用。Xilinx 的這些項目接免費提供且開源,並含有智慧相機追蹤和人臉偵測、利用智慧視覺的自然語言處理等等。

生產最佳化的 Kira 26 SOM

開發流程完成後,可選用生產就緒的 K26 SOM 版本,即可插入到具有解決方案專屬周邊的載卡,以加快導入製造的過渡期 (圖7)。基本的 K26 SOM 是一款商用級裝置,其額定接面溫度為 0°C 至 +85°C,會由內部溫度感測器測量。此外,也有提供額定工作溫度介於 -40°C 至 +100°C 的 K26 SOM 工業級版本

工業市場對於惡劣環境中要求具有較長的使用壽命。工業級 Kria SOM 的設計可在 100°C 接面溫度和 80% 相對濕度下運行 10 年,並可承受高達 40 g 的衝擊和 5 g 的均方根 (RMS) 振動。還具有至少十年的產品供貨能力,以支援較長的產品生命週期。

生產最佳化的 Xilinx Kira 26 SOM 圖片圖 7:適用於工業和商業環境的生產最佳化 Kira 26 SOM,可插入到搭載解決方案專屬周邊的載卡。(圖片: DigiKey)

總結

保全、交通和城市攝影機、零售分析、自動化檢驗、流程控制和視覺引導機器人等機械視覺應用的設計人員,可以轉用 Kria K26 SOM AI Starter,以加快產品上市時間,可協助控制成本並降低開發風險。這個基於 SOM 的開發平台屬於整合式硬體和軟體環境,能讓開發人員專注在應用客製化,並節省長達九個月的開發時間。相同的 SOM 架構也提供適合商業和工業環境的生產最佳化配置,可進一步加快產品上市。工業版的產品供貨能力至少為 10 年,可支援較長的產品生命週期。

DigiKey logo

聲明:各作者及/或論壇參與者於本網站所發表之意見、理念和觀點,概不反映 DigiKey 的意見、理念和觀點,亦非 DigiKey 的正式原則。

關於作者

Image of Jeff Shepard

Jeff Shepard

Jeff 過去 30 多年來不斷撰寫與電力電子、電子元件和其他技術主題有關的文章。他在 EETimes 擔任資深編輯時,開始編寫有關電力電子領域的文章。他之後創立專門報導電子設計的《Powertechniques》雜誌,接著更成立一家全球性的電力電子研究與出版公司 Darnell Group。Darnell Group 的業務範疇包括 PowerPulse.net 的發行,每天為全球電力電子工程社群提供最新消息。他也是切換式電源供應器教科書《Power Supplies》的作者,此書由 Reston division of Prentice Hall 出版。

Jeff 也是 Jeta Power Systems 的共同創辦人,該公司專門製造高功率切換式電源供應器,目前已由 Computer Products 併購。Jeff 也是發明家,在熱能採集與光學多重材料上擁有 17 項美國專利,也經常針對全球的電力電子趨勢提供產業消息並發表演講。他擁有加州大學定量方法和數學碩士學位。

關於出版者

DigiKey 北美編輯群