英特爾標誌

採用 Intel Arria 872 GX FPGA 的 AN 10 可程式加速卡

AN 872-可程式加速卡-Intel-Arria-10-GX-FPGA-產品

介紹

關於本文檔

本文檔提供了在目標伺服器平台中使用英特爾® 可程式加速卡和英特爾 Arria® 10 GX FPGA 來估計和驗證 AFU 設計的功耗和熱性能的方法。

電源規格

板管理控制器監控和管理英特爾 FPGA PAC 上的熱和電源事件。當電路板或 FPGA 過熱或消耗過多電流時,電路板管理控制器會關閉 FPGA 電源以進行保護。隨後,它還會中斷 PCIe 鏈路,這可能會導致意外的系統崩潰。有關觸發板關閉的條件的更多詳細信息,請參閱自動關閉。在正常情況下,FPGA 溫度和功耗是迄今為止停機的主要原因。為了最大限度地減少停機時間並確保系統穩定性,英特爾建議主機板總功率不超過 66 W,FPGA 功率不超過 45 W。因此,標稱值低於限制,以確保電路板不會在工作負載和入口溫度變化的系統中隨機關閉。

電源規格

 

系統

主機板總功率(瓦)  

FPGA 功耗(瓦)

具有 FPGA 介面管理器 (FIM) 和 AFU 的系統,可在 15°C 的核心溫度下以最壞情況的節流工作負載運行至少 95 分鐘。  

66

 

45

主機板總功率取決於您的加速器功能單元 (AFU) 設計(邏輯切換的數量和頻率)、入口溫度、系統溫度以及英特爾 FPGA PAC 目標插槽的氣流。為了管理這種變化,英特爾建議您滿足此電源規格,以防止主機板管理控制器關閉電源。

相關資訊

自動關機。

先決條件

伺服器原始設備製造商 (OEM) 必須驗證連接到目標伺服器平台中 PCIe 插槽的每個英特爾 FPGA PAC 是否能夠保持在熱限制範圍內,即使主機板消耗最大允許功率 (66 W) 也是如此。如需了解更多信息,請參閱採用英特爾 Arria 10 GX FPGA 的英特爾 PAC 平台資格指南(1)。

工具要求

您必須擁有以下工具來估計和評估功率和熱性能。

  • 軟體:
    • 英特爾加速堆疊開發
    • BW工具包
    • AFU設計(2)
    • Tcl 腳本(下載)- 需要格式化編程 file 用於分析
    • Intel Arria 10 裝置的早期功耗估算器
    • 英特爾 FPGA PAC 功耗估算表(下載)
  • 硬體:
    • 英特爾 FPGA PAC
    • Micro-USB 電纜(3)
    • 英特爾 FPGA PAC 目標伺服器(4)

英特爾建議您依照《適用於採用英特爾 Arria 10 GX FPGA 的英特爾可程式加速卡的英特爾加速堆疊快速入門指南》進行軟體安裝。

相關資訊

適用於採用英特爾 Arria 10 GX FPGA 的英特爾可程式加速卡的英特爾加速堆疊快速入門指南。

  1. 請聯絡您的英特爾支援代表以存取此文件。
  2. build_synth 目錄是在編譯 AFU 後建立的。
  3. 在加速堆疊 1.2 中,板級監控是透過 PCIe 執行的。
  4. 確保您的 OEM 已根據您的英特爾 FPGA PAC 平台資格指南驗證了目標 PCIe 插槽。

使用董事會管理控制器

自動關機

板管理控制器監視和控制重置、不同電源軌、FPGA 和板溫度。當主機板管理控制器偵測到可能損壞主機板的情況時,它會自動關閉主機板電源以進行保護。

筆記: 當 FPGA 斷電時,英特爾 FPGA PAC 與主機之間的 PCIe 連結將會關閉。在許多系統中,PCIe 連結斷開可能會導致系統崩潰。

自動關閉標準

下表列出了板管理控制器關閉板電源的標準。

範圍 閾值限制
電路板電源 66瓦
12v 背板電流 6安
12v 背板捲tage 14V
1.2V電流 16安
1.2v 音量tage 1.4V
1.8V電流 8安
1.8v 音量tage 2.04V
3.3V電流 8安
3.3v 音量tage 3.96V
FPGA核心卷tage 1.08V
FPGA核心電流 60安
FPGA核心溫度 100℃
核心供電溫度 120℃
板溫 80℃
QSFP 溫度 90℃
QSFP 卷tage 3.7V

自動關機後恢復

主機板管理控制器保持電源關閉,直到下一個電源週期。因此,當英特爾 FPGA PAC 卡電源關閉時,您必須重新啟動伺服器以恢復對英特爾 FPGA PAC 的供電。

斷電的常見原因是 FPGA 過熱(當內核溫度超過 100°C 時),或 FPGA 消耗過多電流。當 AFU 設計超過英特爾 FPGA PAC 定義的功率範圍或氣流不足時,通常會發生這種情況。在這種情況下,您必須降低 AFU 中的功耗。

使用 OPAE 監控板載感測器

使用 fpgainfo 命令列程式從主機板管理控制器收集溫度和功率感測器資料。您可以將此程式與 Acceleration Stack 1.2 及更高版本一起使用。對於 Acceleration Stack 1.1 或更早版本,請使用下一節所述的 BWMonitor 工具。

收集溫度數據:

  • bash-4.2$ fpgainfo 溫度

Samp文件輸出

AN 872 可程式加速卡 -Intel-Arria-10-GX-FPGA-fig-2

收集電力數據

  • bash-4.2$ fpgainfo 電源

Samp文件輸出

AN 872 可程式加速卡 -Intel-Arria-10-GX-FPGA-fig-4AN 872 可程式加速卡 -Intel-Arria-10-GX-FPGA-fig-5

使用 BWMonitor 監控板載感測器

  • BWMonitor 是一款 BittWare 工具,可讓您測量 FPGA/板溫度、體積tage 和電流。

先決條件: 您必須在 Intel FPGA PAC 和伺服器之間安裝 micro-USB 纜線。

  1. 安裝適當的 BittWorks II Toolkit-Lite 軟體、韌體和開機載入程式。

作業系統相容的 BittWorks II ToolkitLite 版本

作業系統 發布 BittWorks II 工具包-精簡版 安裝命令
CentOS 7.4/RHEL 7.4 2018.6 企業 Linux 7(64 位元) bw2tk-

lite-2018.6.el7.x86_64.rpm

sudo yum install bw2tk-\ lite-2018.6.el7.x86_64.rpm
烏班圖16.04 2018.6 Ubuntu 16.04(64位元) bw2tk-

lite-2018.6.u1604.amd64.deb

sudo dpkg -i bw2tk-\ 2018.6.u1604.amd64.deb

請參閱入門 web下載BMC韌體和工具的頁面

  • BMC韌體版本:26889
  • BMC 開機載入程式版本:26879

儲存 files 到主機上的已知位置。以下腳本提示輸入此位置。

將 Bittware 工具加入 PATH:

  • 導出 PATH=/opt/bwtk/2018.6.0L/bin/:$PATH

您可以使用以下命令啟動 BWMonitor

  • /opt/bwtk/2018.6L/bin/bwmonitor-gui&

Samp測量值

AN 872 可程式加速卡 -Intel-Arria-10-GX-FPGA-fig-10

AFU 設計功率驗證

功率測量流程

若要評估 AFU 設計的功能,請擷取以下指標:

  • 電路板總功耗和 FPGA 溫度
    • (在您的設計上運行最壞情況資料模式 15 分鐘後)
  • 靜態功率和溫度
    • (採用靜態功率測量設計)
  • 最壞情況靜態功率
    • (使用 Intel Arria 10 裝置的 Early Power Estimator 預測值)

然後,使用英特爾 FPGA PAC 功耗估算表(下載)以及這些記錄的指標來驗證您的 AFU 設計是否符合規格。

測量主機板總功率

請依照以下步驟操作

  1. 將具有 Intel Arria 10 GX FPGA 的 Intel PAC 安裝到伺服器中合格的 PCIe 插槽中。如果您使用 BWMonitor 進行測量,請將 Micro-USB 連接線從卡片背面連接到伺服器的任何 USB 連接埠。
  2. 加載 AFU 並以其最大功率運行。
    • 如果 AFU 使用以太網,請確保網路電纜或模組已插入並連接到連結夥伴,並且 AFU 中的網路流量已開啟。
    • 如果合適,請連續運行 DMA 以鍛鍊板載 DDR4。
    • 在主機上運行您的應用程序,為 AFU 提供最壞情況下的流量並充分利用 FPGA。確保您對 FPGA 施加壓力最大的資料流量。運行此步驟至少 15 分鐘,以使 FPGA 核心溫度穩定下來。
      • 筆記: 在測試期間,監控板總功率、FPGA 功率和 FPGA 核心溫度值,以確保它們保持在規格範圍內。如果達到 66 W、45 W 或 100°C 限制,請立即停止測試。
  3. 待FPGA核心溫度穩定後,使用fpgainfo程式或BWMonitor工具記錄板子總功耗和FPGA核心溫度。在「步驟 1:Intel FPGA PAC 功耗估算表的總電路板功耗測量」行中輸入這些值。

英特爾 FPGA PAC 功耗估算器表 Sample

AN 872 可程式加速卡 -Intel-Arria-10-GX-FPGA-fig-11

測量實際靜態功率

漏電流是板間耗電量變化的主要原因。上述部分的功率測量包括漏電流所造成的功率(靜態功率)和 AFU 邏輯所造成的功率(動態功率)。在本節中,您將測量被測板的靜態功耗,以了解動態功耗。

在測量FPGA靜態功耗之前,使用disable-gpio-input-bufferintelpac-arria10-gx.tcl腳本(下載)來處理FPGA編程 file, (*.sof file)其中包含 FIM 和 AFU 設計。 tcl 腳本會停用所有 FPGA 輸入引腳,以確保 FPGA 內部沒有切換(這表示沒有動態電源)。請參閱最小流量Examp編譯為amp勒阿福。生成的*.sof file 位於:

  • cd $OPAE_PLATFORM_ROOT/hw/samp萊斯/ $ OPAE_PLATFORM_ROOT/hw/samp萊斯/構建_合成/構建/輸出_files/afu_*.sof

您必須將disable-gpio-input-buffer-intel-pac-arria10-gx.tcl儲存在上述目錄中,然後執行下列命令

  • # quartus_asm -t 停用-gpio-input-buffer-intel-pac-arria10-gx.tclafu_*.sof
Samp文件輸出

資訊: ************************************************** ******** ****************** 資訊:
運行 Quartus Prime 組譯程序
資訊: 版本 17.1.1 Build 273 12/19/2017 SJ 專業版
資訊: 版權所有 (C) 2017 英特爾公司。版權所有。資訊:您的用途
英特爾公司的設計工具、邏輯功能資訊:以及其他軟體和工具及其 AMPP 夥伴邏輯資訊:功能與任何輸出 file來自任何上述資訊:(包括設備編程或模擬 files) 以及任何 Info: 相關文件或資訊明確受 Intel 程式授權 Info: 訂閱協議、Intel Quartus Prime 授權協議、Info: 的條款與條件約束

AN 872 可程式加速卡 -Intel-Arria-10-GX-FPGA-fig-15

成功執行 tcl 腳本後,afu_*.sof file 已更新並準備好進行 FPGA 程式設計。

請依照以下步驟測量實際靜態功率

  1. 使用英特爾 Quartus® Prime 編程器對 *.sof 進行編程 file。如需詳細步驟,請參閱第 12 頁的使用 Intel Quartus Prime Programmer。
  2. 監控 FPGA 核心溫度、voltage,目前使用 BWMonitor 工具。在英特爾 FPGA PAC 功耗估算表的「步驟 2:FPGA 核心靜態功耗測量」行中輸入這些值。

相關資訊

  • 適用於採用英特爾 Arria 10 GX FPGA 的英特爾可程式加速卡的英特爾加速堆疊快速入門指南
  • 使用 BWMonitor 監控板載感測器。

使用 Intel Quartus Prime 程式設計器

您必須在英特爾 FPGA PAC 和伺服器之間連接 micro USB 纜線才能執行下列步驟:

  1. 尋找 Intel FPGA PAC 卡的根連接埠和端點: $ lspci -tv | grep 09c4

Examp檔案輸出 1 顯示根埠為 d7:0.0,端點為 d8:0.0

  • -+-[0000:d7]-+-00.0-[d8]—-00.0 英特爾公司設備 09c4

Examp檔案輸出 2 顯示根埠為 0:1.0,端點為 3:0.0

  • +-01.0-[03]—-00.0 英特爾公司設備 09c4

Examp檔案輸出 3 顯示根埠為 85:2.0,端點為 86:0.0,

  • +-[0000:85]-+-02.0-[86]—-00.0 英特爾公司設備 09c4

筆記: 無輸出表示 PCIe* 裝置枚舉失敗且快閃記憶體未編程。

  • #屏蔽FPGA的不可糾正錯誤和可糾正錯誤
    • $ sudo setpci -s d8:0.0 ECAP_AER+0x08.L=0xFFFFFFFF
    • $ sudo setpci -s d8:0.0 ECAP_AER+0x14.L=0xFFFFFFFF
  • # 屏蔽RP的不可糾正錯誤和屏蔽可糾正錯誤
    • $ sudo setpci -s d7:0.0 ECAP_AER+0x08.L=0xFFFFFFFF
    • $ sudo setpci -s d7:0.0 ECAP_AER+0x14.L=0xFFFFFFFF

執行以下 Intel Quartus Prime Programmer 指令:

  • sudo $QUARTUS_HOME/bin/quartus_pgm -m JTAG -o 'pvbi;afu_*.sof'

AN 872 可程式加速卡 -Intel-Arria-10-GX-FPGA-fig-16 AN 872 可程式加速卡 -Intel-Arria-10-GX-FPGA-fig-17

  1. 若要取消封鎖不可修正的錯誤並封鎖可修正的錯誤,請執行下列指令
    • # 揭露 FPGA 不可修正的錯誤並屏蔽可修正的錯誤
      • $ sudo setpci -s d8:0.0 ECAP_AER+0x08.L=0x00000000
      • $ sudo setpci -s d8:0.0 ECAP_AER+0x14.L=0x00000000
    • # 取消屏蔽 RP 的不可糾正錯誤並屏蔽可糾正錯誤:
      • $ sudo setpci -s d7:0.0 ECAP_AER+0x08.L=0x00000000
      • $ sudo setpci -s d7:0.0 ECAP_AER+0x14.L=0x00000000
  2. 重新啟動。

相關資訊

適用於採用英特爾 Arria 10 GX FPGA 的英特爾可程式加速卡的英特爾加速堆疊快速入門指南

估計最壞情況的核心靜態功耗

請依照以下步驟估計最壞情況下的靜態功率

  1. 請參閱最小流量Examp編譯為ample AFU 位於:
    • /硬體/秒amp萊斯/ /
  2. 在 Intel Quartus Prime Pro Edition 軟件中,點擊 File > 開啟專案並選擇您的 .qpf file 從下列路徑開啟AFU綜合項目:
    • /硬體/秒amp萊斯/ /build_synth/構建
  3. 點選項目 > 產生 EPE File 建立所需的 .csv file.
    • 步驟2 插圖AN-872 -加速卡,附 Intel-Arria-10-GX-FPGA-fig-1
  4. 開啟 Early Power Estimator 工具(5) 並點選匯入 CSV 圖示。選擇上面產生的.csv file.
    • 筆記: 您可以在匯入 .csv 時忽略警告 file.
  5. 輸入參數自動填寫。
  • 將值變更為使用者在結點溫度中輸入的值。 TJ場。並設定結點溫度。 TJ (°C) 場至 95
  • 將功率特性欄位從典型更改為最大值。
  • 在 EPE 工具中,PSTATIC 是總靜態功率(以瓦為單位)。您可以從「報告」標籤計算最壞情況的核心靜態功率

EPE 工具 Samp輸出

AN-872 -加速卡,附 Intel-Arria-10-GX-FPGA-fig-2

報告選項卡

AN-872 -加速卡,附 Intel-Arria-10-GX-FPGA-fig-3

在前amp如上所示,總的 FPGA 內核靜態電流是 0.9V 時所有靜態電流和待機電流(VCC、VCCP、VCCERAM)的總和。在英特爾 FPGA PAC 功耗估算表的「步驟 3:來自 EPE 的最差靜態功耗」行中輸入這些值。觀察計算輸出行以了解 AFU 的最大功耗。

採用英特爾 Arria 10 GX FPGA 的英特爾 PAC 熱和功耗指南的文檔修訂歷史

檔案版本 變化
2019.08.30 初次發布。

英特爾公司。 版權所有。 英特爾、英特爾標識和其他英特爾標誌是英特爾公司或其子公司的商標。 英特爾根據英特爾的標准保證保證其 FPGA 和半導體產品的性能符合當前規格,但保留隨時更改任何產品和服務的權利,恕不另行通知。 除非英特爾明確書面同意,否則英特爾不承擔因應用或使用此處描述的任何信息、產品或服務而產生的任何責任或義務。 建議英特爾客戶在依賴任何已發布的信息以及為產品或服務下訂單之前獲取最新版本的設備規格。

其他名稱和品牌可能被聲稱為其他人的財產。

國際標準化組織

  • 9001:2015
    掛號的

ID: 683795
版本: 2019.08.30

文件/資源

採用英特爾 Arria 872 GX FPGA 的英特爾 AN 10 可程式加速卡 [pdf] 使用者指南
採用英特爾 Arria 872 GX FPGA 的 AN 10 可程式加速卡,AN 872,採用英特爾 Arria 10 GX FPGA 的可程式加速卡

參考

發表評論

您的電子郵件地址不會被公開。 必填欄位已標記 *