AN 872 プログラマブル アクセラレーション カード、Intel Arria 10 GX FPGA 搭載
導入
この文書について
このドキュメントでは、ターゲット サーバー プラットフォームでインテル® Arria® 10 GX FPGA を搭載したインテル® プログラマブル アクセラレーション カードを使用して、AFU 設計の電力および熱性能を推定および検証する方法を提供します。
電力仕様
ボード管理コントローラーは、インテル FPGA PAC の温度および電力イベントを監視および管理します。 ボードまたは FPGA が過熱している、または過剰な電流が流れている場合、ボード管理コントローラーは保護のために FPGA の電源をシャットダウンします。 その後、PCIe リンクもダウンし、予期しないシステム クラッシュが発生する可能性があります。 ボードのシャットダウンをトリガーする条件の詳細については、自動シャットダウンを参照してください。 通常、FPGA の温度と電力がシャットダウンの主な原因です。 ダウンタイムを最小限に抑え、システムの安定性を確保するために、インテルでは、ボードの合計電力が 66 W を超えず、FPGA の電力が 45 W を超えないようにすることを推奨しています。個々のコンポーネントとボード アセンブリには、電力の変動性があります。 したがって、ワークロードと吸気温度が変化するシステムでボードがランダムにシャットダウンしないように、公称値は制限よりも低く設定されています。
電力仕様
システム |
総ボード電力 (ワット) |
FPGA 電力 (ワット) |
FPGA インターフェイス マネージャー (FIM) と AFU を備えたシステムで、コア温度 15°C で最低 95 分間、最悪のスロットリング ワークロードで動作します。 |
66 |
45 |
ボードの合計電力は、アクセラレーター機能ユニット (AFU) の設計 (ロジックのトグルの量と頻度)、インレット温度、システム温度、インテル FPGA PAC のターゲットスロットのエアフローによって異なります。 この変動性を管理するために、インテルは、ボード管理コントローラーによる電源シャットダウンを防ぐために、この電源仕様を満たすことをお勧めします。
関連情報
自動シャットダウン。
前提条件
サーバーの相手先商標製造会社 (OEM) は、ボードが最大許容電力 (66 W) を消費する場合でも、ターゲット サーバー プラットフォームの PCIe スロットに接続する各インテル FPGA PAC が温度制限内に収まることを検証する必要があります。 詳細については、Intel PAC with Intel Arria 10 GX FPGA Platform Qualification Guidelines(1) を参照してください。
ツール要件
電力および熱性能を推定および評価するには、次のツールが必要です。
- ソフトウェア:
- 開発用インテル アクセラレーション スタック
- BWツールキット
- AFUデザイン(2)
- Tcl スクリプト (ダウンロード) – プログラミングのフォーマットに必要 file 分析用
- インテル Arria 10 デバイスの Early Power Estimator
- Intel FPGA PAC Power Estimator シート (ダウンロード)
- ハードウェア:
- インテル FPGA PAC
- マイクロ USB ケーブル(3)
- インテル FPGA PAC のターゲット サーバー(4)
インテルは、インテル Arria 10 GX FPGA を搭載したインテル プログラマブル アクセラレーション カードのインテル アクセラレーション スタック クイック スタート ガイドに従ってソフトウェアをインストールすることをお勧めします。
関連情報
インテル Arria 10 GX FPGA を搭載したインテル プログラマブル アクセラレーション カードのインテル アクセラレーション スタック クイック スタート ガイド。
- このドキュメントにアクセスするには、インテルのサポート担当者にお問い合わせください。
- build_synth ディレクトリは、AFU をコンパイルした後に作成されます。
- Acceleration Stack 1.2 では、ボードの監視は PCIe 経由で実行されます。
- インテル FPGA PAC のプラットフォーム認定ガイドラインに従って、OEM が対象の PCIe スロットを検証していることを確認してください。
ボード管理コントローラーの使用
自動シャットダウン
ボード管理コントローラーは、リセット、さまざまな電源レール、FPGA およびボードの温度を監視および制御します。 ボード管理コントローラーは、ボードに損傷を与える可能性のある状態を感知すると、保護のためにボードの電源を自動的にシャットダウンします。
注記: FPGA の電源が失われると、Intel FPGA PAC とホストの間の PCIe リンクがダウンします。 多くのシステムでは、PCIe リンクダウンが原因でシステム クラッシュが発生する場合があります。
自動シャットダウン基準
次の表に、ボード管理コントローラーがボードの電源をシャットダウンする基準を示します。
パラメータ | しきい値制限 |
ボード電源 | 66ワット |
12v バックプレーン電流 | 6A |
12v バックプレーン ボリュームtage | 14ボルト |
1.2v電流 | 16A |
1.2v ボリュームtage | 1.4ボルト |
1.8v電流 | 8A |
1.8v ボリュームtage | 2.04ボルト |
3.3v電流 | 8A |
3.3v ボリュームtage | 3.96ボルト |
FPGA コア ボリュームtage | 1.08ボルト |
FPGA コア電流 | 60A |
FPGA コア温度 | 100℃ |
コア供給温度 | 120℃ |
ボード温度 | 80℃ |
QSFP 温度 | 90℃ |
QSFP ボリュームtage | 3.7ボルト |
自動シャットダウン後の回復
ボード管理コントローラーは、次の電源サイクルまで電源をオフにします。 したがって、Intel FPGA PAC カードの電源がシャットダウンされた場合は、サーバーの電源を入れ直して Intel FPGA PAC に電源を戻す必要があります。
電源シャットダウンの一般的な原因は、FPGA の過熱 (コア温度が 100°C を超える場合)、または FPGA が過剰な電流を消費することです。 これは通常、AFU 設計がインテル FPGA PAC で定義された電力エンベロープを超えているか、エアフローが不十分な場合に発生します。 この場合、AFU の消費電力を削減する必要があります。
OPAE を使用したオンボード センサーの監視
fpgainfo コマンド ライン プログラムを使用して、ボード管理コントローラーから温度および電力センサー データを収集します。 このプログラムは、Acceleration Stack 1.2 以降で使用できます。 Acceleration Stack 1.1 以前の場合は、次のセクションで説明するように BWMonitor ツールを使用します。
温度データを収集するには:
- bash-4.2$ fpgainfo 温度
Sampファイル出力
電力データを収集するには
- bash-4.2$ fpgainfo パワー
Sampファイル出力
BWMonitor を使用したオンボード センサーの監視
- BWMonitor は、FPGA/ボードの温度を測定できる BittWare ツールです。tage、そして現在。
前提条件: Intel FPGA PAC とサーバーの間に micro-USB ケーブルを取り付ける必要があります。
- 適切な BittWorks II Toolkit-Lite ソフトウェア、ファームウェア、およびブートローダーをインストールします。
OS互換のBittWorks II ToolkitLiteバージョン
オペレーティング·システム | リリース | BittWorks II Toolkit-Lite バージョン | インストール コマンド | |
CentOS 7.4/RHEL 7.4 | 2018.6 エンタープライズ Linux 7 (64 ビット) | bw2tk-
lite-2018.6.el7.x86_64.rpm |
||
sudo yum install bw2tk-\ lite-2018.6.el7.x86_64.rpm | ||||
ウブントゥ 16.04 | 2018.6 Ubuntu 16.04 (64 ビット) | bw2tk-
lite-2018.6.u1604.amd64.deb |
||
須藤 dpkg -i bw2tk-\ 2018.6.u1604.amd64.deb |
はじめにを参照してください webBMC ファームウェアとツールをダウンロードするページ
- BMC ファームウェア バージョン: 26889
- BMC ブートローダーのバージョン: 26879
保存する files ホスト マシン上の既知の場所に移動します。 次のスクリプトは、この場所を要求します。
Bittware ツールを PATH に追加します。
- エクスポート PATH=/opt/bwtk/2018.6.0L/bin/:$PATH
を使用して BWMonitor を起動できます。
- /opt/bwtk/2018.6L/bin/bwmonitor-gui&
Sampル測定
AFU 設計電力検証
電力測定の流れ
AFU 設計の電力を評価するには、次の指標を取得します。
- 総ボード電力と FPGA 温度
- (デザインでワースト ケースのデータ パターンを 15 分間実行した後)
- 静的電力と温度
- (静的電力測定設計を使用)
- 最悪の場合の静的消費電力
- (インテル Arria 10 デバイスの Early Power Estimator を使用した予測値)
次に、Intel FPGA PAC Power Estimator Sheet (ダウンロード) とこれらの記録されたメトリクスを使用して、AFU デザインが仕様を満たしているかどうかを確認してください。
総ボード電力の測定
以下の手順に従ってください
- インテル Arria 10 GX FPGA を搭載したインテル PAC をサーバーの認定 PCIe スロットに取り付けます。 測定に BWMonitor を使用している場合は、Micro-USB ケーブルをカードの背面からサーバーの任意の USB ポートに接続します。
- AFU をロードし、最大パワーで実行します。
- AFU がイーサネットを使用する場合は、ネットワーク ケーブルまたはモジュールが挿入され、リンク パートナーに接続され、AFU でネットワーク トラフィックがオンになっていることを確認します。
- 必要に応じて、DMA を継続的に実行して、オンボード DDR4 を実行します。
- ホスト上でアプリケーションを実行して、最悪の場合のトラフィックを AFU に供給し、FPGA を完全に実行します。 最もストレスの多いデータ トラフィックで FPGA に負荷をかけるようにしてください。 このステップを少なくとも 15 分間実行して、FPGA コアの温度が安定するようにします。
- 注記: テスト中は、ボードの合計電力、FPGA 電力、および FPGA コアの温度値を監視して、それらが仕様内に収まっていることを確認してください。 66 W、45 W、または 100°C の限界に達した場合は、すぐにテストを中止してください。
- FPGA コアの温度が安定したら、fpgainfo プログラムまたは BWMonitor ツールを使用して、ボードの合計電力と FPGA コアの温度を記録します。 これらの値を行に入力します ステップ 1: Intel FPGA PAC Power Estimator Sheet の合計ボード消費電力測定。
Intel FPGA PAC Power Estimator シート Sample
実際の静的電力の測定
リーク電流は、ボード間の消費電力のばらつきの主な原因です。 上記のセクションの電力測定値には、リーク電流による電力 (静的電力) と AFU ロジックによる電力 (動的電力) が含まれます。 このセクションでは、動的電力を理解するために、テスト対象ボードの静的電力を測定します。
FPGA スタティック消費電力を測定する前に、disable-gpio-input-bufferintelpac-arria10-gx.tcl スクリプト (ダウンロード) を使用して FPGA プログラミングを処理します。 file、(*.sof file) FIM と AFU の設計が含まれています。 Tcl スクリプトは、すべての FPGA 入力ピンを無効にして、FPGA 内部でトグルが発生しないようにします (つまり、ダイナミック パワーがないことを意味します)。 最小フロー Ex を参照してください。ampとしてコンパイルするファイルampルAFU。 生成された *.sof file は次の場所にあります:
- cd $OPAE_PLATFORM_ROOT/hw/sampレ/ $ OPAE_PLATFORM_ROOT/ハードウェア/秒ampレ/ build_synth/build/output_files/afu_*.sof
上記のディレクトリに disable-gpio-input-buffer-intel-pac-arria10-gx.tcl を保存してから、次のコマンドを実行する必要があります。
- # quartus_asm -t disable-gpio-input-buffer-intel-pac-arria10-gx.tclafu_*.sof
Sampファイル出力
情報: ****************************************************** ***************** 情報:
Quartus Prime アセンブラーの実行
情報: バージョン 17.1.1 ビルド 273 12 年 19 月 2017 日 SJ プロ版
情報: Copyright (C) 2017 インテル コーポレーション. 全著作権所有。 情報: あなたの使用
インテル コーポレーションの設計ツール、ロジック機能情報: およびその他のソフトウェアとツール、およびその AMPP パートナー ロジック 情報: 関数、および任意の出力 file前述の情報: (デバイスのプログラミングまたはシミュレーションを含む) files)、およびすべての Info: 関連ドキュメントまたは情報は、明示的に Info: Intel Program License Info: Subscription Agreement、Intel Quartus Prime License Agreement、Info: の条件に従うものとします。
Tcl スクリプトが正常に実行されると、afu_*.sof file 更新され、FPGA プログラミングの準備が整いました。
次の手順に従って、実際の静的電力を測定します。
- インテル Quartus® Prime プログラマーを使用して *.sof をプログラムします。 file. 詳細な手順については、インテル Quartus Prime Programmer の使用 (12 ページ) を参照してください。
- FPGA コアの温度、vol を監視します。tage、および現在の BWMonitor ツールを使用して。 これらの値を Intel FPGA PAC Power Estimator シートのステップ 2: FPGA コアのスタティック消費電力測定の行に入力します。
関連情報
- インテル Arria 10 GX FPGA を搭載したインテル プログラマブル アクセラレーション カードのインテル アクセラレーション スタック クイック スタート ガイド
- BWMonitor を使用してオンボード センサーを監視します。
インテル Quartus Prime プログラマーの使用
これらの手順を実行するには、Intel FPGA PAC とサーバーの間にマイクロ USB ケーブルを接続する必要があります。
- Intel FPGA PAC カードのルート ポートとエンドポイントを見つけます。 grep 09c4
Exampファイル出力 1 は、ルート ポートが d7:0.0 であり、エンドポイントが d8:0.0 であることを示しています。
- ---[0000:d7]-+-00.0-[d8]—-00.0 インテル コーポレーション デバイス 09c4
Exampファイル出力 2 は、ルート ポートが 0:1.0 であり、エンドポイントが 3:0.0 であることを示しています。
- +-01.0-[03]—-00.0 インテル コーポレーション デバイス 09c4
Exampファイル出力 3 は、ルート ポートが 85:2.0、エンドポイントが 86:0.0 であることを示しています。
- +-[0000:85]-+-02.0-[86]—-00.0 インテル コーポレーション デバイス 09c4
注記: 出力がない場合は、PCIe* デバイスの列挙に失敗し、フラッシュがプログラムされていないことを示しています。
- #FPGAの修正不可能なエラーと修正可能なエラーをマスクする
- $ sudo setpci -s d8:0.0 ECAP_AER+0x08.L=0xFFFFFFFF
- $ sudo setpci -s d8:0.0 ECAP_AER+0x14.L=0xFFFFFFFF
- # 修正不可能なエラーをマスクし、RP の修正可能なエラーをマスクする
- $ sudo setpci -s d7:0.0 ECAP_AER+0x08.L=0xFFFFFFFF
- $ sudo setpci -s d7:0.0 ECAP_AER+0x14.L=0xFFFFFFFF
次の インテル Quartus Prime Programmer コマンドを実行します。
- sudo $QUARTUS_HOME/bin/quartus_pgm -m JTAG -o 'pvbi;afu_*.sof'
- 修正不可能なエラーのマスクを解除し、修正可能なエラーをマスクするには、次のコマンドを実行します。
- # 修正不可能なエラーのマスクを解除し、FPGA の修正可能なエラーをマスクします
- $ sudo setpci -s d8:0.0 ECAP_AER+0x08.L=0x00000000
- $ sudo setpci -s d8:0.0 ECAP_AER+0x14.L=0x00000000
- # 修正不可能なエラーのマスクを解除し、RP の修正可能なエラーをマスクします。
- $ sudo setpci -s d7:0.0 ECAP_AER+0x08.L=0x00000000
- $ sudo setpci -s d7:0.0 ECAP_AER+0x14.L=0x00000000
- # 修正不可能なエラーのマスクを解除し、FPGA の修正可能なエラーをマスクします
- リブート。
関連情報
インテル Arria 10 GX FPGA を搭載したインテル プログラマブル アクセラレーション カードのインテル アクセラレーション スタック クイック スタート ガイド
ワースト ケースのコア スタティック消費電力の見積もり
次の手順に従って、最悪の場合のスタティック消費電力を見積もります。
- 最小フロー Ex を参照してください。ampとしてコンパイルするファイルample AFU は次の場所にあります。
- /ハードウェア/秒ampレ/ /
- インテル Quartus Prime プロ・エディション ソフトウェアで、 File > プロジェクトを開き、.qpf を選択します file 次のパスから AFU 合成プロジェクトを開きます。
- /ハードウェア/秒ampレ/ /build_synth/ビルド
- [プロジェクト] > [EPE の生成] をクリックします File 必要な .csv を作成するには file.
- ステップ 2 の図
- ステップ 2 の図
- Early Power Estimator ツール (5) を開き、[Import CSV] アイコンをクリックします。 上記で生成された .csv を選択します file.
- 注記: .csv のインポート中は警告を無視できます。 file.
- 入力パラメータは自動的に入力されます。
- Junction Temp の値を User Entered に変更します。 TJフィールド。 ジャンクション温度を設定します。 TJ (°C) フィールド ~ 95
- [電力特性] フィールドを [標準] から [最大] に変更します。
- EPE ツールでは、PSTATIC はワット単位の総静的電力です。 [レポート] タブから、最悪の場合のコアのスタティック消費電力を計算できます。
EPE ツール Sample出力
レポートタブ
元amp上記の図では、FPGA コアのスタティック電流の合計は、0.9V (VCC、VCCP、VCCERAM) でのすべてのスタティック電流とスタンバイ電流の合計です。 これらの値を Intel FPGA PAC Power Estimator シートのステップ 3: EPE からの最悪のスタティック電力の行に入力します。 AFU の最大消費電力の計算出力行を確認します。
インテル Arria 10 GX FPGA を搭載したインテル PAC の熱および電力ガイドラインの改訂履歴
ドキュメントバージョン | 変更点 |
2019.08.30 | 初回リリース。 |
インテルコーポレーション。 全著作権所有。 Intel、Intel ロゴ、およびその他の Intel マークは、Intel Corporation またはその子会社の商標です。 インテルは、インテルの標準保証に従って、FPGA および半導体製品の性能を現在の仕様に合わせて保証しますが、予告なしにいつでも製品およびサービスを変更する権利を留保します。 インテルは、インテルが書面で明示的に同意した場合を除き、ここに記載されている情報、製品、またはサービスの適用または使用から生じる一切の責任を負わないものとします。 インテルのお客様は、公開されている情報を信頼したり、製品やサービスを注文したりする前に、最新バージョンのデバイス仕様を入手することをお勧めします。
その他の名前およびブランドは、他者の財産として主張される場合があります。
ISO
- 9001:2015
登録済み
ID: 683795
バージョン: 2019.08.30
ドキュメント / リソース
![]() |
Intel Arria 872 GX FPGA を搭載した intel AN 10 プログラマブル アクセラレーション カード [pdf] ユーザーガイド AN 872 プログラマブル アクセラレーション カード (インテル Arria 10 GX FPGA 搭載)、AN 872、プログラマブル アクセラレーション カード (インテル Arria 10 GX FPGA 搭載) |