Cisco Performance Tuning for UCS M8 Platforms
Мэта і аб'ём дакумента
Базавая сістэма ўводу-вываду (BIOS) тэстуе і ініцыялізуе апаратныя кампаненты сістэмы і загружае аперацыйную сістэму з прылады захоўвання дадзеных. Тыповая вылічальная сістэма мае некалькі налад BIOS, якія кіруюць яе паводзінамі. Некаторыя з гэтых налад непасрэдна звязаны з прадукцыйнасцю сістэмы.
This document explains the BIOS settings that are valid for the Cisco Unified Computing System™ (Cisco UCS®) M8 servers with AMD EPYC™ 4th Gen and 5th Gen processors. It describes how to optimize the BIOS settings to meet requirements for best performance and energy efficiency for the Cisco UCS X215c M8 Compute Nodes, Cisco UCS C245 M8 Rack Servers, and Cisco UCS C225 M8 Rack Servers.
У гэтым дакуменце таксама абмяркоўваюцца налады BIOS, якія можна выбраць для розных тыпаў нагрузкі на серверах Cisco UCS M8 з працэсарамі AMD EPYC 4-га і 5-га пакаленняў. Разуменне параметраў BIOS дапаможа вам выбраць адпаведныя значэнні для дасягнення аптымальнай прадукцыйнасці сістэмы.
У гэтым дакуменце не абмяркоўваюцца параметры BIOS для канкрэтных версій прашыўкі сервераў Cisco UCS M8 на базе працэсараў AMD EPYC 4-га і 5-га пакаленняў. Паказаныя тут налады з'яўляюцца агульнымі.
Што вы даведаецеся
Працэс налады параметраў прадукцыйнасці ў BIOS вашай сістэмы можа быць складаным і заблытаным, а некаторыя з даступных варыянтаў незразумелыя. Для большасці варыянтаў вам трэба выбіраць паміж аптымізацыяй сервера для эканоміі энергіі або для павышэння прадукцыйнасці. У гэтым дакуменце прыведзены некаторыя агульныя рэкамендацыі і прапановы, якія дапамогуць вам дасягнуць аптымальнай прадукцыйнасці вашых сервераў Cisco UCS M8, якія выкарыстоўваюць працэсары сямейства AMD EPYC 4-га і 5-га пакаленняў.
Працэсары AMD серыі EPYC 9004
The AMD EPYC 9004 Series processors are built with innovative Zen 4 cores and AMD Infinity architecture. AMD EPYC 9004 Series processors incorporate compute cores, memory controllers, I/O controllers, Reliability, Availability, and Serviceability (RAS), and security features into an integrated System on a Chip (SoC). The AMD EPYC 9004 Series Processor retains the proven Multi-Chip Module (MCM) Chiplet architecture of prior successful AMD EPYC processors while making further improvements to the SoC components. The SoC includes the Core Complex Dies (CCDs), which contain Core Complexes (CCXs), which contain the Zen 4–4-based cores.
AMD EPYC 9004 Series processors are based on the new Zen 4 compute core. The Zen 4 core is manufactured using a 5nm process and is designed to provide an Instructions per Cycle (IPC) uplift and frequency improvements over prior-generation Zen cores. Each core has a larger L2 cache and improved cache effectiveness over the prior generation.
Each core supports Simultaneous Multithreading (SMT), which enables two separate hardware threads to run independently, sharing the corresponding core’s L2 cache.
The Core Complex (CCX) is where up to eight Zen 4–based cores share a L3 or Last Level Cache (LLC). Enabling Simultaneous Multithreading (SMT) allows a single CCX to support up to 16 concurrent hardware threads.
Працэсары серыі AMD EPYC 9004 выкарыстоўваюць тэхналогію накладання крышталяў AMD 3D V-Cache, якая дазваляе працэсарам серыі 9700 дасягнуць больш эфектыўнай інтэграцыі чыплетаў. Архітэктура AMD 3D Chiplet вертыкальна размяшчае пліткі кэша L3, забяспечваючы да 96 МБ кэша L3 на крышталь (і да 1 ГБ кэша L3 на сокет), захоўваючы пры гэтым сумяшчальнасць з сокетамі ўсіх мадэляў працэсараў серыі AMD EPYC 9004.
Працэсары AMD серыі EPYC 9004 з тэхналогіяй AMD 3D V-Cache выкарыстоўваюць вядучую ў галіны лагічную структуру, заснаваную на гібрыдным злучэнні медзь-медзь без выгібаў, што дазваляе павялічыць шчыльнасць узаемадзеяння больш чым у 200 разоў у параўнанні з сучаснымі 2D-тэхналогіямі (і больш чым у 15 разоў у параўнанні з іншымі 3D-тэхналогіямі, якія выкарыстоўваюць выгібы прыпою), што азначае меншую затрымку, больш высокую прапускную здольнасць, а таксама большую энерга- і цеплавую эфектыўнасць.
The CCDs connect to memory, I/O, and each other through an updated I/O Die (IOD). This central AMD Infinity Fabric provides the data path and control support to interconnect CCXs, memory, and I/O. Each CCD connects to the IOD via a dedicated high-speed Global Memory Interconnect (GMI) link. The IOD helps maintain cache coherency and additionally provides the interface to extend the data fabric to a potential second processor via its xGMI, or G-links. AMD EPYC 9004 Series processors support up to 4 xGMI (or G-links) with speeds up to 32Gbps.
The IOD exposes DDR5 memory channels, PCIe Gen5, CXL 1.1+, and Infinity Fabric links. The IOD provides twelve Unified Memory Controllers (UMCs) that support DDR5 memory.
Кожны UMC можа падтрымліваць да 2 двухрадковых модуляў памяці (DIMM) на канал (DPC), максімум 24 модулі DIMM на сокет. Працэсары AMD EPYC 4-га пакалення могуць падтрымліваць да 6 ТБ памяці DDR5 на сокет. Наяўнасць дадатковых і больш хуткіх каналаў памяці ў параўнанні з папярэднімі пакаленнямі працэсараў AMD EPYC забяспечвае дадатковую прапускную здольнасць памяці для працэсараў з вялікай колькасцю ядраў. Чаргаванне памяці па 2, 4, 6, 8, 10 і 12 каналах дапамагае аптымізаваць розныя нагрузкі і канфігурацыі памяці.
Кожны працэсар можа мець набор з 4 P-лінкаў і 4 G-лінкаў. OEM-мацярынская плата можа выкарыстоўваць G-лінк для падлучэння да другога працэсара AMD EPYC 4-га пакалення або для забеспячэння дадатковых ліній PCIe Gen5. Працэсары AMD EPYC 4-га пакалення падтрымліваюць да васьмі набораў 16-бітных ліній уводу/вываду, гэта значыць 128 ліній высакахуткаснага PCIe Gen5 у аднасокетных платформах і да 160 ліній у двухсокетных платформах.
Працэсары AMD EPYC 9004 серыі 4-га пакалення выраблены ў адпаведнасці з характарыстыкамі, пералічанымі ў Табліцы 1.
Табліца 1. Характарыстыкі працэсара AMD EPYC серыі 9004 4-га пакалення
Пункт | Спецыфікацыя |
Тэхналогія апрацоўкі стрыжняў | 5-нанаметравы (нм) Zen 4 |
Максімальная колькасць ядраў | 128 |
Максімальная хуткасць памяці | 4800 мегаперадач у секунду (МТ/с) |
Максімальная колькасць каналаў памяці | 12 на разетку |
Максімальны аб'ём памяці | 6 ТБ на раз'ём |
PCI | 128 ліній (максімум) для 1 разеткі
160 lanes (maximum) for 2-socket PCIe Gen 5 |
For more information about the AMD EPYC 9004 Series processors’ microarchitecture, see Скончанаview of AMD EPYC 9004 Series Processors Microarchitecture.
Працэсары AMD серыі EPYC 9005
Сістэмы на базе працэсараў AMD EPYC 5-га пакалення могуць падтрымліваць ІТ-ініцыятывы, ад кансалідацыі і мадэрнізацыі цэнтраў апрацоўкі дадзеных да ўсё больш патрабавальных патрэб карпаратыўных прыкладанняў. Гэтыя сістэмы могуць дазволіць пашыраць штучны інтэлект у межах прадпрыемства, адначасова падтрымліваючы бізнес-імперыматывы па павышэнні энергаэфектыўнасці і стрымліванні разрастання цэнтраў апрацоўкі дадзеных дзякуючы падтрымцы высокай шчыльнасці віртуалізацыі і воблачных асяроддзяў. Мадэрнізацыя ІТ-інфраструктуры з'яўляецца ключом да вызвалення прасторы і энергіі для размяшчэння штучнага інтэлекту і іншых інавацыйных бізнес-ініцыятыў у межах існуючых цэнтраў апрацоўкі дадзеных.
Працэсары AMD EPYC паслядоўна дасягаюць двухзначнага прыросту прадукцыйнасці па колькасці інструкцый на такт (IPC) з кожным новым пакаленнем, а найноўшае ядро Zen 5 у працэсарах AMD EPYC 5-га пакалення забяспечвае значнае паляпшэнне для машыннага навучання, высокапрадукцыйных вылічэнняў (HPC) і карпаратыўных задач. Наша аптымізаванае па эфектыўнасці ядро Zen 5c забяспечвае працу працэсараў з найбольшай колькасцю ядраў сярод усіх працэсараў архітэктуры x86, забяспечваючы найвышэйшую шчыльнасць ядраў для віртуалізаваных і воблачных задач.
Працэсары AMD EPYC 5-га пакалення дазваляюць вам разгалінаваць свае магчымасці і задаволіць пастаянна пашыраючы спектр патрабаванняў да рабочых нагрузак. Наша гібрыдная шматчыпавая архітэктура дазваляе нам аддзяляць шляхі інавацый і ствараць паслядоўна інавацыйныя, высокапрадукцыйныя прадукты. Ядры Zen 5 і Zen 5c прадстаўляюць сабой яшчэ адно значнае паляпшэнне ў параўнанні з апошнім пакаленнем, з новай падтрымкай вельмі складаных прыкладанняў машыннага навучання і вываду.
У працэсарах AMD EPYC 5-га пакалення мы выкарыстоўваем два розныя ядры для задавальнення розных патрэб рабочай нагрузкі, змяняючы тып і колькасць ядраў, а таксама спосаб іх упакоўкі.
Zen 5 ядро
This core is optimized for high performance. Up to eight cores are combined to create a core complex (CCX) that includes a 32-MB shared L3 cache. This core complex is fabricated onto a die (CCD), up to 16 of which can be configured into an EPYC 9005 processor for up to 128 cores in the SP5 form factor. Compared to the previous generation, 5th Gen AMD EPYC processors, powered by the advanced Zen 5 core, along with faster memory and other key CPU improvements, provide 20 percent greater integer and 34 percent higher floating-point performance in 64-core processors operating within the same 360W TDP range 9xx5-070, 9xx5-073.
Ядро Zen 5c
Гэта ядро аптымізавана па шчыльнасці і эфектыўнасці. Яно мае такую ж логіку перадачы рэгістраў, як і ядро Zen 5, але яго фізічная кампаноўка займае менш месца і распрацавана для забеспячэння большай прадукцыйнасці на ват. Комплекс ядраў Zen 5c уключае да 16 ядраў і агульны кэш L32 аб'ёмам 3 МБ. Да 12 такіх CCD можна аб'яднаць з CCD уводу/вываду, каб стварыць працэсары з колькасцю да 192 ядраў у форм-фактары SP5.
Працэсары AMD EPYC 9005 серыі 5-га пакалення выраблены ў адпаведнасці з характарыстыкамі, пералічанымі ў Табліцы 2.
Табліца 2. Характарыстыкі працэсара AMD EPYC серыі 9005 5-га пакалення
Пункт | Спецыфікацыя |
Тэхналогія апрацоўкі стрыжняў | 4-nanometer (nm) Zen 5 and 3-nanometer Zen 5c |
Максімальная колькасць ядраў | 192 |
Maximum L3 cache | 512 Мб |
Максімальная хуткасць памяці | 6000 мегаперадач у секунду (МТ/с) |
Максімальная колькасць каналаў памяці | 12 на разетку |
Максімальны аб'ём памяці | 6 ТБ на раз'ём |
PCI | 128 lanes (max.) for 1-socket 160 lanes (max.) for 2-socket PCIe Gen 5 |
Заўвага: Платформы Cisco UCS M8 падтрымліваюць толькі да 160 ядраў працэсараў Zen 400c з TDP 5 Вт.
For more information about the AMD EPYC 9005 Series 5th Gen processors microarchitecture, see Скончанаview of AMD EPYC 9005 Series Processors Microarchitecture.
Тапалогія нераўнамернага доступу да памяці (NUMA)
Працэсары AMD EPYC серый 9004 і 9005 выкарыстоўваюць архітэктуру нераўнамернага доступу да памяці (NUMA), дзе могуць існаваць розныя затрымкі ў залежнасці ад блізкасці ядра працэсара да памяці і кантролераў уводу/вываду. Выкарыстанне рэсурсаў у адным вузле NUMA забяспечвае аднастайна добрую прадукцыйнасць, у той час як выкарыстанне рэсурсаў у розных вузлах павялічвае затрымкі.
Карыстальнік можа змяніць наладу BIOS сістэмы NUMA Nodes Per Socket (NPS), каб аптымізаваць гэту тапалогію NUMA для свайго канкрэтнага аперацыйнага асяроддзя і нагрузкі. Напрыкладampнапрыклад, усталяванне NPS=4 падзяляе працэсар на квадранты, дзе кожны квадрант мае 3 CCD, 3 UMC і 1 канцэнтратар уводу/вываду. Найменшая адлегласць паміж працэсарам і памяццю для ўводу/вываду знаходзіцца паміж ядрамі, памяццю і перыферыйнымі прыладамі ўводу/вываду ў адным квадранце. Найбольшая адлегласць — паміж ядром і кантролерам памяці або канцэнтратарам уводу/вываду ў крос-дыяганальных квадрантах (або іншым працэсарам у канфігурацыі 2P). Лакальнасць ядраў, памяці і канцэнтратараў/прылад уводу/вываду ў сістэме на базе NUMA з'яўляецца важным фактарам пры наладзе прадукцыйнасці.
У працэсарах EPYC 4-га пакалення аптымізацыя ўзаемасувязяў Infinity Fabric яшчэ больш знізіла розніцу ў затрымцы. Выкарыстанне працэсараў серыі EPYC 9004 для праграм, якім неабходна выціснуць апошнія адзін-два працэнты затрымкі з спасылак на памяць, стварэнне сувязі паміж дыяпазонамі памяці і крышталямі працэсара (Zen 4 або Zen 4c) можа палепшыць прадукцыйнасць. На малюнку 1 паказана, як гэта працуе. Калі падзяліць крышталь уводу/вываду на чатыры квадранты для канфігурацыі NPS=4, вы ўбачыце, што шэсць модуляў DIMM падключаюцца да трох кантролераў памяці, якія цесна звязаны праз Infinity Fabric (GMI) з наборам з да трох крышталяў працэсара Zen 4 або да 24 ядраў працэсара.
Мал: 1
Блок-схема працэсара AMD EPYC 4-га пакалення з даменамі NUMA
У працэсарах EPYC 5-га пакалення паляпшэнні, зробленыя ў міжзлучэннях AMD Infinity Fabric, яшчэ больш знізілі розніцу ў затрымцы. Выкарыстанне працэсараў серыі EPYC 9005 для прыкладанняў, якім неабходна выціснуць апошнія адзін-два працэнты затрымкі з спасылак на памяць, для стварэння сувязі паміж дыяпазонамі памяці і крышталямі працэсара (Zen 5 або Zen 5c), можа палепшыць прадукцыйнасць. На малюнку 2 паказана, як гэта працуе. Калі падзяліць крышталь уводу/вываду на чатыры квадранты для канфігурацыі NPS=4, вы ўбачыце, што шэсць модуляў DIMM падключаюцца да трох кантролераў памяці, якія цесна звязаны праз Infinity Fabric (GMI) з наборам з да чатырох крышталяў працэсара Zen 5 або да трох крышталяў працэсара Zen 5c.
Мал: 2
Блок-схема працэсара AMD EPYC 5-га пакалення з даменамі NUMA
NPS1
Значэнне NPS=1 азначае адзін вузел NUMA на сокет. Гэты параметр канфігуруе ўсе каналы памяці працэсара ў адзін вузел NUMA. Усе ядры працэсара, уся падключаная памяць і ўсе прылады PCIe, падлучаныя да SoC, знаходзяцца ў гэтым адным вузле NUMA. Памяць чаргуецца паміж усімі каналамі памяці працэсара ў адзіную адрасную прастору.
NPS2
Пры наладзе NPS=2 кожны працэсар падзелены на два дамены NUMA, што аб'ядноўвае палову ядраў і палову каналаў памяці ў адзін дамен NUMA, а астатнія ядры і каналы памяці — у другі дамен NUMA. Памяць чаргаваная паміж шасцю каналамі памяці ў кожным дамене NUMA. Прылады PCIe будуць лакальнымі для аднаго з двух вузлоў NUMA ў залежнасці ад таго, якая палова мае каранёвы комплекс PCIe для гэтай прылады.
NPS4
Пры наладзе NPS=4 працэсар падзяляецца на чатыры вузлы NUMA на сокет, прычым кожны лагічны квадрант настроены як свой уласны дамен NUMA. Памяць чаргуецца паміж каналамі памяці, звязанымі з кожным квадрантам. Прылады PCIe будуць лакальнымі для аднаго з чатырох даменаў NUMA працэсара, у залежнасці ад квадранта IOD, які мае адпаведны каранёвы комплекс PCIe для гэтай прылады. Кожная пара каналаў памяці чаргуецца. Гэта рэкамендуецца для HPC і іншых высокапаралельных працоўных нагрузак. Вы павінны выкарыстоўваць NPS4 пры загрузцы сістэм Windows з уключаным SMT працэсара для працэсараў AMD EPYC з больш чым 64 ядрамі, паколькі Windows абмяжоўвае памер групы працэсараў максімум 64 лагічнымі ядрамі.
Заўвага: For Windows systems, verify that the number of logical processors per NUMA node <=64 by using either NPS2 or NPS4 instead of the default NPS1.
NPS0 (не рэкамендуецца)
Значэнне NPS=0 паказвае на адзін дамен NUMA для ўсёй сістэмы (на абодвух сокетах у канфігурацыі з двума сокетамі). Гэты параметр канфігуруе ўсе каналы памяці ў сістэме ў адзін вузел NUMA. Памяць чаргуецца паміж усімі каналамі памяці ў сістэме ў адну адрасную прастору. Усе ядры працэсара ва ўсіх сокетах, уся падключаная памяць і ўсе прылады PCIe, падлучаныя да любога з працэсараў, знаходзяцца ў гэтым адзіным дамене NUMA.
Кэш 3-га ўзроўню як дамен NUMA
Акрамя налад NPS, даступная яшчэ адна опцыя BIOS для змены канфігурацый NUMA. З опцыяй «Кэш 3-га ўзроўню як NUMA (L3CAN)» кожны кэш 3-га ўзроўню (па адным на CCD) адкрываецца як асобны вузел NUMA. Напрыкладampг.зн., адзін працэсар з 8 ПЗС-матрыцамі меў бы 8 вузлоў NUMA: па адным для кожнай ПЗС-матрыцы. У гэтым выпадку сістэма з двума сокетамі мела б у агульнай складанасці 16 вузлоў NUMA.
Налады працэсара
У гэтым раздзеле апісаны параметры працэсара, якія вы можаце наладзіць.
Рэжым SMT працэсара
You can set the CPU Simultaneous Multithreading (CPU SMT) option to enable or disable logical processor cores on processors that support the AMD CPU SMT mode option. When the CPU SMT mode is set to Auto (enabled), each physical processor core operates as two logical processor cores and allows multithreaded software applications to process threads in parallel within each processor.
Некаторыя нагрузкі, у тым ліку многія высокапрадукцыйныя вылічэнні, пры ўключаным CPU SMT назіраюць нейтральнае або нават адмоўнае зніжэнне прадукцыйнасці. Некаторыя праграмы, а не толькі фізічнае ядро, ліцэнзуюцца апаратным патокам як уключаныя. Па гэтых прычынах можа быць пажадана адключыць CPU SMT на вашым працэсары серыі EPYC 9004. Акрамя таго, некаторыя аперацыйныя сістэмы не падтрымліваюць x2APIC у працэсары серыі EPYC 9004, які патрабуецца для падтрымкі больш за 255 патокаў. Калі вы выкарыстоўваеце аперацыйную сістэму, якая не падтрымлівае рэалізацыю x2APIC ад AMD, і ў вас усталяваны два 64-ядзерныя працэсары, вам трэба будзе адключыць CPU SMT. У табліцы 3 прыведзены налады.
Вам варта праверыць опцыю гіперструменнасці працэсара (CPU hyperthreading) як уключаную, так і выключаную ў вашым канкрэтным асяроддзі. Калі вы запускаеце аднаструменнае прыкладанне, вам варта адключыць гіперструменнасць.
Табліца 3. CPU SMT settings
Абстаноўка | Параметры |
CPU SMT control | ● Auto: uses two hardware threads per core
● Disable: uses a single hardware thread per core ● Enable: uses a double hardware thread per core |
Рэжым бяспечнай віртуальнай машыны (SVM)
Рэжым бяспечнай віртуальнай машыны (SVM) дазваляе выкарыстоўваць функцыі віртуалізацыі працэсара і запускаць некалькі аперацыйных сістэм і праграм у незалежных раздзелах. Рэжым AMD SVM можна ўсталяваць на адно з наступных значэнняў:
- Адключана: працэсар не дазваляе віртуалізацыю.
- Уключана: працэсар дазваляе выкарыстоўваць некалькі аперацыйных сістэм у незалежных раздзелах.
Калі для вашага прыкладнога сцэнарыя не патрабуецца віртуалізацыя, адключыце тэхналогію віртуалізацыі AMD. Пасля адключэння віртуалізацыі таксама адключыце опцыю AMD IOMMU, якая можа выклікаць розніцу ў затрымцы доступу да памяці. У табліцы 4 падсумаваны налады.
Табліца 4. Virtualization option settings
Абстаноўка | Параметры |
СВМ | ● Enabled
● Disabled |
C-станы DF
Падобна ядрам працэсара, AMD Infinity Fabric можа пераходзіць у рэжымы паніжанага энергаспажывання ў рэжыме чакання. Аднак пры вяртанні ў рэжым поўнай магутнасці будзе затрымка, што прывядзе да некаторага вагання затрымкі. Пры нагрузцы з нізкай затрымкай або пры імпульсным уводзе/вывадзе можна адключыць функцыю C-станаў Data Fabric (DF), каб дасягнуць большай прадукцыйнасці, але за кошт больш высокага спажывання энергіі. У табліцы 5 прыведзены налады.
Табліца 5. C-станы DF
Абстаноўка | Параметры |
C-станы DF | ● Auto/Enabled: allows the AMD Infinity Fabric to enter a low-power state
● Disabled: prevents the AMD Infinity Fabric from entering a low-power state |
Кэш ACPI SRAT L3 як дамен NUMA
Калі ўключана налада «Кэш 3-га ўзроўню ACPI SRAT як дамен NUMA», кожны кэш 3-га ўзроўню адкрываецца як вузел NUMA. З наладай «Кэш 3-га ўзроўню як дамен NUMA (L3CAN)» кожны кэш 3-га ўзроўню (адзін на CCD) адкрываецца як свой уласны вузел NUMA. Напрыкладampг.зн., адзін працэсар з 8 ПЗС-матрыцамі меў бы 8 вузлоў NUMA: па адным для кожнай ПЗС-матрыцы. Двухпрацэсарная сістэма мела б у агульнай складанасці 16 вузлоў NUMA.
Гэты параметр можа палепшыць прадукцыйнасць для высокааптымізаваных для NUMA працоўных нагрузак, калі працоўныя нагрузкі або кампаненты працоўных нагрузак можна замацаваць на ядрах у CCX і калі яны могуць атрымаць выгаду ад сумеснага выкарыстання кэша 3-га ўзроўню. Калі гэты параметр адключаны, дамены NUMA вызначаюцца ў адпаведнасці з параметрам NUMA NPS.
Some operating systems and hypervisors do not perform Layer 3–aware scheduling, and some workloads benefit from having Layer 3 declared as a NUMA domain. Table 6 summarizes the settings.
Табліца 6. ACPI SRAT Layer 3 Cache as NUMA Domain settings
Абстаноўка | Параметры |
Кэш ACPI SRAT L3 як дамен NUMA | ● Auto (disabled)
● Disable: does not report each Layer-3 cache as a NUMA domain to the OS ● Enable: reports each Layer-3 cache as a NUMA domain to the OS |
Адключэнне павышэння прадукцыйнасці алгарытму (APBDIS)
Allows you to select the Algorithm Performance Boost (APB) disable value for the SMU. In the default state, the AMD Infinity Fabric selects between a full-power and low-power fabric clock and memory clock, based on fabric and memory use. However, in certain scenarios involving low bandwidth but latency-sensitive traffic
(and memory latency checkers), The transition from low power to full power can adversely affect latency. Setting APBDIS to 1 (to disable Algorithm Performance Boost [APB]) and specifying a fixed Infinity Fabric P-state of 0 will force the Infinity Fabric and memory controllers into full-power mode, eliminating any such latency jitter. Certain CPU processors and memory population options result in a scenario in which setting a fixed Infinity Fabric P- state of 1 will reduce memory latency at the expense of memory bandwidth. This setting may benefit applications known to be sensitive to memory latency. Table 7 summarizes the settings.
Табліца 7. APBDIS setting
Абстаноўка | Параметры |
АПБДІС | ● Auto (0): sets an auto APBDIS for the SMU. This is the default option.
● 0: dynamically switches Infinity Fabric P-state based on link use ● 1: enables fixed Infinity Fabric P-state control |
Фіксаваны SOC P-State SP5F 19 гадзін
Прымусова задае P-стан як незалежны, так і залежны, як паведамляецца аб'ектам ACPI _PSD. Гэта змяняе P-стан SOC, калі APBDIS уключаны. дзе F адносіцца да сямейства працэсараў.
Абстаноўка | Параметры |
Фіксаваны SOC P-State SP5F 19 гадзін | ● P0: highest-performing Infinity Fabric P-state
● P1: next-highest-performing Infinity Fabric P-state ● P2: next-highest-performing Infinity Fabric P-state after P1 |
Налады xGMI: злучэнне паміж сокетамі
У двухсокетнай сістэме працэсары злучаныя паміж сабой праз міжсокетныя злучэнні xGMI, якія з'яўляюцца часткай Infinity Fabric, што злучае ўсе кампаненты SoC разам.
Для рабочых нагрузак, якія не падтрымліваюць NUMA, можа спатрэбіцца максімальная прапускная здольнасць xGMI з-за шырокай міжсокетнай сувязі. Для рабочых нагрузак, якія падтрымліваюць NUMA, можа спатрэбіцца мінімізаваць магутнасць xGMI, бо яны маюць невялікую міжсокетную нагрузку і аддаюць перавагу павышанаму разгону працэсара. Шырыню лініі xGMI можна паменшыць з x16 да x8 або x2, або спасылку xGMI можна адключыць, калі спажыванне энергіі занадта высокае.
Канфігурацыя злучэння xGMI і максімальная хуткасць xGMI з 4 злучэннямі (максімальная хуткасць Cisco xGMI)
Вы можаце ўсталяваць колькасць каналаў xGMI і максімальную хуткасць для канала xGMI. Усталяванне гэтага значэння на меншую хуткасць можа зэканоміць энергію, якая не выкарыстоўваецца для павелічэння частаты ядра або зніжэння агульнай магутнасці. Гэта таксама памяншае прапускную здольнасць паміж сокетамі і павялічвае затрымку паміж сокетамі. Стоечны сервер Cisco UCS C245 M8 падтрымлівае чатыры каналы xGMI з максімальнай хуткасцю 32 Гбіт/с.
Налады максімальнай хуткасці Cisco xGMI дазваляюць наладзіць канфігурацыю xGMI Link і максімальную хуткасць xGMI для 4/3 каналаў. Уключэнне максімальнай хуткасці Cisco xGMI ўсталюе канфігурацыю xGMI Link на 4, а максімальную хуткасць xGMI для 4 каналаў — 32 Гбіт/с. Адключэнне налад максімальнай хуткасці Cisco xGMI прывядзе да ўжывання значэнняў па змаўчанні.
У табліцы 8 падсумаваны налады.
Табліца 8. Налады злучэння xGMI
Абстаноўка | Параметры |
Cisco xGMI Max Speed | ● Disabled (default)
● Enabled |
Канфігурацыя спасылкі xGMI | ● Auto
● 1 ● 2 ● 3 ● 4 |
Максімальная хуткасць 4-рычажнай сістэмы падключэння xGMI | ● Auto (25 Gbps)
● 20 Gbps ● 25 Gbps ● 32 Gbps |
Максімальная хуткасць 3-рычажнай сістэмы падключэння xGMI | ● Auto (25 Gbps)
● 20 Gbps ● 25 Gbps ● 32 Gbps |
Заўвага: This BIOS feature is applicable only to Cisco UCS X215c M8 Compute Nodes and Cisco UCS C245 M8 Rack Servers with 2-socket configurations.
Палепшаная прадукцыйнасць працэсара
Гэтая опцыя BIOS дапамагае карыстальнікам змяняць параметры палепшанай прадукцыйнасці працэсара. Калі яна ўключана, яна карэктуе параметры працэсара і дазваляе яму працаваць больш актыўна, што можа палепшыць агульную прадукцыйнасць працэсара, але можа прывесці да больш высокага спажывання энергіі. Значэнні для гэтай опцыі BIOS могуць быць «Аўта» або «Адключана». Па змаўчанні опцыя палепшанай прадукцыйнасці працэсара адключана.
Заўвага: This BIOS feature is applicable only to Cisco UCS X215c M8 Compute Nodes and Cisco UCS C245 M8 Rack Servers. When this option is enabled, we highly recommend setting the fan policy at maximum power.
Па змаўчанні гэты параметр BIOS адключаны.
Налады памяці
Вы можаце наладзіць параметры памяці, апісаныя ў гэтым раздзеле.
Колькасць вузлоў NUMA на сокет (NPS)
This setting lets you specify the number of desired NUMA Nodes Per Socket (NPS) and enables a tradeoff between reducing local memory latency for NUMA-aware or highly parallelizable workloads and increasing per-core memory bandwidth for non-NUMA-friendly workloads. Socket interleave (NPS0) will attempt to interleave the two sockets together into one NUMA node. 4th Gen AMD EPYC processors support a varying number of NUMA NPS values depending on the internal NUMA topology of the processor. NPS2 and NPS4 may not be options on certain processors or with certain memory populations.
У аднасокетных серверах колькасць вузлоў NUMA на сокет можа быць 1, 2 або 4, хоць не ўсе значэнні падтрымліваюцца кожным працэсарам. Прадукцыйнасць праграм, якія высока аптымізаваны для NUMA, можна палепшыць, усталяваўшы колькасць вузлоў NUMA на сокет на падтрымоўванае значэнне большае за 1.
The default configuration (one NUMA Domain per socket) is recommended for most workloads. NPS4 is recommended for High-Performance Computing (HPC) and other highly parallel workloads. When using 200-Gbps network adapters, NPS2 may be preferred to provide a compromise between memory latency and memory bandwidth for the Network Interface Card (NIC).
This setting is independent of the Advanced Configuration and Power Interface (ACPI) Static Resource Affinity Table (SRAT) Layer- 3 (L3) cache as a NUMA Domain setting. When ACPI SRAT L3 Cache as NUMA Domain is enabled, this setting then determines the memory interleaving granularity. With NPS1, all eight memory channels are interleaved. With NPS2, every four channels are interleaved with each other. With NPS4, every pair of channels is interleaved. Table 9 summarizes the settings.
Табліца 9. NUMA NPS settings
Абстаноўка | Параметры |
NUMA Nodes per Socket | ● Auto (NPS1)
● NPS0: interleave memory accesses across all channels in both sockets (not recommended). ● NPS1: interleave memory accesses across all eight channels in each socket; reports one NUMA node per socket (unless L3 Cache as NUMA is enabled). ● NPS2: interleave memory accesses across groups of four channels (ABCD and EFGH) in each socket; reports two NUMA nodes per socket (unless L3 Cache as NUMA is enabled). ● NPS4: interleave memory accesses across pairs of channels (AB, CD, EF, and GH) in each socket; reports four NUMA nodes per socket (unless L3 Cache as NUMA is enabled). |
Блок кіравання памяццю ўводу-вываду (IOMMU)
The I/O Memory Management Unit (IOMMU) provides several benefits and is required when using x2 programmable interrupt controller (x2APIC). Enabling the IOMMU allows devices (such as the EPYC integrated SATA controller) to present separate interrupt requests (IRQs) for each attached device instead of one IRQ for the subsystem. The IOMMU also allows operating systems to provide additional protection for Direct Memory Access (DMA)–capable I/O devices. IOMMU also helps filter and remap interrupts from peripheral devices. Table 10 summarizes the settings.
Табліца 10. IOMMU settings
Абстаноўка | Параметры |
IOMMU | ● Auto (enabled)
● Disabled: disable IOMMU support ● Enabled: enable IOMMU support |
Перамежаванне памяці
Чаргаванне памяці — гэта метад, які выкарыстоўваюць працэсары для павелічэння прапускной здольнасці памяці, даступнай для прыкладання. Без чаргавання паслядоўныя блокі памяці, часта радкі кэша, зчытваюцца з аднаго і таго ж банка памяці. Такім чынам, праграмнае забеспячэнне, якое счытвае паслядоўную памяць, павінна будзе чакаць завяршэння аперацыі перадачы памяці, перш чым пачаць наступны доступ да памяці. Пры ўключаным чаргаванні памяці паслядоўныя блокі памяці знаходзяцца ў розных банках, і таму ўсе яны могуць уносіць свой уклад у агульную прапускную здольнасць памяці, якую можа дасягнуць праграма.
AMD рэкамендуе, каб усе восем каналаў памяці на кожны раз'ём працэсара былі запоўненыя аднолькавай ёмістасцю. Такі падыход дазваляе падсістэме памяці працаваць у рэжыме васьмібаковага чаргавання, што павінна забяспечыць найлепшую прадукцыйнасць у большасці выпадкаў. У табліцы 11 прыведзены налады.
Табліца 11. Налады чаргавання памяці
Абстаноўка | Параметры |
Перамежаванне памяці | ● Enabled: interleaving is enabled with supported memory DIMM configuration.
● Disable: no interleaving is performed. |
Налады магутнасці
Вы можаце наладзіць параметры стану харчавання, апісаныя ў гэтым раздзеле.
Павышэнне прадукцыйнасці асноўных кампанентаў
Функцыя павышэння прадукцыйнасці ядраў дазваляе працэсару пераходзіць на больш высокую частату, чым базавая частата працэсара, у залежнасці ад даступнасці харчавання, цеплавога запасу і колькасці актыўных ядраў у сістэме. Павышэнне прадукцыйнасці ядраў можа выклікаць ваганні з-за змены частаты ядраў працэсара.
Некаторыя нагрузкі не патрабуюць максімальнай частаты ядра для дасягнення прымальнага ўзроўню прадукцыйнасці. Каб палепшыць энергаэфектыўнасць, можна ўсталяваць максімальную частату павышэння ядра. Гэты параметр не дазваляе ўсталёўваць фіксаваную частату; ён толькі абмяжоўвае максімальную частату павышэння. Фактычная прадукцыйнасць павышэння залежыць ад многіх фактараў і іншых параметраў, згаданых у гэтым дакуменце. У табліцы 12 падсумаваны параметры.
Табліца 12. Налады павышэння прадукцыйнасці ядра
Абстаноўка | Параметры |
Павышэнне прадукцыйнасці асноўных кампанентаў | ● Auto (enabled): allows the processor to transition to a higher frequency (turbo frequency) than
the CPU’s base frequency ● Disabled: disables the CPU core boost frequency |
Глабальны кантроль C-стану
C-states are a processor’s CPU core inactive power states. C0 is the operational state in which instructions are processed, and higher-numbered C-states (C1, C2, etc.) are low-power states in which the core is idle. The Global C-state setting can be used to enable and disable C-states on the server. By default, the global C-state control is set to Auto, which enables cores to enter lower power states; this can cause jitter due to frequency transitions of the processor cores. When this setting is disabled, the CPU cores will operate at the C0 and C1 states. Table 13 summarizes the settings.
C-states are exposed through ACPI objects and can be dynamically requested by software. Software can request a C-state change either by executing a HALT instruction or by reading from a particular I/O address. The actions taken by the processor when entering the low-power C-state can also be configured by software. The 4th Gen AMD EPYC processor’s core is designed to support as many as three AMD-specified C-states:
I/O-based C0, C1, and C2.
Табліца 13. Глабальныя налады C-стану
Абстаноўка | Параметры |
Глабальны кантроль C-стану | ● Auto (enabled): enables I/O-based C-states
● Disabled: disables I/O-based C-states |
Апаратныя папярэднія выбаркі патокаў першага і другога ўзроўняў
Большасць працоўных нагрузак атрымліваюць выгаду ад выкарыстання апаратных папярэдніх выбарак патокаў першага і другога ўзроўняў (L1 Stream HW Prefetcher і L2 Stream HW Prefetcher) для збору дадзеных і падтрымання загружанасці асноўнага канвеера. Аднак некаторыя працоўныя нагрузкі маюць вельмі выпадковы характар і насамрэч дасягнуць лепшай агульнай прадукцыйнасці, калі адзін або абодва папярэднія выбаркі адключаны. Па змаўчанні абодва папярэднія выбаркі ўключаны. У табліцы 1 прыведзены налады.
Табліца 14. Налады апаратнай папярэдняй выбаркі патокаў першага і другога ўзроўняў
Абстаноўка | Параметры |
L1 Stream HW Prefetcher | ● Auto (Enabled)
● Disable: disables prefetcher ● Enable: enables prefetcher |
L2 Stream HW Prefetcher | ● Auto (Enabled)
● Disable: disables prefetcher ● Enable: enables prefetcher |
Паўзунок дэтэрмінізму
Паўзунок «Дэтэрмінізм» дазваляе выбіраць паміж аднолькавай прадукцыйнасцю ва ўсіх аднолькава настроеных сістэмах у цэнтры апрацоўкі дадзеных, усталяваўшы для сервера наладу «Прадукцыйнасць», або максімальнай прадукцыйнасцю любой асобнай сістэмы, але з рознай прадукцыйнасцю ў цэнтры апрацоўкі дадзеных, усталяваўшы для сервера наладу «Магутнасць». Калі паўзунок «Дэтэрмінізм» усталяваны ў значэнне «Прадукцыйнасць», пераканайцеся, што наладжвальныя значэнні цеплавой разліковай магутнасці (cTDP) і абмежавання магутнасці корпуса (PPL) устаноўлены на аднолькавае значэнне. Наладай па змаўчанні (Аўта) для большасці працэсараў з'яўляецца рэжым дэтэрмінізму прадукцыйнасці, які дазваляе працэсару працаваць на больш нізкім узроўні магутнасці з паслядоўнай прадукцыйнасцю. Для максімальнай прадукцыйнасці ўсталюйце паўзунок «Дэтэрмінізм» у значэнне «Магутнасць». У табліцы 15 прыведзены падсумаваныя налады.
Табліца 15. Налады паўзунка дэтэрмінізму
Абстаноўка | Параметры |
Паўзунок дэтэрмінізму | ● Auto: this setting is equal to the Performance option.
● Power: ensures maximum performance levels for each CPU in a large population of identically configured CPUs by throttling CPUs only when they reach the same cTDP ● Performance: ensures consistent performance levels across a large population of identically configured CPUs by throttling some CPUs to operate at a lower power level |
CPPC: Сумеснае кіраванне прадукцыйнасцю працэсара
Collaborative Processor Performance Control (CPPC) was introduced with ACPI 5.0 as a mode to communicate performance between an operating system and the hardware. This mode can be used to allow the OS to control when and how much turbo boost can be applied in an effort to maintain energy efficiency. Not all operating systems support CPPC, but Microsoft began support with Microsoft Windows 2016 and later.
У табліцы 16 падсумаваны налады.
Табліца 16. Налады CPPC
Абстаноўка | Параметры |
CPPC | ● Auto
● Disabled: disabled ● Enabled: allows the OS to make performance and power optimization requests using ACPI CPPC |
Power Profile выбар F19h
Выбар P-стану DF у працэсеfile палітыка перавызначаецца дыяпазонам P-state, параметрам BIOS або параметрам APB_DIS BIOS, дзе F адносіцца да сямейства працэсараў, а M — да мадэлі.
Налады | Параметры |
Магутнасць праfile выбар F19h | ● Efficiency mode
● High-performance mode ● Maximum I/O performance mode ● Balanced memory performance mode ● Balanced core performance mode ● Balanced core memory performance mode ● Auto |
Палітыка кантролю вентылятараў
Палітыка вентылятараў дазваляе кантраляваць хуткасць вентылятара, каб знізіць спажыванне энергіі і ўзровень шуму сервера. Да выкарыстання палітыкі вентылятараў хуткасць вентылятара аўтаматычна павялічвалася, калі тэмпература любога кампанента сервера перавышала ўстаноўлены парог. Каб забяспечыць нізкую хуткасць вентылятара, парогавыя значэнні тэмпературы кампанентаў звычайна ўсталёўваліся на высокія. Нягледзячы на тое, што такая паводзіна падыходзіла для большасці канфігурацый сервераў, яна не вырашала наступныя сітуацыі:
- Максімальная прадукцыйнасць працэсара: для высокай прадукцыйнасці некаторыя працэсары павінны астуджацца значна ніжэй за ўстаноўленую парогавую тэмпературу. Такое астуджэнне патрабуе вельмі высокай хуткасці вентылятара, што прыводзіць да павелічэння спажывання энергіі і ўзроўню шуму.
- Нізкае энергаспажыванне: каб забяспечыць мінімальнае энергаспажыванне, вентылятары павінны круціцца вельмі павольна, а ў некаторых выпадках цалкам спыняцца на серверах, якія дазваляюць такую паводзіны. Але нізкая хуткасць вентылятараў можа прывесці да перагрэву сервераў. Каб пазбегнуць гэтай сітуацыі, неабходна запускаць вентылятары са хуткасцю, якая крыху вышэйшая за мінімальна магчымую хуткасць.
Вы можаце выбраць наступныя правілы для фанатаў:
- збалансаваны: This is the default policy. This setting can cool almost any server configuration, but it may not be suitable for servers with PCIe cards, because these cards overheat easily.
- Нізкая магутнасць: This setting is well suited for minimal-configuration servers that do not contain any PCIe cards.
- Высокая магутнасць: This setting can be used for server configurations that require fan speeds ranging from 60 to 85 percent. This policy is well suited for servers that contain PCIe cards that easily overheat and have high temperatures. The minimum fan speed set with this policy varies for each server platform, but it is approximately in the range of 60 to 85 percent.
- Максімальная магутнасць: This setting can be used for server configurations that require extremely high fan speeds ranging between 70 and 100 percent. This policy is well suited for servers that contain PCIe cards that easily overheat and have extremely high temperatures. The minimum fan speed set with this policy varies for each server platform, but it is approximately in the range of 70 to 100 percent.
- Акустычны: The fan speed is reduced to reduce noise levels in acoustic-sensitive environments. Rather than regulating energy consumption and preventing component throttling as in other modes, the Acoustic option could result in short-term throttling to achieve a lowered noise level. Applying this fan control policy may result in short-duration transient performance impacts.
Заўвага: This policy is configurable for standalone Cisco UCS C-Series M8 servers using the Cisco Integrated Management Controller (IMC) console and the Cisco IMC supervisor. From the Cisco IMC web кансолі абярыце Вылічэнні > Палітыкі харчавання > Настроеная палітыка вентылятара > Палітыка вентылятара.
For Cisco Intersight®–managed C-Series M8 servers, this policy is configurable using fan policies.
Налады BIOS для вылічальных вузлоў Cisco UCS X215c M8, стоечных сервераў Cisco UCS C245 M8 і стоечных сервераў Cisco UCS C225 M8
У табліцы 17 пералічаны назвы токенаў BIOS, налады па змаўчанні і падтрымоўваныя значэнні для сервераў Cisco UCS M8 з сямействамі працэсараў AMD EPYC 4-га і 5-га пакаленняў.
Табліца 17. Назвы і значэнні токенаў BIOS
Назва токена BIOS | Значэнне па змаўчанні | Падтрымліваюцца значэнні |
Працэсар | ||
Рэжым SMT працэсара | Аўтаматычна (уключана) | Аўтаматычна, Уключана, Выключана |
Рэжым SVM | Уключаны | Уключана, адключана |
C-станы DF | Аўтаматычна (уключана) | Аўтаматычна, Уключана, Выключана |
ACPI SRAT L3 Cache as NUMA
Дамен |
Аўтаматычны (адключаны) | Аўтаматычна, Уключана, Выключана |
АПБДІС | Аўто (0) | Аўто, 0, 1 |
Фіксаваны SOC P-State SP5F 19 гадзін | P0 | P0, P1, P2 |
Максімальная хуткасць 4-рычага xGMI* | Аўтаматычна (32 Гбіт/с) | Auto, 20Gbps, 25Gbps, 32Gbps |
Палепшаная прадукцыйнасць працэсара* | Інваліды | Аўтаматычны, адключаны |
Памяць | ||
NUMA nodes per socket | Аўтаматычны (NPS1) | Аўтаматычны, NPS0, NPS1, NPS2, NPS4 |
IOMMU | Аўтаматычна (уключана) | Аўтаматычна, Уключана, Выключана |
Перамежаванне памяці | Аўтаматычна (уключана) | Аўтаматычна, Уключана, Выключана |
Магутнасць/прадукцыйнасць | ||
Павышэнне прадукцыйнасці асноўных кампанентаў | Аўтаматычна (уключана) | Аўтаматычны, адключаны |
Глабальны кантроль C-стану | Інваліды | Аўтаматычна, Уключана, Выключана |
L1 Stream HW Prefetcher | Аўтаматычна (уключана) | Аўтаматычна, Уключана, Выключана |
L2 Stream HW Prefetcher | Аўтаматычна (уключана) | Аўтаматычна, Уключана, Выключана |
Паўзунок дэтэрмінізму | Аўтаматычны (магутнасць) | Аўтаматычны рэжым, магутнасць, прадукцыйнасць |
CPPC | Аўтаматычны (адключаны) | Аўтаматычна, Адключана, Уключана |
Назва токена BIOS | Значэнне па змаўчанні | Падтрымліваюцца значэнні |
Магутнасць праfile выбар F19h | Высокапрадукцыйны рэжым | Рэжым збалансаванай прадукцыйнасці памяці, рэжым эфектыўнасці, рэжым высокай прадукцыйнасці, рэжым максімальнай прадукцыйнасці ўводу/вываду, рэжым збалансаванай прадукцыйнасці ядра, рэжым збалансаванай прадукцыйнасці памяці |
Рэкамендацыі BIOS для розных універсальных задач
У гэтым раздзеле коратка апісаны налады BIOS, рэкамендаваныя для аптымізацыі агульнай рабочай нагрузкі:
- Вылічальна інтэнсіўныя
- Інтэнсіўны ўвод/вывад
- Энергаэфектыўнасць
- Нізкая затрымка
У наступных раздзелах апісана кожная нагрузка.
Інтэнсіўныя нагрузкі на працэсар
Для задач з інтэнсіўным выкарыстаннем працэсара мэта складаецца ў тым, каб размеркаваць працу для адной задачы паміж некалькімі працэсарамі, каб максімальна скараціць час апрацоўкі. Для гэтага неабходна выконваць часткі задачы паралельна. Кожны працэс, або паток, апрацоўвае частку працы і выконвае вылічэнні адначасова. Працэсарам звычайна неабходна хутка абменьвацца інфармацыяй, што патрабуе спецыялізаванага абсталявання для сувязі.
CPU-intensive workloads generally benefit from processors or memory that achieves the maximum turbo frequency for any individual core at any time. Processor power management settings can be applied to help ensure that any component frequency increase can be readily achieved. CPU intensive workloads are general-purpose workloads, so optimizations are performed generically to increase processor core and memory speed, and performance tunings that typically benefit from faster computing time are used.
Інтэнсіўныя нагрузкі ўводу/вываду
I/O-intensive optimizations are configurations that depend on maximum throughput between I/O and memory. Processor utilization–based power management features that affect performance on the links between I/O and memory are disabled.
Энергаэфектыўныя рабочыя нагрузкі
Энергаэфектыўная аптымізацыя — найбольш распаўсюджаныя налады збалансаванай прадукцыйнасці. Яны карысныя для большасці працоўных нагрузак праграм, а таксама дазваляюць выкарыстоўваць налады кіравання харчаваннем, якія мала ўплываюць на агульную прадукцыйнасць. Налады, якія прымяняюцца для энергаэфектыўных працоўных нагрузак, павялічваюць агульную прадукцыйнасць праграм, а не энергаэфектыўнасць. Налады кіравання харчаваннем працэсара могуць паўплываць на прадукцыйнасць пры выкарыстанні віртуалізаваных аперацыйных сістэм. Такім чынам, гэтыя налады рэкамендуюцца кліентам, якія звычайна не наладжваюць BIOS пад свае працоўныя нагрузкі.
Нагрузкі з нізкай затрымкай
Рабочыя нагрузкі, якія патрабуюць нізкай затрымкі, такія як фінансавы гандаль і апрацоўка ў рэжыме рэальнага часу, патрабуюць ад сервераў стабільнага адказу сістэмы. Рабочыя нагрузкі з нізкай затрымкай прызначаны для кліентаў, якім патрабуецца мінімальная вылічальная затрымка для сваіх рабочых нагрузак. Максімальная хуткасць і прапускная здольнасць часта прыносяцца ў ахвяру дзеля зніжэння агульнай вылічальнай затрымкі. Кіраванне харчаваннем працэсара і іншыя функцыі кіравання, якія могуць прывесці да вылічальнай затрымкі, адключаюцца.
Каб дасягнуць нізкай затрымкі, неабходна разумець апаратную канфігурацыю тэставанай сістэмы. Важнымі фактарамі, якія ўплываюць на час водгуку, з'яўляюцца колькасць ядраў, колькасць патокаў апрацоўкі на ядро, колькасць вузлоў NUMA, размяшчэнне працэсара і памяці ў тапалогіі NUMA і тапалогія кэша ў вузле NUMA. Параметры BIOS звычайна не залежаць ад аперацыйнай сістэмы, і для дасягнення дэтэрмінаванай прадукцыйнасці таксама патрабуецца правільна настроеная аперацыйная сістэма з нізкай затрымкай.
Агляд налад BIOS, аптымізаваных для агульнай нагрузкі
У табліцы 18 прыведзены налады BIOS, аптымізаваныя для агульных працоўных нагрузак.
Table 18. BIOS recommendations for CPU-intensive, I/O-intensive, energy-efficiency, and low-latency workloads
Параметры BIOS | BIOS values (platform default) | Інтэнсіўны працэсар | Інтэнсіўны ўвод/вывад | Энергія эфектыўнасць | Нізкая затрымка |
Працэсар | |||||
Рэжым SMT працэсара | Аўтаматычна (уключана) | Аўто | Аўто | Аўто | Інваліды |
Рэжым SVM | Уключаны | Уключаны | Уключаны | Уключаны | Інваліды |
C-станы DF | Аўтаматычна (уключана) | Аўто | Інваліды | Аўто | Інваліды |
ACPI SRAT L3
Cache as NUMA Domain |
Аўтаматычны (адключаны) | Уключаны | Аўто | Аўто | Аўто |
АПБДІС | Аўто (0) | 1 | 1 | Аўто | Аўто |
Фіксаваны SOC P-State SP5F 19 гадзін | P0 | P0 | P0 | P2 | P0 |
Максімальная хуткасць 4-рычага xGMI | Аўтаматычна (32 Гбіт/с) | Аўто | Аўто | Аўто | Аўто |
Палепшаная прадукцыйнасць працэсара | Інваліды | Аўто | Інваліды | Інваліды | Інваліды |
Памяць | |||||
NUMA вузлоў на сокет | Аўтаматычны (NPS1) | NPS4 | NPS4 | Аўто | Аўто |
IOMMU | Аўтаматычна (уключана) | Аўтамабіль * | Аўто | Аўто | Адключана* |
Памяць перамежаванне | Аўтаматычна (уключана) | Аўтамабіль * | Аўто | Аўто | Адключана* |
Параметры BIOS | BIOS values (platform default) | Інтэнсіўны працэсар | Інтэнсіўны ўвод/вывад | Энергія эфектыўнасць | Нізкая затрымка |
Магутнасць/прадукцыйнасць | |||||
Core performance павысіць | Аўтаматычна (уключана) | Аўто | Аўто | Аўто | Інваліды |
Глабальны кантроль C-дзяржаў | Інваліды | Інваліды | Уключаны | Уключаны | Інваліды |
L1 Stream HW Prefetcher | Аўтаматычна (уключана) | Аўто | Аўто | Інваліды | Аўто |
L2 Stream HW Prefetcher | Аўтаматычна (уключана) | Аўто | Аўто | Інваліды | Аўто |
Паўзунок дэтэрмінізму | Аўтаматычны (магутнасць) | Аўто | Аўто | Аўто | Прадукцыйнасць |
CPPC | Аўтаматычны (адключаны) | Аўто | Аўто | Уключаны | Аўто |
Power Profile выбар F19h | Высокапрадукцыйны рэжым | High- performance mode | Maximum I/O performance mode | Рэжым эфектыўнасці | Высокапрадукцыйны рэжым |
Заўвага: BIOS tokens with * highlighted are applicable only for Cisco UCS X215c M8 Compute Nodes and Cisco UCS C245 M8 Rack Servers.
If your application scenario does not require virtualization, then disable AMD virtualization technology. With virtualization disabled, also disable the AMD IOMMU option. It can cause differences in latency for memory access. See the AMD performance tuning guide для атрымання дадатковай інфармацыі.
Дадатковыя рэкамендацыі BIOS для карпаратыўных нагрузак
У гэтым раздзеле падсумаваны аптымальныя налады BIOS для карпаратыўных рабочых нагрузак:
- Віртуалізацыя
- Кантэйнеры
- Relational Database (RDBMS)
- Analytical Database (Bigdata)
- HPC workloads
У наступных раздзелах апісана кожная карпаратыўная нагрузка.
Virtualization workloads
AMD Virtualization Technology provides manageability, security, and flexibility in IT environments that use software-based virtualization solutions. With this technology, a single server can be partitioned and can be projected as several independent servers, allowing the server to run different applications on the operating system simultaneously. It is important to enable AMD Virtualization Technology in the BIOS to support virtualization workloads.
The CPUs that support hardware virtualization enable the processor to run multiple operating systems in virtual machines. This feature involves some overhead because the performance of a virtual operating system is comparatively slower than that of the native OS.
For more information, see AMD’s VMware vSphere Tuning Guide.
Нагрузкі кантэйнераў
Кантэйнерызацыя платформы прыкладанняў і звязаных з ёй залежнасцей абстрагуе адрозненні паміж базавай інфраструктурай і аперацыйнымі сістэмамі для павышэння эфектыўнасці. Кожны кантэйнер аб'яднаны ў адзін пакет, які змяшчае поўнае асяроддзе выканання, у тым ліку прыкладанне з усімі яго залежнасцямі, бібліятэкамі і іншымі двайковымі файламі, а таксама канфігурацыю. fileнеабходныя для запуску гэтага прыкладання. Кантэйнеры, якія запускаюць прыкладання ў прадукцыйным асяроддзі, патрабуюць кіравання, каб забяспечыць стабільную бесперабойную працу. Калі адзін кантэйнер выходзіць з ладу, то павінен аўтаматычна запускацца іншы кантэйнер.
Workloads that scale and perform well on bare metal should see a similar scaling curve in a container environment with minimal performance overhead. Some containerized workloads can even see close to 0% performance variance compared to bare metal. Large overhead generally means that application settings and/or container configuration are not optimally set. These topics are beyond the scope of this tuning guide. However, the CPU load balancing behavior of Kubernetes or other container orchestration platform schedulers may assign or load balance containerized applications differently than in a bare metal environment.
For more information, see AMD’s Kubernetes Container Tuning Guide.
Нагрузкі рэляцыйных баз дадзеных
Інтэграцыя рэгулярных СКБД, такіх як Oracle, MySQL, PostgreSQL або Microsoft SQL Server, з працэсарамі AMD EPYC можа прывесці да павышэння прадукцыйнасці базы дадзеных, асабліва ў асяроддзях, якія патрабуюць высокай паралелізму, хуткай апрацоўкі запытаў і эфектыўнага выкарыстання рэсурсаў. Архітэктура працэсараў AMD EPYC дазваляе базам дадзеных эфектыўна выкарыстоўваць некалькі ядраў і патокаў, што асабліва карысна для транзакцыйных нагрузак, аналітыкі і апрацоўкі вялікіх маштабаў дадзеных.
Карацей кажучы, выкарыстанне працэсараў AMD EPYC у асяроддзях RDBMS можа прывесці да значнага паляпшэння прадукцыйнасці, маштабаванасці і эканамічнай эфектыўнасці, што робіць іх моцным выбарам для карпаратыўных рашэнняў баз дадзеных.
Працэсары AMD EPYC 4-га пакалення забяспечваюць высокую колькасць аперацый уводу/вываду ў секунду (IOPS) і прапускную здольнасць для ўсіх баз дадзеных. Выбар правільнага працэсара важны для забеспячэння аптымальнай прадукцыйнасці праграм баз дадзеных.
For more information, see AMD’s RDBMS Tuning Guide.
Нагрузкі на аналітыку вялікіх дадзеных
Big Data Analytics involves the examination of vast amounts of data to uncover hidden patterns, correlations, and other insights that can be used to make better decisions. This requires significant computational power, memory capacity, and I/O bandwidth—areas where AMD EPYC processors excel.
Працэсары AMD EPYC забяспечваюць надзейную платформу для аналізу вялікіх дадзеных, прапаноўваючы вылічальную магутнасць, аб'ём памяці і прапускную здольнасць уводу/вываду, неабходныя для выканання патрабаванняў апрацоўкі вялікіх дадзеных. Іх маштабаванасць, эканамічная эфектыўнасць і энергаэфектыўнасць робяць іх пераканаўчым выбарам для арганізацый, якія жадаюць стварыць або мадэрнізаваць сваю інфраструктуру аналізу вялікіх дадзеных.
Нагрузкі HPC (высокапрадукцыйныя вылічэнні)
HPC refers to cluster-based computing that uses multiple individual nodes that are connected and that work in parallel to reduce the amount of time required to process large data sets that would otherwise take exponentially longer to run on any one system. HPC workloads are computation-intensive and typically also network-I/O intensive. HPC workloads require high-quality
CPU components and high-speed, low-latency network fabrics for their Message Passing Interface (MPI) connections.
Вылічальныя кластары ўключаюць у сябе галаўны вузел, які забяспечвае адзіную кропку для адміністравання, разгортвання, маніторынгу і кіравання кластарам. Кластары таксама маюць унутраны кампанент кіравання нагрузкай, вядомы як планавальнік, які кіруе ўсімі ўваходнымі працоўнымі элементамі (якія называюцца заданнямі). Як правіла, для маштабавання працоўных нагрузак HPC патрабуецца вялікая колькасць вузлоў з неблакіруючымі сеткамі MPI. Маштабаванасць вузлоў з'яўляецца найважнейшым фактарам, які вызначае дасягнутую карысную прадукцыйнасць кластара.
Для HPC патрабуецца высокапрапускная сетка ўводу/вываду. Калі ўключана падтрымка прамога доступу да кэша (DCA), сеткавыя пакеты трапляюць непасрэдна ў кэш працэсара 3-га ўзроўню, а не ў асноўную памяць. Гэты падыход памяншае колькасць цыклаў уводу/вываду HPC, якія генеруюцца рабочымі нагрузкамі HPC пры выкарыстанні пэўных адаптараў Ethernet, што, у сваю чаргу, павышае прадукцыйнасць сістэмы.
For more information, see AMD’s High-Performance Computing (HPC) Tuning Guide.
Агляд рэкамендаваных налад BIOS для карпаратыўных рабочых нагрузак
У табліцы 19 падсумаваны токены і налады BIOS, рэкамендаваныя для розных карпаратыўных нагрузак.
Табліца 19.
BIOS recommendations for virtualization, containers, RDBMS, big-data analytics, and HPC enterprise workloads
Параметры BIOS | BIOS values (platform default) | Virtualization/ container | РСКБД | Big-data аналітыка | HPC |
Працэсар | |||||
Рэжым SMT працэсара | Уключаны | Уключаны | Уключаны | Інваліды | Інваліды |
Рэжым SVM | Уключаны | Уключаны | Уключаны | Уключаны | Уключаны |
C-станы DF | Аўта (уключана) | Аўто | Інваліды | Аўто | Аўто |
ACPI SRAT L3 Cache
as NUMA Domain |
Auto (Disabled) | Аўто | Аўто | Аўто | Аўто |
АПБДІС | Аўто (0) | Аўто | 1 | 1 | 1 |
Фіксаваны SOC P-State SP5F 19 гадзін | P0 | P0 | P0 | P0 | P0 |
4-link xGMI max хуткасць* | Аўтаматычна (32 Гбіт/с) | Аўто | Аўто | Аўто | Аўто |
Палепшаная прадукцыйнасць працэсара* | Інваліды | Інваліды | Інваліды | Інваліды | Аўто |
Параметры BIOS | BIOS values (platform default) | Virtualization/ container | РСКБД | Big-data аналітыка | HPC |
Памяць | |||||
NUMA вузлоў на сокет | Аўтаматычны (NPS1) | Аўто | NPS4 | Аўто | NPS4 |
IOMMU | Аўта (уключана) | Аўто | Аўто | Аўто | Аўто |
Перамежаванне памяці | Аўта (уключана) | Аўто | Аўто | Аўто | Аўто |
Магутнасць/прадукцыйнасць | |||||
Core performance павысіць | Аўта (уключана) | Аўто | Аўто | Аўто | Аўто |
Глабальны кантроль C-дзяржаў | Інваліды | Уключаны | Уключаны | Уключаны | Уключаны |
L1 Stream HW Prefetcher | Аўта (уключана) | Аўто | Аўто | Аўто | Аўто |
L2 Stream HW Prefetcher | Аўта (уключана) | Аўто | Аўто | Аўто | Аўто |
Паўзунок дэтэрмінізму | Auto (Power) | Аўто | Аўто | Аўто | Аўто |
CPPC | Auto (Disabled) | Уключаны | Аўто | Уключаны | Аўто |
Power Profile выбар F19h | Высокапрадукцыйны рэжым | Высокапрадукцыйны рэжым | Maximum I/O performance mode | High- performance mode | High- performance mode |
Заўвага: BIOS tokens with *highlighted are not applicable only for single socket optimized platform like Cisco UCS C225 M8 1U Rack Server.
- If your workloads have few vCPUs per virtual machine (that is, less than a quarter of the number of cores per socket), then the following settings tend to provide the best performance:
- NUMA NPS (nodes per socket) = 4
- LLC As NUMA turned on
- If your workload virtual machines have a large number of vCPUs (that is, greater than half the number of cores per socket), then the following settings tend to provide the best performance:
- NUMA NPS (nodes per socket) = 1
- LLC As NUMA turned off
Для атрымання дадатковай інфармацыі гл VMware vSphere Tuning Guide.
Кіраўніцтва па наладзе аперацыйнай сістэмы для высокай прадукцыйнасці
Аперацыйныя сістэмы Microsoft Windows, VMware ESXi, Red Hat Enterprise Linux і SUSE Linux маюць шмат новых функцый кіравання харчаваннем, якія ўключаны па змаўчанні. Такім чынам, вам неабходна наладзіць аперацыйную сістэму, каб дасягнуць найлепшай прадукцыйнасці.
For additional performance documentation, see the AMD EPYC performance tuning guides.
Linux (Red Hat і SUSE)
Рэгулятар частаты працэсара вызначае характарыстыкі магутнасці сістэмнага працэсара, што, у сваю чаргу, уплывае на прадукцыйнасць працэсара. Кожны рэгулятар мае свае ўнікальныя паводзіны, прызначэнне і прыдатнасць з пункту гледжання нагрузкі.
Рэгулятар прадукцыйнасці прымушае працэсар выкарыстоўваць максімальна магчымую тактавую частату. Гэтая частата статычна ўстаноўлена і не змяняецца. Такім чынам, гэты канкрэтны рэгулятар не дае пераваг у эканоміі энергіі. Ён падыходзіць толькі для гадзін высокай нагрузкі, і нават тады, калі працэсар рэдка (ці ніколі) не бяздзейны. Налада па змаўчанні — «па патрабаванні», што дазваляе працэсару дасягнуць максімальнай тактавай частаты пры высокай нагрузцы сістэмы і мінімальнай тактавай частаты, калі сістэма бяздзейная. Нягледзячы на тое, што гэтая налада дазваляе сістэме рэгуляваць спажыванне энергіі ў залежнасці ад нагрузкі сістэмы, яна робіць гэта за кошт затрымкі з-за пераключэння частаты.
Рэгулятар прадукцыйнасці можна наладзіць з дапамогай каманды cpupower: cpupower frequency-set -g performance
Для атрымання дадатковай інфармацыі глядзіце наступныя спасылкі:
- Red Hat Enterprise Linux: Усталюйце рэгулятар частаты працэсара.
- Сервер SUSE Enterprise Linux: Усталюйце рэгулятар частаты працэсара.
Microsoft Windows Server 2019 і 2022
Для Microsoft Windows Server 2019 па змаўчанні выкарыстоўваецца збалансаваны (рэкамендаваны) план электраэнергіі. Гэты параметр дазваляе эканоміць энергію, але можа прывесці да павелічэння затрымкі (павольнага часу водгуку для некаторых задач) і праблем з прадукцыйнасцю праграм, якія патрабуюць значных рэсурсаў працэсара. Для максімальнай прадукцыйнасці ўсталюйце план электраэнергіі на Высокую прадукцыйнасць.
Для атрымання дадатковай інфармацыі глядзіце наступную спасылку:
Microsoft Windows and Hyper-V: Set the power policy to High Performance.
VMware ESXi
У VMware ESXi кіраванне харчаваннем хоста прызначана для зніжэння спажывання энергіі хостамі ESXi, калі яны ўключаны. Усталюйце палітыку харчавання на «Высокая прадукцыйнасць», каб дасягнуць максімальнай прадукцыйнасці.
Для атрымання дадатковай інфармацыі глядзіце наступныя спасылкі:
VMware ESXi: Set the power policy to High Performance.
Заключэнне
Пры наладжванні параметраў BIOS сістэмы для павышэння прадукцыйнасці неабходна ўлічваць шэраг параметраў працэсара і памяці. Калі вашай мэтай з'яўляецца найлепшая прадукцыйнасць, абавязкова выбірайце параметры, якія аптымізуюць прадукцыйнасць, а не эканомію энергіі. Таксама паэксперыментуйце з іншымі параметрамі, такімі як чаргаванне памяці і гіперструменнасць працэсара. Самае галоўнае — ацаніце ўплыў любых параметраў на прадукцыйнасць, неабходную вашым праграмам.
Для атрымання дадатковай інфармацыі
Больш падрабязную інфармацыю пра сервер Cisco UCS M8 з працэсарамі AMD 4-га і 5-га пакаленняў можна знайсці ў наступных рэсурсах:
- Кіраўніцтва па токене IMM BIOS:
/b_IMM_Server_BIOS_Tokens_Guide.pdf
- Вылічальны вузел Cisco UCS X215c M8:
- Стоечны сервер Cisco UCS C245 M8:
- Стоечны сервер Cisco UCS C225 M8:
- Кіраўніцтвы па наладзе AMD EPYC:
- https://developer.amd.com/resources/epyc-resources/epyc-tuning-guides/
- https://www.amd.com/content/dam/amd/en/documents/epyc-technical-docs/tuning-guides/58015- epyc-9004-tg-architecture-overview.pdf
- https://www.amd.com/content/dam/amd/en/documents/epyc-technical-docs/white- papers/58649_amd-epyc-tg-low-latency.pdf
- https://www.amd.com/content/dam/amd/en/documents/epyc-technical-docs/tuning-guides/57996- epyc-9004-tg-rdbms.pdf
- https://www.amd.com/content/dam/amd/en/documents/epyc-technical-docs/tuning- guides/58002_amd-epyc-9004-tg-hpc.pdf
- https://www.amd.com/content/dam/amd/en/documents/epyc-technical-docs/tuning-guides/58013- epyc-9004-tg-hadoop.pdf
- https://www.amd.com/content/dam/amd/en/documents/epyc-technical-docs/tuning-guides/58007- epyc-9004-tg-mssql-server.pdf
- https://www.amd.com/content/dam/amd/en/documents/epyc-technical-docs/tuning- guides/58001_amd-epyc-9004-tg-vdi.pdf
Штаб-кватэра ў Амерыцы
Кампанія Cisco Systems, Inc.
Сан-Хасэ, Каліфорнія
Штаб Азіяцка-Ціхаакіянскага рэгіёна
Cisco Systems (ЗША) Pte. ТАА
Сінгапур
Штаб-кватэра Еўропы
Cisco Systems International BV Амстэрдам,
Нідэрланды
Cisco мае больш за 200 офісаў па ўсім свеце. Адрасы, нумары тэлефонаў і факсаў указаны на Cisco Webсайт на https://www.cisco.com/go/offices. Cisco and the Cisco logo are trademarks or registered trademarks of Cisco and/or its affiliates in the U.S. and other countries, To view спіс таварных знакаў Cisco, перайдзіце да гэтага URL: https://www.cisco.com/go/trademarks. Third-party trademarks mentioned are the property of their respective owners. The use of the word partner does not imply a partnership relationship between CISCO and any other company. (1 1 1 OR)
Надрукавана ў ЗША
Cll-4692101-03
07/25
© 2025 Cisco і/або яе філіялы. Усе правы абароненыя.
Дакументы / Рэсурсы
![]() |
Налада прадукцыйнасці Cisco для платформаў Cisco UCS M8 [pdfІнструкцыя па эксплуатацыі C245 M8, Налада прадукцыйнасці для платформаў Cisco UCS M8, Налада для платформаў Cisco UCS M8, Платформы Cisco UCS M8, Платформы UCS M8, Платформы M8, Платформы |