Кароткія кіраўніцтва па прадукцыйнасці Power10
(Power10 QSG)
2021 лістапада

Мінімум памяці

  • Для кожнага працэсарнага сокета запаўняецца як мінімум 8 з 16 модуляў DIMM
  • У вузле запаўняецца як мінімум 32 з 64 для модуляў DIMM
  • У сістэме з 4 вузламі запаўняецца як мінімум 128 з 256 модуляў DIMM

Правілы падключэння DDIMM

  •  Адпавядаюць мінімальна дазволенай памяці (у кожны працэсарны сокет запаўняецца як мінімум 8 з 16 модуляў DIMM)
  • Усе модулі DIMM пад кожным працэсарам павінны мець аднолькавую ёмістасць
  • Абнаўленне функцый будзе прапаноўвацца з крокам па 4 DDIMM, усе з якіх маюць аднолькавую ёмістасць.
  • Адзіная сапраўдная колькасць DDIMM, падключаных да сайтаў, падлучаных да дадзенага модуля працэсара, - 8, 12, 16.

Прадукцыйнасць памяці

  • Прадукцыйнасць сістэмы паляпшаецца, калі аб'ём памяці размяркоўваецца па большай колькасці слотаў DDIMM. Напрыкладampнапрыклад, калі 1 ТБ патрабуецца ў Node, лепш мець 64 модулі DIMM па 32 ГБ, чым 32 модулі DIMM па 64 ГБ.
  • Падключэнне модуляў DIMM аднолькавага памеру забяспечыць найвышэйшую прадукцыйнасць
  • Прадукцыйнасць сістэмы паляпшаецца, калі больш квадрацыклаў супадаюць адзін з адным
  • Прадукцыйнасць сістэмы паляпшаецца, калі большая колькасць модуляў DDIMM працэсара адпавядае адзін аднаму
  • Прадукцыйнасць сістэмы паляпшаецца ў сістэме з некалькімі скрынямі, калі аб'ём памяці паміж скрынямі збалансаваны.

Прапускная здольнасць памяці

Ёмістасць DDIMM Тэарэтычная максімальная прапускная здольнасць
32 ГБ, 64 ГБ (DDR4 @ 3200 Мбіт/с) 409 ГБ/с
128 ГБ, 256 ГБ (DDR4 @ 2933 Мбіт/с) 375 ГБ/с

Рэзюмэ

  • Для найлепшай магчымай прадукцыйнасці звычайна рэкамендуецца раўнамерна ўсталёўваць памяць ва ўсіх скрынях сістэмных вузлоў і ўсіх працэсарных разетках у сістэме. Балансаванне памяці па ўсталяваных планарных картах сістэмы забяспечвае паслядоўны доступ да памяці і звычайна прыводзіць да лепшай прадукцыйнасці вашай канфігурацыі.
  • Нягледзячы на ​​тое, што максімальная прапускная здольнасць памяці дасягаецца шляхам запаўнення ўсіх слотаў памяці, пры прыняцці рашэння аб тым, які памер функцыі памяці выкарыстоўваць падчас першапачатковага сістэмнага заказу, варта ўлічваць планы пабудовы памяці ў будучыні.

Архітэктура P10 Compute & MMA

  • 2x прапускная здольнасць, якая адпавядае SIMD*
  • 8 незалежных рухавікоў SIMD Fixed & Float на кожнае ядро
  • 4 – 32-кратнае матрычнае матэматычнае паскарэнне*
  • 4 512-бітны рухавік на ядро ​​= 2048b вынікаў / цыклаў
  • Матрычныя матэматычныя знешнія прадукты адзінарнай, падвойнай і паніжанай дакладнасці.
  • Падтрымка архітэктуры MMA прадстаўлена ў POWER ISA v3.1
  • Падтрымлівае ўзроўні дакладнасці SP, DP, BF16, HP, Int-16, Int-8 і Int-4.

P10 MMA Прыкладанні і інтэграцыя працоўнай нагрузкі

  • Прыкладанні ML і HPC з вылічэннямі шчыльнай лінейнай алгебры, множаннем матрыц, згорткамі, БПФ можна паскорыць з дапамогай MMA
  • Версія GCC >= 10 і версія LLVM >=12 падтрымліваюць MMA праз убудаваныя модулі.
  • Бібліятэкі OpenBLAS, IBM ESSL і Eigen ужо аптымізаваны з дапамогай інструкцый MMA для P10.
  • Лёгкая інтэграцыя MMA для карпаратыўных прыкладанняў, фрэймворкаў ML і пакетаў Open Community праз вышэйпералічаныя бібліятэкі BLAS.

Убудаваныя функцыі PowerPC Matrix-Multiply Assist https://gcc.gnu.org/onlinedocs/gcc/PowerPC-Matrix-Multiply-Assist-Built-in-Functions.html
Кіраўніцтва па перадавой практыцы Matrix-Multiply Assist  https://www.redbooks.ibm.com/Redbooks.nsf/RedpieceAbstracts/redp5612.html?OpenВіртуальныя працэсары

  • Сума названых ядраў усіх агульных раздзелаў не можа перавышаць колькасць ядраў у агульным пуле
  • Пераканайцеся, што колькасць сканфігураваных віртуальных працэсараў любых агульных раздзелаў на кадры не перавышае колькасць ядраў у агульным пуле
  • Наладзьце колькасць віртуальных працэсараў для агульнага раздзела, каб падтрымліваць пікавы попыт на магутнасць
  • Наладзьце колькасць прызначаных ядраў для агульнага раздзела, каб у сярэднім выкарыстоўваць гэты раздзел для лепшай прадукцыйнасці
  • Каб забяспечыць лепшае супадзенне памяці і працэсара (пазбегнуць непатрэбных прэвентыўных выключэнняў віртуальнага працэсара), пераканайцеся, што сума прызначаных ядраў усіх агульных раздзелаў блізкая да колькасці ядраў у агульным пуле

Рэжым сумяшчальнасці працэсара

  • Для AIX даступны 2 рэжымы сумяшчальнасці працэсара: POWER9 і POWER9_base. Па змаўчанні рэжым POWER9_base.
  • Ёсць 2 рэжымы сумяшчальнасці працэсара, даступныя для Linux: рэжым POWER9 і POWER10. Па змаўчанні рэжым POWER10.
  • Пасля раздзелаў LPM неабходна ўключыць цыкл пры змене рэжыму сумяшчальнасці працэсара

Меркаванні згортвання працэсара

  • Для агульнага падзелу, які працуе пад кіраваннем AIX на Power9, па змаўчанні vpm_throughput_mode = 0, на Power10 па змаўчанні vpm_throughput_mode = 2. Для працоўных нагрузак, якія маюць працяглыя заданні, гэта патэнцыйна можа дапамагчы паменшыць выкарыстанне ядра.
  • Для спецыяльнага раздзела, на якім працуе AIX, па змаўчанні vpm_throughput_mode = 0 як на Power9, так і на Power10.

Меркаванні памеру табліцы старонак LPAR

• Табліца старонак Radix падтрымліваецца, пачынаючы з Power10 пад кіраваннем Linux. Гэта патэнцыйна можа палепшыць прадукцыйнасць працоўнай нагрузкі.

Даведка:
Парады і падказкі па пераносе працоўнай нагрузкі на IBM POWER Systems: https://www.ibm.com/downloads/cas/39XWR7YM
IBM POWERVirtualizationBest PracticesGuide:  https://www.ibm.com/downloads/cas/JVGZA8RW

Пераканайцеся, што ўзровень АС актуальны
Fix Central змяшчае апошнія абнаўленні для AIX, IBM i, VIOS, Linux, HMC і F/W. У дадатак да гэтага інструмент FLRT забяспечвае рэкамендаваныя ўзроўні для кожнай мадэлі H/W. Выкарыстоўвайце гэтыя інструменты, каб падтрымліваць сваю сістэму ў актуальным стане. Калі вы не можаце падняцца да рэкамендаванага ўзроўню, звярніцеся да раздзела «Вядомая праблема» падказкі і парады па пераносе працоўнай нагрузкі ў дакумент «Сістэмы на базе працэсара IBM POWER10».
Загрузка працэсара AIX
У POWER10 сістэма АС AIX аптымізавана для найлепшай прапускной здольнасці ў неапрацаваным выглядзе пры больш высокім выкарыстанні ЦП пры працы з вылучанымі працэсарамі. Пры працы з агульнымі працэсарамі сістэма АС AIX аптымізавана для памяншэння выкарыстання працэсара (ПК). Калі кліент патрабуе далейшага зніжэння выкарыстання працэсара (ПК), выкарыстоўвайце pm_throughput_mode, які можна наладжваць па раскладзе, каб наладзіць рабочую нагрузку і ацаніць перавагі неапрацаванай прапускной здольнасці ў параўнанні з выкарыстаннем працэсара.
NX GZIP
Узяць авансtagДля паскарэння NX GZIP у сістэмах POWER10 LPAR павінен знаходзіцца ў рэжыме сумяшчальнасці POWER9 (не ў рэжыме POWER9_base) або рэжыме сумяшчальнасці POWER10.
IBM i
Пераканайцеся, што ўзровень аперацыйнай сістэмы IBM I актуальны. Fix Central змяшчае апошнія абнаўленні для IBM I, VIOS, HMC і прашыўкі. https://www.ibm.com/support/fixcentral/
Прашыўка
Пераканайцеся, што ўзровень прашыўкі сістэмы актуальны. Fix Central змяшчае апошнія абнаўленні для IBM I, VIOS, HMC і прашыўкі. https://www.ibm.com/support/fixcentral/
Модулі памяці DIMM
Выконвайце правільныя правілы падключэння памяці. Калі магчыма, цалкам запоўніце слоты памяці DIMM і выкарыстоўвайце модулі памяці DIMM падобнага памеру.
Узровень SMT працэсара
To take full advantagШто тычыцца прадукцыйнасці працэсараў Power10, мы рэкамендуем кліентам выкарыстоўваць налады шматзадачнасці працэсара IBM i па змаўчанні, што дазволіць максімальна павялічыць SMT
узровень для канфігурацыі LPAR.
Размяшчэнне перагародак
Бягучыя ўзроўні FW забяспечваюць аптымальнае размяшчэнне перагародак. Аднак, калі часта выконваюцца аперацыі DLPAR на раздзелах на CEC, рэкамендуецца выкарыстоўваць DPO
для аптымізацыі размяшчэння.
Віртуальныя працэсары - агульныя супраць выдзеленых працэсараў
Выкарыстоўвайце спецыяльныя працэсары для аптымальнай прадукцыйнасці на ўзроўні раздзелаў.
EnergyScale
Для лепшай хуткасці працэсара працэсара пераканайцеся, што ўстаноўлена максімальная прадукцыйнасць (па змаўчанні для IBM Power E1080). Гэты параметр можна наладзіць у ASMI.
Сховішча і сеткавы ўвод-вывад
VIOS забяспечвае гнуткае захоўванне і сеткавую функцыянальнасць. Для найлепшай прадукцыйнасці выкарыстоўвайце ўласныя інтэрфейсы IBM i для ўводу-вываду.
Больш поўная інфармацыя
Перайдзіце па спасылцы: IBM I on Power – Performance FAQ https://www.ibm.com/downloads/cas/QWXA9XKN

Карпаратыўная аперацыйная сістэма (АС) Linux з'яўляецца трывалай асновай для вашай гібрыднай воблачнай інфраструктуры і для карпаратыўных праграмных рашэнняў для маштабавання. Апошнія выпускі аптымізаваны для лепшых у сваім класе сістэм Power10 Enterprise
Магутнасць10

  • SLES15SP3, RHEL8.4 падтрымліваюць уласны рэжым Power10
  • Падтрымка рэжыму компаса, каб дазволіць кліентам перайсці з сістэм харчавання старога пакалення (P9 і P8)
  • Падтрымка перакладу Radix па змаўчанні ў рэжыме Power10
  • Значнае паляпшэнне прадукцыйнасці шыфравання

Linux + PowerVM

  • Падтрымка карпаратыўных функцый PowerVM: LPM, агульныя пулы працэсараў, DLPAR
  • Інавацыйныя рашэнні: будучы рост прыкладанняў SAP HANA з віртуальнай адраснай прасторай 4 ПБ
  • Скароціце час на перазагрузку даных: падтрымка віртуальнага PMEM для SAP HANA
  • Падтрымка і абслугоўванне сусветнага ўзроўню

Падтрымліваюцца дыстрыбутывы:

  • Пачынаючы з Power9 у раздзелах PowerVM падтрымліваюцца толькі RedHat і SUSE
  • Падрабязная інфармацыя аб матрыцы падтрымкі дыстрыбутыва, якая ахоплівае HW старога пакалення

Падтрымка LPM:

  • Перамясціце лагічныя раздзелы Linux з сістэм харчавання старога пакалення з амаль нулявым часам прастою прыкладанняў
  • Даведка: Кіраўніцтва LPM і звязаная інфармацыя

Спецыяльныя пакеты харчавання:

  • Пакет PowerPC-utils: Змяшчае ўтыліты для абслугоўвання LPAR IBM PowerPC. Даступна як частка дыстрыбутыва.
  • Advance Toolchain для Linux on Power: змяшчае найноўшыя кампілятары, бібліятэкі часу выканання.

Лепшыя практыкі :

  • RHEL прадастаўляе загадзя зададзеныя налады як частку наладжанага сэрвісу.
  • Звярніцеся да апошніх нататак SAP, каб даведацца пра рэкамендаваныя налады АС для прыкладанняў SAP. Звычайна настроены выкарыстоўваецца ў RHEL і захоп або sapconf у SLES
  • Частатай кіруе PowerVM. Даведка: Энергетычны менеджмент
  • Запуск Power8 Huge Dynamic DMA Window дапамагае палепшыць прадукцыйнасць уводу-вываду.
  • Запуск Power9 24×7-Monitoring інтэграваны з інструментам perf. Дазваляе кантраляваць усю сістэму.
  • Пераканайцеся, што ўзровень прашыўкі сістэмы актуальны.
  • lparnumascore ад PowerPC-utils паказвае бягучую ацэнку блізкасці LPAR. DPO можна выкарыстоўваць для паляпшэння ацэнкі сродства LPAR.

Больш чытанняў:

  • SLES for Power і некаторыя пераканаўчыя функцыі.
  • Пачніце з Linux на серверах Power Systems, Linux на серверах Power Systems
  • Enterprise Linux супольнасць
  • Сістэмы IBM Power падтрымліваюць розныя сеткавыя адаптары з рознай хуткасцю і колькасцю партоў.
  • Калі вы выкарыстоўваеце тыя ж сеткавыя адаптары, што і ў папярэдняй сістэме, першапачаткова ў новай сістэме варта выкарыстоўваць такую ​​ж настройку.
  • Большасць адаптараў Ethernet падтрымліваюць некалькі чэргаў прыёму і перадачы, памер буфера якіх можна змяняць для павелічэння максімальнай колькасці пакетаў.
  • Налады чаргі па змаўчанні адрозніваюцца для розных адаптараў і не могуць быць аптымальнымі для дасягнення максімальнай хуткасці паведамленняў у мадэлі кліент-сервер.
  • Выкарыстанне дадатковых чэргаў павялічыць загрузку працэсара сістэмы; таму варта выкарыстоўваць аптымальную наладу чаргі для канкрэтнай нагрузкі.

Меркаванні больш высокай хуткасці адаптара

  • Больш хуткасныя сеткі з сеткавымі адаптарамі 25 GigE і 100 GigE патрабуюць некалькіх паралельных патокаў і налады атрыбутаў драйвера.
  • Калі гэта адаптар Gen4, пераканайцеся, што адаптаваны адаптар усталяваны ў слот Gen4.
  • Дадатковыя функцыі, такія як сціск, шыфраванне і дубляванне, могуць павялічыць затрымку

Змена параметраў чаргі ў AIX
Каб змяніць колькасць чэргаў прыёму/перадачы ў AIX

  •  ifconfig enX адлучыць
  • chdev -l entX -a queues_rx= -a queues_tx=
  • chdev -l enX -a стан=уверх

Змена параметраў чаргі ў Linux
Каб змяніць колькасць чэргаў у Linux ethtool -L ethX разам

Змена памеру чаргі ў AIX

  • ifconfig enX адлучыць
  • chdev -l entX -a rx_max_pkts = -a tx_max_pkts =
  • chdev -l enX -a стан=уверх

Змена памеру чаргі ў LinuxP: ethtool -G ethX rx тх

Віртуалізацыя

  • Віртуалізаваныя сеткі падтрымліваюцца ў выглядзе SRIOV, vNIC, vETH. Віртуалізацыя сапраўды павялічвае затрымку і можа паменшыць прапускную здольнасць у параўнанні з уласным уводам-вывадам.
  • Акрамя бэкэнд-абсталявання, пераканайцеся, што памяці VIOS і працэсара дастаткова для забеспячэння неабходнай прапускной здольнасці і часу водгуку
  • IBM PowerVM Best Practices можа быць вельмі карысным пры вызначэнні памеру VIOS
  • Калі вы выкарыстоўваеце тыя ж адаптары захоўвання дадзеных, што і ваша папярэдняя сістэма, першапачаткова ў новай сістэме павінны быць выкарыстаны тыя ж налады. Калі патрабуецца дадатковая прадукцыйнасць існуючай сістэмы, варта выканаць звычайную настройку.
  • Калі падсістэмы захоўвання прыкметна адрозніваюцца ў новай сістэме ад папярэдняй сістэмы, наступны спіс меркаванняў можа негатыўна паўплываць на ўяўную хуткасць прыкладанняў –
  • Пераход з назапашвальніка з прамым падключэннем (DAS або ўнутранага) на сетку захоўвання дадзеных (SAN) або сеткавага сховішча (NAS) (або вонкавага назапашвальніка) можа павялічыць затрымку.
  • Дадатковыя функцыі, такія як сціск, шыфраванне і дэдуплікацыя, могуць павялічыць затрымку.
  • Памяншэнне колькасці LUN для захоўвання можа паменшыць рэсурсы сервера, неабходныя для падтрымкі неабходнай прапускной здольнасці.
  • Каб зразумець гэтыя наступствы, звярніцеся да інструкцый па настройцы і ўсталёўцы новых прылад».
  • Віртуалізацыя сапраўды павялічвае затрымку і можа паменшыць прапускную здольнасць у параўнанні з уласным уводам-вывадам. Акрамя бэкэнд-абсталявання, забяспечце памяць VIOS і працэсар
  • Пераход да больш хуткасных віртуалізаваных адаптараў у VIOS запатрабуе карэкціроўкі канфігурацыі VIOS у працэсарах і памяці. IBM PowerVM Best Practices можа быць вельмі карысным пры вызначэнні памеру VIOS.

Кіраўніцтва па настройцы – звярніцеся да рэкамендацый Цэнтра ведаў IBM для AIX і Linux.

Адаптар PCIe3 12 ГБ кэш-памяці RAID + SAS Чатырохпортавы адаптар 6 ГБ x8 Linux:

AIX:

IBM

3-партовы адаптар Fibre Channel PCIe8 x2 (32 Гбіт/с).

Дадатковая настройка AIX для прадукцыйнасці:

  • SCSI праз Fibre Channel (MPIO): усталяваць шматшляховы алгарытм у round_robin для кожнага дыска
  • NVMe праз Fibre Channel: набор можа атрыбутаваць 7 для кожнага дынамічнага кантролера NVMe праз Fibre Channel, створанага на этапе выяўлення

Настройка прадукцыйнасці адаптара NVMe AIX
Набор можа атрыбутаваць 8 для кожнай прылады NVMe
Кампілятары наступнага пакалення C/C++/Fortran ад IBM, якія аб'ядноўваюць пашыраныя магчымасці аптымізацыі IBM з інфраструктурай LLVM з адкрытым зыходным кодам

LLVM
Большая валюта для мовы C/C++
Больш высокая хуткасць зборкі
Агульныя аптымізацыі супольнасці
Розныя ўтыліты на аснове LLVM
Аптымізацыя IBM
Поўнае выкарыстанне архітэктуры Power
Вядучая ў галіны пашыраная аптымізацыя
Падтрымка і абслугоўванне сусветнага ўзроўню

Даступнасць

  • 60-дзённая бясплатная пробная версія: спампаваць са старонкі прадукту Open XL
  • Атрымайце абслугоўванне і падтрымку сусветнага класа ад IBM з дапамогай гнуткіх варыянтаў ліцэнзавання ад двухканальных (AAS і PA)
  • Бестэрміновая ліцэнзія (на аўтарызаванага карыстальніка або на адначасовага карыстальніка)
  • Штомесячная ліцэнзія (на віртуальнае ядро ​​працэсу): мэтавыя выпадкі выкарыстання воблака, напрыклад, на асобніку PowerVR

Рэкамендуемыя варыянты налады прадукцыйнасці

Узровень аптымізацыі Рэкамендацыі па выкарыстанні
-O2 і -O3 Тыповая адпраўная кропка
Аптымізацыя часу спасылкі: -flto (C/C++), -qlto (Fortran) Для працоўных нагрузак з вялікай колькасцю дробных выклікаў функцый
профіfile кіраваная аптымізацыя: -fprofile-генераваць, -фпраfile-выкарыстоўваць (C/C++)
-qprofile-генераваць, -qprofile-выкарыстоўваць (Фортран)
Для працоўных нагрузак з вялікай колькасцю разгалінаванняў і выклікаў функцый

Для атрымання дадатковай інфармацыі наведайце: https://www.ibm.com/docs/en/openxl-c-and-cpp-aix/17.1.0
https://www.ibm.com/docs/en/openxl-fortran-aix/17.1.0

Поўная эксплуатацыя архітэктуры Power10 з Open XL 17.1.0

  • Новая опцыя кампілятара '–mcpu=pwr10' для стварэння кода з выкарыстаннем інструкцый Power10 і аўтаматычнай налады аптымізацыі для Power10
  • Новыя ўбудаваныя функцыі для разблакіроўкі новых функцый Power10, напрыклад, паскаральнік матрычнага множання (MMA)
  • Новыя MASS SIMD і вектарныя бібліятэкі былі дададзены для Power10. Усе функцыі бібліятэкі MASS (SIMD, вектар, скаляр), настроеныя на Power10 (таксама Power9).

Заўвага: Праграмы, скампіляваныя з больш раннімі версіямі кампілятараў XL (напрыклад, XL 16.1.0) для працы на папярэдніх працэсарах Power, будуць сумяшчальна працаваць на Power10.
Двайковая сумяшчальнасць на AIX
Заўвага: XL C/C++ для AIX 16.1.0 ужо прадставіў новы выклік xlclang++, які выкарыстоўвае інтэрфейс Clang з праекта LLVM ü аб'екты C++, створаныя з дапамогай xlC для

  • AIX (на аснове ўласнага інтэрфейсу IBM) не сумяшчальны ў бінарным выглядзе з аб'ектамі C++, створанымі з дапамогай xlclang++ 16.1.0 для AIX
  • Аб'екты C++, створаныя з дапамогай xlclang++ 16.1.0 для AIX, будуць двайкова сумяшчальныя з новым Open XL C/C++ для AIX 17.1.0
  • Сумяшчальнасць з C падтрымліваецца ва ўсіх кампілятарах AIX (раннія версіі XL для AIX, Open XL C/C++ для AIX 17.1.0)
  • Сумяшчальнасць Fortran захоўваецца паміж больш ранняй версіяй XLF для AIX і Open XL Fortran для AIX 17.1.0

Даступнасць
Кампілятары GCC даступныя ва ўсіх дыстрыбутывах Enterprise Linux і далей
AIX.

  • Усталяваная версія GCC 8.4 на RHEL 8 і 7.4 на SLES 15. Чакаецца, што RHEL 9 будзе пастаўляць GCC 11.2.
  • Ёсць некалькі спосабаў атрымаць досыць свежую версію GCC, калі кампілятары па змаўчанні для дыстрыбутыва занадта старыя для падтрымкі Power10.
  • Для гэтай мэты Red Hat падтрымлівае GCC Toolset [1].
  • SUSE забяспечвае модуль інструментаў распрацоўкі. [2]
  • IBM прадастаўляе найноўшыя кампілятары і бібліятэкі праз Advance Toolchain. [3]

IBM Advance Toolchain

  • Advance Toolchain забяспечвае сістэмныя бібліятэкі, аптымізаваныя для харчавання, разам з кампілятарамі, адладчыкамі і іншымі інструментамі.
  • Стварэнне кода з дапамогай Advance Toolchain можа стварыць максімальна аптымізаваны код на апошніх працэсарах.

Мовы

  • C (GCC), C++ (g++) і Fortran (gfortran), а таксама іншыя, такія як Go (GCC), D (GDC) і Ada (gnat).
  • Па змаўчанні звычайна ўсталёўваюцца толькі GCC, g++ і gfortran.
  • Кампілятар golang [4] з'яўляецца пераважнай альтэрнатывай для стварэння праграм Go на Power.

Сумяшчальнасць і новыя магчымасці на Power10

  •  Праграмы, скампіляваныя з больш раннімі версіямі GCC для працы на працэсарах POWER8 або POWER9, будуць сумяшчальна працаваць з працэсарамі Power10.
  •  Рэкамендуецца GCC 11.2 або больш позняй версіі для выкарыстання ўсіх новых функцый, даступных у Power ISA 3.1 і рэалізаваных у працэсарах Power10.
  • GCC 11.2 забяспечвае доступ да функцыі Matrix Multiply Assist (MMA), якая забяспечваецца працэсарамі Power10. [5]
  • Праграмы MMA можна скампіляваць з дапамогай любога з кампілятараў GCC, LLVM і Open XL пры ўмове, што вы выкарыстоўваеце досыць свежыя выпускі.

Рэкамендаваныя і падтрымоўваныя сцягі кампілятара IBM [6]

-O3 або -East Агрэсіўная аптымізацыя. -East па сутнасці эквівалентна -O3 -fast-math, які таксама здымае абмежаванні на арыфметыку IEEE з плаваючай кропкай.
-mcpu=магутнасць Скампілюйце з дапамогай інструкцый, якія падтрымліваюцца працэсарам Power. Напрыкладample, каб выкарыстоўваць інструкцыі, даступныя толькі ў Power10, выберыце -mcpu=power10.
-да Дадаткова. Выканайце аптымізацыю «часу спасылкі». Гэта аптымізуе код пры выкліках функцый, дзе выклікаючая і выкліканая функцыі існуюць у розных блоках кампіляцыі, і часта можа забяспечыць значнае павышэнне прадукцыйнасці.
-размоткі-завесы Дадаткова. Выканайце больш агрэсіўнае дубляванне тэл цыкла, чым звычайна робіць кампілятар. Як правіла, вы павінны апусціць гэта, але ў некаторых кодах гэта можа забяспечыць лепшую прадукцыйнасць.

Заўвага:
Хоць -mcpu=power10 падтрымліваецца ўжо ў GCC 10.3, GCC 11.2 з'яўляецца пераважнай, таму што больш раннія кампілятары не падтрымліваюць усе функцыі, рэалізаваныя ў працэсарах Power10. Акрамя таго, аб'екты, створаныя з дапамогай -mcpu=power10, не будуць працаваць на працэсарах POWER9 або больш ранніх версіях! Аднак ёсць спосабы стварэння кода, аптымізаванага для розных версій працэсара. [7] [1] Red Hat: выкарыстанне набору інструментаў GCC. https://access.redhat.com/documentation/enus/red_hat_enterprise_linux/8/html/developing_c_and_cpp_applications_in_rhel_8/gcc-toolset_toolsets.
[2] SUSE: разуменне модуля інструментаў распрацоўкі. https://www.suse.com/c/suse-linux-essentialswhere-are-the-compilers-understanding-the-development-tools-module/.
[3] Advance Toolchain для Linux на IBM Power Systems. https://www.ibm.com/support/pages/advancetoolchain-linux-power.
[4] Go Language. https://golang.org. [5] Дапаможнік па перадавой практыцы Matrix-Multiply Assist. http://www.redbooks.ibm.com/redpapers/pdfs/redp5612.pdf
[6] Выкарыстанне калекцыі кампілятараў GNU. https://gcc.gnu.org/onlinedocs/gcc.pdf
[7] Мэтавая аптымізацыя з функцыянальным механізмам GNUIndirect. https://developer.ibm.com/tutorials/optimized-libraries-for-linux-on-power/#target-specific-optimization-
© 2021 Карпарацыя IBM з механізмам-ускосных-функцый-gnu.
Java-праграмы могуць бесперашкодна пераходзіць наперадtage новых функцый P10 ISA у аперацыйных сістэмах, якія працуюць у рэжыме P10, з выкарыстаннем версій асяроддзя выканання Java, пералічаных ніжэй, або навейшых:
Java 8

  •  IBM SDK 8 SR6 FP36
  • IBM Semeru Runtime Open Edition 8u302: openj9-0.27.1

Java 11

  • IBM Semeru Runtime Certified Edition 11.0.12.1: openj9-0.27.1
  • IBM Semeru Runtime Open Edition 11.0.12.1: openj9-0.27.1

Java 17 (драйверы могуць быць яшчэ недаступныя)

  •  IBM Semeru Runtime Certified Edition 17: openj9-0.28
  • IBM Semeru Runtime Open Edition 17: openj9-0.28
  • OpenJDK 17

Даведкі па наладзе прадукцыйнасці:
IBM WebПадручнік па прадукцыйнасці Sphere Application Server
Памер старонкі
Агульная рэкамендацыя для большасці баз дадзеных Oracle на AIX - выкарыстоўваць для SGA памер старонкі 64 КБ, а не 16 МБ. Як правіла, 64 КБ старонак даюць амаль тое ж самае
перавага прадукцыйнасці ў выглядзе старонак памерам 16 МБ без спецыяльнага кіравання.
Слухач TNS
База дадзеных Oracle 12.1 і пазнейшыя выпускі па змаўчанні будуць выкарыстоўваць 64 тыс. старонак для тэксту, даных і стэка. Аднак для TNSLISTENER ён па-ранейшаму выкарыстоўвае 4k старонак для тэксту, даных і стэка. каб
уключыць 64 тыс. старонак для слухача выкарыстоўвае каманду экспарту перад запускам працэсу слухача. Звярніце ўвагу, што пры працы ў асяроддзі на аснове ASM не хапае слухача
GRID_HOME, а не ORACLE_HOME.
Дакументацыя для каманды "строга setenv" змянілася ў версіях 12.1 або пазнейшых. -t або -T былі выдалены на карысць -env або -envs. У асяроддзі Oracle Listener усталяваць і экспартаваць:
– LDR_CNTRL=DATAPSIZE=64K@TEXTPSIZE=64K@STACKPSIZE=64K - VMM_CNTRL=vmm_fork_policy=COR (дадаць каманду «Капіяваць пры чытанні»)
Агульны сінтаксіс
Параметр LDR_CNTRL=SHARED_SYMTAB=Y не трэба спецыяльна ўсталёўваць у 11.2.0.4 або больш позніх версіях. Параметры кампаноўшчыка кампілятара клапоцяцца аб гэтай наладзе, і больш не трэба ўсталёўваць спецыяльна. Не рэкамендуецца спецыяльна ўсталёўваць LDR_CNTRL=SHARED_SYMTAB=Y у версіях 12c або пазнейшых.
Віртуальнае згортванне працэсара
Гэта важны параметр у асяроддзі RAC пры выкарыстанні LPAR з уключаным згортваннем працэсара. Калі гэты параметр не адрэгуляваны, існуе высокая рызыка выключэння вузла RAC ва ўмовах невялікай нагрузкі базы дадзеных. Scheda -p -o vpm_xvcpus=2
Узаемасувязь VIOS і RAC
Выдзеленае злучэнне 10G (г.зн. адаптар 10G Ethernet) рэкамендуецца як мінімум для забеспячэння дастатковай прапускной здольнасці для кластарнага трафіку, які залежыць ад часу. Кластарны трафік RAC - міжканэктыўны трафік павінен быць вылучаным, а не агульным. Сумеснае выкарыстанне міжканэкту можа выклікаць затрымкі часу, што прывядзе да праблем з завісаннем/высяленнем вузла.
Прадукцыйнасць сеткі
Гэта даўняя прапанова па настройцы сеткі для Oracle на AIX, хоць па змаўчанні застаецца 0. Налада TCP rfc1323=1
Больш поўная інфармацыя
Перайдзіце па спасылцы: Кіраванне стабільнасцю і прадукцыйнасцю бягучых версій Oracle Database пад кіраваннем AIX на Power Systems, уключаючы POWER9
https://www.ibm.com/support/pages/node/6355543

Генерал

  • Выкарыстоўвайце рэжым SMT8
  • Выкарыстоўвайце спецыяльныя LPAR працэсара

Db2 Warehouse

  • Пераканайцеся, што паміж усімі вузламі існуе высакахуткасная прыватная сетка
  • Абмяжуйце канфігурацыю MLN адным вузлом на сокет

CP4D

  • Выкарыстоўвайце PCIe4 для сеткі вузлоў OCP
  • Да OCP 4.8 задайце параметр ядра slub_max_order=0

Лепшыя практыкі Db2
https://www.ibm.com/docs/en/db2/11.5?topic=overviews-db2-best-practices

Сетка

  • Для сеткі падаў выкарыстоўвайце прыватную сетку на аснове ўласнага SRIOV, калі LPM не патрабуецца, у адваротным выпадку выкарыстоўвайце VNIC
  • Для прыкладанняў, якія патрабуюць высокай прапускной здольнасці або нізкай затрымкі, разгледзьце магчымасць выкарыстання аператара сеткі SR-IOV для прызначэння VF непасрэдна групе
  • Для службаў, якія маюць патрэбу ў нізкім тайм-аўце, наладзьце стандартныя тайм-аўты для існуючага маршруту
  • Адрэгулюйце патрэбны памер MTU кластарнай сеткі OCP

Аперацыйная сістэма

  • Падумайце аб павелічэнні u-лімітаў у зменах пасля ўстаноўкі CoreOS
  • Звярніцеся да мінімальных патрабаванняў да ўстаноўкі OCP для ўстаноўкі OCP4.8 платформы Power на Power

Разгортванне

  • Пры разгортванні прыкладанняў звярніце ўвагу, што адзін vCPU эквівалентны аднаму фізічнаму ядру, калі адначасовая шматструменнасць (SMT) або гіперструменнасць не ўключана. Калі SMT уключаны, VCPU эквівалентны апаратнаму патоку.
  • Звярніцеся да рэкамендацый па мінімальным памеры рабочых і галоўных вузлоў. Мінімальныя патрабаванні да рэсурсаў
  • Вылучыце асобнае спецыяльнае сховішча для ўбудаванага рэестра вобразаў кантэйнера
  • Выкарыстоўвайце наступныя рэкамендацыі па памеры асноўных каталогаў OCP, у якія запісваюць даныя кампаненты кантэйнернай платформы OpenShift.

Дакументы / Рэсурсы

Прадукцыйнасць IBM Power10 [pdfКіраўніцтва карыстальніка
Магутнасць10, прадукцыйнасць, прадукцыйнасць Power10

Спасылкі

Пакінуць каментар

Ваш электронны адрас не будзе апублікаваны. Абавязковыя для запаўнення палі пазначаны *