Mga Gabay sa Mabilis na Pagsisimula ng Pagganap ng Power10
(Power10 QSGs)
Nobyembre 2021
Pinakamababang Memorya
- Para sa bawat socket ng processor, hindi bababa sa 8 sa 16 na DIMM ang napo-populate
- Sa isang node, hindi bababa sa 32 sa 64 para sa mga DIMM ang napo-populate
- Sa isang 4-Node system, hindi bababa sa 128 sa 256 DIMM ang napo-populate
Mga Panuntunan sa DDIMM Plug
- Matugunan ang minimum na memorya na pinapayagan (bawat processor socket ay hindi bababa sa 8 sa 16 na DIMM ay napo-populate)
- Ang lahat ng DIMM sa ilalim ng bawat processor ay kailangang magkaparehong kapasidad
- Ang mga pag-upgrade ng feature ay iaalok sa mga pagtaas ng 4 na DDIMM, na lahat ay may parehong kapasidad.
- Ang tanging wastong numero ng DDIMM na nakasaksak sa mga site na konektado sa isang ibinigay na module ng processor ay 8 o 12 o 16.
Pagganap ng memorya
- Ang performance ng system ay bumubuti habang ang dami ng memory ay kumakalat sa mas maraming DDIMM slots. Para kay exampAt, kung kailangan ng 1TB sa isang Node, mas mainam na magkaroon ng 64 x 32GB DIMMs kaysa magkaroon ng 32 x 64GB DIMMs.
- Ang pag-plug ng mga DIMM na pareho ang laki ay magbibigay ng pinakamataas na performance
- Gumaganda ang performance ng system habang mas maraming quad ang tumutugma sa isa't isa
- Bumubuti ang performance ng system habang mas maraming DDIMM ng processor ang tumutugma sa isa't isa
- Nagpapabuti ang performance ng system sa isang multi-drawer system kung balanse ang kapasidad ng memory sa pagitan ng mga drawer.
Bandwidth ng Memory
Kapasidad ng DDIMM | Teoretikal na MaxBandwidth |
32GB, 64 GB (DDR4 @ 3200 Mbps) | 409 GB/s |
128GB, 256 GB (DDR4 @ 2933 Mbps) | 375 GB/s |
Buod
- Para sa pinakamahusay na posibleng pagganap, karaniwang inirerekomenda na ang memorya ay naka-install nang pantay-pantay sa lahat ng system node drawer at lahat ng processor socket sa system. Ang pagbabalanse ng memory sa mga naka-install na planar card ng system ay nagbibigay-daan sa pag-access ng memory sa isang pare-parehong paraan at karaniwang nagreresulta sa mas mahusay na pagganap para sa iyong configuration.
- Kahit na ang maximum na bandwidth ng memorya ay nakakamit sa pamamagitan ng pagpuno sa lahat ng mga puwang ng memorya, ang mga plano para sa mga pagdaragdag ng memorya sa hinaharap ay dapat isaalang-alang kapag nagpapasya kung aling laki ng tampok ng memorya ang gagamitin sa oras ng paunang pagkakasunud-sunod ng system.
P10 Compute at Arkitektura ng MMA
- 2x Bandwidth na tumugma sa SIMD*
- 8 independiyenteng Fixed & Float SIMD engine bawat Core
- 4 – 32x Matrix Math Acceleration*
- 4 512 bit engine bawat core = 2048b resulta / cycle
- Matrix math na panlabas na mga produkto ng Single, Double at Pinababang katumpakan.
- Ang suporta sa Arkitektura ng MMA ay ipinakilala sa POWER ISA v3.1
- Sinusuportahan ang mga antas ng katumpakan ng SP, DP, BF16, HP, Int-16, Int-8 at Int-4.
P10 MMAApplications at Workload Integration
- Ang mga application ng ML at HPC na may siksik na linear algebra computations, matrix multiplications, convolutions, FFT ay maaaring mapabilis gamit ang MMA
- Ang bersyon ng GCC >= 10 at bersyon ng LLVM >=12 ay sumusuporta sa MMA sa pamamagitan ng mga built-in.
- Ang OpenBLAS, IBM ESSL at Eigen Libraries ay na-optimize na gamit ang mga tagubilin sa MMA sa halagang P10.
- Madaling pagsasama ng MMA para sa mga enterprise application, ML frameworks, at Open Community packages sa pamamagitan ng BLAS library sa itaas.
Mga Built-in na Function ng PowerPC Matrix-Multiply Assist https://gcc.gnu.org/onlinedocs/gcc/PowerPC-Matrix-Multiply-Assist-Built-in-Functions.html
Matrix-Multiply Assist Best Practices Guide https://www.redbooks.ibm.com/Redbooks.nsf/RedpieceAbstracts/redp5612.html?OpenMga Virtual Processor
- Ang kabuuan ng mga pinamagatang core ng lahat ng shared partition ay hindi maaaring lumampas sa bilang ng mga core sa shared pool
- Tiyaking ang bilang ng mga naka-configure na virtual processor ng anumang shared partition sa isang frame ay hindi hihigit sa bilang ng mga core sa shared pool
- I-configure ang bilang ng mga virtual na processor para sa isang shared partition para mapanatili ang peak capacity demand
- I-configure ang bilang ng mga may karapatan na core para sa isang shared partition sa average na paggamit ng partition na iyon para sa mas mahusay na performance
- Para matiyak ang mas mahusay na memory at CPU affinity (iwasan ang mga hindi kinakailangang preemption ng virtual processor), tiyakin ang kabuuan ng mga may karapatan na core ng lahat ng shared partition na malapit sa bilang ng mga core sa shared pool
Mode ng Compatibility ng Processor
- Mayroong 2 processor compatibility mode na available para sa AIX: POWER9 at POWER9_base. Ang default ay POWER9_base mode.
- Mayroong 2 processor compatibility mode na available para sa Linux: POWER9 at POWER10 mode. Ang default ay POWER10 mode.
- Pagkatapos ng mga partisyon ng LPM, kailangang i-power cycle kapag binabago ang mode ng compatibility ng processor
Mga Pagsasaalang-alang sa Pag-fold ng Processor
- Para sa share partition na nagpapatakbo ng AIX sa Power9, ang default na vpm_throughput_mode = 0, sa Power10, ang default na vpm_throughput_mode = 2. Para sa mga workload na may matagal nang trabaho, maaari itong makatulong sa pangunahing pagbawas ng paggamit.
- Para sa dedikadong partition na tumatakbo sa AIX, ang default na vpm_throughput_mode = 0 sa parehong Power9 at Power10.
Mga Pagsasaalang-alang sa Laki ng Talahanayan ng Pahina ng LPAR
• Sinusuportahan ang talahanayan ng pahina ng Radix simula sa Power10 na tumatakbo sa Linux. Posibleng mapahusay nito ang pagganap ng workload.
Sanggunian:
Mga pahiwatig at tip para sa Paglipat ng Workload sa IBM POWER Systems: https://www.ibm.com/downloads/cas/39XWR7YM
IBM POWERVirtualizationGabay sa Pinakamahuhusay na Kasanayan: https://www.ibm.com/downloads/cas/JVGZA8RW
Tiyaking kasalukuyan ang antas ng OS
Ang Fix Central ay nagbibigay ng mga pinakabagong update para sa AIX, IBM i, VIOS, Linux, HMC at F/W. Bilang karagdagan, ang tool ng FLRT ay nagbibigay ng mga inirerekomendang antas para sa bawat H/W na modelo. Gamitin ang mga tool na ito upang mapanatili ang iyong system na napapanahon. Kung hindi ka makaakyat sa inirerekomendang antas, sumangguni sa seksyong Kilalang Isyu ng Mga Pahiwatig at Tip para sa paglipat ng Workload sa dokumento ng IBM POWER10 Processor-Based Systems.
Paggamit ng AIX CPU
Sa POWER10, ang sistema ng AIX OS ay na-optimize para sa pinakamahusay na raw throughput sa mas mataas na paggamit ng CPU kapag tumatakbo sa mga dedikadong processor. Kapag tumatakbo sa mga nakabahaging processor, ang sistema ng AIX OS ay na-optimize upang mabawasan ang paggamit ng CPU (pc). Kung kailangan ng customer na bawasan pa ang paggamit ng CPU (pc), gamitin ang naka-iskedyul na pm_throughput_mode para ibagay ang workload at suriin ang mga benepisyo ng raw throughput kumpara sa paggamit ng CPU.
NX GZIP
Para kumuha ng advantage ng NX GZIP acceleration sa POWER10 system ang LPAR ay dapat nasa POWER9 compatibility mode (hindi POWER9_base mode) o POWER10 compatibility mode.
IBM i
Tiyakin na ang antas ng operating system ng IBM I ay napapanahon. Ang Fix Central ay nagbibigay ng mga pinakabagong update para sa IBM I, VIOS, HMC, at firmware. https://www.ibm.com/support/fixcentral/
Firmware
Tiyakin na ang antas ng firmware ng system ay kasalukuyang. Ang Fix Central ay nagbibigay ng mga pinakabagong update para sa IBM I, VIOS, HMC, at firmware. https://www.ibm.com/support/fixcentral/
Mga DIMM ng memory
Sundin ang wastong mga panuntunan sa memory plug-in. Kung maaari, ganap na punan ang mga slot ng DIMM ng memorya at gamitin ang mga DIMM ng memory na may kaparehong laki.
Antas ng SMT ng processor
Upang kumuha ng buong advantage ng pagganap ng mga Power10 na CPU, inirerekomenda namin ang mga kliyente na gamitin ang IBM i default na mga setting ng multitasking ng processor, na mag-maximize sa SMT
antas para sa pagsasaayos ng LPAR.
Paglalagay ng Partisyon
Tinitiyak ng kasalukuyang mga antas ng FW ang pinakamainam na pagkakalagay ng mga partisyon. Gayunpaman, kung ang mga madalas na operasyon ng DLPAR ay isinasagawa sa mga partisyon sa CEC, inirerekomenda ang paggamit ng DPO
upang i-optimize ang pagkakalagay.
Mga Virtual Processor – ibinahagi kumpara sa mga dedikadong processor
Gumamit ng mga dedikadong processor para sa pinakamainam na pagganap sa antas ng partition.
EnergyScale
Para sa pinakamahusay na bilis ng processor ng CPU, tiyaking nakatakda ang Maximum Performance (default para sa IBM Power E1080). Ang setting na ito ay maaaring i-configure sa ASMI.
Storage at Networking I/O
Nagbibigay ang VIOS ng flexible na storage at functionality ng networking. Para sa pinakamahusay na posibleng pagganap, gamitin ang mga katutubong IBM i interface para sa I/O.
Mas komprehensibong impormasyon
Sumangguni sa link: IBM I on Power – Performance FAQ https://www.ibm.com/downloads/cas/QWXA9XKN
Ang enterprise Linux operating system (OS) ay isang matibay na pundasyon para sa iyong hybrid na imprastraktura ng cloud at para sa scale-up na mga solusyon sa software ng enterprise. Ang mga kamakailang release ay na-optimize para sa pinakamahusay na mga sistema ng Power10 Enterprise
Kapangyarihan10
- Ang SLES15SP3, RHEL8.4 ay sumusuporta sa Power10 native mode
- Suporta sa compass-mode upang payagan ang mga kliyente na lumipat mula sa mas lumang henerasyong Power system ( P9 at P8 )
- Default na suporta sa pagsasalin ng Radix sa Power10 mode
- Malaking pagpapabuti sa pagganap ng pag-encrypt
Linux + PowerVM
- Suporta para sa PowerVM enterprise features: LPM, Shared CPU Pools, DLPAR
- Mga makabagong solusyon: SAP HANA paglago ng aplikasyon sa hinaharap na may 4PB virtual address space
- Bawasan ang oras para i-reload ang data: Virtual PMEM na suporta para sa SAP HANA
- World-class na Suporta at Serbisyo
Mga sinusuportahang distro:
- Simula sa Power9, RedHat at SUSE lang ang sinusuportahan sa PowerVM partition
- Detalyadong impormasyon sa distro support matrix na sumasaklaw sa mas lumang henerasyong HW
Suporta sa LPM:
- Ilipat ang mga lohikal na partisyon ng Linux mula sa mga mas lumang henerasyong Power system na may malapit sa zero na downtime ng application
- Sanggunian: Gabay sa LPM at kaugnay na impormasyon
Mga Power Specific Package:
- PowerPC-utils package: Naglalaman ng mga utility para sa pagpapanatili ng IBM PowerPC LPARs. Magagamit bilang bahagi ng distro.
- Advance Toolchain para sa Linux on Power: Naglalaman ng mga pinakabagong compiler, runtime library.
Pinakamahusay na kasanayan :
- Nagbibigay ang RHEL ng mga paunang natukoy na tuning bilang bahagi ng nakatutok na serbisyo.
- Sumangguni sa pinakabagong mga tala ng SAP para sa inirerekomendang mga setting ng OS para sa mga SAP application. Karaniwang nakatutok ay ginagamit sa RHEL at pagkuha o sapconf sa SLES
- Ang dalas ay pinamamahalaan ng PowerVM. Sanggunian: Pamamahala ng Enerhiya
- Ang pagsisimula ng Power8 Huge Dynamic DMA Window ay tumutulong na mapabuti ang pagganap ng I/O.
- Ang pagsisimula ng Power9 24×7-Monitoring ay isinama sa perf tool. Nagbibigay-daan sa pagsubaybay sa buong system.
- Tiyakin na ang antas ng firmware ng system ay kasalukuyang.
- Ipinapakita ng lparnumascore mula sa PowerPC-utils ang kasalukuyang marka ng affinity ng LPAR. Maaaring gamitin ang DPO para pahusayin ang LPAR affinity score.
Higit pang mga nabasa:
- SLES para sa Power at ilang nakakahimok na feature.
- Magsimula sa Linux sa Power Systems, Linux sa mga server ng Power Systems
- Pamayanan ng Enterprise Linux
- Sinusuportahan ng mga IBM Power system ang iba't ibang network adapter ng iba't ibang bilis at bilang ng mga port.
- Kung gumagamit ka ng parehong mga adapter ng network gaya ng iyong nakaraang system, sa simula, ang parehong pag-tune ang dapat gamitin sa bagong system.
- Karamihan sa mga Ethernet adapter ay sumusuporta sa maramihang pagtanggap at pagpapadala ng mga pila na ang laki ng buffer ay maaaring iba-iba upang mapataas ang max na bilang ng packet.
- Ang mga default na setting ng queue ay naiiba sa iba't ibang mga adapter at maaaring hindi pinakamainam upang makamit ang maximum na mga rate ng mensahe sa isang modelo ng client-server.
- Ang paggamit ng mga karagdagang queue ay magpapataas sa paggamit ng CPU ng system; kaya dapat gamitin ang pinakamainam na setting ng queue para sa isang partikular na workload.
Mga pagsasaalang-alang sa mas mataas na bilis ng adaptor
- Ang mga network na may mas mataas na bilis na may 25 GigE at 100 GigE network adapter ay nangangailangan ng maraming parallel thread at pag-tune ng mga katangian ng driver.
- Kung Gen4 adapter ito, tiyaking nakalagay ang adapted sa isang Gen4 slot.
- Maaaring magdagdag ng latency ang mga karagdagang function gaya ng compression, encryption, at duplication
Pagbabago ng mga setting ng pila sa AIX
Upang baguhin ang bilang ng mga nakatanggap/nagpapadala ng mga pila sa AIX
- ifconfig enX tanggalin pababa
- chdev -l entX -a queues_rx= -a queues_tx=
- chdev -l enX -a state=up
Pagbabago ng mga setting ng queue sa Linux
Upang baguhin ang bilang ng mga pila sa Linux ethtool -L ethX pinagsama
Pagbabago ng laki ng pila sa AIX
- ifconfig enX tanggalin pababa
- chdev -l entX -a rx_max_pkts = -a tx_max_pkts =
- chdev -l enX -a state=up
Pagbabago ng laki ng pila sa LinuxP: ethtool -G ethX rx tx
Virtualization
- Ang virtualized networking ay sinusuportahan sa anyo ng SRIOV, vNIC, vETH. Ang virtualization ay nagdaragdag ng latency at maaaring mabawasan ang throughput kumpara sa katutubong I/O.
- Bukod sa backend hardware, tiyaking sapat ang memorya ng VIOS at mga halaga ng CPU para maibigay ang kinakailangang throughput at mga oras ng pagtugon
- Ang IBM PowerVM Best Practices ay maaaring maging lubhang kapaki-pakinabang sa VIOS sizing
- Kung gumagamit ka ng parehong mga adapter ng imbakan tulad ng iyong nakaraang system, sa simula, ang parehong pag-tune ay dapat gamitin sa bagong system. Kung ang karagdagang pagganap ay ninanais mula sa umiiral na sistema, pagkatapos ay ang normal na pag-tune ay dapat gumanap.
- Kung ang mga subsystem ng imbakan ay kapansin-pansing naiiba sa mas bagong sistema kaysa sa naunang sistema, ang sumusunod na listahan ng mga pagsasaalang-alang ay maaaring negatibong makaapekto sa nakikitang bilis ng mga aplikasyon -
- Ang pagpapalit mula sa Direct Attached Storage (DAS o internal) patungo sa Storage Area Network (SAN) o Network Attached Storage (NAS) (o external storage) ay maaaring magpapataas ng latency.
- Maaaring magdagdag ng latency ang mga karagdagang function gaya ng compression, encryption at deduplication.
- Ang pagbabawas sa bilang ng mga Storage LUN ay maaaring mabawasan ang mga mapagkukunan sa server na kailangan upang suportahan ang mga kinakailangang throughput.
- Sumangguni sa mga gabay sa pag-tune o pag-setup para sa mga bagong device upang maunawaan ang mga epektong ito.'
- Ang virtualization ay nagdaragdag ng latency at maaaring mabawasan ang throughput kumpara sa katutubong I/O. Bukod sa backend hardware, tiyaking VIOS memory at CPU
- Ang paglipat sa mga virtualized na adapter sa mas mataas na bilis sa VIOS ay mangangailangan ng pagsasaayos ng configuration ng VIOS sa mga CPU at memorya. Ang IBM PowerVM Best Practices ay maaaring maging lubhang kapaki-pakinabang sa VIOS sizing.
Mga alituntunin sa pag-tune – mangyaring sumangguni sa IBM Knowledge Center para sa mga alituntunin ng AIX at Linux.
PCIe3 12 GB Cache RAID + SAS Adapter Quad-port 6 Gb x8 Adapter Linux:
- https://www.ibm.com/docs/en/power9/9223-42H?topic=availability-ha-asymmetricaccess-optimization
- https://www.ibm.com/docs/en/power9/9223-42H?topic=linux-common-sas-raidcontroller-tasks
AIX:
- https://www.ibm.com/docs/en/power9/9223-42H?topic=aix-multi-initiator-highavailability
- https://www.ibm.com/docs/en/power9/9223-42H?topic=aix-common-controller-diskarray-management-tasks
IBM
- https://www.ibm.com/docs/en/power9/9223-42H?topic=configurations-dual-storageioa-access-optimization
- https://www.ibm.com/docs/en/power9/9223-42H?topic=i-common-controller-diskarray-management-tasks
PCIe3 x8 2-port Fiber Channel (32 Gb/s) Adapter
- https://www.ibm.com/docs/en/aix/7.2?topic=iompio-device-attributes
- https://www.ibm.com/docs/en/power9?topic=channel-npiv-multiple-queue-support
Karagdagang pag-tune ng AIX para sa pagganap:
- SCSI over Fiber Channel (MPIO): itakda ang multipath algorithm sa round_robin para sa bawat disk
- NVMe over Fiber Channel: maaaring i-attribute ang set sa 7 para sa bawat NVMe over Fiber Channel Dynamic controller na nilikha sa yugto ng pagtuklas
NVMe Adapter AIX tuning para sa performance
Maaaring i-attribute ang set sa 8 para sa bawat NVMe device
Ang mga susunod na henerasyong C/C++/Fortran compiler ng IBM na pinagsasama ang mga advanced na pag-optimize ng IBM sa open-source na imprastraktura ng LLVM
![]() |
|
LLVM Mas malaking pera para sa wikang C/C++ Mas mabilis na bilis ng pagbuo Mga karaniwang pag-optimize ng komunidad Iba't ibang LLVM-based na mga utility |
IBM optimizations Buong pagsasamantala sa arkitektura ng Power Mga advanced na pag-optimize na nangunguna sa industriya World-class na Suporta at Serbisyo |
Availability
- 60-araw na walang bayad na pagsubok: i-download mula sa pahina ng produkto ng Open XL
- Makakuha ng IBM world-class na Serbisyo at Suporta sa pamamagitan ng flexible na mga opsyon sa paglilisensya, mula sa dual-pipe (AAS at PA)
- Perpetual na lisensya (bawat Awtorisadong User o bawat Kasabay na User)
- Buwanang lisensya (bawat Virtual Process Core): i-target ang mga kaso ng paggamit ng cloud, hal, sa PowerVR instance
Inirerekomenda ang mga opsyon sa pag-tune ng pagganap
Antas ng Pag-optimize | Mga rekomendasyon sa paggamit |
-O2 at -O3 | Karaniwang panimulang punto |
Pag-optimize ng oras ng link: -flto (C/C++), -qlto (Fortran) | Para sa mga workload na may maraming maliliit na function call |
Profile may gabay na pag-optimize: -fprofile-bumuo, -fprofile-gamitin (C/C++) -qprofile-bumuo, -qprofile-gamitin (Fortran) |
Para sa mga workload na may maraming branching at function na tawag |
Para sa karagdagang impormasyon mangyaring bisitahin ang: https://www.ibm.com/docs/en/openxl-c-and-cpp-aix/17.1.0
https://www.ibm.com/docs/en/openxl-fortran-aix/17.1.0
Full Power10 architecture exploitation na may Open XL 17.1.0
- Bagong opsyon ng compiler '–mcpu=pwr10' para makabuo ng code na gumagamit ng mga tagubilin sa Power10 at awtomatiko ring ibagay ang mga pag-optimize para sa Power10
- Mga bagong builtin na function para i-unlock ang mga bagong functionality ng Power10, hal, Matrix Multiply Accelerator (MMA)
- Ang mga bagong MASS SIMD at vector library ay idinagdag para sa Power10. Ang lahat ng mga function ng MASS library (SIMD, vector, scalar) ay nakatutok para sa Power10 (din Power9).
Tandaan: Ang mga application na pinagsama-sama sa mga naunang bersyon ng XL Compiler (hal., XL 16.1.0) na tatakbo sa mga nakaraang Power processor ay tatakbo nang magkatugma sa Power10.
Binary Compatibility sa AIX
Tandaan: Ipinakilala na ng XL C/C++ para sa AIX 16.1.0 ang isang bagong invocation xlclang++ na gumagamit ng Clang front-end mula sa proyekto ng LLVM ü C++ na mga bagay na binuo gamit ang xlC para sa
- Ang AIX (batay sa sariling front-end ng IBM) ay hindi binary compatible sa mga bagay na C++ na binuo gamit ang xlclang++ 16.1.0 para sa AIX
- Ang mga bagay na C++ na binuo gamit ang xlclang++ 16.1.0 para sa AIX ay magiging binary compatible sa bagong Open XL C/C++ para sa AIX 17.1.0
- Ang pagiging tugma ng C ay pinananatili sa lahat ng AIX compiler (mga mas naunang bersyon ng XL para sa AIX, Open XL C/C++ para sa AIX 17.1.0)
- Ang pagiging tugma ng Fortran ay pinananatili sa pagitan ng naunang bersyon ng XLF para sa AIX at Open XL Fortran para sa AIX 17.1.0
Availability
Ang mga GCC compiler ay available sa lahat ng Enterprise Linux distributions at sa
AIX.
- Ang naka-install na bersyon ng GCC ay 8.4 sa RHEL 8 at 7.4 sa SLES 15. Ang RHEL 9 ay inaasahang magpapadala ng GCC 11.2.
- Mayroong ilang mga paraan upang makakuha ng isang sapat na kamakailang bersyon ng GCC kapag ang mga default na compiler para sa pamamahagi ay masyadong luma upang suportahan ang Power10.
- Sinusuportahan ng Red Hat ang GCC Toolset [1] para sa layuning ito.
- Ang SUSE ay nagbibigay ng Development Tools Module. [2]
- Nagbibigay ang IBM ng mga pinakabagong compiler at library sa pamamagitan ng Advance Toolchain. [3]
IBM Advance Toolchain
- Ang Advance Toolchain ay nagbibigay ng Power-optimized system library kasama ng mga compiler, debugger, at iba pang tool.
- Ang pagbuo ng code gamit ang Advance Toolchain ay makakagawa ng pinaka-mataas na na-optimize na code na posible sa mga pinakabagong processor.
Mga wika
- C (GCC), C++ (g++), at Fortran (gfortran), kasama ng iba pa gaya ng Go (GCC), D (GDC), at Ada (gnat).
- Ang GCC, g++, at gfortran lang ang karaniwang naka-install bilang default.
- Ang golang compiler [4] ay ang gustong alternatibo para sa pagbuo ng mga Go program on Power.
Pagkakatugma at Mga Bagong Tampok sa Power10
- Ang mga application na pinagsama-sama sa mga naunang bersyon ng GCC upang gumana sa mga POWER8 o POWER9 na mga processor ay tatakbo nang magkatugma sa mga Power10 processor.
- Inirerekomenda ang GCC 11.2 o mas bago na gamitin ang lahat ng mga bagong feature na available sa Power ISA 3.1 at ipinatupad sa mga processor ng Power10.
- Nagbibigay ang GCC 11.2 ng access sa feature na Matrix Multiply Assist (MMA) na ibinigay ng mga processor ng Power10. [5]
- Maaaring i-compile ang mga MMA program gamit ang alinman sa mga compiler ng GCC, LLVM, at Open XL, basta gumamit ka ng sapat na kamakailang mga release.
Inirerekomenda at Sinusuportahan ng IBM ang mga Flag ng Compiler [6]
-O3 o -Silangan | Agresibong pag-optimize. -East ay mahalagang katumbas ng -O3 -fast-math, na nagpapaluwag din ng mga paghihigpit sa IEEE floating-point arithmetic. |
-mcpu=powern | Mag-compile gamit ang mga tagubiling sinusuportahan ng Power processor. Para kay example, para gamitin ang mga tagubilin na available lang sa Power10, piliin ang -mcpu=power10. |
-sa | Opsyonal. Magsagawa ng "link-time" na pag-optimize. Ito ay nag-o-optimize ng code sa mga function call kung saan ang tumatawag at tinatawag na mga function ay umiiral sa iba't ibang mga compilation unit, at kadalasan ay maaaring magbigay ng makabuluhang pagpapalakas ng performance. |
-unroll-loops | Opsyonal. Magsagawa ng mas agresibong pagdoble ng mga loop body kaysa sa karaniwang ginagawa ng compiler. Sa pangkalahatan, dapat mong alisin ito, ngunit sa ilang mga code, maaari itong magbigay ng mas mahusay na pagganap. |
Tandaan:
Bagama't suportado ang -mcpu=power10 kasing aga ng GCC 10.3, mas gusto ang GCC 11.2 dahil hindi sinusuportahan ng mga naunang compiler ang bawat feature na ipinapatupad sa mga processor ng Power10. Gayundin, ang mga bagay na nilikha gamit ang -mcpu=power10 ay hindi tatakbo sa POWER9 o mas naunang mga processor! Gayunpaman, may mga paraan upang lumikha ng code na na-optimize para sa iba't ibang bersyon ng processor. [7] [1] Red Hat: Gamit ang GCC Toolset. https://access.redhat.com/documentation/enus/red_hat_enterprise_linux/8/html/developing_c_and_cpp_applications_in_rhel_8/gcc-toolset_toolsets.
[2] SUSE: Pag-unawa sa Development Tools Module. https://www.suse.com/c/suse-linux-essentialswhere-are-the-compilers-understanding-the-development-tools-module/.
[3] Advance Toolchain para sa Linux sa IBM Power Systems. https://www.ibm.com/support/pages/advancetoolchain-linux-power.
[4] Go Language. https://golang.org. [5] Matrix-Multiply Assist Best Practices Guide. http://www.redbooks.ibm.com/redpapers/pdfs/redp5612.pdf
[6] Gamit ang GNU Compiler Collection. https://gcc.gnu.org/onlinedocs/gcc.pdf
[7] Target-Specific Optimization gamit ang GNUIndirect Function Mechanism. https://developer.ibm.com/tutorials/optimized-libraries-for-linux-on-power/#target-specific-optimization-
© 2021 IBM Corporation na may-the-gnu-indirect-function-mechanism.
Ang mga aplikasyon ng Java ay maaaring walang putol na kumuha ng advantage ng mga bagong feature ng P10 ISA sa mga operating system na tumatakbo sa P10 mode sa pamamagitan ng paggamit ng mga bersyon ng Java runtime na nakalista sa ibaba o mas bago:
Java 8
- IBM SDK 8 SR6 FP36
- IBM Semeru Runtime Open Edition 8u302: openj9-0.27.1
Java 11
- IBM Semeru Runtime Certified Edition 11.0.12.1: openj9-0.27.1
- IBM Semeru Runtime Open Edition 11.0.12.1: openj9-0.27.1
Java 17 (maaaring hindi pa available ang mga driver)
- IBM Semeru Runtime Certified Edition 17: openj9-0.28
- IBM Semeru Runtime Open Edition 17: openj9-0.28
- OpenJDK 17
Mga sanggunian sa pag-tune ng pagganap:
IBM WebCookbook ng Pagganap ng Server ng Sphere Application
Laki ng Pahina
Ang pangkalahatang rekomendasyon para sa karamihan ng mga database ng Oracle sa AIX ay gamitin ang 64KB na laki ng pahina at hindi 16MB na laki ng pahina para sa SGA. Karaniwan, halos pareho ang 64 KB na mga pahina
benepisyo sa pagganap bilang 16 MB na mga pahina na walang espesyal na pamamahala.
Tagapakinig ng TNS
Ang Oracle 12.1 database at ang mga susunod na release bilang default ay gagamit ng 64k na pahina para sa text, data, at stack. Gayunpaman, para sa TNSLISTENER ay gumagamit pa rin ito ng 4k na pahina para sa text, data, at stack. Upang
paganahin ang 64k na pahina para sa listener ay gumagamit ng export command bago simulan ang proseso ng listener. Tandaan na tumatakbo sa isang ASM based na kapaligiran na nauubusan ng tagapakinig
GRID_HOME at hindi ORACLE_HOME.
Ang dokumentasyon para sa "mahigpit na setenv" na utos ay nagbago sa 12.1 o mas bago na mga paglabas. Ang -t o -T ay inalis sa pabor sa -env o -envs. Sa kapaligiran ng Oracle Listener na itinakda at i-export:
– LDR_CNTRL=DATAPSIZE=64K@TEXTPSIZE=64K@STACKPSIZE=64K - VMM_CNTRL=vmm_fork_policy=COR (idagdag ang command na 'Copy on Read')
Nakabahaging syntax
Ang LDR_CNTRL=SHARED_SYMTAB=Y na setting ay hindi kailangang partikular na itakda sa 11.2.0.4 o mas bago na mga release. Ang mga opsyon sa linker ng compiler ang bahala sa setting na ito at hindi na kailangang partikular na itakda. Hindi inirerekomenda na magkaroon ng LDR_CNTRL=SHARED_SYMTAB=Y na partikular na nakatakda sa 12c o mas bago na mga release.
Virtual Processor Folding
Isa itong kritikal na setting sa isang RAC environment kapag gumagamit ng mga LPAR na may naka-enable na processor folding. Kung hindi maisasaayos ang setting na ito, may mataas na panganib ng mga RAC node evictions sa ilalim ng magaan na kondisyon ng workload ng database. Scheda -p -o vpm_xvcpus=2
VIOS at RAC Interconnect
Ang nakalaang 10G (ibig sabihin, 10G Ethernet Adapter) na koneksyon ay inirerekomenda bilang pinakamababa upang magbigay ng sapat na bandwidth para sa cluster na sensitibo sa timing na trapiko. Trapiko ng cluster ng RAC – dapat na nakatuon ang interconnect na trapiko at hindi nakabahagi. Ang pagbabahagi ng interconnect ay maaaring magdulot ng mga pagkaantala sa timing na humahantong sa mga isyu sa hang/pagpaalis ng node.
Pagganap ng Network
Ito ay isang matagal nang suhestiyon sa pag-tune ng network para sa Oracle sa AIX, bagama't ang default ay nananatili sa 0. TCP Setting ng rfc1323=1
Mas komprehensibong impormasyon
Sumangguni sa link: Pamamahala sa Katatagan at Pagganap ng kasalukuyang mga bersyon ng Oracle Database na nagpapatakbo ng AIX sa Power Systems kasama ang POWER9
https://www.ibm.com/support/pages/node/6355543
Heneral
- Gamitin ang SMT8 mode
- Gumamit ng mga nakalaang CPU LPAR
Db2 Warehouse
- Tiyaking mayroong mataas na bilis na pribadong network sa pagitan ng lahat ng mga node
- Limitahan ang configuration ng MLN sa isang node bawat socket
CP4D
- Gamitin ang PCIe4 para sa OCP nodes network
- Bago ang OCP 4.8, itakda ang kernel parameter slub_max_order=0
Pinakamahuhusay na Kasanayan sa Db2
https://www.ibm.com/docs/en/db2/11.5?topic=overviews-db2-best-practices
Network
- Para sa pod network, gumamit ng pribadong network batay sa native na SRIOV kung hindi kinakailangan ang LPM, kung hindi, gamitin ang VNIC
- Para sa mga application na nangangailangan ng mataas na bandwidth o mababang latency, isaalang-alang ang paggamit ng SR-IOV Network Operator upang direktang magtalaga ng VF sa isang pod
- Para sa mga serbisyong nangangailangan ng mababang timeout, i-configure ang mga default na timeout para sa isang kasalukuyang ruta
- Ayusin ang gustong laki ng MTU ng cluster network ng OCP
Operating system
- Pag-isipang taasan ang u-limits sa loob ng mga pagbabago sa Post-install ng CoreOS
- Sumangguni sa pinakamababang kinakailangan sa pag-install ng OCP para sa pag-install ng Power platform OCP4.8 sa Power
Deployment
- Kapag nagde-deploy ng mga application, tandaan na ang isang vCPU ay katumbas ng isang pisikal na core kapag ang simultaneous multithreading (SMT), o hyperthreading, ay hindi pinagana. Kapag pinagana ang SMT, ang isang VCPU ay katumbas ng isang thread ng hardware.
- Sumangguni sa minimum na mga alituntunin sa laki para sa mga manggagawa at master node Mga minimum na kinakailangan sa mapagkukunan
- Maglaan ng hiwalay na nakatalagang storage sa built-in na container image registry
- Gamitin ang sumusunod na mga alituntunin sa pagpapalaki para sa mga pangunahing direktoryo ng OCP na mga pangunahing direktoryo kung saan isinusulatan ng mga bahagi ng OpenShift Container Platform ang data.
Mga Dokumento / Mga Mapagkukunan
![]() |
Pagganap ng IBM Power10 [pdf] Gabay sa Gumagamit Power10, Performance, Power10 Performance |