IBM Power10 Performance მომხმარებლის სახელმძღვანელო

Power10 Performance სწრაფი დაწყების სახელმძღვანელო
(Power10 QSG)
2021 წლის ნოემბერი

მინიმალური მეხსიერება

თითოეული პროცესორის სოკეტისთვის 8 DIMM-დან მინიმუმ 16 არის დასახლებული

კვანძში, DIMM-ებისთვის 32-დან მინიმუმ 64 არის დასახლებული
4-კვანძიან სისტემაში 128 DIMM-დან მინიმუმ 256 დასახლებულია

DDIMM დანამატის წესები

დააკმაყოფილეთ დაშვებული მეხსიერების მინიმალური რაოდენობა (პროცესორის თითოეულ სოკეტში 8 DIMM-დან მინიმუმ 16 ივსება)
ყველა DIMM თითოეული პროცესორის ქვეშ უნდა იყოს იგივე სიმძლავრე

ფუნქციების განახლებები შესთავაზებენ 4 DDIMM-ის მატებით, რომელთაგან ყველა ერთი და იგივე სიმძლავრეა.
მოცემულ პროცესორის მოდულთან დაკავშირებულ საიტებზე ჩართული DDIMM-ების ერთადერთი სწორი რაოდენობა არის 8 ან 12 ან 16.

მეხსიერების შესრულება

სისტემის მუშაობა უმჯობესდება, რადგან მეხსიერების რაოდენობა ვრცელდება უფრო მეტ DDIMM სლოტზე. მაგampთუ კვანძში 1 ტბ არის საჭირო, უმჯობესია გქონდეთ 64 x 32 GB DIMM, ვიდრე 32 x 64 GB DIMM.
ყველა ერთი და იგივე ზომის DIMM-ების შეერთება უზრუნველყოფს უმაღლეს შესრულებას

სისტემის მუშაობა უმჯობესდება, რადგან უფრო მეტი კვადრატი ემთხვევა ერთმანეთს
სისტემის მუშაობა უმჯობესდება, რადგან უფრო მეტი პროცესორის DDIMM ემთხვევა ერთმანეთს
სისტემის მუშაობა უმჯობესდება მრავალუჯრედიან სისტემაზე, თუ უჯრებს შორის მეხსიერების მოცულობა დაბალანსებულია.

მეხსიერების გამტარუნარიანობა

DDIMM მოცულობა	თეორიული MaxBandwidth
32 GB, 64 GB (DDR4 @ 3200 Mbps)	409 გბ/წმ
128 GB, 256 GB (DDR4 @ 2933 Mbps)	375 გბ/წმ

რეზიუმე

საუკეთესო შესაძლო მუშაობისთვის, ზოგადად რეკომენდირებულია მეხსიერების თანაბრად დაყენება სისტემის ყველა კვანძის უჯრაში და სისტემის ყველა პროცესორის სოკეტში. მეხსიერების დაბალანსება დაინსტალირებული სისტემის პლანზებულ ბარათებში მეხსიერების წვდომას იძლევა თანმიმდევრული გზით და, როგორც წესი, განაპირობებს თქვენი კონფიგურაციის უკეთეს შესრულებას.
მიუხედავად იმისა, რომ მეხსიერების მაქსიმალური გამტარობა მიიღწევა მეხსიერების ყველა სლოტის შევსებით, მეხსიერების სამომავლო დამატებების გეგმები გასათვალისწინებელია, როდესაც გადაწყვეტთ, რომელი მეხსიერების ფუნქციის ზომა გამოიყენოთ სისტემის თავდაპირველი შეკვეთის დროს.

P10 Compute & MMA Architecture

2x გამტარუნარიანობა ემთხვევა SIMD*
8 დამოუკიდებელი Fixed & Float SIMD ძრავა თითო ბირთვზე
4 – 32x მატრიცის მათემატიკის აჩქარება*
4 512 ბიტიანი ძრავა თითო ბირთვზე = 2048b შედეგი / ციკლი
მატრიცული მათემატიკური გარე პროდუქტები ერთჯერადი, ორმაგი და შემცირებული სიზუსტით.

MMA Architecture მხარდაჭერა დაინერგა POWER ISA v3.1-ში
მხარს უჭერს SP, DP, BF16, HP, Int-16, Int-8 და Int-4 სიზუსტის დონეებს.

P10 MMAApplications & Workload Integration

ML & HPC აპლიკაციები მკვრივი ხაზოვანი ალგებრის გამოთვლებით, მატრიცის გამრავლებით, კონვოლუციით, FFT შეიძლება დაჩქარდეს MMA-ით

GCC ვერსია >= 10 და LLVM ვერსია >=12 მხარს უჭერს MMA-ს ჩაშენებული ინსტრუმენტების მეშვეობით.
OpenBLAS, IBM ESSL და Eigen ბიბლიოთეკები უკვე ოპტიმიზებულია MMA ინსტრუქციებით P10-ისთვის.

MMA-ის მარტივი ინტეგრაცია საწარმოს აპლიკაციებისთვის, ML ჩარჩოებისთვის და ღია საზოგადოების პაკეტებისთვის ზემოაღნიშნული BLAS ბიბლიოთეკების მეშვეობით.

PowerPC Matrix-Multiply Assist ჩამონტაჟებული ფუნქციები https://gcc.gnu.org/onlinedocs/gcc/PowerPC-Matrix-Multiply-Assist-Built-in-Functions.html
Matrix-Multiply Assist საუკეთესო პრაქტიკის სახელმძღვანელო https://www.redbooks.ibm.com/Redbooks.nsf/RedpieceAbstracts/redp5612.html?Openვირტუალური პროცესორები

ყველა გაზიარებული დანაყოფის უფლებამოსილი ბირთვების ჯამი არ უნდა აღემატებოდეს ბირთვების რაოდენობას საერთო აუზში
დარწმუნდით, რომ ჩარჩოზე ნებისმიერი გაზიარებული დანაყოფის კონფიგურირებული ვირტუალური პროცესორების რაოდენობა არ აღემატება ბირთვების რაოდენობას საერთო აუზში

დააკონფიგურირეთ ვირტუალური პროცესორების რაოდენობა საერთო დანაყოფისთვის, რათა შენარჩუნდეს მაქსიმალური სიმძლავრის მოთხოვნა
დააკონფიგურირეთ უფლებამოსილი ბირთვების რაოდენობა საერთო დანაყოფისთვის ამ დანაყოფის საშუალო გამოყენებაზე უკეთესი შესრულებისთვის

უკეთესი მეხსიერების და CPU-ს მიახლოების უზრუნველსაყოფად (ვირტუალური პროცესორის არასაჭირო პრევენციის თავიდან ასაცილებლად), უზრუნველყოთ ყველა გაზიარებული დანაყოფის უფლებამოსილი ბირთვების ჯამი, რომელიც ახლოსაა ბირთვების რაოდენობასთან საერთო აუზში.

პროცესორის თავსებადობის რეჟიმი

AIX-ისთვის ხელმისაწვდომია პროცესორის თავსებადობის 2 რეჟიმი: POWER9 და POWER9_base. ნაგულისხმევი არის POWER9_base რეჟიმი.

Linux-ისთვის ხელმისაწვდომია პროცესორის თავსებადობის 2 რეჟიმი: POWER9 და POWER10 რეჟიმი. ნაგულისხმევი არის POWER10 რეჟიმი.
LPM დანაყოფების შემდეგ, საჭიროა დენის ციკლი პროცესორის თავსებადობის რეჟიმის შეცვლისას

პროცესორის დასაკეცი მოსაზრებები

გაზიარების დანაყოფისთვის, რომელიც მუშაობს AIX-ზე Power9-ზე, ნაგულისხმევი vpm_throughput_mode = 0, Power10-ზე, ნაგულისხმევი vpm_throughput_mode = 2. თუ დატვირთვას აქვს ხანგრძლივი სამუშაოები, მას შეუძლია დაეხმაროს ძირითადი მოხმარების შემცირებაში.
AIX გაშვებული სპეციალური დანაყოფისთვის, ნაგულისხმევი vpm_throughput_mode = 0 Power9-ზე და Power10-ზე.

LPAR გვერდის ცხრილის ზომის მოსაზრებები

• რადიქსის გვერდების ცხრილი მხარდაჭერილია Power10-ზე, რომელიც მუშაობს Linux-ზე. მას შეუძლია გააუმჯობესოს დატვირთვის შესრულება.

მითითება:
მინიშნებები და რჩევები დატვირთვის მიგრაციის შესახებ IBM POWER Systems-ზე: https://www.ibm.com/downloads/cas/39XWR7YM
IBM POWER ვირტუალიზაციის საუკეთესო პრაქტიკის სახელმძღვანელო: https://www.ibm.com/downloads/cas/JVGZA8RW

დარწმუნდით, რომ OS დონე არის მიმდინარე
Fix Central გთავაზობთ უახლეს განახლებებს AIX, IBM i, VIOS, Linux, HMC და F/W-სთვის. გარდა ამისა, FLRT ინსტრუმენტი უზრუნველყოფს რეკომენდებულ დონეებს თითოეული H/W მოდელისთვის. გამოიყენეთ ეს ინსტრუმენტები თქვენი სისტემის განახლების შესანარჩუნებლად. თუ არ შეგიძლიათ რეკომენდებულ დონეზე ასვლა, მაშინ იხილეთ მინიშნებები და რჩევები სამუშაო დატვირთვის IBM POWER10 პროცესორზე დაფუძნებული სისტემების დოკუმენტში გადატანის შესახებ ცნობილი საკითხების განყოფილებაში.
AIX CPU გამოყენება
POWER10-ზე AIX OS სისტემა ოპტიმიზირებულია საუკეთესო ნედლეულის გამტარუნარიანობისთვის CPU-ს უფრო მაღალ გამოყენებაზე, როდესაც მუშაობს სპეციალურ პროცესორებთან. საზიარო პროცესორებთან მუშაობისას, AIX OS სისტემა ოპტიმიზებულია CPU-ს გამოყენების შესამცირებლად (კომპიუტერი). თუ კლიენტი მოითხოვს CPU-ს მოხმარების კიდევ უფრო შემცირებას (კომპიუტერი), გამოიყენეთ გრაფიკის რეგულირებადი pm_throughput_mode დატვირთვის დასარეგულირებლად და შეაფასეთ ნედლეულის გამტარუნარიანობის უპირატესობები CPU-ს გამოყენების წინააღმდეგ.
NX GZIP
წინსვლისთვისtagPOWER10 სისტემებზე NX GZIP აჩქარების e LPAR უნდა იყოს POWER9 თავსებადობის რეჟიმში (არა POWER9_base რეჟიმში) ან POWER10 თავსებადობის რეჟიმში.
IBM ი
დარწმუნდით, რომ IBM I ოპერაციული სისტემის დონე არის მიმდინარე. Fix Central გთავაზობთ უახლეს განახლებებს IBM I, VIOS, HMC და firmware-ისთვის. https://www.ibm.com/support/fixcentral/
Firmware
დარწმუნდით, რომ სისტემის firmware დონე არის მიმდინარე. Fix Central გთავაზობთ უახლეს განახლებებს IBM I, VIOS, HMC და firmware-ისთვის. https://www.ibm.com/support/fixcentral/
მეხსიერების DIMM
დაიცავით მეხსიერების დანამატის სათანადო წესები. თუ შესაძლებელია, სრულად შეავსეთ მეხსიერების DIMM სლოტები და გამოიყენეთ მსგავსი ზომის მეხსიერების DIMM.
პროცესორის SMT დონე
სრული წინსვლისთვისtagრაც შეეხება Power10 CPU-ების მუშაობას, ჩვენ რეკომენდაციას ვუწევთ კლიენტებს გამოიყენონ IBM i ნაგულისხმევი პროცესორის მრავალფუნქციური პარამეტრები, რაც მაქსიმალურად გაზრდის SMT-ს.
დონე LPAR კონფიგურაციისთვის.
დანაყოფის განთავსება
მიმდინარე FW დონეები უზრუნველყოფს დანაყოფების ოპტიმალურ განლაგებას. თუმცა, თუ ხშირი DLPAR ოპერაციები შესრულებულია CEC-ის დანაყოფებზე, რეკომენდებულია DPO-ის გამოყენება
განლაგების ოპტიმიზაციისთვის.
ვირტუალური პროცესორები – საერთო და გამოყოფილი პროცესორები
გამოიყენეთ გამოყოფილი პროცესორები დანაყოფის დონის ოპტიმალური მუშაობისთვის.
EnergyScale
CPU პროცესორის საუკეთესო სიჩქარისთვის, დარწმუნდით, რომ დაყენებულია მაქსიმალური შესრულება (ნაგულისხმევი IBM Power E1080-ისთვის). ამ პარამეტრის კონფიგურირება შესაძლებელია ASMI-ში.
შენახვა და ქსელში I/O
VIOS უზრუნველყოფს მოქნილი შენახვისა და ქსელის ფუნქციონირებას. საუკეთესო შესრულებისთვის გამოიყენეთ IBM i ინტერფეისები I/O-სთვის.
უფრო ამომწურავი ინფორმაცია
იხილეთ ბმულზე: IBM I on Power – Performance FAQ https://www.ibm.com/downloads/cas/QWXA9XKN

კორპორატიული Linux ოპერაციული სისტემა (OS) არის მყარი საფუძველი თქვენი ჰიბრიდული ღრუბლოვანი ინფრასტრუქტურისთვის და მასშტაბური საწარმოს პროგრამული გადაწყვეტილებებისთვის. ბოლო გამოშვებები ოპტიმიზებულია კლასში საუკეთესო Power10 Enterprise სისტემებისთვის
სიმძლავრე 10

SLES15SP3, RHEL8.4 მხარდაჭერა Power10 მშობლიურ რეჟიმში
კომპასის რეჟიმის მხარდაჭერა, რომელიც საშუალებას აძლევს კლიენტებს გადავიდნენ ძველი თაობის ენერგეტიკული სისტემებიდან (P9 და P8)
ნაგულისხმევი Radix თარგმანის მხარდაჭერა Power10 რეჟიმში
დაშიფვრის მუშაობის მნიშვნელოვანი გაუმჯობესება

Linux + PowerVM

PowerVM საწარმოს ფუნქციების მხარდაჭერა: LPM, საერთო CPU Pools, DLPAR
ინოვაციური გადაწყვეტილებები: SAP HANA აპლიკაციის მომავალი ზრდა 4PB ვირტუალური მისამართის სივრცით
მონაცემთა გადატვირთვის დროის შემცირება: ვირტუალური PMEM მხარდაჭერა SAP HANA-სთვის
მსოფლიო დონის მხარდაჭერა და სერვისი

მხარდაჭერილი დისტრიბუტები:

Power9-დან დაწყებული მხოლოდ RedHat და SUSE არის მხარდაჭერილი PowerVM ტიხრებში
დეტალური ინფორმაცია დისტრო მხარდაჭერის მატრიცის შესახებ, რომელიც მოიცავს ძველი თაობის HW

LPM მხარდაჭერა:

გადაიტანეთ Linux-ის ლოგიკური ტიხრები ძველი თაობის ენერგეტიკული სისტემებიდან თითქმის ნულოვანი აპლიკაციის შეფერხებით
მითითება: LPM გზამკვლევი და მასთან დაკავშირებული ინფორმაცია

ენერგიის სპეციფიკური პაკეტები:

PowerPC-utils პაკეტი: შეიცავს კომუნალურ პროგრამებს IBM PowerPC LPAR-ების შესანარჩუნებლად. ხელმისაწვდომია როგორც დისტროს ნაწილი.
Advance Toolchain for Linux on Power: შეიცავს უახლეს შემდგენელებს, გაშვების ბიბლიოთეკებს.

საუკეთესო პრაქტიკა:

RHEL უზრუნველყოფს წინასწარ განსაზღვრულ ტუნინგებს, როგორც მორგებული სერვისის ნაწილი.
იხილეთ SAP-ის უახლესი შენიშვნები SAP აპლიკაციებისთვის OS პარამეტრებისთვის. როგორც წესი, დაკონსერვებული გამოიყენება RHEL-ში და გადაღება ან sapconf SLES-ში
სიხშირეს მართავს PowerVM. მითითება: ენერგიის მენეჯმენტი
Power8 Huge Dynamic DMA Window-ის გაშვება ხელს უწყობს I/O მუშაობის გაუმჯობესებას.
გაშვება Power9 24×7-Monitoring ინტეგრირებულია perf ინსტრუმენტთან. მთელი სისტემის მონიტორინგის საშუალებას იძლევა.

დარწმუნდით, რომ სისტემის firmware დონე არის მიმდინარე.
lparnumascore PowerPC-utils-დან გვიჩვენებს LPAR-ის მიმდინარე აფინურობის ქულას. DPO შეიძლება გამოყენებულ იქნას LPAR აფინურობის ქულის გასაუმჯობესებლად.

მეტი კითხულობს:

SLES ძალაუფლებისთვის და რამდენიმე დამაჯერებელი ფუნქცია.
დაიწყეთ Linux Power Systems-ზე, Linux Power Systems სერვერებზე
Enterprise Linux საზოგადოება
IBM Power სისტემები მხარს უჭერენ სხვადასხვა ქსელის ადაპტერებს სხვადასხვა სიჩქარისა და პორტების რაოდენობის.

თუ იყენებთ იმავე ქსელურ გადამყვანებს, როგორც თქვენი წინა სისტემა, თავდაპირველად, იგივე რეგულირება უნდა იქნას გამოყენებული ახალ სისტემაში.
Ethernet ადაპტერების უმეტესობა მხარს უჭერს მრავალჯერადი მიღებისა და გადაცემის რიგებს, რომელთა ბუფერის ზომა შეიძლება შეიცვალოს პაკეტების მაქსიმალური რაოდენობის გასაზრდელად.
რიგის ნაგულისხმევი პარამეტრები განსხვავებულია სხვადასხვა გადამყვანებთან და შესაძლოა არ იყოს ოპტიმალური კლიენტ-სერვერის მოდელში შეტყობინების მაქსიმალური სიჩქარის მისაღწევად.

დამატებითი რიგების გამოყენება გაზრდის სისტემის CPU-ს გამოყენებას; ამიტომ უნდა იყოს გამოყენებული რიგის ოპტიმალური დაყენება კონკრეტული დატვირთვისთვის.

უფრო მაღალი სიჩქარის ადაპტერის მოსაზრებები

უფრო მაღალი სიჩქარის ქსელები 25 GigE და 100 GigE ქსელური ადაპტერებით საჭიროებენ მრავალ პარალელურ ძაფს და დრაივერის ატრიბუტების დარეგულირებას.
თუ ეს არის Gen4 ადაპტერი, დარწმუნდით, რომ ადაპტირებულია Gen4 სლოტზე.

დამატებით ფუნქციებს, როგორიცაა შეკუმშვა, დაშიფვრა და დუბლირება, შეუძლია შეფერხების დამატება

რიგის პარამეტრების შეცვლა AIX-ში
AIX-ში მიღების/გადაცემის რიგების რაოდენობის შესაცვლელად

ifconfig enX ამოიღეთ
chdev -l entX -a რიგები_rx= -a queues_tx=
chdev -l enX -a state=up

რიგის პარამეტრების შეცვლა Linux-ში
Linux ethtool-ში რიგების რაოდენობის შესაცვლელად -L ethX კომბინირებული

რიგის ზომის შეცვლა AIX-ში

ifconfig enX ამოიღეთ
chdev -l entX -a rx_max_pkts = -a tx_max_pkts =
chdev -l enX -a state=up

რიგის ზომის შეცვლა LinuxP-ში: ethtool -G ethX rx tx

ვირტუალიზაცია

ვირტუალიზებული ქსელი მხარდაჭერილია SRIOV, vNIC, vETH სახით. ვირტუალიზაცია ამატებს შეყოვნებას და შეუძლია შეამციროს გამტარუნარიანობა მშობლიურ I/O-სთან შედარებით.
საფონდო ტექნიკის გარდა, დარწმუნდით, რომ VIOS მეხსიერების და პროცესორის რაოდენობა საკმარისია საჭირო გამტარუნარიანობისა და რეაგირების დროის უზრუნველსაყოფად

IBM PowerVM-ის საუკეთესო პრაქტიკა შეიძლება იყოს ძალიან გამოსადეგი VIOS-ის ზომაში
თუ იყენებთ იმავე საცავის გადამყვანებს, როგორც თქვენი წინა სისტემა, თავდაპირველად, იგივე რეგულირება უნდა იქნას გამოყენებული ახალ სისტემაში. თუ არსებული სისტემიდან დამატებითი შესრულებაა სასურველი, მაშინ უნდა განხორციელდეს ნორმალური ტუნინგი.
თუ შენახვის ქვესისტემები მნიშვნელოვნად განსხვავდება ახალ სისტემაში, ვიდრე წინა სისტემაში, შემდეგი მოსაზრებები შეიძლება უარყოფითად იმოქმედოს აპლიკაციების აღქმულ სიჩქარეზე -

პირდაპირი მიმაგრებული მეხსიერებიდან (DAS ან შიდა) Storage Area Network-ზე (SAN) ან Network Attached Storage (NAS) (ან გარე მეხსიერება) შეცვლამ შეიძლება გაზარდოს შეყოვნება.
დამატებით ფუნქციებს, როგორიცაა შეკუმშვა, დაშიფვრა და დედუპლიკაცია, შეუძლია შეფერხების დამატება.
Storage LUN-ების რაოდენობის შემცირებამ შეიძლება შეამციროს სერვერზე საჭირო რესურსები საჭირო გამტარუნარიანობის მხარდასაჭერად.

ამ ზემოქმედების გასაგებად იხილეთ ახალი მოწყობილობების დაყენების ან დაყენების სახელმძღვანელოები.'
ვირტუალიზაცია ამატებს შეყოვნებას და შეუძლია შეამციროს გამტარუნარიანობა მშობლიურ I/O-სთან შედარებით. საფონდო ტექნიკის გარდა, უზრუნველყოთ VIOS მეხსიერება და CPU
VIOS-ში უფრო მაღალი სიჩქარის ვირტუალიზებულ გადამყვანებზე გადასვლა საჭიროებს VIOS-ის კონფიგურაციის კორექტირებას პროცესორებსა და მეხსიერებაში. IBM PowerVM-ის საუკეთესო პრაქტიკა შეიძლება იყოს ძალიან გამოსადეგი VIOS-ის ზომაში.

თუნინგის მითითებები – გთხოვთ, მიმართოთ IBM-ის ცოდნის ცენტრს AIX-ისა და Linux-ის სახელმძღვანელოებისთვის.

PCIe3 12 გბ ქეში RAID + SAS ადაპტერი ოთხპორტიანი 6 გბ x8 ადაპტერი Linux:

AIX:

IBM

PCIe3 x8 2-პორტიანი ბოჭკოვანი არხის (32 გბ/წმ) ადაპტერი

დამატებითი AIX tuning შესრულებისთვის:

SCSI ბოჭკოვანი არხის მეშვეობით (MPIO): დააყენეთ მრავალმხრივი ალგორითმი round_robin-ზე ყველა დისკისთვის

NVMe ბოჭკოვანი არხის მეშვეობით: კომპლექტს შეუძლია მიაკუთვნოს 7-ს ყოველი NVMe ბოჭკოვანი არხის დინამიური კონტროლერი, რომელიც შეიქმნა აღმოჩენის ფაზაში

NVMe ადაპტერი AIX tuning შესრულებისთვის
ნაკრები შეიძლება მიეკუთვნოს 8-ს თითოეული NVMe მოწყობილობისთვის
IBM-ის შემდეგი თაობის C/C++/Fortran შემდგენელები, რომლებიც აერთიანებს IBM-ის მოწინავე ოპტიმიზაციას ღია კოდის LLVM ინფრასტრუქტურასთან


LLVM უფრო დიდი ვალუტა C/C++ ენისთვის უფრო სწრაფი აშენების სიჩქარე საზოგადოების საერთო ოპტიმიზაცია LLVM-ზე დაფუძნებული სხვადასხვა კომუნალური პროგრამა	IBM ოპტიმიზაცია Power არქიტექტურის სრული ექსპლუატაცია ინდუსტრიის წამყვანი მოწინავე ოპტიმიზაცია მსოფლიო დონის მხარდაჭერა და სერვისი

ხელმისაწვდომობა

60-დღიანი უფასო საცდელი ვერსია: ჩამოტვირთეთ Open XL პროდუქტის გვერდიდან
მიიღეთ IBM-ის მსოფლიო დონის სერვისი და მხარდაჭერა მოქნილი ლიცენზირების ვარიანტების მეშვეობით, ორმაგი მილისგან (AAS და PA)

მუდმივი ლიცენზია (თითო ავტორიზებული მომხმარებლის ან თითო კონკურენტი მომხმარებლის)
ყოველთვიური ლიცენზია (ვირტუალური პროცესის ბირთვზე): მიზანმიმართული ღრუბლის გამოყენების შემთხვევები, მაგ., PowerVR მაგალითზე

რეკომენდირებული შესრულების დარეგულირების ვარიანტები

ოპტიმიზაციის დონე	გამოყენების რეკომენდაციები
-O2 და -O3	ტიპიური საწყისი წერტილი
ბმულის დროის ოპტიმიზაცია: -flto (C/C++), -qlto (Fortran)	სამუშაო დატვირთვისთვის უამრავი მცირე ფუნქციის გამოძახებით
პროfile მართვადი ოპტიმიზაცია: -fprofile- გენერირება, -fprofile-გამოყენება (C/C++) -qprofile-გენერირება, -qprofile-გამოყენება (Fortran)	სამუშაო დატვირთვისთვის უამრავი განშტოება და ფუნქციური ზარები

დამატებითი ინფორმაციისთვის ეწვიეთ: https://www.ibm.com/docs/en/openxl-c-and-cpp-aix/17.1.0
https://www.ibm.com/docs/en/openxl-fortran-aix/17.1.0

სრული Power10 არქიტექტურის ექსპლუატაცია Open XL 17.1.0-ით

შემდგენელის ახალი ვარიანტი '–mcpu=pwr10' კოდის გენერირებისთვის Power10 ინსტრუქციების ექსპლუატაციისთვის და ასევე ავტომატურად დაარეგულირებს Power10-ის ოპტიმიზაციებს
ახალი ჩაშენებული ფუნქციები ახალი Power10 ფუნქციების განბლოკვისთვის, მაგ., მატრიქსის გამრავლების ამაჩქარებელი (MMA)

Power10-ისთვის დაემატა ახალი MASS SIMD და ვექტორული ბიბლიოთეკები. MASS ბიბლიოთეკის ყველა ფუნქცია (SIMD, ვექტორი, სკალარი) მორგებულია Power10-ზე (ასევე Power9).

შენიშვნა: აპლიკაციები, რომლებიც შედგენილია XL შემდგენელების ადრინდელ ვერსიებთან (მაგ., XL 16.1.0) წინა Power პროცესორებზე გასაშვებად, თავსებადად იმუშავებს Power10-ზე.
ორობითი თავსებადობა AIX-ზე
შენიშვნა: XL C/C++ AIX 16.1.0-ისთვის უკვე წარმოადგინა ახალი გამოძახება xlclang++ რომელიც იყენებს Clang წინა ნაწილს LLVM პროექტიდან ü C++ ობიექტები, რომლებიც აშენებულია xlC-სთვის

AIX (IBM-ის საკუთარ ფრონტზე დაფუძნებული) არ არის ორობითი თავსებადი C++ ობიექტებთან, რომლებიც აგებულია xlclang++ 16.1.0 AIX-ისთვის

AIX-ისთვის xlclang++ 16.1.0-ით აგებული C++ ობიექტები ორობითი იქნება თავსებადი ახალ Open XL C/C++-თან AIX 17.1.0-ისთვის.
C თავსებადობა შენარჩუნებულია ყველა AIX შემდგენელში (ადრე XL ვერსიები AIX-ისთვის, ღია XL C/C++ AIX 17.1.0-ისთვის)
Fortran-ის თავსებადობა შენარჩუნებულია AIX-ის ადრინდელ XLF ვერსიასა და AIX 17.1.0-ისთვის Open XL Fortran-ს შორის.

ხელმისაწვდომობა
GCC შემდგენელები ხელმისაწვდომია ყველა Enterprise Linux დისტრიბუციაზე და სხვა
AIX.

დაინსტალირებული GCC ვერსია არის 8.4 RHEL 8-ზე და 7.4 SLES 15-ზე. RHEL 9 სავარაუდოდ გამოვა GCC 11.2.
არსებობს რამდენიმე გზა GCC-ის საკმარისად უახლესი ვერსიის მისაღებად, როდესაც განაწილებისთვის ნაგულისხმევი შემდგენელები ძალიან ძველია Power10-ის მხარდასაჭერად.

Red Hat მხარს უჭერს GCC Toolset [1] ამ მიზნით.
SUSE უზრუნველყოფს განვითარების ინსტრუმენტების მოდულს. [2]
IBM გთავაზობთ უახლეს შემდგენლებს და ბიბლიოთეკებს Advance Toolchain-ის მეშვეობით. [3]

IBM Advance Toolchain

Advance Toolchain უზრუნველყოფს ენერგიის ოპტიმიზებულ სისტემურ ბიბლიოთეკებს შემდგენელებთან, გამართულებთან და სხვა ინსტრუმენტებთან ერთად.

Advance Toolchain-ით აგებულ კოდს შეუძლია შექმნას ყველაზე მაღალოპტიმიზებული კოდი, რაც შესაძლებელია უახლესი პროცესორებისთვის.

ენები

C (GCC), C++ (g++) და Fortran (gfortran), სხვებთან ერთად, როგორიცაა Go (GCC), D (GDC) და Ada (gnat).
მხოლოდ GCC, g++ და gfortran ჩვეულებრივ დაინსტალირებულია ნაგულისხმევად.

golang შემდგენელი [4] არის სასურველი ალტერნატივა Power-ზე Go პროგრამების შესაქმნელად.

თავსებადობა და ახალი ფუნქციები Power10-ზე

პროგრამები, რომლებიც შედგენილია GCC-ის ადრინდელ ვერსიებთან POWER8 ან POWER9 პროცესორებზე გასაშვებად, თავსებადად იმუშავებს Power10 პროცესორებზე.
GCC 11.2 ან უფრო ახალი რეკომენდირებულია ყველა ახალი ფუნქციის გამოსაყენებლად, რომელიც ხელმისაწვდომია Power ISA 3.1-ში და დანერგილია Power10 პროცესორებში.

GCC 11.2 უზრუნველყოფს წვდომას Matrix Multiply Assist (MMA) ფუნქციაზე, რომელიც მოწოდებულია Power10 პროცესორებით. [5]
MMA პროგრამების შედგენა შესაძლებელია GCC, LLVM და Open XL-ის ნებისმიერი შემდგენელის გამოყენებით, იმ პირობით, რომ იყენებთ საკმარისად უახლეს გამოშვებებს.

IBM-ის რეკომენდებული და მხარდაჭერილი შემდგენელი დროშები [6]

-O3 ან -აღმოსავლეთი	აგრესიული ოპტიმიზაცია. -East არსებითად ექვივალენტურია -O3 -fast-math-ის, რომელიც ასევე ამშვიდებს შეზღუდვებს IEEE მცურავი წერტილის არითმეტიკაზე.
-mcpu=ძალა	კომპილაცია Power პროცესორის მიერ მხარდაჭერილი ინსტრუქციების გამოყენებით. მაგample, მხოლოდ Power10-ზე ხელმისაწვდომი ინსტრუქციების გამოსაყენებლად აირჩიეთ -mcpu=power10.
-მდე	სურვილისამებრ. შეასრულეთ „ბმულის დრო“ ოპტიმიზაცია. ეს ახდენს კოდის ოპტიმიზაციას ფუნქციის ზარებში, სადაც აბონენტი და გამოძახებული ფუნქციები არსებობს სხვადასხვა კომპილაციის ერთეულებში და ხშირად შეიძლება უზრუნველყოს შესრულების მნიშვნელოვანი ამაღლება.
-გაშლა-მარყუჟები	სურვილისამებრ. შეასრულეთ მარყუჟის სხეულების უფრო აგრესიული დუბლირება, ვიდრე ჩვეულებრივ ამას აკეთებდა კომპილერი. ზოგადად, თქვენ უნდა გამოტოვოთ ეს, მაგრამ ზოგიერთ კოდზე, ამან შეიძლება უზრუნველყოს უკეთესი შესრულება.

შენიშვნა:
მიუხედავად იმისა, რომ -mcpu=power10 მხარდაჭერილია ჯერ კიდევ GCC 10.3, GCC 11.2 სასურველია, რადგან ადრინდელი შემდგენლები არ უჭერენ მხარს Power10 პროცესორებში დანერგილ ყველა ფუნქციას. ასევე, -mcpu=power10-ის გამოყენებით შექმნილი ობიექტები არ იმუშავებს POWER9 ან უფრო ადრეულ პროცესორებზე! თუმცა, არსებობს გზები, რომ შეიქმნას კოდი, რომელიც ოპტიმიზებულია პროცესორის სხვადასხვა ვერსიებისთვის. [7] [1] Red Hat: GCC Toolset-ის გამოყენება. https://access.redhat.com/documentation/enus/red_hat_enterprise_linux/8/html/developing_c_and_cpp_applications_in_rhel_8/gcc-toolset_toolsets.
[2] SUSE: განვითარების ინსტრუმენტების მოდულის გაგება. https://www.suse.com/c/suse-linux-essentialswhere-are-the-compilers-understanding-the-development-tools-module/.
[3] Advance Toolchain Linux-ისთვის IBM Power Systems-ზე. https://www.ibm.com/support/pages/advancetoolchain-linux-power.
[4] Go Language. https://golang.org. [5] Matrix-Multiply Assist საუკეთესო პრაქტიკის სახელმძღვანელო. http://www.redbooks.ibm.com/redpapers/pdfs/redp5612.pdf
[6] GNU Compiler-ის კოლექციის გამოყენება. https://gcc.gnu.org/onlinedocs/gcc.pdf
[7] სამიზნე სპეციფიკური ოპტიმიზაცია GNUI არაპირდაპირი ფუნქციის მექანიზმით. https://developer.ibm.com/tutorials/optimized-libraries-for-linux-on-power/#target-specific-optimization-
© 2021 IBM Corporation with-the-gnu-indirect-function-mechanism.
ჯავის აპლიკაციებს შეუძლიათ შეუფერხებლად მიიღონ წინსვლაtagახალი P10 ISA ფუნქციების e P10 რეჟიმში გაშვებულ ოპერაციულ სისტემებზე ქვემოთ ჩამოთვლილი ან უფრო ახალი Java ვერსიების გამოყენებით:
ჯავა 8

IBM SDK 8 SR6 FP36
IBM Semeru Runtime Open Edition 8u302: openj9-0.27.1

ჯავა 11

IBM Semeru Runtime Certified Edition 11.0.12.1: openj9-0.27.1
IBM Semeru Runtime Open Edition 11.0.12.1: openj9-0.27.1

Java 17 (დრაივერები შეიძლება ჯერ არ იყოს ხელმისაწვდომი)

IBM Semeru Runtime Certified Edition 17: openj9-0.28
IBM Semeru Runtime Open Edition 17: openj9-0.28
OpenJDK 17

შესრულების დარეგულირების მითითებები:
IBM WebSphere Application Server Performance Cookbook
გვერდის ზომა
ზოგადი რეკომენდაცია Oracle-ის მონაცემთა ბაზების უმეტესობისთვის AIX არის 64KB გვერდის ზომის გამოყენება და არა 16MB გვერდის ზომა SGA-სთვის. როგორც წესი, 64 KB გვერდები თითქმის იგივეს იძლევა
შესრულების უპირატესობა, როგორც 16 მბ გვერდი სპეციალური მენეჯმენტის გარეშე.
TNS მსმენელი
Oracle 12.1 მონაცემთა ბაზა და შემდგომი გამოშვებები ნაგულისხმევად გამოიყენებს 64k გვერდს ტექსტისთვის, მონაცემებისთვის და დასტასთვის. თუმცა, TNSLISTENER-ისთვის ის კვლავ იყენებს 4k გვერდებს ტექსტისთვის, მონაცემებისთვის და დასტასთვის. რომ
64 ათასი გვერდის ჩართვა მსმენელი იყენებს ექსპორტის ბრძანებას მსმენელის პროცესის დაწყებამდე. გაითვალისწინეთ, რომ გაშვება ASM-ზე დაფუძნებულ გარემოში, სადაც მსმენელი ამოიწურება
GRID_HOME და არა ORACLE_HOME.
"მკაცრად setenv" ბრძანების დოკუმენტაცია შეიცვალა 12.1 ან უფრო გვიან გამოშვებებში. -t ან -T ამოიღეს -env ან -envs-ის სასარგებლოდ. Oracle Liner-ის გარემოში დააყენეთ და ექსპორტი:
– LDR_CNTRL=DATAPSIZE=64K@TEXTPSIZE=64K@STACKPSIZE=64K - VMM_CNTRL=vmm_fork_policy=COR (დაამატეთ ბრძანება "ასლი წაკითხვაზე")
საერთო სინტაქსი
LDR_CNTRL=SHARED_SYMTAB=Y პარამეტრი არ საჭიროებს სპეციალურად დაყენებას 11.2.0.4 ან უფრო გვიან გამოშვებებში. შემდგენელის დამაკავშირებელი ოფციები ზრუნავს ამ პარამეტრზე და აღარ საჭიროებს სპეციალურად დაყენებას. არ არის რეკომენდებული LDR_CNTRL=SHARED_SYMTAB=Y სპეციალურად დაყენებული 12c ან უფრო გვიან გამოშვებებში.
ვირტუალური პროცესორის დასაკეცი
ეს არის კრიტიკული პარამეტრი RAC გარემოში LPAR-ების გამოყენებისას პროცესორის დასაკეცი ჩართულით. თუ ეს პარამეტრი არ არის მორგებული, არსებობს RAC კვანძის გამოდევნის მაღალი რისკი მონაცემთა ბაზის მსუბუქი დატვირთვის პირობებში. Scheda -p -o vpm_xvcpus=2
VIOS და RAC ურთიერთდაკავშირება
რეკომენდებულია გამოყოფილი 10G (ანუ 10G Ethernet ადაპტერი) კავშირი მინიმუმამდე, რათა უზრუნველყოს საკმარისი გამტარობა კლასტერული დროისადმი მგრძნობიარე ტრაფიკისთვის. RAC კლასტერული ტრაფიკი – ურთიერთდაკავშირების ტრაფიკი უნდა იყოს გამოყოფილი და არა გაზიარებული. ურთიერთკავშირის გაზიარებამ შეიძლება გამოიწვიოს დროის შეფერხება, რაც გამოიწვევს კვანძის ჩამოკიდების/გამოსახლების პრობლემებს.
ქსელის შესრულება
ეს არის გრძელვადიანი ქსელის დარეგულირების შემოთავაზება Oracle-ისთვის AIX-ზე, თუმცა ნაგულისხმევი რჩება 0-ზე. rfc1323=1 TCP პარამეტრი
უფრო ამომწურავი ინფორმაცია
იხილეთ ბმული: Oracle-ის მონაცემთა ბაზის მიმდინარე ვერსიების სტაბილურობისა და მუშაობის მართვა, რომლებიც მუშაობენ AIX-ზე ენერგეტიკულ სისტემებზე, მათ შორის POWER9-ზე
https://www.ibm.com/support/pages/node/6355543

გენერალი

გამოიყენეთ SMT8 რეჟიმი
გამოიყენეთ გამოყოფილი CPU LPAR-ები

Db2 საწყობი

დარწმუნდით, რომ მაღალსიჩქარიანი კერძო ქსელი არსებობს ყველა კვანძს შორის
შეზღუდეთ MLN კონფიგურაცია ერთ კვანძზე თითო სოკეტზე

CP4D

გამოიყენეთ PCIe4 OCP კვანძების ქსელისთვის
OCP 4.8-მდე დააყენეთ ბირთვის პარამეტრი slub_max_order=0

Db2 საუკეთესო პრაქტიკა
https://www.ibm.com/docs/en/db2/11.5?topic=overviews-db2-best-practices

ქსელი

პოდ ქსელისთვის გამოიყენეთ პირადი ქსელი, რომელიც დაფუძნებულია მშობლიურ SRIOV-ზე, თუ LPM არ არის საჭირო, წინააღმდეგ შემთხვევაში, გამოიყენეთ VNIC

აპლიკაციებისთვის, რომლებიც საჭიროებენ მაღალ გამტარობას ან დაბალ შეყოვნებას, განიხილეთ SR-IOV ქსელის ოპერატორის გამოყენება VF პირდაპირ პოდზე მინიჭებისთვის.
სერვისებისთვის, რომლებსაც სჭირდებათ დაბალი დროის ამოწურვა, დააკონფიგურირეთ ნაგულისხმევი ვადები არსებული მარშრუტისთვის
დაარეგულირეთ OCP-ის კლასტერული ქსელის სასურველი MTU ზომა

ოპერაციული სისტემა

განიხილეთ U-ლიმიტების გაზრდა CoreOS ინსტალაციის შემდგომი ცვლილებების ფარგლებში
იხილეთ OCP ინსტალაციის მინიმალური მოთხოვნები Power პლატფორმის OCP4.8 ინსტალაციისთვის Power-ზე

განლაგება

აპლიკაციების განლაგებისას გაითვალისწინეთ, რომ ერთი vCPU უდრის ერთ ფიზიკურ ბირთვს, როდესაც არ არის ჩართული ერთდროული მულტირედინგი (SMT) ან ჰიპერთრედინგი. როდესაც SMT ჩართულია, VCPU უდრის ტექნიკის ძაფს.
იხილეთ მინიმალური ზომის მითითებები მუშაკებისთვის და ძირითადი კვანძებისთვის რესურსების მინიმალური მოთხოვნები
გამოყავით ცალკე გამოყოფილი საცავი ჩაშენებული კონტეინერის გამოსახულების რეესტრში

გამოიყენეთ შემდეგი ზომების მითითებები OCP-ის მთავარი დირექტორიების ძირითადი დირექტორიებისთვის, რომლებშიც OpenShift კონტეინერის პლატფორმის კომპონენტები წერენ მონაცემებს.

შინაარსი დამალვა

1 დოკუმენტები / რესურსები

1.1 ცნობები

2 დაკავშირებული პოსტები