Lenovo LLM Sizing Comprehensive Framework Pandhuan Pangguna

Panduan Ukuran Lenovo LLM
Perencanaan / Implementasi

Isine ndhelikake

1 LLM Sizing Comprehensive Framework

2 Aturan Jempol

3 Syarat kumpul

4 Nyilem Teknis: Ngerti LLMs

5 Metrik Pengukuran Inferensi LLM

6 Pangertosan pathokan

7 Total Biaya Kepemilikan: Cloud vs On-prem

8 Informasi Tambahan - Maca grafik kanggo ukuran

9 kulawarga produk related

10 Dokumen / Sumber Daya

10.1 Referensi

LLM Sizing Comprehensive Framework

Model Basa Gedhe (LLMs) wis ngrevolusi bidang pangolahan basa alami, ngidini aplikasi kayata nggawe teks, analisis sentimen, lan terjemahan basa. Nanging, syarat komputasi kanggo nglakokake model kasebut bisa uga akeh, dadi angel kanggo arsitek solusi kanggo ngrancang lan ngatur sistem sing cocog karo kabutuhan pelanggan.
Kanggo ngatasi tantangan iki, Pandhuan Ukuran LLM iki dirancang kanggo menehi sampeyan pemahaman lengkap babagan cara kerja LLM, syarat komputasi, lan faktor utama sing mengaruhi kinerja. Tujuan saka pandhuan iki yaiku kanggo nglengkapi kawruh lan alat sing dibutuhake kanggo netepake syarat pelanggan, ngrancang sistem sing bisa, lan ngirim penyebaran LLM sing sukses kanthi cepet lan akurat.

Pandhuan, inspirasi saka Ukuran Inferensi LLM NVIDIA, bakal nutupi topik penting kayata aturan jempol kanggo ngira-ngira syarat memori GPU kanggo inferensi lan latihan / fine-tuning, ngumpulake syarat saka pelanggan, pangerten pathokan lan metrik kinerja, lan ngira total biaya kepemilikan. Kanthi nuruti pandhuan iki, sampeyan bakal bisa navigasi lanskap kompleks LLM lan menehi solusi sing dioptimalake kanggo pelanggan sing cocog karo kabutuhan tartamtu.
Saindhenging pandhuan iki, kita bakal nyedhiyani ex praktisamples, rumus, lan pedoman kanggo bantuan arsitek solusi ngira-ngira syarat komputasi kanggo macem-macem skenario LLM. Kita uga bakal ngrembug pentinge ngerteni syarat pelanggan, kayata model, kuantisasi, ukuran token, lan syarat latensi lan kepiye faktor kasebut mengaruhi desain lan kinerja sistem.
Ing bagean sabanjure, kita bakal ngenalake "Aturan Jempol" kanggo ngira-ngira syarat memori GPU, diwiwiti kanthi inferensi. Iki bakal nyedhiyani sampeyan karo cara prasaja lan efektif kanggo ngira kabutuhan memori GPU minimal kanggo mbukak LLM ing lingkungan produksi.

Aturan Jempol

The Rule of Thumb nyedhiyakake pendekatan sing disederhanakake kanggo ngira-ngira syarat komputasi kanggo nglakokake Model Basa Gedhe (LLM). Bagean iki njlentrehake faktor kunci sing mengaruhi syarat memori GPU lan menehi rumus kanggo ngira kanthi cepet kabutuhan memori minimal kanggo inferensi lan fine-tuning / latihan.

Inferensi
Inferensi nuduhake proses nggunakake LLM sing dilatih kanggo ngasilake teks utawa nggawe prediksi babagan data anyar sing ora katon. Kanggo ngira syarat memori GPU minimal kanggo inferensi, kita bisa gunakake rumus ing ngisor iki:
M = P*Z* 1.2

ngendi:

M = memori GPU ditulis ing Gigabytes

P = Model (parameter) ukuran ing Milyar
Z = Faktor kuantisasi ing Byte (1 Byte = 8 bit) - deleng ing ngisor iki

1.2 = Makili 20% overhead kanggo loading data tambahan menyang memori GPU

Faktor kuantisasi Z beda-beda gumantung saka presisi sing digunakake:

INT4: = 0.5
FP8/INT8: = 1

FP16: = 2
FP32: = 4

Kanggo example, kanggo ngira-ngira requirement memori GPU minimal kanggo mbukak Llama 3.1 karo 70 milyar paramèter ing 16-dicokot kuantisasi (FP16), kita bisa plug ing Nilai minangka nderek:
M = 70 ∗ 2 ∗ 1.2 = 168 GB

Rumus iki nyedhiyakake cara sing cepet lan gampang kanggo ngira-ngira kabutuhan memori GPU minimal kanggo inferensi, ngidini arsitek solusi ngrancang sistem sing nyukupi kabutuhan pelanggan.

Fine-Tuning/Training
Fine-tuning utawa latihan Model Basa Gedhe (LLM) mbutuhake sumber daya komputasi luwih akeh tinimbang inferensi. Kebutuhan memori GPU minimal kanggo fine-tuning/latihan bisa dikira nganggo rumus ing ngisor iki:
Total = (Z + 12 + Z) bita/parameter = P (2Z+12) memori GB sing dibutuhake
ngendi:

P = Ukuran model (parameter) ing milyar
Z = Faktor kuantisasi ing Byte (1 Byte = 8 bit)

Nanging, rumus iki menehi prakiraan ekstrem, amarga nganggep yen paramèter model lengkap, negara pangoptimal, lan gradien disimpen ing memori. Ing laku, Techniques kaya Low-Rank Adaptation (LoRA) lan Quantized LoRA (QLORA) bisa nyuda drastis syarat memori.
Kanggo menehi ide sing luwih apik, ana sawetara syarat memori GPU sing dikira-kira kanggo nyetel LLM kanthi nggunakake cara lan presisi sing beda:

Tabel 1. Perbandingan syarat VRAM kanggo macem-macem ukuran model lan teknik fine-tuning

Metode	Precision	7B	13B	30B	70B	110B
kebak	16	67GB	125GB	288GB	672GB	1056GB
LoRA	16	15GB	28GB	63GB	146GB	229GB
QLoRA	8	9GB	17GB	38GB	88GB	138GB
QLoRA	4	5GB	9GB	20GB	46GB	72GB

Nalika sampeyan bisa ndeleng, nggunakake LoRA utawa QLoRA bisa nyuda syarat memori 75-90% dibandhingake karo cara fine-tuning lengkap. Iki amarga Techniques iki nyimpen mung paramèter dicocogake lan ora kabeh model, asil ing tabungan memori wujud.
Nalika ngrancang sistem kanggo fine-tuning / latihan LLMs, iku kritis kanggo nimbang cara tartamtu lan tliti digunakake, uga ukuran model, kanggo mesthekake yen sistem meets sumber daya komputasi dibutuhake. Kanthi nggunakake teknik kaya LoRA utawa QLoRA, arsitek solusi bisa ngrancang sistem sing luwih efisien lan biaya sing nyukupi kabutuhan pelanggan.

Syarat kumpul

Kanggo nemtokake konfigurasi sistem sing perlu kanggo panyebaran Model Basa Gedhe (LLM), penting kanggo ngumpulake syarat tartamtu saka pelanggan. Persyaratan kasebut bakal mbantu ngira kinerja inferensi lan njamin sistem kasebut cocog karo tujuan sing dikarepake.

Lima informasi ing ngisor iki kudu diklumpukake sadurunge ngira kinerja inferensi:
1. Pilihan Model:
Ngenali model LLM dimaksudaké kanggo nggunakake ing project iki. Ukuran model utamane nyebabake kinerja inferensi, kanthi model sing luwih gedhe luwih alon lan luwih larang. Elinga yen model cilik bisa duwe kualitas apik banget kanggo tugas tartamtu nalika ngurangi biaya inferensi. Mulane, dianjurake kanggo njelajah model cilik uga. Pangertosan karakteristik model sing dipilih bakal mbantu ngira sumber daya komputasi sing dibutuhake.
Nalika ngumpulake syarat kanggo kasus panggunaan LLM, penting kanggo nimbang dawa token input, sing minangka salah sawijining faktor kanggo nemtokake kinerja model kasebut. Jendhela konteks, sing ditetepake minangka jumlah token input lan output, nduweni peran penting ing proses iki. Model anyar, kayata Llama 3.1, ndhukung jendhela konteks sing luwih gedhe nganti 128,000 token.

2. Token Input:
Temtokake jumlah rata-rata token ing pituduh menyang LLM, kalebu:

Sistem prompt

konteks
Pandhuan pangguna

Kanggo model basa Inggris, siji token kira-kira 0.75 saka tembung. Kalebu pituduh sistem lan konteks ing count token mesthekake yen kabeh urutan input dianggep nalika ngira kinerja.
Kanggo ngetung jumlah token input kanthi akurat, kalebu kabeh unsur sing nyumbang, kayata pituduh sistem (instruksi khusus), dokumen sing dijupuk (ing pipelines Retrieval Augmented Generation), lan riwayat obrolan (ijol-ijolan obrolan sadurunge). Saben komponen kasebut dianggep minangka anggaran maksimal token sing bisa dilebokake ing model kasebut.
Dawane input sing gedhe bisa nyebabake kinerja inferensi, amarga tembung diowahi dadi embeddings lan cache KV tuwuh kanthi kuadrat. Aplikasi kaya saluran pipa RAG bisa uga mbutuhake dawa input sing luwih gedhe, sing nyebabake latensi token pertama amarga akeh data sing diproses.
Kita bakal nliti luwih jero babagan token lan pengaruhe ing latensi mengko ing makalah iki, njelajah cara mengaruhi kinerja LLM lan pertimbangan apa sing dibutuhake kanggo operasi model sing optimal.

3. Token Output:
Netepake jumlah rata-rata token ing output LLM. Iki perlu amarga ngasilake token luwih akeh mbutuhake sumber daya lan wektu komputasi. Ngerteni ukuran output sing dikarepake bakal mbantu ngrancang sistem sing bisa nangani throughput sing dibutuhake tanpa kompromi babagan latensi utawa kualitas.

4. Panjaluk Rata-rata per Detik (RPS):
Kanggo njamin kinerja sing optimal lan panggunaan sumber daya sing efisien, temtokake jumlah puncak panjaluk sing kudu diproses sistem saben detik. Nalika nggawe ukuran kanggo panyebaran ing papan, penting kanggo nggawe kalkulasi adhedhasar panggunaan puncak, tinimbang panggunaan rata-rata.
Kanggo akun variasi ing pola request, kita nggunakake persentil 95th Poisson PPF (fungsi probabilitas titik) rata-rata RPS (panjaluk per detik). pendekatan iki mbantu kanggo ngenali beban samesthine maksimum, ngijini kita kanggo ngrancang sistem sing bisa nangani panjaluk puncak tanpa underutilized sak periode non-puncak.
Proses kasebut kalebu entuk tingkat panjaluk rata-rata saka pelanggan lan ngitung tingkat panjaluk puncak nggunakake persentil kaping 95 saka distribusi Poisson. Cara iki nyedhiyakake perwakilan sing luwih akurat babagan syarat sistem, amarga nganggep variasi alami ing pola panyuwunan. Penting banget kanggo dicathet yen sistem ora mlaku ing kapasitas puncak, biaya efektif saben token bisa saya tambah akeh.

5. Syarat Latency:
Ngerti tujuan lan watesan latensi pelanggan, kalebu:

Latensi token pisanan: Wektu sing dibutuhake kanggo model ngasilake token tanggapan pisanan.
Latensi token pungkasan: Total wektu sing dibutuhake kanggo model ngasilake kabeh respon.

Latensi minangka faktor kritis ing pirang-pirang aplikasi, amarga latensi dhuwur bisa ngaruhi pengalaman pangguna. Watesan kanggo latensi token pisanan sing luwih murah (TTFT) bakal drastis hamper throughput, tegese kemampuan sistem kanggo ngolah macem-macem panjalukan bebarengan bakal kompromi.
Mula, penting kanggo nggawe keseimbangan antarane latensi lan throughput adhedhasar syarat khusus pelanggan.
Keperluan kasebut penting kanggo ngira kinerja inferensi, ukuran sistem, lan mesthekake yen cocog karo pangarepan pelanggan. Kanthi ngumpulake informasi iki, sampeyan bakal bisa luwih ngerti kabutuhan pelanggan lan ngrancang konfigurasi sistem sing cocog sing ngimbangi kinerja, biaya, lan kualitas. Ing bagean sabanjure, kita bakal nliti luwih jero babagan sawetara syarat kasebut lan njelajah kepiye pengaruhe penyebaran LLM.

Nyilem Teknis: Ngerti LLMs

Ing bagean iki, kita bakal njelajah cara ruwet Model Basa Gedhe (LLM) kanthi nyilem menyang aspek teknis. Kita bakal neliti stages saka eksekusi LLM, mangerteni metrik pangukuran kunci, lan deleng teknik sing nyepetake inferensi.

Loro Stages saka LLM Execution: Prefill vs Decoding
Model Basa Gedhe (LLM) minangka sistem kompleks sing nglibatake pirang-pirang stagyaiku pangolahan kanggo ngasilake tanggepan teks kaya manungsa. Pangerten iki stages migunani kanggo ngoptimalake kinerja, nyuda latensi, lan nambah pengalaman pangguna sakabèhé. Ing bagean iki, kita bakal delve menyang loro utami stages saka eksekusi LLM: Prefill lan Decoding.

Pengisian Stage
Prefill stage nuduhake wektu sing dibutuhake LLM kanggo ngolah pituduh input pangguna lan ngasilake token output pisanan, sing kira-kira padha karo tembung. Iki stage nyakup langkah-langkah ing ngisor iki:

Ngunggah pituduh pangguna: Input pangguna ditampa lan dimuat menyang sistem.
Populating KV-cache: Sajrone s ikitage, LLM populates cache Key-Value (KV) karo informasi saka token input. Cache iki digunakake kanggo nyimpen lan njupuk data konteks-spesifik sing relevan.
Njaluk resepsi kanggo token pisanan : Wektu sing dibutuhake kanggo LLM ngolah pituduh input lan ngasilake token output pisanan.

Prefill stage utamane diikat karo komputasi, tegese kinerjae gumantung banget marang sumber daya komputasi sing kasedhiya. Wektu sing dibutuhake kanggo ngrampungake s ikitage mung gumantung ing jumlah token input, nggawe proses katebak lan konsisten.

Decoding Stage
Decoding stage, uga dikenal minangka generasi utawa ekspansi, yaiku ing ngendi LLM ngasilake token respon siji-siji, mbangun token output awal sing diprodhuksi sajrone Prefill s.tage. Iki stage kalebu:

Inter-token latency: Wektu sing dibutuhake kanggo ngasilake saben token sakteruse sawise sing pisanan.
Generasi token-by-token: LLM ngasilake token respon saben tembung, nggunakake konteks lan informasi sing dikumpulake sajrone Prefill s.tage.
Ketergantungan ing token input lan output : Latensi antar-token gumantung saka jumlah token input lan jumlah token output sing diasilake.

Ing kontras kanggo Prefill stage, Dekoding biasane memori-bound, tegese kinerja banget dipengaruhi dening kasedhiyan sumber memori. Nalika LLM ngasilake token luwih akeh, mbutuhake memori luwih akeh kanggo nyimpen lan ngatur konteks sing akeh, sing bisa nambah latensi.

Metrik Pengukuran Inferensi LLM

Nalika ngevaluasi kinerja Model Basa Gedhe (LLM), sawetara metrik kunci digunakake kanggo ngukur kacepetan inferensi. Iki kalebu:

Wektu kanggo Token Pisanan (TTFT): Wektu sing dibutuhake kanggo ngolah input lan ngasilake token pisanan.

Inter-token Latency (ITL): Wektu sing dibutuhake kanggo ngasilake saben token sakteruse sawise sing pisanan, uga dikenal minangka Time Per Output Token (TPOT).
End-to-End Latency (E2E): Total wektu sing dibutuhake kanggo ngolah pituduh lan ngasilake kabeh token, saka input nganti output.

Metrik iki menehi wawasan babagan kinerja model, mbantu ngenali kemacetan lan ngoptimalake kacepetan inferensi.

Batching ing pesawat
Batching inflight (IFB) minangka teknik khusus sing digunakake sajrone inferensi Model Basa Gedhe (LLM) kanggo nggawe keseimbangan antarane memori GPU lan panggunaan komputasi, sing pungkasane nyuda latensi. Cara iki utamané efektif ing inferensi regresif otomatis, ing ngendi LLM ngasilake token kanthi urutan, gumantung marang token sing wis digawe sadurunge kanggo ngasilake sing sabanjure.
IFB ngidini urutan ing macem-macem stages (loro praisi lan dekoding) kanggo diproses ing kumpulan sing padha tanpa ngenteni kabeh panjalukan rampung sadurunge ngenalake sing anyar. Pendekatan iki menehi sawetara keuntungan utama:

Ukuran Batch Konstan: IFB mbisakake ukuran batch sing meh tetep kanggo saben generasi token, sing ndadékaké panggunaan GPU sing luwih dhuwur.
Eksekusi luwih cepet diwiwiti: Panjaluk anyar bisa miwiti eksekusi luwih cepet nalika slot kasedhiya, amarga panjadwal mung ngenteni generasi token sabanjure tinimbang ngrampungake panjaluk saiki.

TensorRT-LLM nggabungake Batching Inflight khusus kanggo ngoptimalake panggunaan GPU sajrone porsi LLM. Fitur iki:

Ngganti panjalukan rampung ing kumpulan.
Ngilangi panjaluk sawise tandha End-of-Sequence (EoS) lan nglebokake panjaluk anyar.

Ngapikake throughput, wektu kanggo token pisanan, lan panggunaan GPU sakabèhé.

Kajaba iku, IFB digabungake kanthi lancar menyang backend TensorRT-LLM Triton lan bisa dikelola liwat Manajer Batch TensorRT-LLM. Yen digabungake karo teknik liyane kayata ngimbangi operasi kaiket memori lan komputasi, dekoding chunked, dekoding spekulatif, lan sparsity, IFB ningkatake throughput LLM, dadi alat indispensable kanggo inferensi LLM efisien.

Tensor Paralelisme
Tensor Parallelism (TP) minangka teknik sing digunakake ing inferensi Model Basa Gedhe (LLM) kanggo nyebarake beban komputasi ing sawetara GPU. Cara iki kalebu pamisah model ing sawetara GPU, sing gumantung banget marang ijol-ijolan data sing efisien ing antarane GPU kasebut. TP utamané migunani kanggo model sing luwih gedhe ing ngendi syarat memori ngluwihi kapasitas GPU siji.

Karakteristik Utama Paralelisme Tensor:

Lower Latency nanging Lower Throughput: Nalika TP bisa nyuda latensi kanthi parallelizing komputasi, bisa uga ndadékaké throughput sakabèhé luwih murah amarga overhead sing ana gandhengane karo komunikasi antar-GPU.

Requirement for Bigger Models: Kanggo model sing luwih gedhe kaya LLaMa-70B, paralelisme tensor paling sethithik 2 (TP>= 2) dibutuhake. Iki mesthekake yen model kasebut bisa dipisahake kanthi bener ing pirang-pirang GPU supaya pas karo memori lan sumber daya komputasi sing kasedhiya.
Rekomendasi kanggo Server NVLink-aktif: Nalika TP ngluwihi 2, NVIDIA banget nyaranake nggunakake server NVLink-aktif kanggo inferensi. NVLink menehi bandwidth dhuwur, interkoneksi lowlatency sing Ngartekno nambah transfer data antarane GPUs dibandhingake sambungan PCIe tradisional.

Pangertosan pathokan

Tolok ukur dadi pusat ing ukuran lan milih konfigurasi sing cocog kanggo pelanggan, amarga ngevaluasi tradeoff ing antarane metrik utama kayata throughput, latensi, lan tingkat panjaluk. Ngerteni pathokan kasebut mbantu nemtokake konfigurasi optimal kanggo inferensi model basa gedhe (LLM), ngidini pancasan informasi babagan syarat hardware lan piranti lunak.

Throughput vs Latency
Ing konteks inferensi LLM, entuk keseimbangan antarane throughput lan latensi iku penting. Throughput nuduhake jumlah panjalukan sing bisa diproses saben unit wektu, dene latensi yaiku wektu sing ditindakake kanggo ngolah panjaluk siji saka wiwitan nganti rampung.

Tradeoff:
Ngenalake watesan latensi bisa nyuda throughput sing kasedhiya. Kosok baline, watesan latensi sing santai bisa nyebabake throughput sing luwih dhuwur. Pangertosan kasus panggunaan pelanggan nyedhiyakake prakiraan token input, token output, lan panjaluk rata-rata saben unit wektu, ngidini proposal hardware tartamtu sing cocog karo throughput sing dibutuhake nalika njaga latensi sing dibutuhake.
Nggabungake macem-macem panjalukan kanggo nambah throughput bisa ngenalake wektu tundha, nambah latensi kanggo panjalukan individu. Inferensi LLM kalebu rong fase - prefill (latensi dhuwur, entuk manfaat saka pangolahan paralel) lan decode (latensi ngisor, panggunaan komputasi luwih murah).

Implikasi praktis:

High Throughput: Cocog kanggo panyebaran skala gedhe kanthi volume panyuwunan sing dhuwur.
Low Latency: Penting kanggo aplikasi respon wektu nyata, kayata AI percakapan utawa sistem interaktif.

Kanthi mangerteni lan ngatur tradeoff throughput-latency, sistem inferensi LLM bisa dioptimalake kanggo nyukupi syarat aplikasi tartamtu. Kanggo benchmarking khusus, alat kaya GenAI-Perf dening NVIDIA bisa menehi wawasan terkenal babagan kinerja model tartamtu ing sistem.

Kanggo mangerteni carane napsirake grafik pathokan, deleng topik ing pungkasan dokumen iki, Informasi Tambahan - Maca grafik kanggo ukuran.

Ngerteni Ukuran Batch Maks, Konkurensi, Tingkat Panjaluk, lan Throughput
Bisa uga rada mbingungake nangani kabeh jargon, mula ayo mbatalake saben konsep kanggo njlentrehake hubungane lan pentinge ing evaluasi sistem.

Ukuran Batch Max
Parameter max_batch_size duwe rong peran: siji sajrone mbangun mesin lan liyane nalika runtime.

Engine Mbangun: Setelan iki mesthekake yen sistem asil, karo kapasitas kanggo ukuran kumpulan tartamtu, pas ing memori kasedhiya. Intine babagan perencanaan kapasitas kanggo nyegah masalah memori sajrone eksekusi.
Runtime: Setelan iki nemtokake jumlah panjalukan sing bisa digabungake sadurunge diproses. Runtime max_batch_size kudu kurang saka utawa padha karo build-time max_batch_size. Batching panjalukan nyata ing skenario nyata dipengaruhi dening parameter iki, langsung mengaruhi efisiensi lan kinerja.

Ukuran Batch lan Concurrency

Concurrency (C) < Max Batch Size (MBS): Nalika jumlah panjalukan bebarengan kurang saka ukuran batch maksimum, mesin biasane ngolah batch kanthi ukuran sing padha karo level concurrency. Iki tegese ana free slot kasedhiya ing saben kumpulan, amarga ora kabeh posisi potensial ing kumpulan kapenuhan.
Concurrency (C) >= Max Batch Size (MBS): Yen concurrency padha utawa ngluwihi ukuran batch maksimal, banjur batch biasane kebak, diproses kanthi kapasitas maksimal. Antrian kanggo panjalukan anyar bakal mulai tuwuh, kanthi ukuran rata-rata C - MBS, amarga panjaluk sing mlebu ngenteni batch sadurunge rampung.

Konkurensi lan Tingkat Panjaluk minangka Metrik Hasil
Kanggo ngukur kinerja sistem kanthi lengkap, nimbang:

Throughput: Jumlah panjalukan sing bisa diproses sistem saben unit wektu.
End-to-end Latency: Total wektu sing dijupuk kanggo njaluk diproses saka wiwitan nganti rampung.

Concurrency: Jumlah panjalukan sing bisa ditangani bebarengan.

Sistem kanthi konkurensi dhuwur lan latensi dhuwur bisa uga entuk throughput sing padha karo sistem konkurensi sing luwih murah nanging latensi luwih murah. Nanging, sing terakhir luwih efisien amarga luwih cepet nanggapi panjaluk individu.
Mula, nggunakake "panyuwunan saben menit" (utawa metrik adhedhasar wektu sing padha) minangka ukuran utama kanggo ukuran sistem lan ngrembug kinerja karo para pemangku kepentingan nyedhiyakake keseimbangan sing seimbang. view saka kapasitas sistem. Iku mbantu faktor syarat konkurensi lan latensi, menehi gambaran sing luwih jelas babagan apa sing bisa ditindakake sistem kanthi efisien.

Concurrency lan Request Rate minangka Parameter Input
Kanggo pangukuran kacepetan akurat (throughput), iku penting kanggo njaga ukuran kumpulan engine pancet saka siji siklus Processing liyane.

Nggunakake Concurrency minangka Input: Pendekatan iki njamin ukuran batch tetep konsisten, nyedhiyakake pangukuran sing bisa dipercaya.
Nyetel Tingkat Panjaluk minangka Parameter Input : Iki bisa dadi masalah amarga yen tingkat panjalukan ngluwihi throughput sistem, antrian bakal terus berkembang, nambah latensi. Kosok baline, nyetel tingkat panjalukan ing ngisor throughput sistem tegese ora kabeh slot kasedhiya digunakake, ndadékaké kanggo underperformance.

Rekomendasi

Gunakake Concurrency karo Ukuran Token minangka Metrik Input : Iki ngidini eksperimen sing dikontrol sing bisa nandheske sistem nganti watesan utawa ngukur responsif ing beban sing luwih entheng.
Gunakake Tingkat Panjaluk minangka Metrik Asil : Nyedhiyakake wawasan babagan pirang-pirang panjalukan sing bisa ditindakake sistem sajrone wektu tartamtu, nggambarake kapasitas lan efisiensi.

Kanthi ngontrol paramèter kasebut lan fokus ing metrik sing bener, perusahaan bisa ngrancang sistem sing luwih efisien sing ngimbangi throughput, latensi, lan panggunaan sumber daya kanthi efektif.

Total Biaya Kepemilikan: Cloud vs On-prem

Nggunakake inferensi Model Basa Gedhe (LLM) dadi penting kanggo bisnis modern. Ana rong pilihan utama: basis awan lan ing lokasi. Kita bakal njelajah keuntungan lan watesan saben pilihan kanggo mbantu sampeyan nggawe keputusan sing tepat.

Panyebaran Cloud-Based
Panyebaran basis awan nawakake model "pay-as-you-go", ing ngendi sampeyan mung mbayar sumber daya sing digunakake.
Nanging, ana sawetara kekurangan sing kudu ditimbang:

Keamanan Data: Kajaba lisensi kelas perusahaan dituku, data sampeyan bisa digunakake kanggo nglatih model ing mangsa ngarep, sing bisa nyebabake kebocoran data.

Ketidakpastian rega: Rega bisa diganti, lan sampeyan duwe kontrol sing kurang babagan model, sing bisa uga ora ndhukung penyesuaian utawa kustomisasi.
Kontrol winates: Sampeyan duwe kontrol winates babagan latency lan throughput saka pituduh.

Biaya panyebaran basis awan biasane diitung adhedhasar token input lan output, kanthi rega tetep saben token. Kanggo exampNanging, siji yuta token input bisa regane $15, dene siji yuta token output biaya $60.
Kanggo ngira biaya, sampeyan bisa nggunakake kalkulator sing nganggep jumlah token input lan output.

Penyebaran On-Premise
Penyebaran ing papan mbutuhake investasi ngarep sing akeh nanging menehi sawetara keuntungan:

Kontrol Lengkap: Sampeyan duwe kontrol lengkap babagan sistem, ngidini owah-owahan yen perlu.
Biaya-Efektif: Kanthi pemanfaatan tetep cedhak kapasitas, panyebaran on-premise bisa biaya-efektif ing jangka panjang.

Keamanan: Data sampeyan aman, lan sampeyan duwe kontrol lengkap babagan sistem kasebut.

Biaya sing ana gandhengane karo panyebaran ing papan kalebu:

Tuku Server GPU: Rega kanggo tuku server GPU, sing beda-beda gumantung saka hardware lan jinis sistem.

Biaya Pusat Data: Biaya sing ana gandhengane karo listrik, nyewakake ruang, staf, lan biaya liyane.
Fees Lisensi: Ragad lisensi taunan kanggo layanan tambahan, contone, NVAIE

Kanggo nemokake biaya saben panjaluk 1M (telpon):

ngendi

Z = Biaya saben panjaluk 1M

C = Total On Prem Cost rata-rata liwat setahun
X = Pituduh per detik (throughput) ing sistem

Perbandingan Cloud lan On-Premise Deployment
Kanggo nggawe perbandingan sing adil antarane panyebaran awan lan ing papan, kita nganggep:

Model sing dipasang ing loro platform kasebut padha karo kualitas.
Latensi lan throughput sing diraih ing loro platform kasebut padha.

Kita bisa mbandhingake biaya on-prem saben panjaluk 1M karo biaya awan saben panjaluk 1M kanggo entuk perbandingan sing adil. Kita bisa uga ngerteni saben token input lan biaya token output kanggo on-prem.

Rekap biaya
Kesimpulane, opsi panyebaran berbasis awan lan ing papan duwe keuntungan lan watesan.
Penyebaran basis awan nawakake solusi sing fleksibel lan bisa diukur nanging bisa uga kompromi babagan keamanan lan kontrol data. Penyebaran ing papan nyedhiyakake kontrol lan keamanan lengkap nanging mbutuhake investasi awal.
Ing jangka panjang, titik break-even tekan ing endi panyebaran ing premis nggawe akal finansial tinimbang kedadeyan ing awan.

Rekomendasi
Nalika mutusake antarane panyebaran basis awan lan ing papan, nimbang ing ngisor iki:

Keamanan data: Yen sampeyan dadi prioritas utama, panyebaran ing lokasi luwih apik.

Skalabilitas: Yen sampeyan kudu nggawe skala kanthi cepet, panyebaran basis awan bisa uga luwih cocog.
Anggaran: Yen anggaran dadi keprihatinan, panyebaran ing papan bisa dadi biaya-efektif ing jangka panjang.

Pungkasane, keputusan kasebut gumantung marang kabutuhan lan prioritas tartamtu.

Kesimpulan
Kesimpulane, ngira-ngira kinerja lan syarat komputasi kanthi akurat penting nalika ngrancang sistem kanggo panyebaran Model Basa Gedhe (LLM). Kanggo entuk iki, kumpulake syarat khusus saka pelanggan, kalebu pilihan model, dawa token input, kuantisasi, lan kabutuhan latensi. Rumus lan pedoman sing diwenehake, kayata "Aturan Jempol" kanggo ngira-ngira syarat memori GPU, dadi alat sing migunani kanggo arsitek solusi supaya bisa ngira-ngira kanthi cepet lan ngrancang sistem sing cocog karo panjaluk pelanggan.
Kanthi nimbang faktor utama kayata ukuran model, presisi, lan kuantisasi, sampeyan bisa ngoptimalake konfigurasi sistem kanggo ngimbangi kinerja lan biaya. Kajaba iku, teknik kaya Low-Rank Adaptation (LoRA) lan Quantized LoRA (QLoRA) bisa nyuda kabutuhan memori kanthi radikal sajrone nyetel lan latihan, supaya solusi sing luwih efisien lan larang.
Pandhuan Ukuran Inferensi LLM iki menehi kekuwatan karo kawruh lan keahlian sing dibutuhake kanggo navigasi lanskap kompleks LLM, ngirim penyebaran sing sukses, lan menehi solusi sing cocog sing nyukupi kabutuhan unik para pelanggan. Kanthi nuruti pedoman lan praktik paling apik iki, sampeyan bisa njamin kinerja sing optimal, nyuda biaya, lan nyurung sukses bisnis ing bidang pangolahan basa alami sing berkembang kanthi cepet.

Informasi Tambahan - Maca grafik kanggo ukuran

A graph adhedhasar data pathokan saka NVIDIA NIMs katon kaya iki:

Gambar 5: SampGrafik Le Throughput vs First Token Latency kanggo model Llama 3 8B kanthi 2000 input lan 2000 token output
Grafik interaktif ngidini sampeyan milih model, piranti, kombinasi token input + output, metrik sumbu X lan asil sumbu Y. Kanggo sumbu X, kita bisa duwe parameter input kaya TTFT, TTLT, utawa ITL kanggo token. Kanggo sumbu Y, kita duwe paramèter output kaya pituduh per detik saben sistem utawa out_tokens per detik saben sistem utawa saben GPU.
Exampukuran:
A customer pengin 2000 ing, 2000 metu token karo model llama3 8B lan pengin TTFT ing 1 sec. Nggunakake kendala kita nemokake titik ing grafik kiwa 1 detik TTFT (FTL), bakal katon kaya iki:

Iki ngandhani yen sistem 8xH100 siji bakal bisa nangani nganti 400 pangguna bebarengan (puncak) nalika nggunakake TRT-LLM. Nanging, kita weruh manawa iki duwe latensi total sajrone 38 detik. Yen kita pengin latensi total sing luwih murah (umpamane kurang saka 20 detik), kita kudu ngorbanake throughput, ngowahi sumbu X minangka latensi total (TTLT), kita duwe:

Kene kita duwe titik karo 100 pangguna bebarengan karo 358ms TTFT lan ing 20s TTLT. Kaya sing kita deleng, nyetel watesan latensi banget mengaruhi throughput lan konkurensi maksimal.
Kanggo mbukak pathokan ing sistem sampeyan dhewe, waca NIM NVIDIA kanggo LLM Benchmarking Guide kanggo nggunakake GenAIPerf kanggo entuk metrik LLM.

Pengarang
Sachin Gopal Wani minangka Ilmuwan Data AI ing Lenovo, nggarap aplikasi Machine Learning (ML) end-to-end kanggo macem-macem pelanggan, lan ngembangake kerangka AI NewTalk. Dheweke lulus saka Universitas Rutgers minangka medali emas sing spesialisasine ing Machine Learning, lan wis entuk Beasiswa JN Tata.
David Ellison minangka Kepala Ilmuwan Data kanggo Lenovo ISG. Liwat Pusat Penemuan AI AS lan Eropa Lenovo, dheweke mimpin tim sing nggunakake teknik AI mutakhir kanggo menehi solusi kanggo pelanggan eksternal nalika ndhukung strategi AI sakabèhé kanggo World Wide Infrastructure Solutions Group. Sadurunge gabung karo Lenovo, dheweke nglakokake analisis ilmiah lan perusahaan peralatan internasional lan kerja minangka Ilmuwan Data kanggo Layanan Pos AS. Sadurunge, dheweke nampa gelar PhD ing Teknik Biomedis saka Universitas Johns Hopkins. Dheweke duwe akeh publikasi ing jurnal tingkat paling dhuwur kalebu loro ing Prosiding Akademi Ilmu Pengetahuan Nasional.

kulawarga produk related

Kulawarga produk sing ana gandhengane karo dokumen iki yaiku:

Artificial Intelligence

Kabar
Lenovo bisa uga ora nawakake produk, layanan, utawa fitur sing dibahas ing dokumen iki ing kabeh negara. Hubungi wakil Lenovo lokal kanggo informasi babagan produk lan layanan sing saiki kasedhiya ing wilayah sampeyan. Sembarang referensi kanggo produk, program, utawa layanan Lenovo ora dimaksudake kanggo nyatakake utawa nyatakake yen mung produk, program, utawa layanan Lenovo sing bisa digunakake. Produk, program, utawa layanan sing padha karo fungsi sing ora nglanggar hak properti intelektual Lenovo bisa digunakake. Nanging, iku tanggung jawab pangguna kanggo ngevaluasi lan verifikasi operasi produk, program, utawa layanan liyane. Lenovo bisa uga duwe paten utawa aplikasi paten sing ditundha kanggo nutupi subyek sing diterangake ing dokumen iki. Panyedhiya dokumen iki ora menehi lisensi kanggo paten kasebut. Sampeyan bisa ngirim pitakon lisensi, kanthi nulis, menyang:

Lenovo (Amerika Serikat), Inc.
8001 Drive Development
Morrisville, NC 27560
USA
Manungsa waé: Direktur Lisensi Lenovo

LENOVO Nyedhiyakake Publikasi iki "AS IS" TANPA JAMINAN ANY JENIS, salah siji EXPRESS UTAWA TERSIRAT, Klebu, nanging ora winates kanggo, JAMINAN TERSIRAT NON-PELANGGARAN, MERCHANTABILITY UTAWA FITNESS FOR PURPOSITICULAR PURPOSE. Sawetara yurisdiksi ora ngidini disclaimer jaminan nyata utawa diwenehake ing transaksi tartamtu, mulane, statement iki bisa uga ora ditrapake kanggo sampeyan.
Informasi iki bisa uga kalebu ora akurat teknis utawa kesalahan tipografi. Owah-owahan sing periodik digawe kanggo informasi ing kene; owah-owahan iki bakal digabung ing edisi anyar saka publikasi. Lenovo bisa nggawe dandan lan / utawa owah-owahan ing produk (e) lan / utawa program (e) diterangake ing publikasi iki sawayah-wayah tanpa kabar.

Produk sing diterangake ing dokumen iki ora dimaksudake kanggo digunakake ing implantasi utawa aplikasi dhukungan urip liyane sing bisa nyebabake ciloko utawa pati kanggo wong. Informasi sing ana ing dokumen iki ora mengaruhi utawa ngganti spesifikasi utawa garansi produk Lenovo. Ora ana apa-apa ing dokumen iki sing bakal digunakake minangka lisensi utawa indemnity sing nyata utawa diwenehake miturut hak properti intelektual Lenovo utawa pihak katelu. Kabeh informasi sing ana ing dokumen iki dijupuk ing lingkungan tartamtu lan ditampilake minangka ilustrasi. Asil sing dipikolehi ing lingkungan operasi liyane bisa beda-beda. Lenovo bisa nggunakake utawa nyebarake informasi apa wae sing diwenehake kanthi cara apa wae sing dianggep cocok tanpa kudu duwe kewajiban kanggo sampeyan.
Referensi ing publikasi iki kanggo non-Lenovo Web situs kasedhiya mung kanggo penak lan ora ing sembarang cara ngawula minangka endorsement saka sing Web situs. Bahan kasebut ing Web situs ora bagean saka bahan kanggo produk Lenovo iki, lan nggunakake sing Web situs ing resiko dhewe. Data kinerja apa wae sing ana ing kene ditemtokake ing lingkungan sing dikontrol. Mula, asil sing dipikolehi ing lingkungan operasi liyane bisa beda-beda. Sawetara pangukuran bisa uga ditindakake ing sistem tingkat pangembangan lan ora ana jaminan manawa pangukuran kasebut bakal padha karo sistem sing umume kasedhiya. Salajengipun, sawetara pangukuran bisa uga wis dikira liwat ekstrapolasi. Asil nyata bisa beda-beda. Pangguna dokumen iki kudu verifikasi data sing ditrapake kanggo lingkungan tartamtu.

Dokumen iki, LP2130, digawe utawa dianyari tanggal 24 Januari 2025.
Kirimi komentar sampeyan kanthi salah sawijining cara ing ngisor iki:
Gunakake online Hubungi kita review formulir ditemokake ing: https://lenovopress.lenovo.com/LP2130
Kirimi komentar sampeyan ing e-mail menyang: comments@lenovopress.com
Dokumen iki kasedhiya online ing https://lenovopress.lenovo.com/LP2130.

merek dagang
Lenovo lan logo Lenovo iku merek dagang utawa merek dagang kadhaptar saka Lenovo ing Amerika Serikat, negara liyane, utawa loro-lorone. Dhaptar merek dagang Lenovo saiki kasedhiya ing Web at https://www.lenovo.com/us/en/legal/copytrade/.
Istilah ing ngisor iki minangka merek dagang Lenovo ing Amerika Serikat, negara liya, utawa loro-lorone: Lenovo®
Jeneng perusahaan, produk, utawa layanan liyane bisa uga merek dagang utawa merek layanan wong liya.

Panduan Ukuran Lenovo LLM

Dokumen / Sumber Daya

Lenovo LLM Sizing Comprehensive Framework [pdf] Pandhuan pangguna
LLM Sizing Framework Comprehensive, LLM Sizing, Comprehensive Framework, Framework

Referensi

Manual pangguna