Letšoao la Lenovo

Letšoao la Lenovo 2

Lenovo LLM Sizing Guide
Meralo/ Phethahatso

LLM Sizing Comprehensive Framework

Mehlala e Meholo ea Lipuo (LLMs) e fetotse tšebetso ea puo ea tlhaho, e nolofalletsang lits'ebetso tse joalo ka tlhahiso ea mongolo, tlhahlobo ea maikutlo, le phetolelo ea puo. Leha ho le joalo, litlhoko tsa computational bakeng sa ho tsamaisa mefuta ena e ka ba tse kholo, tsa etsa hore ho be thata ho baetsi ba meralo ea tharollo ho rala le ho hlophisa lits'ebetso tse fihlelang litlhoko tsa bareki ba bona.
Ho rarolla phephetso ena, Tataiso ena ea boholo ba LLM e etselitsoe ho u fa kutloisiso e felletseng ea kamoo li-LLM li sebetsang kateng, litlhoko tsa tsona tsa khomphutha, le lintlha tsa bohlokoa tse amang tšebetso ea tsona. Sepheo sa tataiso ena ke ho u hlomella ka tsebo le lisebelisoa tse hlokahalang ho lekola litlhoko tsa bareki, ho rala litsamaiso tse nang le bokhoni, le ho fana ka phepelo e atlehileng ea LLM kapele le ka nepo.

Tataiso, e bululetsoeng ho tloha NVIDIA's LLM Inference Sizing, e tla bua ka lihlooho tsa bohlokoa tse kang molao oa letsoho oa ho lekanya litlhoko tsa mohopolo oa GPU bakeng sa ho fokotsa le ho koetlisa / ho lokisa hantle, ho bokella litlhoko ho tsoa ho bareki, ho utloisisa litekanyetso le litekanyetso tsa ts'ebetso, le ho hakanya litšenyehelo tse felletseng tsa beng. Ka ho latela tataiso ena, u tla khona ho bona sebaka se rarahaneng sa LLM le ho fa bareki ba bona litharollo tse ntlafalitsoeng tse fihlelang litlhoko tsa bona tse ikhethileng.
Tataisong ena kaofela, re tla fana ka mohlala o sebetsangamples, formulas, le litataiso ho thusa baetsi ba meralo ea tharollo ho hakanya litlhoko tsa computational bakeng sa maemo a fapaneng a LLM. Hape re tla tšohla bohlokoa ba ho utloisisa litlhoko tsa bareki, tse kang mohlala, quantization, boholo ba li-tokens, le litlhoko tsa latency le hore na lintlha tsena li ama moralo le ts'ebetso ea tsamaiso joang.
Karolong e latelang, re tla hlahisa "Rule of Thumb" bakeng sa ho lekanya litlhoko tsa mohopolo oa GPU, ho qala ka ho nyenyefatsa. Sena se tla u fa mokhoa o bonolo le o sebetsang oa ho hakanya litlhoko tse tlase tsa memori ea GPU bakeng sa ho tsamaisa li-LLM libakeng tsa tlhahiso.

Molao oa Monoana

The Rule of Monoana o fana ka mokhoa o nolofalitsoeng oa ho hakanya litlhoko tsa khomphutha bakeng sa ho tsamaisa Mehlala e Meholo ea Lipuo (LLMs). Karolo ena e fana ka lintlha tsa bohlokoa tse amang litlhoko tsa memori ea GPU mme e fana ka liforomo tsa ho lekanya kapele litlhoko tse nyane tsa memori bakeng sa ho nyenyefatsa le ho hlophisa hantle / koetliso.

Ho nyenyefatsa
Inferencing e bolela mokhoa oa ho sebelisa LLM e koetlisitsoeng ho hlahisa mongolo kapa ho bolela esale pele ka data e ncha, e sa bonahaleng. Ho hakanya tlhoko ea bonyane ea memori ea GPU bakeng sa ho fokotsa, re ka khona sebelisa mokhoa o latelang:
M =P*Z* 1.2

Moo:

  • M = memori ea GPU e hlahisitsoeng ka Gigabytes
  • P = Mohlala (parameter) boholo ka Libilione
  • Z = Quantization factor in Bytes (1 Byte = 8 bits) - bona ka tlase
  • 1.2 = E emela 20% e holimo bakeng sa ho kenya data e eketsehileng mohopolong oa GPU

The quantization factor Z e fapana ho latela ho nepahala ho sebelisitsoeng:

  • INT4: = 0.5
  • FP8/INT8: = 1
  • FP16: = 2
  • FP32: = 4

Bakeng sa mohlalaample, ho hakanya tlhoko ea memori e tlase ea GPU bakeng sa ho tsamaisa Llama 3.1 e nang le liparamente tse limilione tse likete tse 70 ho 16-bit quantization (FP16), re ka hokela boleng ka tsela e latelang:
M = 70 ∗ 2 ∗ 1.2 = 168 GB

Lenovo LLM Sizing Comprehensive Framework - Setšoantšo sa 1

Foromo ena e fana ka mokhoa o potlakileng le o bonolo oa ho hakanya tlhoko ea memori e tlase ea GPU bakeng sa ho nyenyefatsa, e lumella baqapi ba tharollo ho rala lits'ebetso tse fihlelang litlhoko tsa bareki ba bona.

Koetliso/ Koetliso
Ho lokisa kapa ho koetlisa Moetso oa Puo e Kholo (LLM) ho hloka lisebelisoa tse ngata tsa khomphutha ho feta ho etsa lipatlisiso. Tlhokahalo e tlase ea memori ea GPU bakeng sa tokiso e ntle / koetliso e ka hakanngoa ka mokhoa o latelang:
Kakaretso = (Z + 12 + Z) li-byte/parameter = P (2Z+12) GB memori e hlokahalang
Moo:

  • P = Mohlala (parameter) boholo ka libilione
  • Z = Quantization factor in Bytes (1 Byte = 8 bits)

Leha ho le joalo, foromo ena e fana ka khakanyo e feteletseng, kaha e nka hore liparamente tse felletseng tsa mohlala, optimizer states, le gradients li bolokiloe mohopolong. Ka ts'ebetsong, mekhoa e kang Boemo ba maemo a tlase (LoRA) le Quantized LoRA (QLORA) e ka fokotsa haholo litlhoko tsa memori.
Ho u fa mohopolo o betere, mona ke litlhoko tse hakanyetsoang tsa memori ea GPU bakeng sa ho lokisa li-LLM ka mekhoa e fapaneng le ho nepahala:

Lethathamo la 1. Papiso ea litlhoko tsa VRAM bakeng sa boholo bo fapaneng ba mohlala le mekhoa ea ho lokisa hantle

Mokhoa Nepahalo 7B 13B 30B 70B 110B
E tletse 16 67GB 125GB 288GB 672GB 1056GB
LoRA 16 15GB 28GB 63GB 146GB 229GB
QLoRA 8 9GB 17GB 38GB 88GB 138GB
QLoRA 4 5GB 9GB 20GB 46GB 72GB

Joalo ka ha u bona, ho sebelisa LoRA kapa QLoRA ho ka fokotsa litlhoko tsa mohopolo ka 75-90% ha ho bapisoa le mokhoa o felletseng oa tokiso. Lebaka ke hobane mekhoa ena e boloka feela li-parameter tse ikamahanyang le maemo eseng mofuta oohle, e leng se bakang poloko e kholo ea memori.
Ha ho etsoa litsamaiso tsa li-LLM tsa ho lokisa hantle / koetliso, ho bohlokoa ho nahana ka mokhoa o ikhethileng le ho nepahala ho sebelisitsoeng, hammoho le boholo ba mohlala, ho netefatsa hore sistimi e kopana le lisebelisoa tse hlokahalang tsa computational. Ka ho sebelisa mekhoa e kang LoRA kapa QLoRA, litsebi tsa meralo ea tharollo li ka qapa mekhoa e sebetsang hantle le e theko e tlaase e finyellang litlhoko tsa bareki ba bona.

Ho bokella litlhoko

Ho fumana ka nepo tlhophiso ea sistimi e hlokahalang bakeng sa thomello ea Mohlala oa Puo e Khōlō (LLM), ke habohlokoa ho bokella litlhoko tse khethehileng ho tsoa ho moreki. Litlhoko tsena li tla thusa ho lekanya ts'ebetso ea ts'ebetso le ho netefatsa hore sistimi e fihlela lipheo tse lakatsehang.

Lenovo LLM Sizing Comprehensive Framework - Setšoantšo sa 2

Lintlha tse hlano tse latelang li lokela ho bokelloa pele ho hakanngoa ts'ebetso ea ts'ebetso:
1. Khetho ea Mohlala:
Hlalosa mofuta oa LLM o reretsoeng ho sebelisoa morerong ona. Boholo ba mohlala bo ama haholo ts'ebetso ea maikutlo, 'me mefuta e meholo e tsamaea butle ebile e turu ho feta. Hlokomela hore mefuta e menyenyane e ka ba le boleng bo botle bakeng sa mesebetsi e itseng ha e ntse e fokotsa litšenyehelo. Ka hona, ho kgothaletswa ho hlahloba mehlala e menyenyane hape. Ho utloisisa litšoaneleho tsa mohlala o khethiloeng ho tla thusa ho lekanya lisebelisoa tsa computational tse hlokahalang.
Ha ho bokelloa litlhoko tsa nyeoe ea ts'ebeliso ea LLM, ho bohlokoa ho nahana ka bolelele ba tokene ea ho kenya, e leng e 'ngoe ea lintlha tse khethollang ts'ebetso ea mohlala. Fesetere ea litaba, e hlalosoang e le kakaretso ea li-tokens tsa ho kenya le ho tsoa, ​​​​e bapala karolo e kholo ts'ebetsong ena. Mefuta e mecha, joalo ka Llama 3.1, e ts'ehetsa lifensetere tse kholo ho fihla ho li-tokens tse 128,000.

2. Li-Tokens tsa ho Kena:
Etsa qeto ea karolelano ea palo ea li-tokens ka potlako ho LLM, ho kenyelletsa:

  • Molaetsa oa tsamaiso
  • Moelelo
  • Molaetsa oa mosebelisi

Bakeng sa mehlala ea puo ea Senyesemane, lets'oao le le leng ke hoo e ka bang 0.75 ea lentsoe. Ho kenyeletsoa litaelo tsa tsamaiso le moelelo oa palo ea li-tokens ho netefatsa hore tatellano eohle ea ho kenya e nahanoa ha ho hakanngoa ts'ebetso.
Ho bala ka nepo palo ea tokeno ea ho kenya, kenyelletsa lintlha tsohle tse kenyang letsoho ho eona, joalo ka litlhahiso tsa sistimi (litaelo tsa moetlo), litokomane tse nkiloeng (ho Retrieval Augmented Generation pipelines), le nalane ea moqoqo (lipuisano tse fetileng). E 'ngoe le e' ngoe ea likarolo tsena e baloa ho ea ho tekanyetso e kholo ea li-tokens tse ka fetisetsoang ho mohlala.
Bolelele bo boholo ba ho kenya letsoho bo ka ama ts'ebetso ea maikutlo, ha mantsoe a fetoloa hore e be tse kentsoeng 'me cache ea KV e hola ka makhetlo a mane. Likopo tse joalo ka liphaephe tsa RAG li ka hloka bolelele bo boholo ba ho kenya, e leng se bakang ho eketseha ha latency ea pele ka lebaka la palo e kholo ea data e ntseng e sebetsoa.
Re tla batlisisa ka botebo ho li-tokens le phello ea tsona ho latency hamorao pampiring ena, ho hlahloba hore na li ama ts'ebetso ea LLM joang le hore na ho hlokahala lintlha life bakeng sa ts'ebetso e nepahetseng ea mohlala.

3. Lits'oants'o tse hlahisoang:
Theha palo e tloaelehileng ea li-tokens ho tlhahiso ea LLM. Sena sea hlokahala hobane ho hlahisa li-tokens tse ngata ho hloka lisebelisoa tse ngata tsa computational le nako. Ho utloisisa boholo bo lebelletsoeng ba tlhahiso ho tla thusa ho rala sistimi e ka sebetsanang le ts'ebetso e hlokahalang ntle le ho sekisetsa ho latency kapa boleng.

4. Karolelano ea Likopo ka Motsotsoana (RPS):
Ho netefatsa ts'ebetso e nepahetseng le tšebeliso e nepahetseng ea lisebelisoa, fumana palo ea likopo tseo sistimi e lokelang ho li etsa motsotsoana. Ha u etsa boholo ba lisebelisoa tse sebelisoang ka har'a meaho, ho bohlokoa ho theha lipalo ho latela ts'ebeliso e phahameng, ho fapana le tšebeliso e tloaelehileng.
Ho ikarabella bakeng sa ho feto-fetoha ha mekhoa ea kopo, re sebelisa 95th percentile ea Poisson PPF (point probability function) ea RPS e tloaelehileng (likopo ka motsotsoana). Mokhoa ona e thusa ho tseba boholo ba mojaro o lebelletsoeng, e re lumellang ho rala sistimi e ka sebetsanang le litlhoko tsa tlhoro ntle le ho sebelisoa hanyenyane nakong eo e seng ea tlhoro.
Ts'ebetso e kenyelletsa ho fumana sekhahla sa kopo e tloaelehileng ho tsoa ho moreki le ho bala sekhahla sa kopo ea tlhoro ho sebelisa 95th percentile ea kabo ea Poisson. Mokhoa ona o fana ka boemeli bo nepahetseng haholoanyane ba litlhoko tsa tsamaiso, kaha o nahana ka ho fetoha ha tlhaho ha mekhoa ea kopo. Ke habohlokoa haholo ho hlokomela hore haeba tsamaiso e sa sebetse ka mokhoa o phahameng, litšenyehelo tse sebetsang ka tokeneng li ka eketseha haholo.

5. Litlhoko tsa Latency:
Utloisisa lipheo le meeli ea morao-rao ea moreki, ho kenyelletsa:

  1. Pele-token latency: Nako e nkang hore mohlala o hlahise letšoao la pele la karabo.
  2. Latency ea ho qetela: Nako eohle e nkang hore mohlala o hlahise karabo eohle.

Latency ke ntlha ea bohlokoa lits'ebetsong tse ngata, kaha latency e phahameng e ka ama boiphihlelo ba mosebelisi hampe. Ho thibela ho fokotseha ha pele-token latency (TTFT) ho ne ho tla hamper throughput, ho bolelang hore bokhoni ba sistimi ea ho sebetsana le likopo tse ngata ka nako e le 'ngoe bo tla senyeha.
Ka hona, ho bohlokoa ho beha tekatekano lipakeng tsa latency le throughput ho latela litlhoko tse ikhethileng tsa moreki.
Litlhoko tsena li bohlokoa bakeng sa ho lekanya ts'ebetso ea ts'ebetso, ho etsa boholo ba sistimi, le ho netefatsa hore e fihlela litebello tsa moreki. Ka ho bokella lintlha tsena, u tla khona ho utloisisa litlhoko tsa moreki betere le ho rala tlhophiso e nepahetseng ea sistimi e lekanyang ts'ebetso, litšenyehelo le boleng. Likarolong tse latelang, re tla shebisisa tse ling tsa litlhoko tsena le ho hlahloba hore na li ama phepelo ea LLM joang.

Tekheniki ea Dive: Ho utloisisa LLMs

Karolong ena, re tla hlahloba ts'ebetso e rarahaneng ea Mehlala ea Puo e Kholo (LLMs) ka ho kenella ka har'a likarolo tsa eona tsa tekheniki. Re tla batlisisa stagea LLM, utloisisa metrics ea bohlokoa, 'me u shebe mekhoa e potlakisang ho fokotsa.

Tse peli StagLintlha tsa Phethahatso ea LLM: Prefill vs Decoding
Mehlala e Meholo ea Lipuo (LLMs) ke litsamaiso tse rarahaneng tse kenyelletsang stagea ho sebetsa ho hlahisa likarabo tsa mongolo tse kang tsa motho. Ho utloisisa stage thusa ho ntlafatsa ts'ebetso, ho fokotsa latency, le ho ntlafatsa boiphihlelo ba mosebelisi ka kakaretso. Karolong ena, re tla tšohla taba tse peli tse ka sehloohong stagts'ebetso ea LLM: Tlatsa esale pele le ho Decoding.

Tlatsa pele Stage
Tlatsa Pele stage bolela nako eo LLM e e nkang ho sebetsa molaetsa oa mosebelisi le ho hlahisa tokene ea pele ea tlhahiso, e batlang e lekana le lentsoe. Sena stage kenyelletsa mehato e latelang:

  1. Ho kenya molaetsa oa mosebelisi: Maikutlo a mosebelisi a amoheloa 'me a kengoa tsamaisong.
  2. Populating KV-cache: Nakong ena stage, LLM e tlatsa cache ea Key-Value (KV) ka tlhahisoleseding e tsoang ho li-tokens tsa ho kenya. Cache ena e sebelisoa ho boloka le ho fumana lintlha tse amanang le maemo a itseng.
  3. Kopa kamohelo ho tokeneng ea pele : Nako eo e e nkang hore LLM e sebetse hang-hang le ho hlahisa tokene ea pele ea tlhahiso.

Tlatsa Pele stage haholo-holo e itšetlehile ka compute, ho bolelang hore ts'ebetso ea eona e itšetlehile haholo ka lisebelisoa tsa computational tse teng. Nako e nkang ho phethela stage itšetlehile feela ka palo ea li-tokens tsa ho kenya, ho etsa hore e be mokhoa o sa lebelloang le o tsitsitseng.

Ho hlalosa Stage
The Decoding stage, e tsejoang hape e le moloko kapa katoloso, ke moo LLM e hlahisang li-tokens tsa karabelo ka bonngoe, e aha holim'a tokene ea tlhahiso ea pele e hlahisoang nakong ea Prefill s.tage. Sena stage kenyeletsa:

  1. Inter-token latency: Nako eo e e nkang ho hlahisa tokeneng e 'ngoe le e' ngoe e latelang ka mor'a ea pele.
  2. Moloko oa token-by-token: LLM e hlahisa li-tokens tsa karabo lentsoe ka lentsoe, ho sebelisa moelelo le tlhahisoleseding e bokelletsoeng nakong ea Prefill s.tage.
  3. Ho itšetleha ka li-tokens tsa ho kenya le ho tsoa : Inter-token latency e itšetlehile ka palo ea li-tokens tsa ho kenya le palo ea li-tokens tse hlahisoang.

Ho fapana le Prefill stage, Decoding hangata e tlameletsoe mohopolong, ho bolelang hore ts'ebetso ea eona e susumetsoa haholo ke boteng ba lisebelisoa tsa mohopolo. Ha LLM e hlahisa li-tokens tse ngata, e hloka mohopolo o mongata ho boloka le ho laola maemo a ntseng a hōla, a ka lebisang ho latency e eketsehileng.

LLM Litekanyo Metrics

Ha ho hlahlojoa ts'ebetso ea Meetso e Kholo ea Lipuo (LLMs), ho sebelisoa metrics e 'maloa ea bohlokoa ho lekanya lebelo la inference. Tsena li kenyelletsa:

  • Nako ea ho ea ho Letšoao la Pele (TTFT): Nako eo e e nkang ho sebetsana le ho kenya letsoho le ho hlahisa letšoao la pele.
  • Inter-token Latency (ITL): Nako eo e e nkang ho hlahisa tokeneng e 'ngoe le e' ngoe e latelang ka mor'a ea pele, e tsejoang hape e le Time Per Output Token (TPOT).
  • End-to-End Latency (E2E) : Nako eohle e hlokahalang ho sebetsa ka potlako le ho hlahisa li-tokens tsohle, ho tloha ho ho kenya letsoho ho ea ho tlhahiso.

Metrics ena e fana ka leseli mabapi le ts'ebetso ea mohlala, e thusa ho tseba mathata le ho ntlafatsa lebelo la ho nahana.

Ho bokellana ha inflight
Inflight batching (IFB) ke mokhoa o ikhethileng o sebelisoang nakong ea tlhahiso ea Large Language Model (LLM) ho leka-lekana lipakeng tsa memori ea GPU le ts'ebeliso ea komporo, qetellong e fokotsa latency. Mokhoa ona o sebetsa ka ho khetheha ho inference auto-regressive, moo LLM e hlahisang li-tokens ka tatellano, ho itšetlehile ka li-tokens tse entsoeng pele ho hlahisa tse latelang.
IFB e lumella tatelano ho tse fapaneng stages (ho tlatsoa pele le ho khetha) ho sebetsoa ka har'a beche e le 'ngoe ntle le ho emela hore likopo tsohle li phetheloe pele o hlahisa tse ncha. Mokhoa ona o fana ka melemo e mengata ea bohlokoa:

  • Constant Batch size: IFB e thusa boholo ba batch e batlang e sa fetohe bakeng sa moloko o mong le o mong oa tokens, e lebisang ts'ebelisong e phahameng ea GPU.
  • Ho Qala ka Potlako: Likōpo tse ncha li ka qala ho etsoa ka potlako ha li-slots li fumaneha, kaha mohlophisi o emela moloko o latelang oa tokens ho e-na le ho phethoa ha likopo tsa hona joale.

TensorRT-LLM e kenyelletsa tloaelo ea Inflight Batching ho ntlafatsa ts'ebeliso ea GPU nakong ea ts'ebeletso ea LLM. Sebopeho sena:

  • E fetola likopo tse phethiloeng sehlopheng.
  • E leleka likopo ka mor'a letšoao la End-of-Sequence (EoS) ebe e kenya likopo tse ncha.
  • E ntlafatsa tlhahiso, nako ea tokeneng ea pele, le ts'ebeliso ea GPU ka kakaretso.

Ho feta moo, IFB e kenyelelitsoe ka mokhoa o hlakileng ho TensorRT-LLM Triton backend mme e ka laoloa ka TensorRT-LLM Batch Manager. Ha e kopantsoe le mekhoa e meng e joalo ka ho leka-lekanya ts'ebetso e tlamang mohopolo le khomphutha, ho etsa li-chunked decoding, decoding e inahaneloang, le sparsity, IFB e ntlafatsa phallo ea LLM, e e etsa sesebelisoa sa bohlokoa bakeng sa tlhahiso e sebetsang ea LLM.

Lenovo LLM Sizing Comprehensive Framework - Setšoantšo sa 3

Tensor Parallelism
Tensor Parallelism (TP) ke mokhoa o sebelisoang molemong oa Large Language Model (LLM) ho tsamaisa mojaro oa computational ho li-GPU tse ngata. Mokhoa ona o kenyelletsa ho arola mofuta o le mong ho li-GPU tse 'maloa, tse itšetlehileng haholo ka phapanyetsano e sebetsang ea data lipakeng tsa li-GPU tsena. TP e molemo haholo bakeng sa mefuta e meholo moo litlhoko tsa memori li fetang matla a GPU e le 'ngoe.

Litšobotsi tsa Bohlokoa tsa Tensor Parallelism:

  • Latency e Tlaase empa e Tlase: Le hoja TP e ka fokotsa latency ka ho bapisa lipalo, e ka boela ea lebisa ho fokotsa kakaretso ea kakaretso ka lebaka la holimo ho amanang le puisano ea inter-GPU.
  • Tlhokahalo bakeng sa Mehlala e Khōlō: Bakeng sa mefuta e meholoanyane joalo ka LLaMa-70B, ho hlokahala hore ho be le papiso ea tensor ea bonyane 2 (TP>= 2). Sena se tiisa hore mohlala o ka aroloa ka ho lekaneng ho li-GPU tse ngata hore o lekane mohopolo o teng le lisebelisoa tsa computational.
  • Keletso bakeng sa Li-server tse nolofalitsoeng ke NVLink: Ha TP e feta 2, NVIDIA e khothaletsa ka matla ho sebelisa li-server tse lumelletsoeng ke NVLink bakeng sa tlhahiso-leseling. NVLink e fana ka khokahano e phahameng ea "bandwidth, lowlatency" e ntlafatsang haholo phetiso ea data lipakeng tsa li-GPU ha e bapisoa le likhokahano tsa setso tsa PCIe.

Ho utloisisa li-benchmarks

Li-benchmark li bohareng ba boholo le ho khetha tlhophiso e nepahetseng bakeng sa bareki, ha ba ntse ba lekola likhohlano lipakeng tsa metrics ea bohlokoa joalo ka phallo, latency, le sekhahla sa kopo. Ho utloisisa li-benchmarks tsena ho thusa ho tseba tlhophiso e nepahetseng bakeng sa tlhahiso ea puo e kholo (LLM), e lumellang liqeto tse nang le tsebo mabapi le litlhoko tsa hardware le software.

Throughput vs Latency
Boemong ba boikaketsi ba LLM, ho fihlella tekano lipakeng tsa phallo le latency ho bohlokoa. Ho fetisa ho bolela palo ea likopo tse ka sebetsoang ka nako ea yuniti, ha latency e le nako e nkuoang ho sebetsa kopo e le 'ngoe ho tloha qalong ho fihlela qetellong.

The Tradeoff:
Ho hlahisa meeli ea latency ho ka fokotsa tlhahiso e fumanehang. Ka lehlakoreng le leng, lithibelo tsa ho phomola ha latency li ka lebisa ho phallo e phahameng haholo. Ho utloisisa linyeoe tsa tšebeliso ea bareki ho fana ka likhakanyo tsa li-tokens tsa ho kenya, li-tokens tsa tlhahiso, le likopo tse tloaelehileng ka nako ea yuniti, e lumellang tlhahiso ea hardware e khethehileng e lumellanang le ts'ebetso e hlokahalang ha ho ntse ho boloka latency e hlokahalang.
Ho kopanya likopo tse ngata ho eketsa ts'ebetso ho ka hlahisa tieho, ho eketsa latency bakeng sa likopo tsa motho ka mong. Tlhahiso ea LLM e kenyelletsa mekhahlelo e 'meli - prefill (high latency, melemo ea ts'ebetso e ts'oanang) le decode (latency e tlase, tšebeliso e tlase ea komporo).

Liphello tse sebetsang:

  1. Phaello e Phahameng: E ​​loketse ho romelloa ka bongata bo boholo ka likopo tse ngata.
  2. Low Latency: E bohlokoa bakeng sa lits'ebetso tsa karabelo tsa nako ea nnete, joalo ka lipuisano tsa AI kapa sistimi e sebetsanang.

Lenovo LLM Sizing Comprehensive Framework - Setšoantšo sa 4

Ka ho utloisisa le ho laola tradeoff ea throughput-latency tradeoff, litsamaiso tsa maikutlo tsa LLM li ka ntlafatsoa ho fihlela litlhoko tse ikhethileng tsa kopo. Bakeng sa benchmarking e tloaelehileng, lisebelisoa tse kang GenAI-Perf ka NVIDIA e ka fana ka leseli la bohlokoa mabapi le ts'ebetso ea mohlala o itseng ho sistimi.

Ho ithuta mokhoa oa ho toloka li-graph tsa benchmark, sheba sehlooho se qetellong ea tokomane ena, Tlhahisoleseding e Eketsehileng - Ho bala li-graph bakeng sa boholo.

Ho utloisisa Boholo ba Batch, Concurrency, Rate ea Kopo, le Phello
E ka fumana pherekano e nyane ho sebetsana le li-jargons tsohle, ka hona, a re qhetsoeng mohopolo o mong le o mong ho hlakisa likamano tsa bona le bohlokoa ba tlhahlobo ea sistimi.

Boholo ba Batch
Max_batch_size parameter e na le likarolo tse peli: e 'ngoe nakong ea ho haha ​​​​enjene le e' ngoe ka nako ea ho sebetsa.

  1. Mohaho oa Enjene: Setlhophiso sena se tiisa hore sistimi e hlahisoang, e nang le bokhoni ba boholo bo itseng ba batch, e lumellana le mohopolo o teng. Ha e le hantle e mabapi le moralo oa bokhoni ho thibela mathata a mohopolo nakong ea ts'ebetso.
  2. Nako ea ho sebetsa: Setlhophiso sena se etsa qeto ea hore na ke likopo tse kae tse ka kopanngoang pele li sebetsoa. Nako ea ho sebetsa max_batch_size e tlameha ho ba ka tlase ho kapa ho lekana le nako ea ho haha ​​max_batch_size. Khokahano ea 'nete ea likopo maemong a nnete e susumetsoa ke paramente ena, e amang ts'ebetso le ts'ebetso ka kotloloho.

Boholo ba Batch le Concurrency

  • Concurrency (C) < Max Batch Size (MBS) : Ha palo ea likopo tsa nako e le 'ngoe e le ka tlase ho boholo ba batch ea boholo, hangata enjene e sebetsana le lihlopha tse nang le boholo bo lekanang le boemo ba lichelete. Sena se bolela hore ho na le libaka tsa mahala tse fumanehang sehlopheng se seng le se seng, kaha ha se libaka tsohle tse ka bang teng ka har'a batch tse tlatsitsoeng.
  • Concurrency (C) >= Max Batch Size (MBS) : Haeba concurrency e lekana kapa e feta boholo ba batch ea boholo, joale lihlopha li atisa ho tlala, li sebetsa ka matla a mangata. Letoto la likopo tse ncha le tla qala ho hola, ka karolelano ea boholo ba C - MBS, ha likopo tse kenang li emetse hore lihlopha tse fetileng li qete.

Concurrency le Reite ea Kopo joalo ka Sephetho sa Metric
Ho lekanya ts'ebetso ea sistimi ka botlalo, nahana ka:

  • Kakaretso: Palo ea likopo tseo sistimi e ka li sebetsang ka nako ea yuniti.
  • End-to-end Latency: Nako eohle e nkuoeng hore kopo e ka sebetsoa ho tloha qalong ho isa qetellong.
  • Concurrency: Palo ea likopo tse ka sebetsoang ka nako e le 'ngoe.

Sistimi e nang le tumellano e phahameng le latency e phahameng e ka fihlela ts'ebetso e ts'oanang le e nang le concurrency e tlase empa latency e tlase. Leha ho le joalo, ea morao-rao e sebetsa hantle haholo hobane e arabela ka potlako ho likōpo tsa motho ka mong.
Ka hona, ho sebelisa "likopo ka motsotso" (kapa metric e ts'oanang ea nako) e le mokhoa oa mantlha oa ho lekanya litsamaiso le ho buisana ka ts'ebetso le ba amehang ho fana ka tekano. view ea matla a tsamaiso. E thusa molemong oa litlhoko tsa tumellano le latency, e fana ka setšoantšo se hlakileng sa seo sistimi e ka se sebetsanang hantle.

Concurrency le Sekhahla sa Kopo joalo ka Paramethara ea ho Kena
Bakeng sa litekanyo tse nepahetseng tsa lebelo (phello), ho bohlokoa ho boloka boholo ba betch ea enjene ho tloha potolohong e 'ngoe ho ea ho e' ngoe.

  • Ho sebelisa Concurrency joalo ka Kenyelletso: Mokhoa ona o tiisa hore boholo ba batch bo lula bo tsitsitse, bo fana ka litekanyo tse tšepahalang.
  • Ho Beha Sekhahla sa Kopo e le Parameter ea Input : Sena se ka ba bothata hobane haeba tekanyo ea kopo e feta tekanyo ea tsamaiso, mokoloko o tla tsoela pele ho hōla, ho eketsa latency. Ka lehlakoreng le leng, ho beha sekhahla sa kopo ka tlase ho ts'ebetso ea sistimi ho bolela hore ha se libaka tsohle tse fumanehang, tse lebisang ho se sebetseng hantle.

Likhothaletso

  1. Sebelisa Concurrency le Boholo ba Letšoao joalo ka Metrics ea Kenyelletso : Sena se lumella liteko tse laoloang tse ka hatellang sistimi ho isa meeling ea eona kapa ho lekanya karabelo ea eona tlasa meroalo e bobebe.
  2. Sebelisa Recate Rate e le Result Metric : E fana ka temohisiso ea hore na ke likopo tse kae tseo sistimi e ka li etsang ka nako e behiloeng, e bonts'a bokhoni ba eona le bokhoni ba eona.

Ka ho laola liparamente tsena le ho tsepamisa maikutlo ho metrics e nepahetseng, likhoebo li ka rala litsamaiso tse sebetsang hantle tse leka-lekaneng ka katleho, latency le tšebeliso ea lisebelisoa.

Kakaretso ea Litšenyehelo tsa ho ba Beng: Cloud vs On-prem

Ho sebelisa mokhoa o moholo oa puo (LLM) ho ba bohlokoa bakeng sa likhoebo tsa sejoale-joale. Ho na le likhetho tse peli tsa mantlha: tse thehiloeng marung le tse thehiloeng holima. Re tla hlahloba melemo le meeli ea khetho e 'ngoe le e' ngoe ho u thusa ho etsa qeto e nang le tsebo.

Tšebeliso e thehiloeng ho Cloud
Tšebeliso e thehiloeng marung e fana ka mohlala oa "pay-as-you-go", moo o lefang feela lisebelisoa tse sebelisoang.
Leha ho le joalo, ho na le mefokolo e meng e lokelang ho nahanoa:

  • Tšireletso ea Boitsebiso: Ntle le haeba ho rekoa laesense ea boemo ba khoebo, datha ea hau e ka sebelisoa ho koetlisa mefuta ea kamoso, e ka lebisang ho dutlang ha data.
  • Ho se tsitse ha Theko: Litheko li ka fetoha, 'me u na le taolo e fokolang holim'a mohlala, e ka' nang ea se ke ea tšehetsa tokiso e ntle kapa ho e etsa.
  • Taolo e Lekanyelitsoeng: U na le taolo e lekanyelitsoeng holim'a latency le ts'ebetso ea litlhahiso.

Litsenyehelo tsa ho romelloa ho thehiloeng marung hangata li baloa ho latela li-tokens tse kenang le tse hlahisoang, ka theko e tsitsitseng ka tokeneng. Bakeng sa mohlalaample, li-tokens tsa ho kenya tse milione li ka bitsa $ 15, ha li-tokens tse limilione li bitsa $ 60.
Ho hakanya litšenyehelo, u ka sebelisa calculator e nahanang ka palo ea li-tokens tsa ho kenya le ho tsoa.

Phatlalatso ka Sebakeng
Ho romelloa sebakeng sa marang-rang ho hloka matsete a mangata a pele empa ho fana ka melemo e mengata:

  • Taolo e Feletseng: U na le taolo e felletseng holim'a sistimi, e lumellang liphetoho ha ho hlokahala.
  • E na le Litšenyehelo: Ka tšebeliso e tsitsitseng e haufi le bokhoni, ho romelloa sebakeng sa marang-rang ho ka ba le litšenyehelo tse ngata ha nako e ntse e ea.
  • Tšireletso: Lintlha tsa hau li sireletsehile, 'me u na le taolo e feletseng holim'a tsamaiso.

Litšenyehelo tse amanang le ho romelloa sebakeng sa marang-rang li kenyelletsa:

  1. Theko ea Seva ea GPU: Theko ea ho reka seva ea GPU, e fapaneng ho latela lisebelisoa le mofuta oa sistimi.
  2. Litšenyehelo tsa Datacenter: Litšenyehelo tse amanang le motlakase, sebaka sa ho hira, basebetsi le litšenyehelo tse ling.
  3. Litefiso tsa License: Tefiso ea selemo le selemo ea laesense bakeng sa litšebeletso life kapa life tse ling, mohlala, NVAIE

Ho fumana litjeo ka litlatsetso tsa 1M (mehala):

Lenovo LLM Sizing Comprehensive Framework - Letšoao la 1

moo

  • Z = Litšenyehelo ka 1M hang-hang
  • C = Kakaretso ea Litšenyehelo tsa Prem ka karolelano ea selemo
  • X = Lits'oants'o ka motsotsoana (ketso) ho sistimi

Papiso ea Cloud le On-Premise Deployment
Ho etsa papiso e nepahetseng lipakeng tsa cloud le deployment on-premise, re nka hore:

  1. Mefuta e sebelisoang liforomong ka bobeli e lekana ka boleng.
  2. The latency le throughput finyelloang platforms ka bobeli li tšoana.

Re ka bapisa litšenyehelo tsa on-prem ho latela 1M le litšenyehelo tsa marang-rang ka 1M e le 'ngoe ho fumana papiso e nepahetseng. Re ka ba ra tseba ka tokene e 'ngoe le e 'ngoe ea ho kenya le litšenyehelo tsa tokenyo bakeng sa on-prem.

Kakaretso ea litšenyehelo
Qetellong, likhetho tse peli tse thehiloeng marung le tse fumanehang sebakeng sa marang-rang li na le melemo le mefokolo ea tsona.
Tšebeliso e thehiloeng marung e fana ka tharollo e feto-fetohang le e tsitsitseng empa e ka senya ts'ireletso le taolo ea data. Ho romelloa sebakeng sa marang-rang ho fana ka taolo e felletseng le ts'ireletso empa ho hloka matsete a pele.
Ka nako e telele, ho na le sebaka sa khefu se fihletsoeng moo ho tsamaisoa ha marang-rang ho etsa hore ho be le kutloisiso ea lichelete ho feta maemo a marang-rang.

Keletso
Ha u etsa qeto pakeng tsa ho romelloa ka har'a cloud-based le on-premise, nahana ka tse latelang:

  • Ts'ireletso ea data: Haeba e le eona ntho e tlang pele bophelong ba hau, ho romelloa sebakeng sa marang-rang ho molemo.
  • Scalability: Haeba o hloka ho hola kapele, phepelo e thehiloeng marung e ka ba e loketseng haholoanyane.
  • Budget: Haeba tekanyetso e le taba e tšoenyang, ho romelloa sebakeng sa marang-rang ho ka ba le chelete e ngata ha nako e ntse e ea.

Qetellong, qeto e itšetlehile ka litlhoko tsa hau tse khethehileng le lintho tse tlang pele.

Qetello
Qetellong, ho lekanya ka nepo ts'ebetso le litlhoko tsa khomphutha ho bohlokoa ha ho etsoa litsamaiso tsa phepelo ea Moetso o Moholo oa Lipuo (LLM). Ho finyella sena, bokella litlhoko tse khethehileng ho tsoa ho bareki, ho kenyelletsa khetho ea mohlala, bolelele ba token token, quantization, le litlhoko tsa latency. Litlhahiso le litataiso tse fanoeng, tse kang "Rule of Thumb" bakeng sa ho lekanya litlhoko tsa memori ea GPU, li sebetsa e le lisebelisoa tsa bohlokoa bakeng sa litsebi tsa meralo ea meralo ho hlahloba ka potlako le ho rala lisebelisoa tse khonang ho finyella litlhoko tsa bareki.
Ka ho nahana ka lintlha tsa bohlokoa joalo ka boholo ba mohlala, ho nepahala, le palo, o ka ntlafatsa litlhophiso tsa sistimi ho leka-lekanya ts'ebetso le litšenyehelo. Ntle le moo, mekhoa e joalo ka Low-Rank Adaptation (LoRA) le Quantized LoRA (QLoRA) e ka fokotsa haholo litlhoko tsa mohopolo nakong ea tokiso e ntle le koetliso, e nolofalletsang tharollo e sebetsang hantle le e theko e tlase.
Bukana ena ea LLM Inference Sizing Guide e fana ka matla ka tsebo le boitseanape bo hlokahalang ho tsamaisa tikoloho e rarahaneng ea LLMs, ho fana ka thomello e atlehileng, le ho fana ka litharollo tse hlophisitsoeng tse fihlelang litlhoko tse ikhethang tsa bareki ba tsona. Ka ho latela litataiso tsena le mekhoa e metle, o ka netefatsa ts'ebetso e nepahetseng, oa fokotsa litšenyehelo, le ho tsamaisa katleho ea khoebo lefapheng le ntseng le tsoela pele ka potlako la ts'ebetso ea puo ea tlhaho.

Tlhahisoleseding e Eketsehileng - Ho bala kerafo bakeng sa boholo

Kerafo e thehiloeng ho data ea benchmark ho tsoa ho li-NIM tsa NVIDIA e shebahala tjena:

Lenovo LLM Sizing Comprehensive Framework - Setšoantšo sa 5

Setšoantšo sa 5: SampLe throughput vs First Token Latency graph ea Llama 3 8B model e nang le 2000 input le 2000 out tokens
Li-graph tse sebetsanang li u lumella ho khetha mefuta, lisebelisoa, motsoako oa li-token + output, metric ea X-axis le sephetho sa Y-axis. Bakeng sa X-axis re ka ba le liparamente tsa ho kenya joalo ka TTFT, TTLT, kapa ITL bakeng sa li-tokens. Bakeng sa Y-axis re na le liparamente tse hlahisoang joalo ka likhothaletso ka motsotsoana ka sistimi kapa out_tokens ka motsotsoana ka sistimi kapa ketsahalong ea GPU.
Mohlankanaample size:
Moreki o batla 2000 in, 2000 out token le llama3 8B model mme o batla TTFT under 1 sec. Ha re sebelisa litšitiso re fumana ntlha ho kerafo e ka letsohong le letšehali la 1 sec TTFT (FTL), e ka shebahala tjena:

Lenovo LLM Sizing Comprehensive Framework - Setšoantšo sa 6

Sena se u joetsa hore sistimi e le 'ngoe ea 8xH100 e ka khona ho sebetsana le basebelisi ba ka bang 400 ka nako e le ngoe (tlhoro) ha e sebelisa TRT-LLM. Leha ho le joalo, rea bona hore sena se na le latency eohle ho feta metsotsoana e 38. Haeba re batla latency e tlase (a re re ka tlase ho metsotsoana e 20), re tla tlameha ho tela tlhahiso, ho fetola X-axis joalo ka kakaretso latency (TTLT), re na le:

Lenovo LLM Sizing Comprehensive Framework - Setšoantšo sa 7

Mona re na le ntlha le basebelisi ba 100 ba nang le 358ms TTFT le tlas'a 20s TTLT. Joalo ka ha re bona, ho beha lithibelo tsa latency ho ama haholo ts'ebetso le max concurrency.
Ho tsamaisa li-benchmark ho sistimi ea hau, sheba NVIDIA's NIM ea LLM Benchmarking Guide ho sebelisa GenAIPerf ho fumana metrics ea LLM.

Bangodi
Sachin Gopal Wani ke AI Data Scientist Lenovo, ea sebetsang ka likopo tsa ho qetela tsa Machine Learning (ML) bakeng sa bareki ba fapa-fapaneng, le ho ntlafatsa moralo oa NewTalk AI. O fumane lengolo Univesithing ea Rutgers e le mohapi oa khauta ea ipabolang ka ho Ithuta ka Mechini, 'me o fumane Scholarship ea JN Tata.
David Ellison ke Setsebi se ka Sehloohong sa Boitsebiso bakeng sa Lenovo ISG. Ka Lenovo's US le European AI Discover Centers, o etella pele sehlopha se sebelisang mekhoa ea morao-rao ea AI ho fana ka litharollo bakeng sa bareki ba kantle ha ka hare a ts'ehetsa leano la AI la World Wide Infrastructure Solutions Group. Pele a kenella Lenovo, o ile a tsamaisa khamphani ea machaba ea tlhahlobo ea mahlale le lisebelisoa mme a sebetsa e le Setsebi sa Boitsebiso bakeng sa Ts'ebeletso ea Poso ea US. Pele ho moo, o fumane PhD ea Biomedical Engineering ho tsoa Univesithing ea Johns Hopkins. O na le likhatiso tse ngata likoranteng tsa maemo a holimo ho kenyelletsa tse peli ho Proceedings of the National Academy of the Sciences.

Malapa a lihlahisoa tse amanang

Malapa a lihlahisoa a amanang le tokomane ena ke a latelang:

Litsebiso
Lenovo e kanna ea se fane ka lihlahisoa, lits'ebeletso kapa likarolo tse boletsoeng tokomaneng ena linaheng tsohle. Ikopanye le moemeli oa lehae oa Lenovo bakeng sa tlhaiso-leseling ka lihlahisoa le litšebeletso tse fumanehang sebakeng sa heno hajoale. Tšupiso efe kapa efe e mabapi le sehlahisoa, lenaneo kapa tšebeletso ea Lenovo ha e reretsoe ho bolela kapa ho fana ka maikutlo a hore ho ka sebelisoa sehlahisoa, lenaneo kapa tšebeletso ea Lenovo feela. Sehlahiswa, lenaneo kapa tshebeletso efe kapa efe e tshwanang le tshebetso e sa hatakeneng tokelo efe kapa efe ya thepa ya mahlale ya Lenovo e ka sebediswa. Leha ho le joalo, ke boikarabello ba mosebedisi ho lekola le ho netefatsa ts'ebetso ea sehlahisoa, lenaneo kapa tšebeletso efe kapa efe. Lenovo e kanna ea ba le litokelo tsa molao kapa likopo tse ntseng li emetse tsa patent tse buang ka taba e hlalositsoeng tokomaneng ena. Ho fana ka tokomane ena ha ho u fe laesense efe kapa efe ea litokelo tsa molao tsena. O ka romella lipotso tsa laesense, ka lengolo, ho:

Lenovo (United States), Inc.
Nts'etsopele ea 8001
Morrisville, NC 27560
usa
Tlhokomeliso: Motsamaisi oa Lilaesense oa Lenovo

LENOVO E FANA KA PHATLALATSO ENA "JAKA HO LE TENG" NTLE HO TIISETSO EA MOFUTA OFE KAPA EFE, E KA BONAHALA KAPA E BONANG, HO kenyeletsoa, ​​​​EMPA HO SA LEKANETSOE, LITIISETSO TSA HO SE TLOE TLOKO, HO HLOKAHALA KAPA HO LOKELA MOSEBETSI OA LEBONE. Likarolo tse ling ha li lumelle boits'oaro ba liwaranti tse hlakileng kapa tse boletsoeng litšebelisanong tse itseng, ka hona, polelo ena e kanna ea se sebetse ho uena.
Lintlha tsena li ka kenyelletsa liphoso tsa tekheniki kapa liphoso tsa mongolo. Liphetoho li etsoa nako le nako ho boitsebiso bo mona; liphetoho tsena li tla kenyeletsoa likhatisong tse ncha tsa khatiso. Lenovo e ka etsa lintlafatso le/kapa liphetoho ho(li)hlahisoa le/kapa mananeo a hlalositsoeng khatisong ena ka nako efe kapa efe ntle le tsebiso.

Lihlahisoa tse hlalositsoeng tokomaneng ena ha lia rereloa ho sebelisoa ho kenngoeng kapa lits'ebetsong tse ling tsa ts'ehetso ea bophelo moo ho se sebetse hantle ho ka bakang kotsi kapa lefu ho batho. Tlhahisoleseding e hlahang tokomaneng ena ha e ame kapa e fetola litlhaloso kapa litiisetso tsa sehlahisoa sa Lenovo. Ha ho letho tokomaneng ena e tla sebetsa joalo ka laesense e hlakileng kapa e boletsoeng kapa tefello tlasa litokelo tsa thepa ea mahlale tsa Lenovo kapa batho ba boraro. Lintlha tsohle tse teng tokomaneng ena li fumanoe libakeng tse itseng 'me li hlahisoa e le papiso. Sephetho se fumanoeng libakeng tse ling tsa ts'ebetso se ka fapana. Lenovo e kanna ea sebelisa kapa ea aba tlhahisoleseling efe kapa efe eo o fanang ka eona ka tsela efe kapa efe eo e lumelang hore e nepahetse ntle le ho kenya tlamo ho uena.
Litemana life kapa life tse phatlalalitsoeng phatlalatsong ena ho bao e seng Lenovo Web Liwebsaete li fanoe molemong oa boiketlo feela 'me ha li fane ka mokhoa ofe kapa ofe e le tumello ea tsona Web libaka. Thepa ho tseo Web libaka ha se karolo ea lisebelisoa tsa sehlahisoa sena sa Lenovo, le ts'ebeliso ea tsona Web libaka li kotsing ea hau. Lintlha leha e le life tsa ts'ebetso tse teng mona li khethiloe sebakeng se laoloang. Ka hona, sephetho se fumanoeng libakeng tse ling tsa ts'ebetso se ka fapana haholo. Litekanyo tse ling li ka 'na tsa etsoa ho litsamaiso tsa boemo ba ntlafatso 'me ha ho na tiiso ea hore litekanyo tsena li tla tšoana le litsamaiso tse fumanehang ka kakaretso. Ho feta moo, litekanyo tse ling li ka 'na tsa hakanngoa ka extrapolation. Liphetho tsa 'nete li ka fapana. Basebelisi ba tokomane ena ba lokela ho netefatsa lintlha tse sebetsang bakeng sa tikoloho ea bona e ikhethileng.

© Copyright Lenovo 2025. Litokelo tsohle li sirelelitsoe.

Tokomane ena, LP2130, e thehiloe kapa ea ntlafatsoa ka la 24 Pherekhong 2025.
Re romelle maikutlo a hau ka e 'ngoe ea litsela tse latelang:
Sebelisa Inthaneteng Ikopanye le rona review foromo e fumanoang ho: https://lenovopress.lenovo.com/LP2130
Romella maikutlo a hau ka lengolo-tsoibila ho: maikutlo@lenovopress.com
Tokomane ena e fumaneha inthaneteng ho https://lenovopress.lenovo.com/LP2130.

Matšoao a khoebo
Lenovo le logo ea Lenovo ke matšoao a khoebo kapa matšoao a ngolisitsoeng a Lenovo United States, linaheng tse ling, kapa ka bobeli. Lethathamo la hajoale la matšoao a khoebo a Lenovo le fumaneha ho Web at https://www.lenovo.com/us/en/legal/copytrade/.
Mantsoe a latelang ke matšoao a khoebo a Lenovo United States, linaheng tse ling, kapa ka bobeli: Lenovo®
Mabitso a mang a khampani, sehlahisoa, kapa litšebeletso e ka ba matšoao a khoebo kapa matšoao a litšebeletso tsa ba bang.

Lenovo LLM Sizing Guide

Litokomane / Lisebelisoa

Lenovo LLM Sizing Comprehensive Framework [pdf] Bukana ea Mosebelisi
LLM Sizing Comprehensive Framework, LLM Sizing, Comprehensive Framework, Framework

Litšupiso

Tlohela maikutlo

Aterese ea hau ea lengolo-tsoibila e ke ke ea phatlalatsoa. Libaka tse hlokahalang li tšoailoe *