ការណែនាំអំពីទំហំ Lenovo LLM
ផែនការ / ការអនុវត្ត
LLM Sizing Framework ទូលំទូលាយ
គំរូភាសាធំ (LLMs) បានបដិវត្តវិស័យដំណើរការភាសាធម្មជាតិ ដោយបើកដំណើរការកម្មវិធីដូចជាការបង្កើតអត្ថបទ ការវិភាគមនោសញ្ចេតនា និងការបកប្រែភាសា។ ទោះជាយ៉ាងណាក៏ដោយ តម្រូវការគណនាសម្រាប់ដំណើរការម៉ូដែលទាំងនេះអាចមានច្រើន ដែលធ្វើឱ្យវាមានការប្រកួតប្រជែងសម្រាប់ស្ថាបត្យករដំណោះស្រាយក្នុងការរចនា និងកំណត់រចនាសម្ព័ន្ធប្រព័ន្ធដែលបំពេញតម្រូវការរបស់អតិថិជនរបស់ពួកគេ។
ដើម្បីដោះស្រាយបញ្ហាប្រឈមនេះ មគ្គុទ្ទេសក៍ទំហំ LLM នេះត្រូវបានរចនាឡើងដើម្បីផ្តល់ឱ្យអ្នកនូវការយល់ដឹងដ៏ទូលំទូលាយអំពីរបៀបដែល LLMs ធ្វើការ តម្រូវការគណនារបស់ពួកគេ និងកត្តាសំខាន់ៗដែលជះឥទ្ធិពលដល់ដំណើរការរបស់ពួកគេ។ គោលដៅនៃការណែនាំនេះគឺដើម្បីផ្តល់ឱ្យអ្នកនូវចំណេះដឹង និងឧបករណ៍ដែលត្រូវការដើម្បីវាយតម្លៃតម្រូវការរបស់អតិថិជន ការរចនាប្រព័ន្ធដែលមានសមត្ថភាព និងផ្តល់នូវការដាក់ឱ្យប្រើប្រាស់ LLM ដែលទទួលបានជោគជ័យយ៉ាងឆាប់រហ័ស និងត្រឹមត្រូវ។
មគ្គុទេសក៍, បំផុសគំនិតពី ទំហំការសន្និដ្ឋាន LLM របស់ NVIDIAនឹងគ្របដណ្តប់លើប្រធានបទសំខាន់ៗដូចជាច្បាប់មេដៃសម្រាប់ការប៉ាន់ប្រមាណតម្រូវការអង្គចងចាំ GPU សម្រាប់ការសន្និដ្ឋាន និងការបណ្តុះបណ្តាល/ការកែតម្រូវ ការប្រមូលតម្រូវការពីអតិថិជន ការយល់ដឹងអំពីស្តង់ដារ និងរង្វាស់នៃការអនុវត្ត និងការប៉ាន់ប្រមាណតម្លៃសរុបនៃភាពជាម្ចាស់។ ដោយធ្វើតាមការណែនាំនេះ អ្នកនឹងអាចរុករកទេសភាពដ៏ស្មុគស្មាញនៃ LLMs និងផ្តល់ឱ្យអតិថិជនរបស់ពួកគេនូវដំណោះស្រាយដែលប្រសើរឡើងដែលបំពេញតាមតម្រូវការជាក់លាក់របស់ពួកគេ។
តាមរយៈការណែនាំនេះ យើងនឹងផ្តល់នូវការអនុវត្តជាក់ស្តែងamples រូបមន្ត និងគោលការណ៍ណែនាំដើម្បីជួយស្ថាបត្យករដំណោះស្រាយប៉ាន់ស្មានតម្រូវការគណនាសម្រាប់សេណារីយ៉ូ LLM ផ្សេងៗ។ យើងក៏នឹងពិភាក្សាផងដែរអំពីសារៈសំខាន់នៃការយល់ដឹងអំពីតម្រូវការរបស់អតិថិជនដូចជា គំរូ បរិមាណ ទំហំនិមិត្តសញ្ញា និងតម្រូវការភាពយឺតយ៉ាវ និងរបៀបដែលកត្តាទាំងនេះប៉ះពាល់ដល់ការរចនា និងដំណើរការប្រព័ន្ធ។
នៅក្នុងផ្នែកបន្ទាប់ យើងនឹងណែនាំ "ច្បាប់នៃមេដៃ" សម្រាប់ការប៉ាន់ប្រមាណតម្រូវការអង្គចងចាំ GPU ដោយចាប់ផ្តើមជាមួយនឹងការសន្និដ្ឋាន។ វានឹងផ្តល់ឱ្យអ្នកនូវវិធីសាមញ្ញ និងមានប្រសិទ្ធភាពក្នុងការប៉ាន់ប្រមាណតម្រូវការអង្គចងចាំ GPU អប្បបរមាសម្រាប់ការដំណើរការ LLMs នៅក្នុងបរិយាកាសផលិតកម្ម។
ច្បាប់នៃមេដៃ
ច្បាប់នៃមេដៃផ្តល់នូវវិធីសាស្រ្តសាមញ្ញក្នុងការប៉ាន់ប្រមាណតម្រូវការគណនាសម្រាប់ការដំណើរការគំរូភាសាធំ (LLMs)។ ផ្នែកនេះរៀបរាប់អំពីកត្តាសំខាន់ៗដែលជះឥទ្ធិពលដល់តម្រូវការអង្គចងចាំ GPU និងផ្តល់នូវរូបមន្តសម្រាប់ការប៉ាន់ប្រមាណយ៉ាងឆាប់រហ័សនូវតម្រូវការអង្គចងចាំអប្បបរមាសម្រាប់ការសន្និដ្ឋាន និងការកែតម្រូវ/ការបណ្តុះបណ្តាល។
ការសន្និដ្ឋាន
Inferencing សំដៅលើដំណើរការនៃការប្រើប្រាស់ LLM ដែលត្រូវបានបណ្តុះបណ្តាលដើម្បីបង្កើតអត្ថបទ ឬធ្វើការព្យាករណ៍លើទិន្នន័យថ្មីដែលមើលមិនឃើញ។ ដើម្បីប៉ាន់ប្រមាណតម្រូវការអង្គចងចាំ GPU អប្បបរមាសម្រាប់ការសន្និដ្ឋាន យើងអាច ប្រើរូបមន្តខាងក្រោម:
M = P * Z * 1.2
កន្លែងណា៖
- M = អង្គចងចាំ GPU បង្ហាញជាជីហ្គាបៃ
- P = ទំហំគំរូ (ប៉ារ៉ាម៉ែត្រ) គិតជាពាន់លាន
- Z = កត្តាបរិមាណគិតជាបៃ (1 Byte = 8 bits) – សូមមើលខាងក្រោម
- 1.2 = តំណាងឱ្យ 20% លើសសម្រាប់ផ្ទុកទិន្នន័យបន្ថែមទៅក្នុងអង្គចងចាំ GPU
កត្តាបរិមាណ Z ប្រែប្រួលអាស្រ័យលើភាពជាក់លាក់ដែលបានប្រើ៖
- INT4: = 0.5
- FP8/INT8: = 1
- FP16: = 2
- FP32: = 4
សម្រាប់អតីតample ដើម្បីប៉ាន់ប្រមាណតម្រូវការអង្គចងចាំ GPU អប្បបរមាសម្រាប់ការដំណើរការ Llama 3.1 ជាមួយនឹងប៉ារ៉ាម៉ែត្រ 70 ពាន់លាននៅ 16-bit quantization (FP16) យើងអាចដោតតម្លៃដូចខាងក្រោម៖
M = 70 ∗ 2 ∗ 1.2 = 168 GB
រូបមន្តនេះផ្តល់នូវវិធីរហ័ស និងសាមញ្ញក្នុងការប៉ាន់ប្រមាណតម្រូវការអង្គចងចាំ GPU អប្បបរមាសម្រាប់ការសន្និដ្ឋាន ដែលអនុញ្ញាតឱ្យស្ថាបត្យករដំណោះស្រាយរចនាប្រព័ន្ធដែលបំពេញតម្រូវការរបស់អតិថិជនរបស់ពួកគេ។
ការលៃតម្រូវ / ការបណ្តុះបណ្តាល
ការកែតម្រូវឬការបណ្តុះបណ្តាលគំរូភាសាធំ (LLM) ទាមទារធនធានគណនាច្រើនជាងការសន្និដ្ឋាន។ តម្រូវការអង្គចងចាំ GPU អប្បបរមាសម្រាប់ការលៃតម្រូវ/ការបណ្តុះបណ្តាលអាចត្រូវបានប៉ាន់ប្រមាណដោយប្រើរូបមន្តខាងក្រោម៖
សរុប = (Z + 12 + Z) បៃ / ប៉ារ៉ាម៉ែត្រ = P (2Z + 12) GB អង្គចងចាំដែលត្រូវការ
កន្លែងណា៖
- P = ទំហំគំរូ (ប៉ារ៉ាម៉ែត្រ) គិតជាពាន់លាន
- Z = កត្តាបរិមាណគិតជាបៃ (1 Byte = 8 bits)
ទោះជាយ៉ាងណាក៏ដោយ រូបមន្តនេះផ្តល់នូវការប៉ាន់ប្រមាណខ្លាំងព្រោះវាសន្មត់ថាប៉ារ៉ាម៉ែត្រគំរូពេញលេញ ស្ថានភាពបង្កើនប្រសិទ្ធភាព និងជម្រាលត្រូវបានរក្សាទុកក្នុងសតិ។ នៅក្នុងការអនុវត្តបច្ចេកទេសដូចជា ការសម្របខ្លួនតាមលំដាប់ថ្នាក់ទាប (LoRA) និងបរិមាណ LoRA (QLORA) អាចកាត់បន្ថយតម្រូវការអង្គចងចាំយ៉ាងខ្លាំង។
ដើម្បីផ្តល់ឱ្យអ្នកនូវគំនិតកាន់តែប្រសើរឡើង ខាងក្រោមនេះគឺជាតម្រូវការអង្គចងចាំ GPU ដែលត្រូវបានប៉ាន់ប្រមាណសម្រាប់ LLMs ដែលធ្វើការកែតម្រូវដោយប្រើវិធីសាស្រ្ត និងភាពជាក់លាក់ផ្សេងៗគ្នា៖
តារាង 1 ។ ការប្រៀបធៀបតម្រូវការ VRAM សម្រាប់ទំហំគំរូខុសគ្នា និងបច្ចេកទេសកែសម្រួល
វិធីសាស្រ្ត | ភាពជាក់លាក់ | 7B | 13 ប | 30 ប | 70 ប | 110 ប |
ពេញ | 16 | 67GB | 125GB | 288GB | 672GB | 1056GB |
ឡូរ៉ា | 16 | 15GB | 28GB | 63GB | 146GB | 229GB |
QLoRA | 8 | 9GB | 17GB | 38GB | 88GB | 138GB |
QLoRA | 4 | 5GB | 9GB | 20GB | 46GB | 72GB |
ដូចដែលអ្នកអាចមើលឃើញ ការប្រើប្រាស់ LoRA ឬ QLoRA អាចកាត់បន្ថយតម្រូវការអង្គចងចាំបាន 75-90% បើប្រៀបធៀបទៅនឹងវិធីសាស្ត្រកែតម្រូវពេញលេញ។ នេះគឺដោយសារតែបច្ចេកទេសទាំងនេះរក្សាទុកតែប៉ារ៉ាម៉ែត្រប្រែប្រួលប៉ុណ្ណោះ ហើយមិនមែនជាគំរូទាំងមូលទេ ដែលបណ្តាលឱ្យមានការសន្សំសតិយ៉ាងសំខាន់។
នៅពេលរចនាប្រព័ន្ធសម្រាប់ LLMs ការកែលម្អ/បណ្តុះបណ្តាល វាជារឿងសំខាន់ក្នុងការពិចារណាលើវិធីសាស្ត្រជាក់លាក់ និងភាពជាក់លាក់ដែលបានប្រើ ក៏ដូចជាទំហំគំរូ ដើម្បីធានាថាប្រព័ន្ធបំពេញតាមធនធានគណនាដែលត្រូវការ។ ដោយប្រើបច្ចេកទេសដូចជា LoRA ឬ QLoRA ស្ថាបត្យករដំណោះស្រាយអាចរចនាប្រព័ន្ធដែលមានប្រសិទ្ធភាព និងមានប្រសិទ្ធភាពជាងមុន ដែលបំពេញតម្រូវការរបស់អតិថិជនរបស់ពួកគេ។
តម្រូវការប្រមូលផ្តុំ
ដើម្បីកំណត់ឱ្យបានត្រឹមត្រូវនូវការកំណត់រចនាសម្ព័ន្ធចាំបាច់សម្រាប់ការដាក់ពង្រាយគំរូភាសាធំ (LLM) វាមានសារៈសំខាន់ណាស់ក្នុងការប្រមូលផ្តុំតម្រូវការជាក់លាក់ពីអតិថិជន។ តម្រូវការទាំងនេះនឹងជួយប៉ាន់ប្រមាណការអនុវត្តការសន្និដ្ឋាន និងធានាថាប្រព័ន្ធបំពេញតាមគោលដៅដែលចង់បាន។
ព័ត៌មានទាំងប្រាំខាងក្រោមគួរតែត្រូវបានប្រមូលមុនពេលប៉ាន់ស្មានការអនុវត្តការសន្និដ្ឋាន៖
1. ការជ្រើសរើសម៉ូដែល៖
កំណត់អត្តសញ្ញាណគំរូ LLM ដែលមានបំណងប្រើប្រាស់ក្នុងគម្រោងនេះ។ ទំហំនៃម៉ូដែលប៉ះពាល់យ៉ាងខ្លាំងដល់ដំណើរការសន្និដ្ឋាន ដោយម៉ូដែលធំជាងមានភាពយឺត និងថ្លៃជាង។ ចំណាំថាម៉ូដែលតូចៗអាចមានគុណភាពល្អឥតខ្ចោះសម្រាប់កិច្ចការជាក់លាក់ ខណៈពេលដែលកាត់បន្ថយការចំណាយលើការសន្និដ្ឋាន។ ដូច្នេះ វាត្រូវបានផ្ដល់អនុសាសន៍ឱ្យរុករកម៉ូដែលតូចៗផងដែរ។ ការយល់ដឹងអំពីលក្ខណៈរបស់គំរូដែលបានជ្រើសរើសនឹងជួយក្នុងការប៉ាន់ប្រមាណធនធានកុំព្យូទ័រដែលត្រូវការ។
នៅពេលប្រមូលផ្តុំតម្រូវការសម្រាប់ករណីប្រើប្រាស់ LLM វាចាំបាច់ណាស់ក្នុងការពិចារណាពីប្រវែងនិមិត្តសញ្ញាបញ្ចូល ដែលជាកត្តាមួយក្នុងការកំណត់ដំណើរការរបស់គំរូ។ បង្អួចបរិបទ ដែលកំណត់ថាជាផលបូកនៃធាតុបញ្ចូល និងទិន្នផល ដើរតួយ៉ាងសំខាន់ក្នុងដំណើរការនេះ។ ម៉ូដែលថ្មីដូចជា Llama 3.1 គាំទ្របង្អួចបរិបទធំជាងរហូតដល់ 128,000 និមិត្តសញ្ញា។
2. បញ្ចូលនិមិត្តសញ្ញា៖
កំណត់ចំនួនថូខឹនជាមធ្យមនៅក្នុងប្រអប់បញ្ចូលទៅកាន់ LLM រួមមាន:
- ការជម្រុញប្រព័ន្ធ
- បរិបទ
- ការជម្រុញអ្នកប្រើប្រាស់
សម្រាប់គំរូភាសាអង់គ្លេស និមិត្តសញ្ញាមួយគឺប្រហែល 0.75 នៃពាក្យមួយ។ រាប់បញ្ចូលទាំងការជម្រុញប្រព័ន្ធ និងបរិបទនៅក្នុងចំនួនសញ្ញាសម្ងាត់ ធានាថាលំដាប់បញ្ចូលទាំងមូលត្រូវបានពិចារណានៅពេលធ្វើការប៉ាន់ស្មានដំណើរការ។
ដើម្បីគណនាចំនួនលេខសំងាត់បញ្ចូលបានត្រឹមត្រូវ រួមបញ្ចូលធាតុទាំងអស់ដែលរួមចំណែកដល់វា ដូចជាការជំរុញប្រព័ន្ធ (ការណែនាំផ្ទាល់ខ្លួន) ឯកសារដែលបានទៅយក (នៅក្នុងបំពង់បញ្ជូនជំនាន់ដែលបង្កើតឡើងវិញ) និងប្រវត្តិជជែក (ការផ្លាស់ប្តូរការសន្ទនាពីមុន)។ សមាសធាតុនីមួយៗទាំងនេះរាប់បញ្ចូលទៅក្នុងថវិកាអតិបរិមានៃថូខឹនដែលអាចត្រូវបានបញ្ចូលទៅក្នុងគំរូ។
ប្រវែងបញ្ចូលធំអាចប៉ះពាល់ដល់ការអនុវត្តការសន្និដ្ឋាន ដោយសារពាក្យត្រូវបានបំប្លែងទៅជាការបង្កប់ ហើយឃ្លាំងសម្ងាត់ KV កើនឡើងជាបួនជ្រុង។ កម្មវិធីដូចជា RAG pipelines អាចត្រូវការប្រវែងបញ្ចូលធំជាងមុន ដែលបណ្តាលឱ្យមានការកើនឡើងនៃភាពយឺតយ៉ាវនៃសញ្ញាដំបូង ដោយសារចំនួនទិន្នន័យច្រើនកំពុងដំណើរការ។
យើងនឹងពិភាក្សាឱ្យកាន់តែស៊ីជម្រៅទៅក្នុងសញ្ញាសម្ងាត់ និងឥទ្ធិពលរបស់វាទៅលើភាពយឺតយ៉ាវនៅពេលក្រោយនៅក្នុងអត្ថបទនេះ ដោយស្វែងយល់ពីរបៀបដែលពួកវាប៉ះពាល់ដល់ដំណើរការរបស់ LLMs និងការពិចារណាអ្វីដែលចាំបាច់សម្រាប់ប្រតិបត្តិការគំរូដ៏ល្អប្រសើរ។
3. Output Token:
បង្កើតចំនួនថូខឹនជាមធ្យមនៅក្នុងលទ្ធផល LLM ។ នេះគឺចាំបាច់ ពីព្រោះការបង្កើតសញ្ញាសម្ងាត់កាន់តែច្រើន ទាមទារធនធាន និងពេលវេលាគណនាកាន់តែច្រើន។ ការយល់ដឹងអំពីទំហំទិន្នផលដែលរំពឹងទុកនឹងជួយក្នុងការរចនាប្រព័ន្ធដែលអាចគ្រប់គ្រងលំហូរដែលត្រូវការដោយមិនប៉ះពាល់ដល់ភាពយឺតយ៉ាវ ឬគុណភាព។
4. សំណើជាមធ្យមក្នុងមួយវិនាទី (RPS)៖
ដើម្បីធានាបាននូវការអនុវត្តដ៏ល្អប្រសើរ និងការប្រើប្រាស់ធនធានប្រកបដោយប្រសិទ្ធភាព កំណត់ចំនួនសំណើដែលប្រព័ន្ធគួរតែដំណើរការក្នុងមួយវិនាទី។ នៅពេលកំណត់ទំហំសម្រាប់ការដាក់ពង្រាយក្នុងបរិវេណ វាមានសារៈសំខាន់ណាស់ក្នុងការគណនាមូលដ្ឋានលើការប្រើប្រាស់ខ្ពស់បំផុត ជាជាងការប្រើប្រាស់ជាមធ្យម។
ដើម្បីគណនាភាពប្រែប្រួលនៅក្នុងគំរូសំណើ យើងប្រើភាគរយទី 95 នៃ Poisson PPF (មុខងារប្រូបាប៊ីលីតេចំណុច) នៃ RPS ជាមធ្យម (សំណើក្នុងមួយវិនាទី)។ វិធីសាស្រ្តនេះ។ ជួយកំណត់អត្តសញ្ញាណបន្ទុកអតិបរមាដែលរំពឹងទុក ដែលអនុញ្ញាតឱ្យយើងរចនាប្រព័ន្ធដែលអាចដោះស្រាយតម្រូវការកម្រិតខ្ពស់ដោយមិនប្រើប្រាស់តិចក្នុងអំឡុងពេលដែលមិនមែនជាកំពូល។
ដំណើរការនេះពាក់ព័ន្ធនឹងការទទួលបានអត្រាសំណើជាមធ្យមពីអតិថិជន និងគណនាអត្រាសំណើរសុំកំពូលដោយប្រើភាគរយទី 95 នៃការចែកចាយ Poisson ។ វិធីសាស្រ្តនេះផ្តល់នូវការតំណាងឱ្យកាន់តែត្រឹមត្រូវនៃតម្រូវការរបស់ប្រព័ន្ធ ដោយសារវាពិចារណាពីការប្រែប្រួលធម្មជាតិនៅក្នុងគំរូសំណើ។ វាមានសារៈសំខាន់ជាពិសេសក្នុងការកត់សម្គាល់ថា ប្រសិនបើប្រព័ន្ធមិនដំណើរការនៅកម្រិតកំពូល នោះតម្លៃដ៏មានប្រសិទ្ធភាពក្នុងមួយសញ្ញាសម្ងាត់អាចកើនឡើងគួរឱ្យកត់សម្គាល់។
5. តម្រូវការភាពយឺតយ៉ាវ៖
ស្វែងយល់ពីគោលដៅ និងដែនកំណត់នៃភាពយឺតយ៉ាវរបស់អតិថិជន រួមទាំង៖
- ភាពយឺតយ៉ាវនៃនិមិត្តសញ្ញាទីមួយ៖ ពេលវេលាដែលវាត្រូវការសម្រាប់គំរូដើម្បីបង្កើតនិមិត្តសញ្ញាដំបូងនៃការឆ្លើយតប។
- ភាពយឺតយ៉ាវចុងក្រោយ៖ ពេលវេលាសរុបដែលវាត្រូវការសម្រាប់គំរូដើម្បីបង្កើតការឆ្លើយតបទាំងមូល។
ភាពយឺតយ៉ាវគឺជាកត្តាសំខាន់នៅក្នុងកម្មវិធីជាច្រើន ដោយសារភាពយឺតយ៉ាវខ្ពស់អាចជះឥទ្ធិពលអវិជ្ជមានដល់បទពិសោធន៍អ្នកប្រើប្រាស់។ ការដាក់សម្ពាធទៅនឹងភាពយឺតយ៉ាវដំបូងសញ្ញាសម្ងាត់ទាប (TTFT) នឹងជាខ្លាំងamper throughput មានន័យថាសមត្ថភាពរបស់ប្រព័ន្ធក្នុងដំណើរការសំណើច្រើនក្នុងពេលដំណាលគ្នានឹងត្រូវបានសម្របសម្រួល។
ដូច្នេះ វាចាំបាច់ណាស់ក្នុងការធ្វើសមតុល្យរវាងភាពយឺតយ៉ាវ និងលំហូរចេញ ដោយផ្អែកលើតម្រូវការជាក់លាក់របស់អតិថិជន។
តម្រូវការទាំងនេះមានសារៈសំខាន់សម្រាប់ការប៉ាន់ប្រមាណការអនុវត្តការសន្និដ្ឋាន ការកំណត់ទំហំប្រព័ន្ធ និងធានាថាវាបំពេញតាមការរំពឹងទុករបស់អតិថិជន។ តាមរយៈការប្រមូលព័ត៌មាននេះ អ្នកនឹងអាចយល់កាន់តែច្បាស់ពីតម្រូវការរបស់អតិថិជន និងរៀបចំការកំណត់រចនាសម្ព័ន្ធប្រព័ន្ធសមស្រប ដែលធ្វើឲ្យមានតុល្យភាពរវាងដំណើរការ ការចំណាយ និងគុណភាព។ នៅក្នុងផ្នែកបន្ទាប់ យើងនឹងស្វែងយល់ឱ្យកាន់តែស៊ីជម្រៅទៅលើតម្រូវការមួយចំនួនទាំងនេះ ហើយស្វែងយល់ពីរបៀបដែលវាប៉ះពាល់ដល់ការដាក់ឱ្យប្រើប្រាស់ LLM ។
ការជ្រមុជទឹកបច្ចេកទេស៖ ការយល់ដឹងអំពី LLMs
នៅក្នុងផ្នែកនេះ យើងនឹងស្វែងយល់ពីការងារដ៏ស្មុគស្មាញនៃ Large Language Models (LLMs) ដោយចូលទៅក្នុងទិដ្ឋភាពបច្ចេកទេសរបស់ពួកគេ។ យើងនឹងស៊ើបអង្កេត សtages នៃការប្រតិបត្តិ LLM ស្វែងយល់អំពីរង្វាស់រង្វាស់សំខាន់ៗ និងមើលបច្ចេកទេសដែលបង្កើនល្បឿនការសន្និដ្ឋាន។
ពីរ សtages នៃការប្រតិបត្តិ LLM: Prefill vs Decoding
គំរូភាសាធំ (LLMs) គឺជាប្រព័ន្ធស្មុគ្រស្មាញដែលពាក់ព័ន្ធនឹង s ច្រើន។tages នៃដំណើរការដើម្បីបង្កើតការឆ្លើយតបអត្ថបទដូចមនុស្ស។ ការយល់ដឹងទាំងនេះ stages គឺមានប្រយោជន៍សម្រាប់ការបង្កើនប្រសិទ្ធភាពប្រតិបត្តិការ កាត់បន្ថយភាពយឺតយ៉ាវ និងការកែលម្អបទពិសោធន៍អ្នកប្រើប្រាស់ទូទៅ។ នៅក្នុងផ្នែកនេះ យើងនឹងស្វែងយល់អំពី បឋមសិក្សាពីរtages នៃការអនុវត្ត LLM៖ បំពេញ និងឌិកូដ។
បំពេញ Stage
ការបំពេញ stage សំដៅលើពេលវេលាដែលវាត្រូវការសម្រាប់ LLM ដើម្បីដំណើរការប្រអប់បញ្ចូលរបស់អ្នកប្រើ និងបង្កើតនិមិត្តសញ្ញាលទ្ធផលដំបូង ដែលប្រហាក់ប្រហែលនឹងពាក្យមួយ។ នេះ សtage រួមបញ្ចូលជំហានដូចខាងក្រោមៈ
- កំពុងផ្ទុកប្រអប់បញ្ចូលរបស់អ្នកប្រើ៖ ការបញ្ចូលរបស់អ្នកប្រើត្រូវបានទទួល និងផ្ទុកទៅក្នុងប្រព័ន្ធ។
- កំពុងផ្ទុក KV-cache៖ ក្នុងអំឡុងពេលនេះ stage, LLM ផ្ទុកឃ្លាំងសម្ងាត់ Key-Value (KV) របស់វាជាមួយនឹងព័ត៌មានពីនិមិត្តសញ្ញាបញ្ចូល។ ឃ្លាំងសម្ងាត់នេះត្រូវបានប្រើដើម្បីរក្សាទុក និងទាញយកទិន្នន័យជាក់លាក់នៃបរិបទដែលពាក់ព័ន្ធ។
- ស្នើសុំការទទួលសញ្ញាសម្ងាត់ដំបូង៖ ពេលវេលាដែលវាត្រូវការសម្រាប់ LLM ដើម្បីដំណើរការប្រអប់បញ្ចូល និងបង្កើតនិមិត្តសញ្ញាលទ្ធផលដំបូង។
ការបំពេញ stage ត្រូវបានចងក្រងជាចម្បងដោយការគណនា មានន័យថាការអនុវត្តរបស់វាពឹងផ្អែកយ៉ាងធំធេងលើធនធានកុំព្យូទ័រដែលមាន។ ពេលវេលាដែលវាត្រូវការដើម្បីបញ្ចប់ stage អាស្រ័យតែលើចំនួនធាតុចូលដែលធ្វើឱ្យវាក្លាយជាដំណើរការដែលអាចព្យាករណ៍បាន និងស្រប។
ការឌិកូដ Stage
ការឌិកូដ stage ដែលត្រូវបានគេស្គាល់ថាជាជំនាន់ ឬការពង្រីក គឺជាកន្លែងដែល LLM បង្កើតនិមិត្តសញ្ញាឆ្លើយតបម្តងមួយៗ ដោយបង្កើតនៅលើនិមិត្តសញ្ញាទិន្នផលដំបូងដែលផលិតក្នុងអំឡុងពេល Prefill stagអ៊ី នេះ សtagអ៊ី រួមបញ្ចូល៖
- ភាពយឺតយ៉ាវអន្តរសញ្ញាៈ ពេលវេលាដែលវាត្រូវការដើម្បីបង្កើតនិមិត្តសញ្ញាបន្តបន្ទាប់នីមួយៗបន្ទាប់ពីលេខទីមួយ។
- ជំនាន់ Token-by-token៖ LLM បង្កើតការឆ្លើយតបនិមិត្តសញ្ញាតាមពាក្យ ដោយប្រើបរិបទ និងព័ត៌មានដែលប្រមូលបានក្នុងអំឡុងពេល Prefill stage.
- ភាពអាស្រ័យទៅលើធាតុបញ្ចូល និងទិន្នផល : ភាពយឺតយ៉ាវអន្តរនិមិត្តសញ្ញាអាស្រ័យទៅលើទាំងចំនួននិមិត្តសញ្ញាបញ្ចូល និងចំនួនថូខឹនលទ្ធផលដែលកំពុងត្រូវបានបង្កើត។
ផ្ទុយទៅនឹង Prefill stage, ការឌិកូដជាធម្មតាត្រូវបានចងភ្ជាប់ជាមួយការចងចាំ មានន័យថាការអនុវត្តរបស់វាត្រូវបានជះឥទ្ធិពលយ៉ាងខ្លាំងដោយភាពអាចរកបាននៃធនធានអង្គចងចាំ។ នៅពេលដែល LLM បង្កើតថូខឹនកាន់តែច្រើន វាទាមទារអង្គចងចាំបន្ថែមទៀតដើម្បីរក្សាទុក និងគ្រប់គ្រងបរិបទដែលកំពុងកើនឡើង ដែលអាចនាំឱ្យមានភាពយឺតយ៉ាវកើនឡើង។
រង្វាស់ការសន្និដ្ឋាន LLM
នៅពេលវាយតម្លៃការអនុវត្តនៃគំរូភាសាធំ (LLMs) រង្វាស់សំខាន់ៗជាច្រើនត្រូវបានប្រើដើម្បីវាស់ល្បឿនការសន្និដ្ឋាន។ ទាំងនេះរួមមាន:
- Time to First Token (TTFT): ពេលវេលាដែលវាត្រូវការដើម្បីដំណើរការការបញ្ចូល និងបង្កើតសញ្ញាសម្ងាត់ដំបូង។
- Inter-token Latency (ITL)៖ ពេលវេលាដែលវាត្រូវការដើម្បីបង្កើតនិមិត្តសញ្ញាបន្តបន្ទាប់នីមួយៗបន្ទាប់ពីសញ្ញាទីមួយ ដែលត្រូវបានគេស្គាល់ថា Time Per Output Token (TPOT)។
- End-to-End Latency (E2E): ពេលវេលាសរុបដែលវាត្រូវការដើម្បីដំណើរការប្រអប់បញ្ចូល និងបង្កើតសញ្ញាសម្ងាត់ទាំងអស់ ពីការបញ្ចូលទៅលទ្ធផល។
រង្វាស់ទាំងនេះផ្តល់នូវការយល់ដឹងអំពីដំណើរការរបស់ម៉ូដែលនេះ ជួយកំណត់ការស្ទះ និងបង្កើនប្រសិទ្ធភាពល្បឿននៃការសន្និដ្ឋាន។
បណ្តុំយន្តហោះ
បណ្តុំជើងហោះហើរ (IFB) គឺជាបច្ចេកទេសឯកទេសមួយដែលត្រូវបានប្រើប្រាស់ក្នុងអំឡុងពេលការសន្និដ្ឋានរបស់ Large Language Model (LLM) ដើម្បីធ្វើសមតុល្យរវាងអង្គចងចាំ GPU និងការប្រើប្រាស់កុំព្យូទ័រ ដែលទីបំផុតកាត់បន្ថយភាពយឺតយ៉ាវ។ វិធីសាស្រ្តនេះមានប្រសិទ្ធភាពជាពិសេសក្នុងការសន្និដ្ឋានដោយស្វ័យប្រវត្តិ ដែល LLM បង្កើតសញ្ញាសម្ងាត់ជាបន្តបន្ទាប់ ដោយពឹងផ្អែកលើសញ្ញាសម្ងាត់ដែលបានបង្កើតពីមុនដើម្បីបង្កើតលេខបន្ទាប់។
IFB អនុញ្ញាតឱ្យមានលំដាប់លំដោយនៅ s ផ្សេងៗtages (ទាំង prefill និង decoding) ដែលត្រូវដំណើរការក្នុងក្រុមតែមួយដោយមិនរង់ចាំសំណើទាំងអស់បញ្ចប់មុនពេលណែនាំថ្មី។ វិធីសាស្រ្តនេះផ្តល់នូវអត្ថប្រយោជន៍សំខាន់ៗមួយចំនួន៖
- ទំហំបណ្តុំថេរ៖ IFB អនុញ្ញាតឱ្យទំហំបណ្តុំថេរស្ទើរតែសម្រាប់ជំនាន់និមិត្តសញ្ញានីមួយៗ ដែលនាំឱ្យការប្រើប្រាស់ GPU កាន់តែខ្ពស់។
- ចាប់ផ្តើមការប្រតិបត្តិលឿនជាងមុន៖ សំណើថ្មីអាចចាប់ផ្តើមដំណើរការបានលឿនជាងមុន នៅពេលដែលរន្ធដោតអាចប្រើបាន ព្រោះអ្នកកំណត់ពេលរង់ចាំតែជំនាន់សញ្ញាសម្ងាត់បន្ទាប់ ជាជាងការបំពេញសំណើបច្ចុប្បន្ន។
TensorRT-LLM រួមបញ្ចូល Inflight Batching ផ្ទាល់ខ្លួន ដើម្បីបង្កើនប្រសិទ្ធភាពការប្រើប្រាស់ GPU កំឡុងពេលបម្រើ LLM ។ លក្ខណៈពិសេសនេះ៖
- ជំនួសសំណើដែលបានបញ្ចប់នៅក្នុងបាច់។
- សំណើបណ្តេញចេញបន្ទាប់ពីសញ្ញាសម្គាល់បញ្ចប់នៃលំដាប់ (EoS) និងបញ្ចូលសំណើថ្មី។
- ធ្វើអោយប្រសើរឡើងនូវការបញ្ជូន ពេលវេលាទៅកាន់សញ្ញាសម្ងាត់ដំបូង និងការប្រើប្រាស់ GPU ទាំងមូល។
លើសពីនេះទៅទៀត IFB ត្រូវបានរួមបញ្ចូលយ៉ាងរលូនទៅក្នុងផ្នែកខាងក្រោយ TensorRT-LLM Triton ហើយអាចត្រូវបានគ្រប់គ្រងតាមរយៈកម្មវិធីគ្រប់គ្រងកញ្ចប់ TensorRT-LLM ។ នៅពេលដែលរួមបញ្ចូលគ្នាជាមួយបច្ចេកទេសផ្សេងទៀតដូចជាការធ្វើឱ្យមានតុល្យភាពនៃអង្គចងចាំ និងប្រតិបត្តិការដែលចងជាប់នឹងការគណនា ការឌិកូដជាកំណាត់ ការឌិកូដប៉ាន់ស្មាន និងភាពខុសប្លែកគ្នានោះ IFB បង្កើនលំហូរនៃ LLMs ដែលធ្វើឱ្យវាក្លាយជា ឧបករណ៍ដែលមិនអាចខ្វះបានសម្រាប់ការសន្និដ្ឋាន LLM ប្រកបដោយប្រសិទ្ធភាព.
Tensor Parallelism
Tensor Parallelism (TP) គឺជាបច្ចេកទេសមួយដែលត្រូវបានប្រើប្រាស់នៅក្នុង Large Language Model (LLM) ដើម្បីចែកចាយបន្ទុកគណនាតាម GPUs ជាច្រើន។ វិធីសាស្រ្តនេះពាក់ព័ន្ធនឹងការបំបែកគំរូមួយនៅទូទាំង GPUs ជាច្រើន ដែលពឹងផ្អែកយ៉ាងខ្លាំងលើការផ្លាស់ប្តូរទិន្នន័យប្រកបដោយប្រសិទ្ធភាពរវាង GPUs ទាំងនេះ។ TP មានអត្ថប្រយោជន៍ជាពិសេសសម្រាប់ម៉ូដែលធំជាង ដែលតម្រូវការអង្គចងចាំលើសពីសមត្ថភាពនៃ GPU តែមួយ។
លក្ខណៈសំខាន់ៗនៃ Tensor Parallelism៖
- ភាពយឺតយ៉ាវទាប ប៉ុន្តែការបញ្ជូនចរន្តទាប៖ ខណៈពេលដែល TP អាចកាត់បន្ថយភាពយឺតយ៉ាវដោយការគណនាស្របគ្នា វាក៏អាចនាំអោយមានចរន្តសរុបទាបផងដែរ ដោយសារការចំណាយលើសដែលទាក់ទងនឹងទំនាក់ទំនងអន្តរ GPU ។
- តម្រូវការសម្រាប់ម៉ូដែលធំជាង៖ សម្រាប់ម៉ូដែលធំដូចជា LLaMa-70B ភាពស្របគ្នានៃ tensor យ៉ាងហោចណាស់ 2 (TP >= 2) ត្រូវបានទាមទារ។ នេះធានាថាគំរូអាចត្រូវបានបែងចែកឱ្យបានគ្រប់គ្រាន់នៅទូទាំង GPUs ជាច្រើនដើម្បីឱ្យសមនៅក្នុងអង្គចងចាំដែលមាន និងធនធានកុំព្យូទ័រ។
- អនុសាសន៍សម្រាប់ម៉ាស៊ីនមេដែលបានបើក NVLink: នៅពេលដែល TP លើសពី 2 NVIDIA ផ្តល់អនុសាសន៍យ៉ាងខ្លាំងឱ្យប្រើម៉ាស៊ីនមេដែលបានបើក NVLink សម្រាប់ការសន្និដ្ឋាន។ NVLink ផ្តល់នូវការភ្ជាប់ទំនាក់ទំនងទាប និងកម្រិតបញ្ជូនខ្ពស់ ដែលធ្វើអោយប្រសើរឡើងយ៉ាងខ្លាំងនូវការផ្ទេរទិន្នន័យរវាង GPUs បើប្រៀបធៀបទៅនឹងការភ្ជាប់ PCIe ប្រពៃណី។
ការយល់ដឹងអំពីស្តង់ដារ
Benchmarks គឺជាចំណុចកណ្តាលក្នុងការកំណត់ទំហំ និងជ្រើសរើសការកំណត់ដ៏ល្អសម្រាប់អតិថិជន ដោយសារពួកគេវាយតម្លៃការដោះដូររវាងរង្វាស់សំខាន់ៗដូចជាការបញ្ជូន ភាពយឺតយ៉ាវ និងអត្រាសំណើ។ ការយល់ដឹងអំពីស្តង់ដារទាំងនេះជួយកំណត់ការកំណត់រចនាសម្ព័ន្ធដ៏ល្អប្រសើរសម្រាប់ការសន្និដ្ឋានគំរូភាសាធំ (LLM) ដែលអនុញ្ញាតឱ្យមានការសម្រេចចិត្តអំពីតម្រូវការផ្នែករឹង និងផ្នែកទន់។
ឆ្លងកាត់ ធៀបនឹង ភាពយឺតយ៉ាវ
នៅក្នុងបរិបទនៃការសន្និដ្ឋាន LLM ការសម្រេចបាននូវតុល្យភាពរវាងការបញ្ជូន និងការពន្យាពេលគឺមានសារៈសំខាន់ណាស់។ ការបញ្ជូនបន្ត សំដៅលើចំនួនសំណើដែលអាចដំណើរការក្នុងមួយឯកតាពេលវេលា ខណៈពេលដែលភាពយឺតយ៉ាវ គឺជាពេលវេលាដែលត្រូវយកទៅដំណើរការសំណើតែមួយពីដើមដល់ចប់។
ការដោះដូរពាណិជ្ជកម្ម៖
ការណែនាំអំពីដែនកំណត់នៃភាពយឺតយ៉ាវអាចកាត់បន្ថយលំហូរដែលមាន។ ផ្ទុយទៅវិញ ការបន្ធូរបន្ថយកម្រិតនៃភាពយឺតយ៉ាវអាចនាំឱ្យដំណើរការកាន់តែខ្ពស់។ ការយល់ដឹងអំពីករណីប្រើប្រាស់របស់អតិថិជនផ្តល់នូវការប៉ាន់ប្រមាណនៃធាតុបញ្ចូល និមិត្តសញ្ញាលទ្ធផល និងសំណើជាមធ្យមក្នុងមួយឯកតា ដែលអនុញ្ញាតឱ្យមានសំណើផ្នែករឹងជាក់លាក់ដែលត្រូវគ្នានឹងធាតុចូលដែលត្រូវការ ខណៈពេលដែលរក្សាភាពយឺតយ៉ាវចាំបាច់។
ការរួមបញ្ចូលគ្នានៃសំណើជាច្រើនដើម្បីបង្កើនលំហូរអាចណែនាំការពន្យារពេល បង្កើនភាពយឺតយ៉ាវសម្រាប់សំណើនីមួយៗ។ ការសន្និដ្ឋាន LLM ពាក់ព័ន្ធនឹងដំណាក់កាលពីរ - ការបំពេញជាមុន (ភាពយឺតយ៉ាវខ្ពស់ អត្ថប្រយោជន៍ពីដំណើរការប៉ារ៉ាឡែល) និងការឌិកូដ (ភាពយឺតយ៉ាវទាប ការប្រើប្រាស់កុំព្យូទ័រទាប)។
ផលប៉ះពាល់ជាក់ស្តែង៖
- ទិន្នផលខ្ពស់៖ សមស្របសម្រាប់ការដាក់ពង្រាយទ្រង់ទ្រាយធំជាមួយនឹងបរិមាណសំណើខ្ពស់។
- ភាពយឺតយ៉ាវទាប៖ មានសារៈសំខាន់សម្រាប់កម្មវិធីឆ្លើយតបតាមពេលវេលាជាក់ស្តែង ដូចជា AI ការសន្ទនា ឬប្រព័ន្ធអន្តរកម្ម។
តាមរយៈការយល់ដឹង និងគ្រប់គ្រងការដោះដូរឆ្លងកាត់ភាពយឺតយ៉ាវ ប្រព័ន្ធការសន្និដ្ឋាន LLM អាចត្រូវបានធ្វើឱ្យប្រសើរដើម្បីបំពេញតាមតម្រូវការកម្មវិធីជាក់លាក់។ សម្រាប់ការដាក់ពិន្ទុតាមបំណង ឧបករណ៍ដូចជា GenAI-Perf ដោយ NVIDIA អាចផ្តល់នូវការយល់ដឹងដ៏មានតម្លៃចំពោះដំណើរការរបស់ម៉ូដែលជាក់លាក់មួយនៅលើប្រព័ន្ធមួយ។
ដើម្បីរៀនពីរបៀបបកស្រាយក្រាហ្វគោល សូមមើលប្រធានបទនៅចុងបញ្ចប់នៃឯកសារនេះ ព័ត៌មានបន្ថែម - ការអានក្រាហ្វសម្រាប់ទំហំ។
ការយល់ដឹងអំពីទំហំបាច់អតិបរមា ភាពស៊ីសង្វាក់គ្នា អត្រាសំណើ និងលំហូរ
វាអាចមានការភាន់ច្រលំបន្តិចក្នុងការគ្រប់គ្រងពាក្យចចាមអារ៉ាមទាំងអស់ ដូច្នេះសូមបំបែកគំនិតនីមួយៗ ដើម្បីបញ្ជាក់ទំនាក់ទំនង និងសារៈសំខាន់របស់ពួកគេក្នុងការវាយតម្លៃប្រព័ន្ធ។
ទំហំបាច់អតិបរមា
ប៉ារ៉ាម៉ែត្រ max_batch_size មានតួនាទីពីរ៖ មួយកំឡុងពេលបង្កើតម៉ាស៊ីន និងមួយទៀតនៅពេលដំណើរការ។
- ការបង្កើតម៉ាស៊ីន៖ ការកំណត់នេះធានាថាប្រព័ន្ធលទ្ធផល ជាមួយនឹងសមត្ថភាពរបស់វាសម្រាប់ទំហំបាច់ជាក់លាក់មួយ សមនៅក្នុងអង្គចងចាំដែលមាន។ វាមានសារៈសំខាន់ណាស់អំពីការរៀបចំផែនការសមត្ថភាពដើម្បីការពារបញ្ហានៃការចងចាំអំឡុងពេលប្រតិបត្តិ។
- ពេលដំណើរការ៖ ការកំណត់នេះកំណត់ថាតើសំណើប៉ុន្មានអាចត្រូវបានបញ្ចូលគ្នាមុនពេលដំណើរការ។ ពេលវេលាដំណើរការ max_batch_size ត្រូវតែតិចជាង ឬស្មើនឹងទំហំ max_batch_size ពេលដំណើរការ។ ការប្រមូលសំណើពិតប្រាកដនៅក្នុងសេណារីយ៉ូពិតប្រាកដត្រូវបានជះឥទ្ធិពលដោយប៉ារ៉ាម៉ែត្រនេះ ប៉ះពាល់ដោយផ្ទាល់ទៅលើប្រសិទ្ធភាព និងការអនុវត្ត។
ទំហំបណ្តុំ និងរូបិយបណ្ណ
- Concurrency (C) < Max Batch Size (MBS) : នៅពេលដែលចំនួននៃសំណើស្របគ្នាគឺតិចជាងទំហំបណ្តុំអតិបរមា នោះម៉ាស៊ីនជាធម្មតាដំណើរការបណ្តុំដែលមានទំហំស្មើទៅនឹងកម្រិតស្របគ្នា។ នេះមានន័យថាមានរន្ធដោតដោយឥតគិតថ្លៃនៅក្នុងបាច់នីមួយៗ ព្រោះមិនមែនគ្រប់មុខតំណែងដែលមានសក្តានុពលនៅក្នុងបាច់ត្រូវបានបំពេញនោះទេ។
- Concurrency (C) >= Max Batch Size (MBS): ប្រសិនបើការស្របគ្នាស្មើ ឬលើសពីទំហំបាច់អតិបរមា នោះបណ្តុំជាធម្មតាពេញ ដោយដំណើរការនៅសមត្ថភាពអតិបរមា។ ជួរសម្រាប់សំណើថ្មីនឹងចាប់ផ្តើមកើនឡើង ដោយមានទំហំមធ្យម C – MBS ដោយសារសំណើចូលរង់ចាំសម្រាប់បាច់មុនៗបញ្ចប់។
ការស្របគ្នា និងអត្រាស្នើសុំជាម៉ែត្រលទ្ធផល
ដើម្បីវាស់ស្ទង់ដំណើរការប្រព័ន្ធឱ្យបានទូលំទូលាយ សូមពិចារណា៖
- លទ្ធផល៖ ចំនួនសំណើដែលប្រព័ន្ធអាចដំណើរការក្នុងមួយឯកតាពេលវេលា។
- ភាពយឺតយ៉ាវពីចុងដល់ចប់៖ ពេលវេលាសរុបដែលបានយកសម្រាប់សំណើដែលត្រូវដំណើរការពីដើមដល់ចប់។
- Concurrency: ចំនួននៃសំណើដែលអាចត្រូវបានដោះស្រាយក្នុងពេលដំណាលគ្នា។
ប្រព័ន្ធដែលមានភាពស្របគ្នាខ្ពស់ និងភាពយឺតយ៉ាវខ្ពស់អាចសម្រេចបាននូវដំណើរការដូចគ្នាទៅនឹងប្រព័ន្ធមួយដែលមានរូបិយប័ណ្ណស្របគ្នាទាប ប៉ុន្តែមានភាពយឺតយ៉ាវទាប។ ទោះជាយ៉ាងណាក៏ដោយ ក្រោយមកទៀតមានប្រសិទ្ធភាពជាង ព្រោះវាឆ្លើយតបលឿនជាងមុនចំពោះសំណើនីមួយៗ។
ដូច្នេះ ការប្រើប្រាស់ "សំណើក្នុងមួយនាទី" (ឬម៉ែត្រផ្អែកលើពេលវេលាស្រដៀងគ្នា) ជាវិធានការចម្បងសម្រាប់ប្រព័ន្ធទំហំ និងការពិភាក្សាអំពីការអនុវត្តជាមួយភាគីពាក់ព័ន្ធផ្តល់នូវតុល្យភាព។ view នៃសមត្ថភាពប្រព័ន្ធ។ វាជួយកត្តាទាំងតម្រូវការស្របគ្នា និងភាពយឺតយ៉ាវ ដោយផ្តល់នូវរូបភាពកាន់តែច្បាស់អំពីអ្វីដែលប្រព័ន្ធអាចដោះស្រាយប្រកបដោយប្រសិទ្ធភាព។
ស្របគ្នា និងអត្រាស្នើសុំជាប៉ារ៉ាម៉ែត្របញ្ចូល
សម្រាប់ការវាស់ល្បឿនត្រឹមត្រូវ (ឆ្លងកាត់) វាជារឿងដែលមិនអាចខ្វះបានក្នុងការថែរក្សាទំហំម៉ាស៊ីនថេរពីវដ្តដំណើរការមួយទៅវដ្តមួយទៀត។
- ការប្រើប្រាស់ការស្របគ្នាជាធាតុបញ្ចូល៖ វិធីសាស្រ្តនេះធានាថាទំហំបណ្តុំនៅតែជាប់លាប់ ដោយផ្តល់នូវការវាស់វែងដែលអាចទុកចិត្តបាន។
- កំណត់អត្រាសំណើជាប៉ារ៉ាម៉ែត្របញ្ចូល៖ វាអាចមានបញ្ហាព្រោះប្រសិនបើអត្រាសំណើលើសពីការបញ្ជូនរបស់ប្រព័ន្ធ ជួរនឹងកើនឡើងជាបន្តបន្ទាប់ បង្កើនភាពយឺតយ៉ាវ។ ផ្ទុយទៅវិញ ការកំណត់អត្រាស្នើរសុំក្រោមការបញ្ជូនរបស់ប្រព័ន្ធ មានន័យថាមិនមែនរន្ធដែលមានទាំងអស់ត្រូវបានប្រើប្រាស់ទេ ដែលនាំឱ្យដំណើរការមិនដំណើរការ។
អនុសាសន៍
- ប្រើការស្របគ្នាជាមួយនឹងទំហំ Token ជាម៉ែត្របញ្ចូល៖ នេះអនុញ្ញាតឱ្យមានការពិសោធន៍ដែលបានគ្រប់គ្រងដែលអាចសង្កត់ធ្ងន់លើប្រព័ន្ធដល់កម្រិតរបស់វា ឬវាស់ស្ទង់ការឆ្លើយតបរបស់វានៅក្រោមបន្ទុកស្រាលជាងមុន។
- ប្រើអត្រាសំណើរជាម៉ែត្រលទ្ធផល៖ វាផ្តល់នូវការយល់ដឹងអំពីចំនួនសំណើដែលប្រព័ន្ធពិតជាអាចដំណើរការក្នុងរយៈពេលដែលបានកំណត់ ដោយឆ្លុះបញ្ចាំងទាំងសមត្ថភាព និងប្រសិទ្ធភាពរបស់វា។
តាមរយៈការគ្រប់គ្រងប៉ារ៉ាម៉ែត្រទាំងនេះ និងផ្តោតលើរង្វាស់ត្រឹមត្រូវ សហគ្រាសអាចរចនាប្រព័ន្ធដែលមានប្រសិទ្ធភាពជាងមុន ដែលមានតុល្យភាពរវាងលំហូរ ភាពយឺតយ៉ាវ និងការប្រើប្រាស់ធនធានប្រកបដោយប្រសិទ្ធភាព។
ការចំណាយសរុបនៃកម្មសិទ្ធិ៖ Cloud vs On-prem
ការដាក់ពង្រាយការសន្មតគំរូភាសាធំ (LLM) កំពុងក្លាយជារឿងសំខាន់សម្រាប់អាជីវកម្មទំនើប។ មានជម្រើសសំខាន់ពីរ៖ ផ្អែកលើពពក និងក្នុងបរិវេណ។ យើងនឹងស្វែងយល់ពីអត្ថប្រយោជន៍ និងដែនកំណត់នៃជម្រើសនីមួយៗ ដើម្បីជួយអ្នកធ្វើការសម្រេចចិត្តប្រកបដោយការយល់ដឹង។
ការដាក់ពង្រាយតាមពពក
ការដាក់ឱ្យប្រើប្រាស់តាមពពកផ្តល់នូវគំរូ "បង់ប្រាក់តាមដែលអ្នកទៅ" ដែលអ្នកចំណាយសម្រាប់តែធនធានដែលបានប្រើប៉ុណ្ណោះ។
ទោះយ៉ាងណាក៏ដោយ មានគុណវិបត្តិមួយចំនួនដែលត្រូវពិចារណា៖
- សុវត្ថិភាពទិន្នន័យ៖ លុះត្រាតែមានអាជ្ញាប័ណ្ណថ្នាក់សហគ្រាសត្រូវបានទិញ ទិន្នន័យរបស់អ្នកអាចត្រូវបានប្រើប្រាស់ដើម្បីបណ្តុះបណ្តាលគំរូនាពេលអនាគត ដែលនាំឱ្យមានការលេចធ្លាយទិន្នន័យ។
- ភាពមិនប្រាកដប្រជានៃតម្លៃ៖ តម្លៃអាចប្រែប្រួល ហើយអ្នកមានការគ្រប់គ្រងតិចជាងមុនលើម៉ូដែល ដែលប្រហែលជាមិនគាំទ្រការកែតម្រូវ ឬការកំណត់តាមបំណងទេ។
- ការគ្រប់គ្រងមានកំណត់៖ អ្នកមានការគ្រប់គ្រងកម្រិតលើភាពយឺតយ៉ាវ និងដំណើរការនៃសារជំរុញ។
តម្លៃនៃការដាក់ពង្រាយតាម cloud ជាធម្មតាត្រូវបានគណនាដោយផ្អែកលើធាតុបញ្ចូល និងទិន្នផល ជាមួយនឹងតម្លៃថេរក្នុងមួយនិមិត្តសញ្ញា។ សម្រាប់អតីតample, និមិត្តសញ្ញាបញ្ចូលមួយលានអាចចំណាយអស់ 15 ដុល្លារ ខណៈនិមិត្តសញ្ញាទិន្នផលមួយលានមានតម្លៃ 60 ដុល្លារ។
ដើម្បីប៉ាន់ប្រមាណការចំណាយ, អ្នកអាចប្រើម៉ាស៊ីនគិតលេខ ដែលគិតគូរពីចំនួនធាតុចូល និងទិន្នផល។
ការដាក់ពង្រាយនៅនឹងកន្លែង
ការដាក់ពង្រាយនៅក្នុងបរិវេណតម្រូវឱ្យមានការវិនិយោគមុនយ៉ាងច្រើន ប៉ុន្តែផ្តល់នូវអត្ថប្រយោជន៍មួយចំនួន៖
- ការគ្រប់គ្រងពេញលេញ៖ អ្នកមានការគ្រប់គ្រងពេញលេញលើប្រព័ន្ធ ដែលអនុញ្ញាតឱ្យមានការផ្លាស់ប្តូរតាមតម្រូវការ។
- ប្រសិទ្ធភាពចំណាយ៖ ជាមួយនឹងការប្រើប្រាស់ថេរនៅជិតសមត្ថភាព ការដាក់ពង្រាយនៅនឹងកន្លែងអាចមានប្រសិទ្ធភាពចំណាយក្នុងរយៈពេលវែង។
- សុវត្ថិភាព៖ ទិន្នន័យរបស់អ្នកមានសុវត្ថិភាព ហើយអ្នកមានការគ្រប់គ្រងពេញលេញលើប្រព័ន្ធ។
ការចំណាយទាក់ទងនឹងការដាក់ពង្រាយនៅនឹងកន្លែងរួមមាន:
- ការទិញម៉ាស៊ីនមេ GPU៖ តម្លៃនៃការទិញម៉ាស៊ីនមេ GPU ដែលប្រែប្រួលអាស្រ័យលើផ្នែករឹង និងប្រភេទនៃប្រព័ន្ធ។
- ការចំណាយលើមជ្ឈមណ្ឌលទិន្នន័យ៖ ការចំណាយទាក់ទងនឹងអគ្គិសនី ការជួលកន្លែងបុគ្គលិក និងការចំណាយផ្សេងៗទៀត។
- ថ្លៃអាជ្ញាប័ណ្ណ៖ ថ្លៃអាជ្ញាប័ណ្ណប្រចាំឆ្នាំសម្រាប់សេវាកម្មបន្ថែមណាមួយ ឧ. NVAIE
ដើម្បីស្វែងរកតម្លៃក្នុងមួយ 1M ប្រអប់បញ្ចូល (ហៅទូរសព្ទ)៖
កន្លែងណា
- Z = តម្លៃក្នុងមួយ 1M ជម្រុញ
- C = Total On Prem Cost ជាមធ្យមក្នុងរយៈពេលមួយឆ្នាំ
- X = ប្រអប់បញ្ចូលក្នុងមួយវិនាទី (ឆ្លងកាត់) នៅលើប្រព័ន្ធ
ការប្រៀបធៀបនៃ Cloud និងការដាក់ឱ្យប្រើប្រាស់ក្នុងបរិវេណ
ដើម្បីធ្វើការប្រៀបធៀបយ៉ាងត្រឹមត្រូវរវាង cloud និងការដាក់ឱ្យប្រើប្រាស់ក្នុងបរិវេណ យើងសន្មត់ថា:
- ម៉ូដែលដែលបានដាក់ពង្រាយនៅលើវេទិកាទាំងពីរគឺមានគុណភាពស្មើគ្នា។
- ភាពយឺតយ៉ាវ និងលទ្ធផលដែលទទួលបាននៅលើវេទិកាទាំងពីរគឺស្រដៀងគ្នា។
យើងអាចប្រៀបធៀបការចំណាយនៅក្នុងការស្នើសុំ 1 លានទៅនឹងការចំណាយលើពពកក្នុងមួយ 1 លានដើម្បីទទួលបានការប្រៀបធៀបដោយយុត្តិធម៌។ យើងថែមទាំងអាចរកឃើញតម្លៃនិមិត្តសញ្ញាបញ្ចូលមួយ និងតម្លៃនិមិត្តសញ្ញាលទ្ធផលសម្រាប់នៅនឹងកន្លែង។
សង្ខេបការចំណាយ
សរុបមក ទាំងជម្រើសនៃការដាក់ឱ្យប្រើប្រាស់តាមពពក និងក្នុងបរិវេណមានអត្ថប្រយោជន៍ និងដែនកំណត់របស់វា។
ការដាក់ពង្រាយតាមពពកផ្តល់នូវដំណោះស្រាយដែលអាចបត់បែនបាន និងអាចធ្វើមាត្រដ្ឋានបាន ប៉ុន្តែអាចសម្របសម្រួលលើសុវត្ថិភាពទិន្នន័យ និងការគ្រប់គ្រង។ ការដាក់ពង្រាយនៅនឹងកន្លែងផ្តល់នូវការគ្រប់គ្រង និងសុវត្ថិភាពពេញលេញ ប៉ុន្តែទាមទារការវិនិយោគជាមុន។
ក្នុងរយៈពេលវែង ចំណុចសម្រាកមួយត្រូវបានឈានដល់ដែលការដាក់ពង្រាយនៅនឹងកន្លែងធ្វើឱ្យយល់អំពីហិរញ្ញវត្ថុជាងករណីនៅលើពពក។
អនុសាសន៍
នៅពេលសម្រេចចិត្តរវាងការដាក់ពង្រាយតាមពពក និងនៅក្នុងបរិវេណ សូមពិចារណាដូចខាងក្រោម៖
- សុវត្ថិភាពទិន្នន័យ៖ ប្រសិនបើវាជាអាទិភាពចម្បងរបស់អ្នក ការដាក់ឱ្យប្រើប្រាស់នៅនឹងកន្លែងគឺប្រសើរជាង។
- លទ្ធភាពធ្វើមាត្រដ្ឋាន៖ ប្រសិនបើអ្នកត្រូវការធ្វើមាត្រដ្ឋានឱ្យបានរហ័ស ការដាក់ឱ្យប្រើប្រាស់តាមពពកប្រហែលជាសមរម្យជាង។
- ថវិកា៖ ប្រសិនបើថវិកាមានការព្រួយបារម្ភ ការដាក់ពង្រាយនៅនឹងកន្លែងអាចមានប្រសិទ្ធភាពក្នុងរយៈពេលយូរ។
ទីបំផុត ការសម្រេចចិត្តអាស្រ័យទៅលើតម្រូវការ និងអាទិភាពជាក់លាក់របស់អ្នក។
សេចក្តីសន្និដ្ឋាន
សរុបសេចក្តី ការប៉ាន់ប្រមាណភាពត្រឹមត្រូវនៃការអនុវត្ត និងតម្រូវការគណនាគឺមានសារៈសំខាន់នៅពេលរចនាប្រព័ន្ធសម្រាប់ការដាក់ពង្រាយគំរូភាសាធំ (LLM) ។ ដើម្បីសម្រេចបាននូវតម្រូវការនេះ ប្រមូលផ្តុំតម្រូវការជាក់លាក់ពីអតិថិជន រួមទាំងការជ្រើសរើសគំរូ ប្រវែងនិមិត្តសញ្ញាបញ្ចូល បរិមាណ និងតម្រូវការភាពយឺតយ៉ាវ។ រូបមន្ត និងគោលការណ៍ណែនាំដែលបានផ្តល់ ដូចជា "ច្បាប់នៃមេដៃ" សម្រាប់ការប៉ាន់ប្រមាណតម្រូវការអង្គចងចាំ GPU បម្រើជាឧបករណ៍ដ៏មានតម្លៃសម្រាប់ដំណោះស្រាយស្ថាបត្យករដើម្បីវាយតម្លៃ និងរចនាប្រព័ន្ធដែលមានសមត្ថភាពយ៉ាងឆាប់រហ័សដែលបំពេញតម្រូវការអតិថិជន។
ដោយពិចារណាលើកត្តាសំខាន់ៗដូចជាទំហំគំរូ ភាពជាក់លាក់ និងបរិមាណ អ្នកអាចធ្វើឱ្យការកំណត់រចនាសម្ព័ន្ធប្រព័ន្ធធ្វើឱ្យមានតុល្យភាពរវាងដំណើរការ និងការចំណាយ។ លើសពីនេះ បច្ចេកទេសដូចជា Low-Rank Adaptation (LoRA) និង Quantized LoRA (QLoRA) អាចកាត់បន្ថយតម្រូវការនៃការចងចាំយ៉ាងខ្លាំងក្នុងអំឡុងពេលការលៃតម្រូវ និងការបណ្តុះបណ្តាល ដែលអនុញ្ញាតឱ្យដំណោះស្រាយកាន់តែមានប្រសិទ្ធភាព និងសន្សំសំចៃ។
មគ្គុទ្ទេសក៍កំណត់ទំហំការសន្និដ្ឋានរបស់ LLM នេះផ្តល់សិទ្ធិអំណាចជាមួយនឹងចំណេះដឹង និងជំនាញដែលត្រូវការដើម្បីរុករកទិដ្ឋភាពដ៏ស្មុគស្មាញនៃ LLMs ផ្តល់នូវការដាក់ឱ្យប្រើប្រាស់ដោយជោគជ័យ និងផ្តល់នូវដំណោះស្រាយសមស្របដែលបំពេញតម្រូវការពិសេសរបស់អតិថិជនរបស់ពួកគេ។ តាមរយៈការអនុវត្តតាមគោលការណ៍ណែនាំ និងការអនុវត្តល្អបំផុតទាំងនេះ អ្នកអាចធានាបាននូវការអនុវត្តដ៏ល្អប្រសើរ កាត់បន្ថយការចំណាយ និងជំរុញឱ្យអាជីវកម្មទទួលបានជោគជ័យនៅក្នុងវិស័យដែលកំពុងរីកចម្រើនយ៉ាងឆាប់រហ័សនៃដំណើរការភាសាធម្មជាតិ។
ព័ត៌មានបន្ថែម - ការអានក្រាហ្វសម្រាប់ទំហំ
ក្រាហ្វផ្អែកលើ ទិន្នន័យគោលពី NVIDIA NIMs មើលទៅដូចនេះ៖
រូបភាព ៦.៨.៣.១៖ អេសample Throughput vs First Token Latency graph for Llama 3 8B model with 2000 input and 2000 output tokens
ក្រាហ្វអន្តរកម្មអនុញ្ញាតឱ្យអ្នកជ្រើសរើសម៉ូដែល ឧបករណ៍ ការរួមបញ្ចូលគ្នានៃសញ្ញាសម្ងាត់បញ្ចូល + លទ្ធផល ការវាស់វែងអ័ក្ស X និងលទ្ធផលអ័ក្ស Y ។ សម្រាប់អ័ក្ស X យើងអាចមានប៉ារ៉ាម៉ែត្របញ្ចូលដូចជា TTFT, TTLT, ឬ ITL សម្រាប់សញ្ញាសម្ងាត់។ សម្រាប់អ័ក្ស Y យើងមានប៉ារ៉ាម៉ែត្រលទ្ធផលដូចជា prompts per sec ក្នុងមួយប្រព័ន្ធ ឬ out_tokens per sec ក្នុងមួយប្រព័ន្ធ ឬក្នុងមួយ GPU instance ។
អតីតមួយampទំហំ៖
អតិថិជនចង់បានសញ្ញាសម្ងាត់ 2000 in, 2000 out ជាមួយម៉ូដែល llama3 8B ហើយចង់បាន TTFT ក្រោម 1 វិ។ ដោយប្រើឧបសគ្គ យើងរកឃើញចំណុចមួយនៅលើក្រាហ្វខាងឆ្វេងនៃ 1 វិនាទី TTFT (FTL) វានឹងមើលទៅដូចនេះ៖
នេះប្រាប់អ្នកថាប្រព័ន្ធ 8xH100 តែមួយនឹងអាចគ្រប់គ្រងអ្នកប្រើប្រាស់បានរហូតដល់ 400 នាក់ (កំពូល) នៅពេលប្រើ TRT-LLM ។ ទោះជាយ៉ាងណាក៏ដោយ យើងឃើញថាវាមាន latency សរុបលើសពី 38 វិនាទី។ ប្រសិនបើយើងចង់បានភាពយឺតសរុបទាប (ឧបមាថាក្រោម 20 វិនាទី) យើងនឹងត្រូវលះបង់ការបញ្ជូនបន្ត ដោយកែទម្រង់អ័ក្ស X ជាភាពយឺតសរុប (TTLT) យើងមាន៖
នៅទីនេះយើងមានចំណុចមួយជាមួយនឹងអ្នកប្រើប្រាស់ 100 នាក់ដែលមាន 358ms TTFT និងក្រោម 20s TTLT ។ ដូចដែលយើងឃើញ ការកំណត់ភាពយឺតយ៉ាវប៉ះពាល់យ៉ាងខ្លាំងដល់លំហូរចូល និងតម្លៃស្របគ្នាអតិបរមា។
ដើម្បីដំណើរការស្តង់ដារនៅលើប្រព័ន្ធផ្ទាល់ខ្លួនរបស់អ្នក សូមយោង NIM របស់ NVIDIA សម្រាប់ LLM Benchmarking Guide ប្រើ GenAIPerf ដើម្បីទទួលបានការវាស់វែង LLM ។
អ្នកនិពន្ធ
Sachin Gopal Wani គឺជាអ្នកវិទ្យាសាស្ត្រទិន្នន័យ AI នៅ Lenovo ដែលធ្វើការលើកម្មវិធី End-to-end Machine Learning (ML) សម្រាប់អតិថិជនផ្សេងៗគ្នា និងបង្កើតក្របខ័ណ្ឌ NewTalk AI ។ គាត់បានបញ្ចប់ការសិក្សាពីសាកលវិទ្យាល័យ Rutgers ក្នុងនាមជាម្ចាស់មេដាយមាសដែលមានឯកទេសខាង Machine Learning ហើយបានទទួលអាហារូបករណ៍ JN Tata ។
David Ellison គឺជាប្រធានអ្នកវិទ្យាសាស្ត្រទិន្នន័យសម្រាប់ក្រុមហ៊ុន Lenovo ISG ។ តាមរយៈមជ្ឈមណ្ឌល AI Discover នៅសហរដ្ឋអាមេរិក និងអឺរ៉ុបរបស់ Lenovo គាត់ដឹកនាំក្រុមដែលប្រើបច្ចេកទេស AI ទំនើបៗ ដើម្បីផ្តល់ដំណោះស្រាយសម្រាប់អតិថិជនខាងក្រៅ ខណៈពេលដែលគាំទ្រផ្នែកខាងក្នុងនៃយុទ្ធសាស្រ្ត AI ទាំងមូលសម្រាប់ក្រុមដំណោះស្រាយហេដ្ឋារចនាសម្ព័ន្ធពិភពលោក។ មុនពេលចូលបម្រើការងារជាមួយក្រុមហ៊ុន Lenovo គាត់បានដំណើរការក្រុមហ៊ុនវិភាគ និងឧបករណ៍វិទ្យាសាស្ត្រអន្តរជាតិ ហើយបានធ្វើការជាអ្នកវិទ្យាសាស្ត្រទិន្នន័យសម្រាប់សេវាប្រៃសណីយ៍សហរដ្ឋអាមេរិក។ មុននោះ គាត់បានទទួលបណ្ឌិតផ្នែកវិស្វកម្មជីវវេជ្ជសាស្ត្រពីសាកលវិទ្យាល័យ Johns Hopkins ។ គាត់មានការបោះពុម្ពផ្សាយជាច្រើននៅក្នុងទិនានុប្បវត្តិលំដាប់កំពូល រួមទាំងចំនួនពីរនៅក្នុង Proceedings of the National Academy of the Sciences ។
គ្រួសារផលិតផលដែលទាក់ទងនឹងឯកសារនេះមានដូចខាងក្រោម៖
សេចក្តីជូនដំណឹង
Lenovo ប្រហែលជាមិនផ្តល់ជូនផលិតផល សេវាកម្ម ឬលក្ខណៈពិសេសដែលបានពិភាក្សានៅក្នុងឯកសារនេះនៅគ្រប់ប្រទេសទាំងអស់ទេ។ ពិគ្រោះជាមួយតំណាងក្រុមហ៊ុន Lenovo ក្នុងតំបន់របស់អ្នកសម្រាប់ព័ត៌មានអំពីផលិតផល និងសេវាកម្មដែលមាននៅក្នុងតំបន់របស់អ្នក។ រាល់ការយោងទៅលើផលិតផល កម្មវិធី ឬសេវាកម្មរបស់ Lenovo មិនមានបំណងបញ្ជាក់ ឬបញ្ជាក់ថាមានតែផលិតផល កម្មវិធី ឬសេវាកម្មរបស់ Lenovo ប៉ុណ្ណោះដែលអាចប្រើបាន។ ផលិតផល កម្មវិធី ឬសេវាកម្មដែលមានមុខងារសមមូលណាមួយដែលមិនបំពានលើកម្មសិទ្ធិបញ្ញារបស់ Lenovo អាចត្រូវបានប្រើប្រាស់ជំនួសវិញ។ ទោះយ៉ាងណាក៏ដោយ វាជាទំនួលខុសត្រូវរបស់អ្នកប្រើប្រាស់ក្នុងការវាយតម្លៃ និងផ្ទៀងផ្ទាត់ប្រតិបត្តិការនៃផលិតផល កម្មវិធី ឬសេវាកម្មផ្សេងទៀត។ ក្រុមហ៊ុន Lenovo អាចមានប៉ាតង់ ឬពាក្យសុំប៉ាតង់ដែលកំពុងរង់ចាំដែលគ្របដណ្តប់លើប្រធានបទដែលបានពិពណ៌នានៅក្នុងឯកសារនេះ។ ការរៀបចំឯកសារនេះមិនផ្តល់ឱ្យអ្នកនូវអាជ្ញាប័ណ្ណណាមួយចំពោះប៉ាតង់ទាំងនេះទេ។ អ្នកអាចផ្ញើការសាកសួរអំពីអាជ្ញាប័ណ្ណ ជាលាយលក្ខណ៍អក្សរទៅកាន់៖
ក្រុមហ៊ុន Lenovo (សហរដ្ឋអាមេរិក), Inc ។
២៦៤៩ ដ្រាយអភិវឌ្ឍន៍
ម៉ូរីសវីល, NC ២៧៥៦០
សហរដ្ឋអាមេរិក
យកចិត្តទុកដាក់៖ នាយកផ្នែកអាជ្ញាប័ណ្ណរបស់ក្រុមហ៊ុន Lenovo
ក្រុមហ៊ុន LENOVO ផ្តល់ការបោះពុម្ពផ្សាយនេះ "ដូច" ដោយគ្មានការធានានៃប្រភេទណាមួយ ទាំងការបង្ហាញ ឬដោយបង្កប់ន័យ រួមទាំង ប៉ុន្តែមិនកំណត់ចំពោះ ការធានាដោយប្រយោលនៃការមិនរំលោភបំពាន ភាពមិនអាចកាត់ថ្លៃបាន គោលបំណង។ យុត្តាធិការមួយចំនួនមិនអនុញ្ញាតឱ្យមានការបដិសេធចំពោះការធានាភ្លាមៗ ឬដោយបង្កប់ន័យនៅក្នុងប្រតិបត្តិការជាក់លាក់នោះទេ ដូច្នេះសេចក្តីថ្លែងការណ៍នេះប្រហែលជាមិនអនុវត្តចំពោះអ្នកទេ។
ព័ត៌មាននេះអាចរួមបញ្ចូលភាពមិនត្រឹមត្រូវផ្នែកបច្ចេកទេស ឬកំហុសក្នុងការវាយអក្សរ។ ការផ្លាស់ប្តូរត្រូវបានធ្វើឡើងជាទៀងទាត់ចំពោះព័ត៌មាននៅទីនេះ។ ការផ្លាស់ប្តូរទាំងនេះនឹងត្រូវបានបញ្ចូលនៅក្នុងការបោះពុម្ពថ្មីនៃការបោះពុម្ពផ្សាយ។ ក្រុមហ៊ុន Lenovo អាចធ្វើការកែលម្អ និង/ឬការផ្លាស់ប្តូរនៅក្នុងផលិតផល និង/ឬកម្មវិធីដែលបានពិពណ៌នានៅក្នុងការបោះពុម្ពផ្សាយនេះនៅពេលណាក៏បានដោយមិនមានការជូនដំណឹងជាមុន។
ផលិតផលដែលបានពិពណ៌នានៅក្នុងឯកសារនេះមិនមានបំណងសម្រាប់ប្រើប្រាស់ក្នុងការផ្សាំ ឬកម្មវិធីជំនួយអាយុជីវិតផ្សេងទៀត ដែលដំណើរការខុសប្រក្រតីអាចបណ្តាលឱ្យមានរបួស ឬស្លាប់ដល់មនុស្ស។ ព័ត៌មានដែលមាននៅក្នុងឯកសារនេះមិនប៉ះពាល់ដល់ ឬផ្លាស់ប្តូរលក្ខណៈបច្ចេកទេស ឬការធានាផលិតផល Lenovo ទេ។ គ្មានអ្វីនៅក្នុងឯកសារនេះអាចដំណើរការជាអាជ្ញាប័ណ្ណបញ្ជាក់ ឬដោយបញ្ជាក់ ឬសំណងក្រោមសិទ្ធិកម្មសិទ្ធិបញ្ញារបស់ Lenovo ឬភាគីទីបី។ ព័ត៌មានទាំងអស់ដែលមាននៅក្នុងឯកសារនេះត្រូវបានទទួលនៅក្នុងបរិយាកាសជាក់លាក់ និងត្រូវបានបង្ហាញជាឧទាហរណ៍។ លទ្ធផលដែលទទួលបាននៅក្នុងបរិយាកាសប្រតិបត្តិការផ្សេងទៀតអាចប្រែប្រួល។ ក្រុមហ៊ុន Lenovo អាចប្រើប្រាស់ ឬចែកចាយព័ត៌មានណាមួយដែលអ្នកផ្គត់ផ្គង់តាមមធ្យោបាយណាមួយដែលវាជឿថាសមស្រប ដោយមិនចាំបាច់មានកាតព្វកិច្ចចំពោះអ្នកឡើយ។
សេចក្តីយោងណាមួយនៅក្នុងការបោះពុម្ពផ្សាយនេះចំពោះអ្នកដែលមិនមែនជា Lenovo Web គេហទំព័រត្រូវបានផ្តល់ជូនសម្រាប់ភាពងាយស្រួលតែប៉ុណ្ណោះ ហើយមិនមានលក្ខណៈណាមួយធ្វើជាការយល់ព្រមចំពោះគេហទំព័រទាំងនោះឡើយ។ Web គេហទំព័រ។ សម្ភារនៅហ្នឹង Web គេហទំព័រមិនមែនជាផ្នែកនៃសម្ភារៈសម្រាប់ផលិតផល Lenovo នេះទេ និងការប្រើប្រាស់វា។ Web គេហទំព័រគឺជាហានិភ័យផ្ទាល់ខ្លួនរបស់អ្នក។ ទិន្នន័យប្រតិបត្តិការណាមួយដែលមាននៅទីនេះត្រូវបានកំណត់នៅក្នុងបរិយាកាសដែលបានគ្រប់គ្រង។ ដូច្នេះលទ្ធផលដែលទទួលបាននៅក្នុងបរិយាកាសប្រតិបត្តិការផ្សេងទៀតអាចប្រែប្រួលយ៉ាងខ្លាំង។ ការវាស់វែងមួយចំនួនអាចត្រូវបានធ្វើឡើងនៅលើប្រព័ន្ធកម្រិតអភិវឌ្ឍន៍ ហើយមិនមានការធានាថាការវាស់វែងទាំងនេះនឹងដូចគ្នានៅលើប្រព័ន្ធដែលមានជាទូទៅនោះទេ។ លើសពីនេះ ការវាស់វែងមួយចំនួនអាចត្រូវបានគេប៉ាន់ស្មានតាមរយៈការបូកសរុប។ លទ្ធផលជាក់ស្តែងអាចប្រែប្រួល។ អ្នកប្រើប្រាស់ឯកសារនេះគួរតែផ្ទៀងផ្ទាត់ទិន្នន័យដែលអាចអនុវត្តបានសម្រាប់បរិយាកាសជាក់លាក់របស់ពួកគេ។
© រក្សាសិទ្ធិ Lenovo 2025. រក្សាសិទ្ធិគ្រប់យ៉ាង។
ឯកសារនេះ LP2130 ត្រូវបានបង្កើត ឬធ្វើបច្ចុប្បន្នភាពនៅថ្ងៃទី 24 ខែមករា ឆ្នាំ 2025។
ផ្ញើមតិរបស់អ្នកមកយើងតាមវិធីមួយក្នុងចំណោមវិធីខាងក្រោម៖
ប្រើអនឡាញ ទាក់ទងមកយើងវិញ។view ទម្រង់រកឃើញនៅ៖ https://lenovopress.lenovo.com/LP2130
ផ្ញើមតិរបស់អ្នកនៅក្នុងអ៊ីមែលទៅ៖ comment@lenovopress.com
ឯកសារនេះអាចរកបាននៅលើអ៊ីនធឺណិតនៅ https://lenovopress.lenovo.com/LP2130.
ពាណិជ្ជសញ្ញា
Lenovo និងនិមិត្តសញ្ញា Lenovo គឺជាពាណិជ្ជសញ្ញា ឬពាណិជ្ជសញ្ញាដែលបានចុះបញ្ជីរបស់ក្រុមហ៊ុន Lenovo នៅសហរដ្ឋអាមេរិក ប្រទេសផ្សេងទៀត ឬទាំងពីរ។ បញ្ជីពាណិជ្ជសញ្ញារបស់ក្រុមហ៊ុន Lenovo បច្ចុប្បន្នមាននៅលើ Web at https://www.lenovo.com/us/en/legal/copytrade/.
លក្ខខណ្ឌខាងក្រោមគឺជាពាណិជ្ជសញ្ញារបស់ក្រុមហ៊ុន Lenovo នៅសហរដ្ឋអាមេរិក ប្រទេសផ្សេងទៀត ឬទាំងពីរ៖ Lenovo®
ឈ្មោះក្រុមហ៊ុន ផលិតផល ឬសេវាកម្មផ្សេងទៀតអាចជាពាណិជ្ជសញ្ញា ឬសញ្ញាសេវាកម្មរបស់អ្នកដទៃ។
ការណែនាំអំពីទំហំ Lenovo LLM
ឯកសារ/ធនធាន
![]() |
Lenovo LLM Sizing Framework ទូលំទូលាយ [pdf] ការណែនាំអ្នកប្រើប្រាស់ LLM Sizing Comprehensive Framework, LLM Sizing, Comprehensive Framework, Framework |