لینووو لوگو

د لینوو لوګو ۱

د لینووو LLM اندازه کولو لارښود
پلان جوړونه / پلي کول

د LLM اندازه کولو جامع چوکاټ

د لویو ژبو ماډلونو (LLMs) د طبیعي ژبې پروسس کولو په ډګر کې انقلاب راوستی دی، د متن تولید، د احساساتو تحلیل، او د ژبې ژباړې په څیر غوښتنلیکونو ته اجازه ورکوي. په هرصورت، د دې ماډلونو چلولو لپاره د کمپیوټر اړتیاوې خورا مهم کیدی شي، چې د حل معمارانو لپاره دا ننګونه کوي چې هغه سیسټمونه ډیزاین او تنظیم کړي چې د خپلو پیرودونکو اړتیاوې پوره کوي.
د دې ننګونې د حل لپاره، دا د LLM اندازه کولو لارښود تاسو ته د LLMs د کار کولو، د دوی د کمپیوټري اړتیاو، او هغه کلیدي فکتورونو چې د دوی فعالیت اغیزه کوي، جامع پوهه چمتو کولو لپاره ډیزاین شوی. د دې لارښود هدف دا دی چې تاسو د پیرودونکو اړتیاو ارزولو، وړ سیسټمونو ډیزاین کولو، او د LLM بریالي ځای پرځای کولو ګړندي او دقیق وړاندې کولو لپاره اړین پوهه او وسایل چمتو کړئ.

لارښود، له دې څخه الهام اخیستی د NVIDIA د LLM انفرنس اندازه کول، به حیاتي موضوعات لکه د استنباط او روزنې / ښه کولو لپاره د GPU حافظې اړتیاو اټکل کولو لپاره د ګوتو اصول، د پیرودونکو څخه اړتیاوې راټولول، د معیارونو او فعالیت میټریکونو پوهیدل، او د ملکیت ټول لګښت اټکل کول پوښښ کړي. د دې لارښود په تعقیب سره، تاسو به وکولی شئ د LLMs پیچلي منظره نیویګیټ کړئ او د دوی پیرودونکو ته مطلوب حلونه چمتو کړئ چې د دوی ځانګړي اړتیاوې پوره کوي.
د دې لارښود په اوږدو کې، موږ به عملي مثال وړاندې کړوampد حل معمارانو سره د مرستې لپاره د مختلفو LLM سناریوګانو لپاره د محاسبې اړتیاو اټکل کولو لپاره لارښوونې، فورمولونه او لارښوونې. موږ به د پیرودونکو اړتیاو د پوهیدو اهمیت په اړه هم بحث وکړو، لکه ماډل، مقدار کول، د نښې اندازه، او د ځنډ اړتیاوې او دا عوامل څنګه د سیسټم ډیزاین او فعالیت اغیزه کوي.
په راتلونکې برخه کې، موږ به د GPU حافظې اړتیاو اټکل کولو لپاره "د ګوتو اصول" معرفي کړو، چې د استنباط سره پیل کیږي. دا به تاسو ته د تولید چاپیریال کې د LLM چلولو لپاره د لږترلږه GPU حافظې اړتیاو اټکل کولو لپاره یوه ساده او مؤثره لاره چمتو کړي.

د ګوتو اصول

د ګوتو قاعده د لویو ژبو ماډلونو (LLMs) چلولو لپاره د محاسبې اړتیاو اټکل کولو لپاره یوه ساده طریقه وړاندې کوي. دا برخه هغه مهم عوامل په ګوته کوي چې د GPU حافظې اړتیاوې اغیزمنوي او د استنباط او ښه کولو / روزنې لپاره د لږترلږه حافظې اړتیاو ګړندي اټکل کولو لپاره فورمولونه چمتو کوي.

استنباط کول
انفرنسنګ د روزل شوي LLM کارولو پروسې ته اشاره کوي ترڅو متن تولید کړي یا په نوي، نه لیدل شوي معلوماتو وړاندوینې وکړي. د انفرنسنګ لپاره د لږترلږه GPU حافظې اړتیا اټکل کولو لپاره، موږ کولی شو لاندې فورمول وکاروئ:
م = پ* ز* ۱.۲

چیرته:

  • M = د GPU حافظه چې په ګیګابایټ کې ښودل شوې ده
  • P = د ماډل (پیرامیټر) اندازه په ملیاردونو کې
  • Z = د بایټس کې د کوانټائزیشن فکتور (۱ بایټ = ۸ بټونه) – لاندې وګورئ
  • ۱.۲ = د GPU حافظې ته د اضافي معلوماتو بارولو لپاره ۲۰٪ لګښت څرګندوي

د مقدار ورکولو فکتور Z د کارول شوي دقت پورې اړه لري:

  • INT4: = 0.5
  • FP8/INT8: = ۱
  • ایف پي ۱۶: = ۲
  • ایف پي ۱۶: = ۲

د مثال لپارهample، د 3.1-bit quantization (FP70) کې د 16 ملیارد پیرامیټرو سره د لاما 16 چلولو لپاره د لږترلږه GPU حافظې اړتیا اټکل کولو لپاره، موږ کولی شو ارزښتونه په لاندې ډول ولګوو:
م = ۷۰ * ۲ * ۱.۲ = ۱۶۸ جي بي

د لینوو LLM د اندازې جامع چوکاټ - شکل ۱

دا فورمول د انفرنسنګ لپاره د لږترلږه GPU حافظې اړتیا اټکل کولو لپاره یوه ګړندۍ او ساده لاره چمتو کوي، د حل معمارانو ته اجازه ورکوي چې داسې سیسټمونه ډیزاین کړي چې د خپلو پیرودونکو اړتیاوې پوره کړي.

ښه تنظیم/روزنه
د لویې ژبې ماډل (LLM) ښه تنظیم یا روزنه د انفرنس کولو په پرتله د پام وړ ډیرو کمپیوټري سرچینو ته اړتیا لري. د ښه تنظیم/روزنې لپاره د GPU لږترلږه حافظې اړتیا د لاندې فورمول په کارولو سره اټکل کیدی شي:
ټول = (Z + 12 + Z) بایټس/پیرامیټر = P (2Z+12) GB حافظې ته اړتیا ده
چیرته:

  • P = د ماډل (پیرامیټر) اندازه په ملیاردونو کې
  • Z = د بایټس په اندازه کولو فکتور (۱ بایټ = ۸ بټونه)

په هرصورت، دا فورمول یو خورا لوړ اټکل وړاندې کوي، ځکه چې دا فرض کوي چې د بشپړ ماډل پیرامیټرونه، د اصلاح کونکي حالتونه، او تدریجي په حافظه کې زیرمه شوي دي. په عمل کې، تخنیکونه لکه د ټیټې درجې تطابق (LoRA) او مقدار شوی LoRA (QLORA) کولی شي د حافظې اړتیاوې په ډراماتیک ډول کمې کړي.
د دې لپاره چې تاسو ته ښه نظر درکړو، دلته د مختلفو میتودونو او دقیقیتونو په کارولو سره د LLMs د ښه کولو لپاره د GPU حافظې ځینې اټکل شوي اړتیاوې دي:

جدول 1. د VRAM اړتیاوو پرتله کول د مختلفو ماډل اندازو او د ښه کولو تخنیکونو لپاره

طریقه دقیق 7B 13B 30B 70B 110B
ډک 16 67GB 125GB 288GB 672GB 1056GB
لورا 16 15GB 28GB 63GB 146GB 229GB
د QLoRA 8 9GB 17GB 38GB 88GB 138GB
د QLoRA 4 5GB 9GB 20GB 46GB 72GB

لکه څنګه چې تاسو لیدلی شئ، د LoRA یا QLoRA کارول کولی شي د بشپړ فین ټونینګ میتود په پرتله د حافظې اړتیاوې 75-90٪ کمې کړي. دا ځکه چې دا تخنیکونه یوازې تطبیق شوي پیرامیټرې ذخیره کوي نه ټول ماډل، چې په پایله کې د پام وړ حافظې سپما کیږي.
کله چې د LLMs د ښه کولو/روزنې لپاره سیسټمونه ډیزاین کوئ، نو دا خورا مهمه ده چې کارول شوي ځانګړي میتود او دقت په پام کې ونیسئ، او همدارنګه د ماډل اندازه، ترڅو ډاډ ترلاسه شي چې سیسټم اړین کمپیوټري سرچینې پوره کوي. د LoRA یا QLoRA په څیر تخنیکونو په کارولو سره، د حل معماران کولی شي ډیر اغیزمن او ارزانه سیسټمونه ډیزاین کړي چې د خپلو پیرودونکو اړتیاوې پوره کوي.

د راټولولو اړتیاوې

د لویې ژبې ماډل (LLM) ځای پرځای کولو لپاره د اړین سیسټم ترتیب په سمه توګه ټاکلو لپاره، دا مهمه ده چې د پیرودونکي څخه ځانګړي اړتیاوې راټولې شي. دا اړتیاوې به د استنباط فعالیت اټکل کولو کې مرسته وکړي او ډاډ ترلاسه کړي چې سیسټم مطلوب اهداف پوره کوي.

د لینوو LLM د اندازې جامع چوکاټ - شکل ۱

د استنباط د فعالیت د اټکل کولو دمخه باید لاندې پنځه معلومات راټول شي:
۱. د ماډل انتخاب:
په دې پروژه کې د کارولو لپاره ټاکل شوی LLM ماډل وپیژنئ. د ماډل اندازه په ځانګړي ډول د استنباط فعالیت اغیزه کوي، لوی ماډلونه ورو او ډیر ګران دي. په یاد ولرئ چې کوچني ماډلونه کولی شي د ځانګړو دندو لپاره غوره کیفیت ولري پداسې حال کې چې د استنباط لګښتونه کموي. له همدې امله، سپارښتنه کیږي چې کوچني ماډلونه هم وپلټئ. د غوره شوي ماډل ځانګړتیاو پوهیدل به د اړینو محاسباتي سرچینو اټکل کې مرسته وکړي.
کله چې د LLM کارولو قضیې لپاره اړتیاوې راټولوئ، نو دا خورا مهمه ده چې د ان پټ ټوکن اوږدوالی په پام کې ونیول شي، کوم چې د ماډل فعالیت په ټاکلو کې یو له فکتورونو څخه دی. د شرایطو کړکۍ، چې د ان پټ او آوټ پټ ټوکنونو مجموعې په توګه تعریف شوې، پدې پروسه کې د پام وړ رول لوبوي. نوي ماډلونه، لکه لاما 3.1، تر 128,000 ټوکنونو پورې د لویو شرایطو کړکۍ ملاتړ کوي.

۲. د ننوتلو نښې:
د LLM په پرامپټ کې د ټوکنونو اوسط شمیر معلوم کړئ، په شمول د:

  • د سیسټم چټکتیا
  • متن
  • د کارونکي پرامپټ

د انګلیسي ژبې ماډلونو لپاره، یو ټوکن تقریبا د یوې کلمې 0.75 دی. د ټوکن شمیر کې د سیسټم اشارې او شرایطو شاملول ډاډ ورکوي چې د فعالیت اټکل کولو پرمهال د ننوتلو ټوله ترتیب په پام کې نیول کیږي.
د ننوتلو د ټوکنونو د شمېرنې د دقیق محاسبې لپاره، ټول هغه عناصر شامل کړئ چې په دې کې مرسته کوي، لکه د سیسټم اشارې (دودیز لارښوونې)، ترلاسه شوي اسناد (د ترلاسه کولو د ودې نسل پایپ لاینونو کې)، او د چیٹ تاریخ (د پخوانیو خبرو اترو تبادلې). د دې برخو څخه هر یو د ټوکنونو اعظمي بودیجې ته حساب کوي چې ماډل ته لیږدول کیدی شي.
د ان پټ لوی اوږدوالی کولی شي د استنباط فعالیت اغیزمن کړي، ځکه چې کلمې په ایمبیډینګونو بدلیږي او د KV کیش په څلور اړخیزه توګه وده کوي. د RAG پایپ لاینونو په څیر غوښتنلیکونه ممکن د ان پټ لوی اوږدوالي ته اړتیا ولري، چې په پایله کې د پروسس شوي معلوماتو د پام وړ مقدار له امله د لومړي ټوکن ځنډ زیاتیږي.
موږ به په دې مقاله کې وروسته د ټوکنونو او د ځنډونو په اړه د دوی اغیزې ته ژوره کتنه وکړو، او دا به وپلټو چې دوی څنګه د LLMs فعالیت اغیزه کوي او د غوره ماډل عملیاتو لپاره کوم نظرونه اړین دي.

۳. د وتلو نښې:
د LLM محصول کې د ټوکنونو اوسط شمیر رامینځته کړئ. دا اړینه ده ځکه چې د ډیرو ټوکنونو تولید ډیرو محاسباتي سرچینو او وخت ته اړتیا لري. د متوقع محصول اندازې پوهیدل به د داسې سیسټم ډیزاین کولو کې مرسته وکړي چې کولی شي د ځنډ یا کیفیت سره جوړجاړی پرته اړین تروپټ اداره کړي.

۴. په هره ثانیه کې اوسط غوښتنې (RPS):
د غوره فعالیت او د سرچینو اغیزمنې کارونې ډاډ ترلاسه کولو لپاره، د غوښتنو اعظمي شمیر وټاکئ چې سیسټم باید په هره ثانیه کې پروسس کړي. کله چې د ځای پر ځای کولو لپاره اندازه کول، دا خورا مهمه ده چې محاسبې د اوسط کارونې پرځای د اعظمي کارونې پراساس وي.
د غوښتنې نمونو کې د بدلون لپاره، موږ د اوسط RPS (په هره ثانیه کې غوښتنې) د Poisson PPF (د نقطې احتمال فعالیت) 95 سلنه کاروو. دا تګلاره د اعظمي تمه شوي بار په پیژندلو کې مرسته کوي، موږ ته اجازه راکوي چې داسې سیسټم ډیزاین کړو چې د لوړې غوښتنې اداره کړي پرته له دې چې د لوړې مودې په جریان کې کم کارول شي.
په دې پروسه کې د پیرودونکي څخه د اوسط غوښتنې نرخ ترلاسه کول او د پویسن ویش د 95 سلنې په کارولو سره د اعظمي غوښتنې نرخ محاسبه کول شامل دي. دا طریقه د سیسټم اړتیاو ډیر دقیق استازیتوب چمتو کوي، ځکه چې دا د غوښتنې نمونو کې طبیعي بدلون په پام کې نیسي. دا په ځانګړي ډول مهمه ده چې په یاد ولرئ چې که سیسټم په اعظمي ظرفیت کې نه چلیږي، د هر ټوکن اغیزمن لګښت د پام وړ لوړ کیدی شي.

۵. د ځنډ اړتیاوې:
د پیرودونکي د ځنډ اهدافو او محدودیتونو پوهیدل، په شمول د:

  1. د لومړي نښه ځنډ: هغه وخت چې ماډل د ځواب لومړۍ نښه تولیدولو لپاره نیسي.
  2. د وروستي نښه ځنډ: هغه ټول وخت چې ماډل د ټول ځواب تولید لپاره اخلي.

په ډیری غوښتنلیکونو کې ځنډ یو مهم فکتور دی، ځکه چې لوړ ځنډ کولی شي د کارونکي تجربه منفي اغیزه وکړي. د ټیټ لومړي نښه ځنډ (TTFT) پورې محدودول به په ډراماتیک ډول لوړ شيampد er throughput، پدې معنی چې د سیسټم وړتیا چې په یو وخت کې ډیری غوښتنې پروسس کړي، به له خطر سره مخ شي.
له همدې امله، دا اړینه ده چې د پیرودونکي د ځانګړو اړتیاو پراساس د ځنډ او تروپټ ترمنځ توازن رامنځته شي.
دا اړتیاوې د استنباط فعالیت اټکل کولو، د سیسټم اندازه کولو، او ډاډ ترلاسه کولو لپاره خورا مهم دي چې دا د پیرودونکي تمې پوره کوي. د دې معلوماتو راټولولو سره، تاسو به وکولی شئ د پیرودونکي اړتیاوې په ښه توګه درک کړئ او د سیسټم مناسب ترتیب ډیزاین کړئ چې فعالیت، لګښت او کیفیت متوازن کړي. په راتلونکو برخو کې، موږ به د دې اړتیاو څخه ځینې ته ژوره کتنه وکړو او وپلټو چې دوی څنګه د LLM ځای پرځای کولو اغیزه کوي.

تخنیکي ډوب: د LLM پوهیدل

پدې برخه کې، موږ به د لویو ژبو ماډلونو (LLMs) پیچلي کارونه د دوی تخنیکي اړخونو ته په کتلو سره وپلټو. موږ به دtagد LLM اجرا کولو مهارتونه زده کړئ، د اندازه کولو کلیدي معیارونه درک کړئ، او هغه تخنیکونه وګورئ چې استنباط ګړندی کوي.

دوه سtagد LLM اجرا کولو ځانګړتیاوې: پری ډکول vs ډیکوډینګ
د لویو ژبو ماډلونه (LLMs) پیچلي سیسټمونه دي چې ډیری ژبې پکې شاملې ديtagد انسان په څیر د متن ځوابونو د تولید لپاره د پروسس کولو طریقې. د دې پوهیدلtages د فعالیت د ښه کولو، د ځنډ کمولو، او د کاروونکي د عمومي تجربې د ښه کولو لپاره ګټور دی. پدې برخه کې، موږ به په دوه لومړنيtagد LLM اجرا کولو سندونه: مخکې ډکول او کوډ کول.

پری ډکول Stage
د مخکې ډکولtage هغه وخت ته اشاره کوي چې د LLM لپاره د کارونکي د ان پټ پرامپټ پروسس کولو او د لومړي آوټ پټ ټوکن تولیدولو لپاره وخت نیسي، کوم چې تقریبا د یوې کلمې سره مساوي دی. داtage لاندې مرحلې لري:

  1. د کارونکي پرامپټ پورته کول: د کارونکي ان پټ ترلاسه کیږي او سیسټم ته پورته کیږي.
  2. د KV-کیشې ډکول: د دې مودې په جریان کېtage، LLM خپل د کیلي-ویل (KV) زیرمه د ان پټ ټوکنونو څخه معلوماتو سره ډکوي. دا زیرمه د اړونده شرایطو پورې اړوند معلوماتو ذخیره کولو او بیرته ترلاسه کولو لپاره کارول کیږي.
  3. د لومړي ټوکن د ترلاسه کولو غوښتنه: هغه وخت چې LLM د ان پټ پرامپټ پروسس کولو او د لومړي آوټ پټ ټوکن تولیدولو لپاره اخلي.

د مخکې ډکولtage په عمده توګه محاسبه پورې تړلی دی، پدې معنی چې فعالیت یې په لویه کچه په شته محاسباتي سرچینو پورې اړه لري. هغه وخت چې دا د دې بشپړولو لپاره نیسيtage یوازې د ننوتلو ټوکنونو شمیر پورې اړه لري، چې دا د وړاندوینې وړ او دوامداره پروسه جوړوي.

د S ډیکوډ کولtage
د کوډ کولو څرنګوالیtage، چې د نسل یا توسعې په نوم هم پیژندل کیږي، هغه ځای دی چې LLM یو په یو د غبرګون ټوکنونه تولیدوي، د پری فل په جریان کې تولید شوي لومړني محصول ټوکن باندې جوړوي.tage. دا ایسtage پکې شامل دي:

  1. د ټوکنونو ترمنځ ځنډ: هغه وخت چې د لومړي ټوکن وروسته د هر راتلونکي ټوکن تولید لپاره نیسي.
  2. د ټوکن په واسطه د ټوکن نسل: LLM د ځواب ټوکنونه په لفظ په لفظ تولیدوي، د پریفیل په جریان کې راټول شوي شرایطو او معلوماتو په کارولو سره.tage.
  3. د ننوتلو او وتلو ټوکنونو پورې اړه: د ټوکنونو ترمنځ ځنډ د ننوتلو ټوکنونو شمیر او د تولید شوي وتلو ټوکنونو شمیر پورې اړه لري.

د پریفیل برعکسtage، ډیکوډینګ معمولا د حافظې پورې تړلی وي، پدې معنی چې د هغې فعالیت د حافظې سرچینو شتون لخوا خورا اغیزمن کیږي. لکه څنګه چې LLM ډیر ټوکنونه تولیدوي، دا د مخ پر ودې شرایطو ذخیره کولو او اداره کولو لپاره ډیرې حافظې ته اړتیا لري، کوم چې کولی شي د ځنډ زیاتوالي لامل شي.

د LLM انفرنس اندازه کولو میټریکونه

کله چې د لویو ژبو ماډلونو (LLMs) فعالیت ارزونه کیږي، د استنباط سرعت اندازه کولو لپاره ډیری کلیدي میټریکونه کارول کیږي. پدې کې شامل دي:

  • د لومړي ټوکن ترلاسه کولو وخت (TTFT): هغه وخت چې د ننوتلو پروسس کولو او د لومړي ټوکن تولید لپاره وخت نیسي.
  • د ټوکنونو ترمنځ ځنډ (ITL): هغه وخت چې د لومړي ټوکن وروسته د هر راتلونکي ټوکن تولید لپاره وخت نیسي، چې د وخت پر محصول ټوکن (TPOT) په نوم هم پیژندل کیږي.
  • د پای څخه تر پایه ځنډ (E2E): هغه ټول وخت چې د یوې اشارې پروسس کولو او د ټولو ټوکنونو تولید لپاره نیسي، له ان پټ څخه تر آوټ پټ پورې.

دا میټریکونه د ماډل د فعالیت په اړه بصیرت چمتو کوي، د خنډونو په پیژندلو او د استنباط سرعت غوره کولو کې مرسته کوي.

د الوتنې دننه ډله کول
د الوتنې دننه بیچینګ (IFB) دا یو ځانګړی تخنیک دی چې د لوی ژبې ماډل (LLM) استنباط په جریان کې کارول کیږي ترڅو د GPU حافظې او کمپیوټري کارونې ترمنځ توازن رامینځته کړي، په نهایت کې ځنډ کم کړي. دا طریقه په ځانګړي ډول په اتوماتیک بیرته راګرځیدونکي استنباط کې اغیزمنه ده، چیرې چې LLM په ترتیب سره ټوکنونه تولیدوي، د راتلونکو تولید لپاره په تیرو تولید شویو ټوکنونو تکیه کوي.
IFB په مختلفو ځایونو کې ترتیبونو ته اجازه ورکويtages (دواړه مخکې ډکول او کوډ کول) باید په ورته بسته کې پروسس شي پرته لدې چې د ټولو غوښتنو بشپړیدو ته انتظار وباسي مخکې لدې چې نوي معرفي شي. دا طریقه ډیری مهمې ګټې وړاندې کوي:

  • د دوامداره بیچ اندازه: IFB د هر ټوکن نسل لپاره نږدې دوامداره بیچ اندازه فعالوي، چې د GPU لوړ کارونې لامل کیږي.
  • د اجرا چټک پیل: نوي غوښتنې کولی شي په چټکۍ سره اجرا پیل کړي کله چې سلاټونه شتون ولري، ځکه چې مهالویش کونکی یوازې د اوسني غوښتنو بشپړیدو پرځای د راتلونکي ټوکن نسل ته انتظار باسي.

د ټینسر آر ټي-ایل ایل ایم د LLM خدمت کولو پرمهال د GPU کارولو غوره کولو لپاره دودیز انفلایټ بیچینګ شاملوي. دا ځانګړتیا:

  • په بیچ کې بشپړې شوې غوښتنې بدلوي.
  • د ترتیب د پای (EoS) مارکر وروسته غوښتنې لرې کوي او نوې غوښتنې داخلوي.
  • د تروپټ، د لومړي نښه کولو وخت، او د GPU ټولیز کارول ښه کوي.

سربېره پردې، IFB په بې ساري ډول د TensorRT-LLM Triton بیک اینډ کې مدغم شوی او د TensorRT-LLM بیچ مدیر له لارې اداره کیدی شي. کله چې د نورو تخنیکونو سره یوځای شي لکه د حافظې سره تړلي او کمپیوټر پورې تړلي عملیات، چنک شوي ډیکوډینګ، قیاسي ډیکوډینګ، او سپیریټي، IFB د LLMs تروپټ لوړوي، دا یو د مؤثره LLM استنباط لپاره لازمي وسیله.

د لینوو LLM د اندازې جامع چوکاټ - شکل ۱

د ټینسر موازيتوب
د ټینسر موازي (TP) یو تخنیک دی چې د لوی ژبې ماډل (LLM) استنباط کې کارول کیږي ترڅو د ډیری GPUs په اوږدو کې محاسباتي بار وویشي. پدې میتود کې د یو ماډل ویشل شامل دي چې په ډیری GPUs کې ویشل کیږي، کوم چې د دې GPUs ترمنځ په اغیزمنه ډیټا تبادلې باندې خورا تکیه کوي. TP په ځانګړي ډول د لویو ماډلونو لپاره ګټور دی چیرې چې د حافظې اړتیاوې د یو واحد GPU ظرفیت څخه ډیر وي.

د ټینسر موازيتوب کلیدي ځانګړتیاوې:

  • ټیټ ځنډ مګر ټیټ تروپټ: پداسې حال کې چې TP کولی شي د محاسبې موازي کولو سره ځنډ کم کړي، دا ممکن د GPU اړیکو سره تړلي اضافي لګښت له امله د ټیټ ټولیز تروپټ لامل هم شي.
  • د لویو ماډلونو لپاره اړتیا: د LLaMa-70B په څیر لویو ماډلونو لپاره، لږترلږه د 2 (TP >= 2) ټینسر موازي اړتیا ده. دا ډاډ ورکوي چې ماډل په مناسب ډول د څو GPUs په اوږدو کې ویشل کیدی شي ترڅو د شته حافظې او کمپیوټري سرچینو دننه فټ شي.
  • د NVLink فعالو سرورونو لپاره سپارښتنه: کله چې TP له 2 څخه ډیر شي، NVIDIA په کلکه سپارښتنه کوي چې د NVLink فعالو سرورونو څخه د استنباط لپاره کار واخلي. NVLink یو لوړ بینډ ویت، ټیټ ځنډ انټرکنیکټ چمتو کوي چې د دودیزو PCIe اتصالاتو په پرتله د GPUs ترمنځ د معلوماتو لیږد د پام وړ ښه کوي.

د معیارونو پوهیدل

بنچمارکونه د پیرودونکو لپاره د مثالي ترتیب اندازه کولو او غوره کولو کې مرکزي رول لوبوي، ځکه چې دوی د کلیدي میټریکونو لکه تروپټ، ځنډ، او غوښتنې نرخ ترمنځ د سوداګرۍ ارزونه کوي. د دې بنچمارکونو پوهیدل د لوی ژبې ماډل (LLM) استنباط لپاره د غوره ترتیب په ټاکلو کې مرسته کوي، چې د هارډویر او سافټویر اړتیاو په اړه باخبره پریکړو ته اجازه ورکوي.

د تروپټ په مقابل کې د ځنډ
د LLM استنباط په شرایطو کې، د تروپټ او لیټینسي ترمنځ توازن ترلاسه کول خورا مهم دي. تروپټ د هغو غوښتنو شمیر ته اشاره کوي چې د هر واحد وخت په جریان کې پروسس کیدی شي، پداسې حال کې چې لیټینسي هغه وخت دی چې د پیل څخه تر پایه پورې د یوې غوښتنې پروسس کولو لپاره اخیستل کیږي.

سوداګري:
د ځنډ محدودیتونو معرفي کول کولی شي موجوده تروپټ کم کړي. برعکس، د ځنډ محدودیتونو آرامول کولی شي ډیر لوړ تروپټ ته لار هواره کړي. د پیرودونکو کارولو قضیو پوهیدل د هر واحد وخت د ان پټ ټوکنونو، آوټ پټ ټوکنونو، او اوسط غوښتنو اټکلونه چمتو کوي، د ځانګړي هارډویر وړاندیز ته اجازه ورکوي چې د اړین تروپټ سره سمون خوري پداسې حال کې چې اړین ځنډ ساتل کیږي.
د څو غوښتنو سره یوځای کول ترڅو د تروپټ زیاتولو لپاره ځنډونه رامینځته کړي، د انفرادي غوښتنو لپاره ځنډ زیاتوي. د LLM انفرنس دوه مرحلې لري - پری ډکول (لوړ ځنډ، د موازي پروسس کولو ګټې) او ډیکوډ (ټیټ ځنډ، ټیټ کمپیوټري کارول).

عملي اغېزې:

  1. لوړ تروپټ: د لوړې غوښتنې حجم سره د لویې کچې ځای پرځای کولو لپاره مثالی.
  2. ټیټ ځنډ: د ریښتیني وخت ځواب غوښتنلیکونو لپاره خورا مهم دی، لکه د خبرو اترو مصنوعي ذهانت یا متقابل سیسټمونه.

د لینوو LLM د اندازې جامع چوکاټ - شکل ۱

د تروپټ-لیټینسي سوداګرۍ په پوهیدو او اداره کولو سره، د LLM انفرنس سیسټمونه د ځانګړي غوښتنلیک اړتیاو پوره کولو لپاره غوره کیدی شي. د دودیز بنچمارکینګ لپاره، وسایل لکه د NVIDIA لخوا GenAI-Perf کولی شي د یو ځانګړي ماډل د سیسټم فعالیت په اړه ارزښتناکه بصیرت چمتو کړي.

د بنچمارک ګرافونو د تفسیر زده کولو لپاره، د دې سند په پای کې موضوع وګورئ، اضافي معلومات - د اندازې کولو لپاره ګرافونه لوستل.

د اعظمي بیچ اندازې، هم آهنګۍ، د غوښتنې نرخ، او تروپټ پوهیدل
د ټولو اصطلاحاتو په اړه خبرې کول یو څه ګډوډونکی کیدی شي، نو راځئ چې هر مفهوم مات کړو ترڅو د دوی اړیکې او د سیسټم ارزونې کې اهمیت روښانه کړو.

د بیچ اعظمي اندازه
د max_batch_size پیرامیټر دوه رولونه لري: یو د انجن جوړولو پرمهال او بل د چلولو په وخت کې.

  1. د انجن جوړښت: دا ترتیب ډاډ ورکوي چې پایله لرونکی سیسټم، د یوې ټاکلې بیچ اندازې لپاره د هغې ظرفیت سره، د شته حافظې دننه فټ کیږي. دا په اصل کې د ظرفیت پلان کولو په اړه دی ترڅو د اجرا کولو پرمهال د حافظې ستونزو مخه ونیول شي.
  2. د چلولو وخت: دا ترتیب دا ټاکي چې څومره غوښتنې د پروسس کیدو دمخه یوځای سره یوځای کیدی شي. د چلولو وخت max_batch_size باید د جوړیدو وخت max_batch_size څخه کم یا مساوي وي. په ریښتیني سناریوګانو کې د غوښتنو اصلي بسته کول د دې پیرامیټر لخوا اغیزمن کیږي، چې مستقیم موثریت او فعالیت اغیزه کوي.

د بستې اندازه او همغږي

  • همغږي (C) < < < << د بیچ اندازه (MBS): کله چې د هممهاله غوښتنو شمیر د اعظمي بیچ اندازې څخه کم وي، انجن معمولا د هممهاله کچې سره مساوي اندازې سره بیچونه پروسس کوي. دا پدې مانا ده چې په هره بیچ کې وړیا سلاټونه شتون لري، ځکه چې په بیچ کې ټول احتمالي پوستونه ډک شوي ندي.
  • همغږي (C) >= د بستې اعظمي اندازه (MBS): که چیرې همغږي د بستې اعظمي اندازې سره مساوي یا زیاته وي، نو بستې معمولا ډکې وي، په اعظمي ظرفیت کې پروسس کیږي. د نویو غوښتنو لپاره قطار به وده پیل کړي، د C - MBS اوسط اندازې سره، ځکه چې راتلونکي غوښتنې د پخوانیو بستو پای ته رسیدو ته انتظار باسي.

د پایلې میټریک په توګه د همغږۍ او غوښتنې کچه
د سیسټم فعالیت په هر اړخیزه توګه اندازه کولو لپاره، په پام کې ونیسئ:

  • تروپټ: د هغو غوښتنو شمیر چې سیسټم یې په هر واحد وخت کې پروسس کولی شي.
  • د پیل څخه تر پایه پورې ځنډ: د پیل څخه تر پایه پورې د غوښتنې د پروسس کولو لپاره ټول وخت.
  • همغږي: د هغو غوښتنو شمیر چې په یو وخت کې اداره کیدی شي.

یو سیسټم چې لوړ همغږي او لوړ ځنډ ولري ممکن د هغه سیسټم په څیر ورته تروپټ ترلاسه کړي چې ټیټ همغږي مګر ټیټ ځنډ لري. په هرصورت، وروستی ډیر اغیزمن دی ځکه چې دا انفرادي غوښتنو ته ګړندی ځواب ورکوي.
له همدې امله، د "په یوه دقیقه کې غوښتنې" (یا ورته وخت پر بنسټ میټریک) د سیسټمونو د اندازې کولو او د برخه اخیستونکو سره د فعالیت په اړه د بحث لپاره د لومړني اقدام په توګه کارول یو متوازن view د سیسټم ظرفیت. دا د همغږۍ او ځنډ دواړو اړتیاو فکتور کولو کې مرسته کوي، د هغه څه روښانه انځور وړاندې کوي چې سیسټم یې په اغیزمنه توګه اداره کولی شي.

د ان پټ پیرامیټر په توګه د همغږۍ او غوښتنې نرخ
د سرعت د دقیق اندازه کولو (تروپټ) لپاره، دا اړینه ده چې د انجن د بیچ اندازه د یو پروسس دورې څخه بل ته دوامداره وساتل شي.

  • د ان پټ په توګه د هم آهنګۍ کارول: دا طریقه ډاډ ورکوي چې د بیچ اندازه ثابته پاتې کیږي، د باور وړ اندازه کول چمتو کوي.
  • د غوښتنې نرخ د ننوتلو پیرامیټر په توګه ټاکل: دا ستونزمن کیدی شي ځکه چې که د غوښتنې کچه د سیسټم له تروپټ څخه زیاته شي، نو قطار به په دوامداره توګه وده وکړي، چې ځنډ به زیات کړي. برعکس، د سیسټم له تروپټ څخه ښکته د غوښتنې نرخ ټاکل پدې معنی دي چې ټول شته سلاټونه نه کارول کیږي، چې د کمزوري فعالیت لامل کیږي.

سپارښتنې

  1. د ان پټ میټریک په توګه د ټوکن اندازو سره همغږي وکاروئ: دا د کنټرول شویو تجربو لپاره اجازه ورکوي چې کولی شي سیسټم تر خپلو حدودو پورې فشار راوړي یا د سپکو بارونو لاندې د هغې غبرګون اندازه کړي.
  2. د غوښتنې کچه د پایلې میټریک په توګه وکاروئ: دا په دې اړه بصیرت وړاندې کوي چې سیسټم په حقیقت کې په ټاکل شوي وخت چوکاټ کې څومره غوښتنې پروسس کولی شي، چې د هغې ظرفیت او موثریت دواړه منعکس کوي.

د دې پیرامیټرو کنټرولولو او په سم میټریکونو تمرکز کولو سره، تصدۍ کولی شي ډیر اغیزمن سیسټمونه ډیزاین کړي چې د تولید، ځنډ او سرچینو کارول په مؤثره توګه متوازن کړي.

د مالکیت ټول لګښت: کلاوډ د پریم په مقابل کې

د لویو ژبو ماډل (LLM) استنباط پلي کول د عصري سوداګرۍ لپاره اړین کیږي. دوه اصلي انتخابونه شتون لري: کلاوډ پر بنسټ او آن پریمیس. موږ به د هر انتخاب ګټې او محدودیتونه وپلټو ترڅو تاسو سره د باخبره پریکړې کولو کې مرسته وکړو.

د کلاوډ پر بنسټ ځای پرځای کول
د کلاوډ پر بنسټ ځای پرځای کول د "تادیه په توګه" ماډل وړاندې کوي، چیرې چې تاسو یوازې د کارول شویو سرچینو لپاره پیسې ورکوئ.
په هرصورت، ځینې نیمګړتیاوې شتون لري چې باید په پام کې ونیول شي:

  • د معلوماتو امنیت: پرته لدې چې د تصدۍ درجې جواز واخیستل شي، ستاسو معلومات ممکن د راتلونکي ماډلونو د روزنې لپاره وکارول شي، چې په بالقوه توګه د معلوماتو لیکیدو لامل کیږي.
  • د نرخ ناڅرګندتیا: نرخونه د بدلون تابع دي، او تاسو په ماډل باندې لږ کنټرول لرئ، کوم چې ممکن د ښه کولو یا دودیز کولو ملاتړ ونکړي.
  • محدود کنټرول: تاسو د اشارو د ځنډ او تروپټ په اړه محدود کنټرول لرئ.

د کلاوډ پر بنسټ د ځای پرځای کولو لګښت معمولا د ننوتلو او وتلو ټوکنونو پراساس محاسبه کیږي، د هر ټوکن لپاره یو ثابت قیمت سره. د مثال په توګهampپه هرصورت، د یو ملیون داخلي ټوکنونو لګښت ممکن $15 وي، پداسې حال کې چې د یو ملیون داخلي ټوکنونو لګښت $60 وي.
د لګښت اټکل کولو لپاره، تاسو کولی شئ د حساب کونکي څخه کار واخلئ چې د ننوتلو او وتلو ټوکنونو شمیر په پام کې نیسي.

په ځای کې ځای پر ځای کول
په ساحه کې ځای پر ځای کول د پام وړ مخکینۍ پانګونې ته اړتیا لري مګر ډیری ګټې وړاندې کوي:

  • بشپړ کنټرول: تاسو په سیسټم بشپړ کنټرول لرئ، او د اړتیا په صورت کې د بدلونونو اجازه ورکوئ.
  • د لګښت له پلوه اغېزمن: د ظرفیت سره نږدې د ثابتې کارونې سره، په ساحه کې ځای پر ځای کول په اوږد مهال کې د لګښت له پلوه اغېزمن کیدی شي.
  • امنیت: ستاسو معلومات خوندي دي، او تاسو په سیسټم بشپړ کنټرول لرئ.

د ځای پر ځای کولو سره تړلي لګښتونه پدې کې شامل دي:

  1. د GPU سرور پیرود: د GPU سرور پیرود قیمت، کوم چې د هارډویر او سیسټم ډول پورې اړه لري.
  2. د معلوماتو مرکز لګښتونه: د بریښنا، کرایې ځای، کارمندانو او نورو لګښتونو پورې اړوند لګښتونه.
  3. د جواز فیس: د هر ډول اضافي خدماتو لپاره د جواز کلنی فیس، د بیلګې په توګه، NVAIE

د هر یو ملیون اشارو (زنګونو) لګښت موندلو لپاره:

د لینوو LLM د اندازې جامع چوکاټ - سمبول ۱

چیرته

  • Z = د هر یو ملیون اشارو لګښت
  • ج = د یو کال په اوږدو کې په اوسط ډول د پریم ټول لګښت
  • X = په سیسټم کې په هر ثانیه کې اشارې (تروپټ)

د کلاوډ او آن پریمیس ځای پرځای کولو پرتله کول
د کلاوډ او آن پریمیس ځای پرځای کولو ترمنځ د عادلانه پرتله کولو لپاره، موږ فرض کوو چې:

  1. هغه ماډلونه چې په دواړو پلیټ فارمونو کې ځای پر ځای شوي دي په کیفیت کې مساوي دي.
  2. په دواړو پلیټ فارمونو کې ترلاسه شوي ځنډ او تروپټ ورته دي.

موږ کولی شو د هر یو ملیون پرامپټونو لپاره د آن پریم لګښتونه د هر یو ملیون پرامپټونو لپاره د آن کلاوډ لګښتونو سره پرتله کړو ترڅو عادلانه پرتله وکړو. موږ حتی کولی شو د آن پریم لپاره د هر ان پټ ټوکن او آوټ پټ ټوکن لګښت ومومئ.

د لګښت لنډیز
په پایله کې، د کلاوډ پر بنسټ او په ځای کې د ځای پرځای کولو اختیارونه دواړه خپلې ګټې او محدودیتونه لري.
د کلاوډ پر بنسټ ځای پر ځای کول یو انعطاف منونکی او د اندازې وړ حل وړاندې کوي مګر ممکن د معلوماتو امنیت او کنټرول سره جوړجاړی وکړي. په ځای کې ځای پر ځای کول بشپړ کنټرول او امنیت چمتو کوي مګر مخکینۍ پانګونې ته اړتیا لري.
په اوږد مهال کې، د وقفې نقطې ته رسیدل کیږي چیرې چې په ځای کې ځای پرځای کول د بادل په پرتله مالي معنی لري.

سپارښتنه
کله چې د کلاوډ پر بنسټ او آن پریمیس ځای پرځای کولو ترمنځ پریکړه کوئ، لاندې ټکي په پام کې ونیسئ:

  • د معلوماتو امنیت: که دا ستاسو لومړیتوب وي، نو په ځای کې ځای پر ځای کول غوره دي.
  • د پیمانه کولو وړتیا: که تاسو اړتیا لرئ چې په چټکۍ سره اندازه کړئ، د کلاوډ پر بنسټ ځای پرځای کول ممکن ډیر مناسب وي.
  • بودیجه: که بودیجه یوه اندیښنه وي، نو په ساحه کې ځای پر ځای کول په اوږد مهال کې د لګښت له پلوه اغیزمن کیدی شي.

په نهایت کې، پریکړه ستاسو په ځانګړو اړتیاوو او لومړیتوبونو پورې اړه لري.

پایله
په پایله کې، د لویې ژبې ماډل (LLM) ځای پرځای کولو لپاره د سیسټمونو ډیزاین کولو پرمهال د فعالیت او محاسبې اړتیاو دقیق اټکل خورا مهم دی. د دې ترلاسه کولو لپاره، د پیرودونکو څخه ځانګړي اړتیاوې راټول کړئ، پشمول د ماډل انتخاب، د ننوتلو نښه اوږدوالی، مقدار کول، او د ځنډ اړتیاوې. چمتو شوي فورمولونه او لارښوونې، لکه د GPU حافظې اړتیاو اټکل کولو لپاره "د ګوتو قانون"، د حل معمارانو لپاره د ارزښتناکو وسیلو په توګه کار کوي ترڅو په چټکۍ سره وړ سیسټمونه ارزونه او ډیزاین کړي چې د پیرودونکو غوښتنې پوره کوي.
د ماډل اندازې، دقت او کوانټائزیشن په څیر مهمو فکتورونو په پام کې نیولو سره، تاسو کولی شئ د سیسټم ترتیبات غوره کړئ ترڅو فعالیت او لګښت متوازن کړئ. سربیره پردې، د ټیټ رتبې تطابق (LoRA) او کوانټائزډ LoRA (QLoRA) په څیر تخنیکونه کولی شي د ښه کولو او روزنې په جریان کې د حافظې اړتیاوې په بنسټیز ډول کمې کړي، چې ډیر اغیزمن او ارزانه حلونه فعالوي.
دا د LLM د اټکل اندازه کولو لارښود د LLMs پیچلي منظره کې د نیویګیټ کولو لپاره اړین پوهه او تخصص سره ځواک ورکوي، بریالي ځای پرځای کول وړاندې کوي، او د دوی د پیرودونکو ځانګړي اړتیاوې پوره کولو لپاره مناسب حلونه چمتو کوي. د دې لارښوونو او غوره کړنو په تعقیب سره، تاسو کولی شئ غوره فعالیت ډاډمن کړئ، لګښتونه کم کړئ، او د طبیعي ژبې پروسس کولو په چټکۍ سره وده کونکي ډګر کې د سوداګرۍ بریالیتوب پرمخ بوځي.

اضافي معلومات - د اندازې کولو لپاره د ګرافونو لوستل

یو ګراف چې پر بنسټ یې د NVIDIA NIMs څخه د بنچمارک معلومات داسې ښکاري:

د لینوو LLM د اندازې جامع چوکاټ - شکل ۱

شکل 5: Sampد لاما ۳ ۸ بي ماډل لپاره د ۲۰۰۰ ان پټ او ۲۰۰۰ آوټ پټ ټوکنونو سره د تروپټ په مقابل کې د لومړي ټوکن لیټینسي ګراف
متقابل ګرافونه تاسو ته اجازه درکوي چې ماډلونه، وسایل، د ان پټ + آوټ پټ ټوکن ترکیب، د ایکس محور میټریک او د Y محور پایله غوره کړئ. د ایکس محور لپاره موږ کولی شو د ان پټ پیرامیټرې لکه TTFT، TTLT، یا ITL د ټوکنونو لپاره ولرو. د Y محور لپاره موږ د آوټ پټ پیرامیټرې لرو لکه د هر سیسټم لپاره پرامپټونه یا د هر سیسټم لپاره out_tokens یا د هر GPU مثال لپاره.
یو پخوانیampاندازه کول:
یو پیرودونکی د llama2000 2000B ماډل سره د 3 انچه، 8 بهر نښه غواړي او د 1 ثانیې څخه کم TTFT غواړي. د محدودیتونو په کارولو سره موږ د 1 ثانیې TTFT (FTL) په چپ اړخ کې په ګراف کې یو ټکی پیدا کوو، دا به داسې ښکاري:

د لینوو LLM د اندازې جامع چوکاټ - شکل ۱

دا تاسو ته وایی چې یو واحد 8xH100 سیسټم به د TRT-LLM کارولو پرمهال تر 400 پورې هممهاله (پاک) کاروونکو اداره کولو توان ولري. په هرصورت، موږ ګورو چې دا د 38 ثانیو څخه ډیر ټول ځنډ لري. که موږ د ټیټ ټول ځنډ غوښتونکي یو (راځئ چې ووایو د 20 ثانیو څخه کم)، موږ به د تروپټ قرباني کړو، د X-axis د ټول ځنډ (TTLT) په توګه اصلاح کړو، موږ لرو:

د لینوو LLM د اندازې جامع چوکاټ - شکل ۱

دلته موږ د 100ms TTFT او د 358s څخه کم TTLT سره د 20 هممهاله کاروونکو سره یو ټکی لرو. لکه څنګه چې موږ ګورو، د ځنډ محدودیتونو تنظیم کول په پراخه کچه د تروپټ او اعظمي هممهاله کیدو اغیزه کوي.
په خپل سیسټم کې د بنچمارکونو چلولو لپاره، مراجعه وکړئ د LLM بنچمارکینګ لارښود لپاره د NVIDIA NIM کارول د GenAI فعالیت د LLM میټریکونو ترلاسه کولو لپاره.

لیکوالان
سچن ګوپال واني په لینوو کې د مصنوعي ذهانت ډیټا ساینس پوه دی، چې د مختلفو پیرودونکو لپاره د ماشین زده کړې (ML) غوښتنلیکونو کې کار کوي، او د نیو ټاک مصنوعي ذهانت چوکاټ رامینځته کوي. هغه د روټګرز پوهنتون څخه د سرو زرو مډال ګټونکي په توګه فارغ شوی چې په ماشین زده کړې کې تخصص لري، او د JN ټاټا سکالرشپ یې ترلاسه کړی دی.
ډیویډ ایلیسن د لینووو ISG لپاره د معلوماتو لوی ساینس پوه دی. د لینووو د متحده ایالاتو او اروپایی AI کشف مرکزونو له لارې، هغه د یوې داسې ډلې مشري کوي چې د بهرني پیرودونکو لپاره د حل لارو وړاندې کولو لپاره د عصري AI تخنیکونو څخه کار اخلي پداسې حال کې چې د نړیوال زیربنا حل ګروپ لپاره د AI عمومي ستراتیژۍ ملاتړ کوي. د لینووو سره د یوځای کیدو دمخه، هغه د نړیوال ساینسي تحلیل او تجهیزاتو شرکت چلاوه او د متحده ایالاتو د پوستي خدماتو لپاره د معلوماتو ساینس پوه په توګه یې کار کاوه. له دې مخکې، هغه د جان هاپکنز پوهنتون څخه د بایو میډیکل انجینرۍ کې د دوکتورا سند ترلاسه کړ. هغه په ​​لوړ پوړو ژورنالونو کې ډیری خپرونې لري چې پکې دوه یې د علومو د ملي اکاډمۍ د پروسې په برخه کې دي.

د محصول اړوند کورنۍ

د دې سند پورې اړوند د محصول کورنۍ په لاندې ډول دي:

خبرتیاوې
لینوو ممکن په ټولو هیوادونو کې په دې سند کې بحث شوي محصولات، خدمات یا ځانګړتیاوې وړاندې نه کړي. ستاسو په سیمه کې د موجوده محصولاتو او خدماتو په اړه د معلوماتو لپاره د خپل سیمه ایز لینوو استازي سره مشوره وکړئ. د لینوو محصول، پروګرام، یا خدمت ته هر ډول حواله د دې لپاره نه ده چې ووایی یا اشاره وکړي چې یوازې هغه لینوو محصول، پروګرام، یا خدمت کارول کیدی شي. هر فعال مساوي محصول، پروګرام، یا خدمت چې د لینوو فکري ملکیت حق نه سرغړونه کوي ممکن پرځای یې وکارول شي. په هرصورت، دا د کارونکي مسؤلیت دی چې د کوم بل محصول، پروګرام، یا خدمت عملیات ارزونه او تایید کړي. لینوو ممکن د پیټینټ یا د پیټینټ پاتې غوښتنلیکونه ولري چې پدې سند کې تشریح شوي موضوع پوښي. د دې سند چمتو کول تاسو ته د دې پیټینټونو لپاره هیڅ جواز نه درکوي. تاسو کولی شئ د جواز پوښتنې په لیکلي ډول واستوئ:

لینوو (متحده ایالات) ، Inc.
8001 پرمختیایی ډرایو
مورییسوییل ، ​​NC 27560
USA
پاملرنه: د لینوو د جواز ورکولو رییس

لینوو دا خپرونه د هر ډول تضمین پرته "لکه څنګه ده" چمتو کوي، یا هم څرګند یا ضمیمه، په شمول، مګر محدود نه وي، د غیر سرغړونې تضمین شوي تضمین، ځانګړې موخه. ځینې ​​​​قضایاوې په ځینو معاملو کې د څرګند یا ضمیمه تضمین ردولو ته اجازه نه ورکوي، له همدې امله، دا بیان ممکن تاسو باندې تطبیق نشي.
پدې معلوماتو کې تخنیکي غلطۍ یا ټایپوګرافیکي غلطۍ شاملې کیدی شي. دلته په معلوماتو کې په دوره توګه بدلونونه راځي؛ دا بدلونونه به د خپرونې په نویو نسخو کې شامل شي. لینوو ممکن هر وخت پرته له خبرتیا پرته په دې خپرونه کې تشریح شوي محصول (محصولاتو) او/یا برنامو کې اصلاحات او بدلونونه رامینځته کړي.

په دې سند کې تشریح شوي محصولات د امپلانټیشن یا نورو ژوند مالتړ غوښتنلیکونو کې د کارولو لپاره ندي چیرې چې خرابوالی ممکن د افرادو ټپي کیدو یا مرګ لامل شي. پدې سند کې موجود معلومات د Lenovo محصول مشخصات یا تضمین اغیزه نه کوي یا بدلوي. په دې سند کې هیڅ شی باید د لینووو یا دریمې ډلې د فکري ملکیت حقونو لاندې د څرګند یا ضمیمه جواز یا جبران په توګه کار ونه کړي. په دې سند کې موجود ټول معلومات په ځانګړي چاپیریال کې ترلاسه شوي او د مثال په توګه وړاندې کیږي. په نورو عملیاتي چاپیریالونو کې ترلاسه شوي پایلې ممکن توپیر ولري. Lenovo ممکن هر هغه معلومات وکاروي یا توزیع کړي چې تاسو یې چمتو کوئ په هره طریقه چې دا مناسب باور لري پرته له دې چې تاسو ته کوم مسؤلیت درکړي.
غیر لینووو ته پدې خپرونه کې کوم مراجع Web سایټونه یوازې د اسانتیا لپاره چمتو شوي او په هیڅ ډول د دوی د تایید په توګه کار نه کوي Web سایټونه. په هغو کې مواد Web سایټونه د دې لینوو محصول لپاره د موادو برخه نه دي، او د هغو کارول Web سایټونه ستاسو په خطر کې دي. دلته د فعالیت هرډول معلومات په کنټرول شوي چاپیریال کې ټاکل شوي. نو ځکه، په نورو عملیاتي چاپیریالونو کې ترلاسه شوي پایلې ممکن د پام وړ توپیر ولري. ځینې ​​​​پیمانې ممکن د پراختیا کچې سیسټمونو کې رامینځته شوي وي او هیڅ تضمین شتون نلري چې دا اندازه کول به په عمومي ډول موجود سیسټمونو کې ورته وي. سربیره پردې، ځینې اندازه کول ممکن د استخراج له لارې اټکل شوي وي. اصلي پایلې ممکن توپیر ولري. د دې سند کاروونکي باید د دوی ځانګړي چاپیریال لپاره د تطبیق وړ ډاټا تصدیق کړي.

© Copyright Lenovo 2025. ټول حقونه خوندي دي.

دا سند، LP2130، د جنوري په 24، 2025 کې جوړ یا تازه شوی.
موږ ته خپل نظرونه په لاندې لارو کې واستوئ:
آنلاین وکاروئ موږ سره اړیکه ونیسئview فورمه دلته وموندل شوه: https://lenovopress.lenovo.com/LP2130
خپل نظرونه په بریښنالیک کې واستوئ: comments@lenovopress.com
دا سند آنلاین شتون لري https://lenovopress.lenovo.com/LP2130.

سوداګریزې نښې
Lenovo او Lenovo لوگو په متحده ایالاتو، نورو هیوادونو، یا دواړه کې د Lenovo سوداګریزې نښې یا راجستر شوي سوداګریزې نښې دي. د لینوو سوداګریزو نښو اوسنی لیست په کې شتون لري Web at https://www.lenovo.com/us/en/legal/copytrade/.
لاندې شرایط په متحده ایالاتو، نورو هیوادونو، یا دواړو کې د Lenovo سوداګریزې نښې دي: Lenovo®
د نورو شرکت، محصول، یا خدماتو نومونه کیدای شي د نورو سوداګریزې نښې یا د خدماتو نښه وي.

د لینووو LLM اندازه کولو لارښود

اسناد / سرچینې

د لینوو LLM اندازه کولو جامع چوکاټ [pdf] د کارونکي لارښود
د LLM اندازه کولو جامع چوکاټ، د LLM اندازه کولو، جامع چوکاټ، چوکاټ

حوالې

یو نظر پریږدئ

ستاسو بریښنالیک پته به خپره نشي. اړین ساحې په نښه شوي *