NVIDIA NeMo Framework
ຂໍ້ມູນຈໍາເພາະ
- ຊື່ຜະລິດຕະພັນ: NVIDIA NeMo Framework
- ເວທີທີ່ໄດ້ຮັບຜົນກະທົບ: Windows, Linux, macOS
- ລຸ້ນທີ່ໄດ້ຮັບຜົນກະທົບ: ສະບັບທັງຫມົດກ່ອນທີ່ຈະ 24
- ຄວາມສ່ຽງດ້ານຄວາມປອດໄພ: CVE-2025-23360
- ຄະແນນພື້ນຖານການປະເມີນຄວາມສ່ຽງ: 7.1 (CVSS v3.1)
ຄໍາແນະນໍາການນໍາໃຊ້ຜະລິດຕະພັນ
ການຕິດຕັ້ງອັບເດດຄວາມປອດໄພ:
ເພື່ອປົກປ້ອງລະບົບຂອງທ່ານ, ປະຕິບັດຕາມຂັ້ນຕອນເຫຼົ່ານີ້:
- ດາວໂຫຼດລຸ້ນຫຼ້າສຸດຈາກໜ້າການປ່ອຍ NeMo-Framework-Launcher ໃນ GitHub.
- ໄປທີ່ NVIDIA Product Security ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມ.
ລາຍລະອຽດການປັບປຸງຄວາມປອດໄພ:
ການປັບປຸງຄວາມປອດໄພແກ້ໄຂຈຸດອ່ອນໃນ NVIDIA NeMo Framework ທີ່ສາມາດນໍາໄປສູ່ການປະຕິບັດລະຫັດແລະຂໍ້ມູນ t.ampສຽບ.
ຍົກລະດັບຊອບແວ:
ຖ້າທ່ານກໍາລັງໃຊ້ການປ່ອຍສາຂາກ່ອນຫນ້າ, ແນະນໍາໃຫ້ອັບເກຣດເປັນການປ່ອຍສາຂາຫລ້າສຸດເພື່ອແກ້ໄຂບັນຫາຄວາມປອດໄພ.
ເກີນview
NVIDIA NeMo Framework ເປັນກອບ AI ທົ່ວໄປທີ່ສາມາດຂະຫຍາຍໄດ້ແລະ cloud-native generative ທີ່ສ້າງຂຶ້ນສໍາລັບນັກຄົ້ນຄວ້າແລະນັກພັດທະນາທີ່ເຮັດວຽກຢູ່. ຮູບແບບພາສາຂະຫນາດໃຫຍ່, Multimodal, ແລະ ການປາກເວົ້າ AI (ຕົວຢ່າງ ການຮັບຮູ້ສຽງເວົ້າອັດຕະໂນມັດ ແລະ ຂໍ້ຄວາມເປັນສຽງເວົ້າ). ມັນຊ່ວຍໃຫ້ຜູ້ໃຊ້ສາມາດສ້າງ, ປັບແຕ່ງ, ແລະນໍາໃຊ້ຕົວແບບ AI ທີ່ມີປະສິດຕິຜົນໃຫມ່ໂດຍການໃຊ້ລະຫັດທີ່ມີຢູ່ແລະຈຸດກວດສອບແບບຈໍາລອງທີ່ຜ່ານການຝຶກອົບຮົມ.
ຄໍາແນະນໍາການຕິດຕັ້ງ: ຕິດຕັ້ງ NeMo Framework
NeMo Framework ສະໜອງການສະໜັບສະໜູນແບບຕົ້ນທາງເພື່ອພັດທະນາຕົວແບບພາສາຂະໜາດໃຫຍ່ (LLMs) ແລະຕົວແບບ Multimodal (MMs). ມັນສະຫນອງຄວາມຍືດຫຍຸ່ນໃນການນໍາໃຊ້ຢູ່ໃນສະຖານທີ່, ໃນສູນຂໍ້ມູນ, ຫຼືກັບຜູ້ໃຫ້ບໍລິການຟັງທີ່ທ່ານຕ້ອງການ. ມັນຍັງສະຫນັບສະຫນູນການປະຕິບັດໃນສະພາບແວດລ້ອມທີ່ເປີດໃຊ້ SLURM ຫຼື Kubernetes.
ການຈັດການຂໍ້ມູນ
NeMo Curator [1] ເປັນຫ້ອງສະຫມຸດ Python ທີ່ປະກອບມີຊຸດຂອງໂມດູນສໍາລັບການຂຸດຄົ້ນຂໍ້ມູນແລະການຜະລິດຂໍ້ມູນສັງເຄາະ. ພວກມັນສາມາດຂະຫຍາຍໄດ້ ແລະຖືກປັບໃຫ້ເໝາະສົມສຳລັບ GPUs, ເຮັດໃຫ້ພວກມັນເໝາະສຳລັບການຈັດລຽງຂໍ້ມູນພາສາທຳມະຊາດເພື່ອຝຶກອົບຮົມ ຫຼືປັບແຕ່ງ LLMs. ດ້ວຍ NeMo Curator, ທ່ານສາມາດສະກັດຂໍ້ຄວາມທີ່ມີຄຸນນະພາບສູງຈາກວັດຖຸດິບໄດ້ຢ່າງມີປະສິດທິພາບ web ແຫຼ່ງຂໍ້ມູນ.
ການຝຶກອົບຮົມແລະການປັບແຕ່ງ
NeMo Framework ສະຫນອງເຄື່ອງມືສໍາລັບການຝຶກອົບຮົມປະສິດທິພາບແລະການປັບແຕ່ງຂອງ LLMs ແລະແບບ Multimodal. ມັນປະກອບມີການຕັ້ງຄ່າເລີ່ມຕົ້ນສໍາລັບການຕິດຕັ້ງກຸ່ມຄອມພິວເຕີ້, ການດາວໂຫຼດຂໍ້ມູນ, ແລະຕົວກໍານົດການ hyperparameters, ເຊິ່ງສາມາດປັບຕົວເພື່ອຝຶກອົບຮົມກ່ຽວກັບຊຸດຂໍ້ມູນແລະຮູບແບບໃຫມ່. ນອກເຫນືອຈາກການຝຶກອົບຮົມກ່ອນ, NeMo ສະຫນັບສະຫນູນທັງ Supervised Fine-Tuning (SFT) ແລະ Parameter Efficient Fine-Tuning (PEFT) ເຕັກນິກເຊັ່ນ LoRA, Ptuning, ແລະອື່ນໆ.
ມີສອງທາງເລືອກໃນການເປີດຕົວການຝຶກອົບຮົມໃນ NeMo - ໂດຍໃຊ້ NeMo 2.0 API interface ຫຼືກັບ NeMo Run.
- ດ້ວຍ NeMo Run (ແນະນຳ): NeMo Run ສະຫນອງການໂຕ້ຕອບເພື່ອປັບປຸງການຕັ້ງຄ່າ, ການປະຕິບັດແລະການຄຸ້ມຄອງການທົດລອງໃນທົ່ວສະພາບແວດລ້ອມຄອມພິວເຕີ້ຕ່າງໆ. ນີ້ລວມມີການເປີດຕົວວຽກຢູ່ໃນບ່ອນເຮັດວຽກຂອງທ່ານຢູ່ໃນທ້ອງຖິ່ນຫຼືໃນກຸ່ມໃຫຍ່ - ທັງ SLURM ທີ່ເປີດໃຊ້ງານຫຼື Kubernetes ໃນສະພາບແວດລ້ອມຄລາວ.
- ການຝຶກອົບຮົມກ່ອນ ແລະ PEFT Quickstart ດ້ວຍ NeMo Run
- ການນໍາໃຊ້ NeMo 2.0 API: ວິທີການນີ້ໃຊ້ໄດ້ດີກັບການຕິດຕັ້ງແບບງ່າຍໆທີ່ກ່ຽວຂ້ອງກັບຕົວແບບຂະຫນາດນ້ອຍ, ຫຼືຖ້າທ່ານສົນໃຈໃນການຂຽນຕົວໂຫລດຂໍ້ມູນຂອງທ່ານເອງ, ການຝຶກອົບຮົມຫຼືການປ່ຽນແປງຊັ້ນຂອງຕົວແບບ. ມັນເຮັດໃຫ້ທ່ານມີຄວາມຍືດຫຍຸ່ນແລະການຄວບຄຸມການຕັ້ງຄ່າຫຼາຍຂຶ້ນ, ແລະເຮັດໃຫ້ມັນງ່າຍຕໍ່ການຂະຫຍາຍແລະປັບແຕ່ງການຕັ້ງຄ່າຕາມໂຄງການ.
-
ທຣາining Quickstart ກັບ NeMo 2.0 API
-
ການເຄື່ອນຍ້າຍຈາກ NeMo 1.0 ໄປ NeMo 2.0 API
-
ຈັດຮຽງ
- NeMo-Aligner [1] ເປັນຊຸດເຄື່ອງມືທີ່ສາມາດປັບຂະ ໜາດ ໄດ້ເພື່ອການຈັດຕົວແບບທີ່ມີປະສິດທິພາບ. ຊຸດເຄື່ອງມືໄດ້ຮັບການສະຫນັບສະຫນູນສໍາລັບຂັ້ນຕອນການຈັດລໍາດັບແບບຈໍາລອງທີ່ທັນສະໄຫມເຊັ່ນ SteerLM, DPO, ການຮຽນຮູ້ການເສີມສ້າງຈາກຄວາມຄິດເຫັນຂອງມະນຸດ (RLHF), ແລະອື່ນໆອີກ. ສູດການຄິດໄລ່ເຫຼົ່ານີ້ເຮັດໃຫ້ຜູ້ໃຊ້ສາມາດຈັດລຽງແບບຈໍາລອງພາສາໃຫ້ມີຄວາມປອດໄພກວ່າ, ບໍ່ເປັນອັນຕະລາຍ ແລະເປັນປະໂຫຍດ.
- ຈຸດກວດກາ NeMo-Aligner ທັງໝົດແມ່ນເຂົ້າກັນໄດ້ກັບລະບົບນິເວດ NeMo, ອະນຸຍາດໃຫ້ມີການປັບແຕ່ງເພີ່ມເຕີມ ແລະການນຳໃຊ້ inference.
ຂັ້ນຕອນທີໂດຍຂັ້ນຕອນຂອງທັງສາມໄລຍະຂອງ RLHF ໃນຮູບແບບ GPT-2B ຂະຫນາດນ້ອຍ:
- ການຝຶກອົບຮົມ SFT
- ການຝຶກອົບຮົມແບບຈໍາລອງລາງວັນ
- ການຝຶກອົບຮົມ PPO
ນອກຈາກນັ້ນ, ພວກເຮົາສະແດງໃຫ້ເຫັນສະຫນັບສະຫນູນສໍາລັບວິທີການຈັດຕັ້ງໃຫມ່ອື່ນໆ:
- DPO: ຂັ້ນຕອນການຈັດຮຽງທີ່ມີນ້ຳໜັກເບົາເມື່ອປຽບທຽບກັບ RLHF ທີ່ມີຟັງຊັນການສູນເສຍທີ່ງ່າຍກວ່າ.
- ຫຼິ້ນດ້ວຍຕົນເອງ ການປັບລະອຽດ (SPIN)
- SteerLM: ເຕັກນິກໂດຍອີງໃສ່ conditioned-SFT, ມີຜົນຜະລິດທີ່ຊີ້ນໍາ.
ກວດເບິ່ງເອກະສານສໍາລັບຂໍ້ມູນເພີ່ມເຕີມ: ເອກະສານການຈັດຮຽງ
ແບບ Multimodal
- NeMo Framework ສະໜອງຊອບແວທີ່ດີທີ່ສຸດເພື່ອຝຶກອົບຮົມ ແລະນຳໃຊ້ຕົວແບບ multimodal ທີ່ທັນສະໄໝໃນທົ່ວຫຼາຍປະເພດ: ແບບຈໍາລອງພາສາ Multimodal, ພື້ນຖານວິໄສທັດ, ຮູບແບບຂໍ້ຄວາມເປັນຮູບພາບ, ແລະນອກເໜືອໄປຈາກການຜະລິດ 2D ໂດຍໃຊ້ Neural Radiance Fields (NeRF).
- ແຕ່ລະປະເພດໄດ້ຖືກອອກແບບເພື່ອຕອບສະຫນອງຄວາມຕ້ອງການສະເພາະແລະຄວາມກ້າວຫນ້າໃນພາກສະຫນາມ, ນໍາໃຊ້ຕົວແບບທີ່ທັນສະໄຫມເພື່ອຈັດການກັບປະເພດຂໍ້ມູນທີ່ຫລາກຫລາຍ, ລວມທັງຂໍ້ຄວາມ, ຮູບພາບ, ແລະຕົວແບບ 3D.
ໝາຍເຫດ
ພວກເຮົາກຳລັງຍ້າຍການຮອງຮັບແບບ multimodal ຈາກ NeMo 1.0 ຫາ NeMo 2.0. ຖ້າທ່ານຕ້ອງການຄົ້ນຫາໂດເມນນີ້ໃນເວລານີ້, ກະລຸນາເບິ່ງເອກະສານສໍາລັບການປ່ອຍ NeMo 24.07 (ກ່ອນຫນ້າ).
ການນຳໃຊ້ ແລະການອ້າງອີງ
NeMo Framework ສະຫນອງເສັ້ນທາງຕ່າງໆສໍາລັບການ inference LLM, ຕອບສະຫນອງກັບສະຖານະການຂອງການນໍາໃຊ້ທີ່ແຕກຕ່າງກັນແລະຄວາມຕ້ອງການການປະຕິບັດ.
ນຳໃຊ້ກັບ NVIDIA NIM
- NeMo Framework ປະສົມປະສານຢ່າງບໍ່ຢຸດຢັ້ງກັບເຄື່ອງມືການນຳໃຊ້ຕົວແບບລະດັບວິສາຫະກິດຜ່ານ NVIDIA NIM. ການປະສົມປະສານນີ້ແມ່ນຂັບເຄື່ອນໂດຍ NVIDIA TensorRT-LLM, ຮັບປະກັນການແນະນໍາທີ່ດີທີ່ສຸດແລະສາມາດຂະຫຍາຍໄດ້.
- ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບ NIM, ໄປຢ້ຽມຢາມ NVIDIA webເວັບໄຊ.
ນຳໃຊ້ກັບ TensorRT-LLM ຫຼື vLLM
- NeMo Framework ສະເຫນີສະຄິບແລະ APIs ເພື່ອສົ່ງອອກແບບຈໍາລອງໄປຫາສອງຫ້ອງສະຫມຸດທີ່ດີທີ່ສຸດ inference, TensorRT-LLM ແລະ vLLM, ແລະເພື່ອນໍາໃຊ້ຮູບແບບທີ່ສົ່ງອອກກັບ NVIDIA Triton Inference Server.
- ສໍາລັບສະຖານະການທີ່ຕ້ອງການການເພີ່ມປະສິດທິພາບ, ໂມເດວ NeMo ສາມາດນໍາໃຊ້ TensorRT-LLM, ຫ້ອງສະຫມຸດພິເສດສໍາລັບການເລັ່ງແລະເພີ່ມປະສິດທິພາບ LLM inference on NVIDIA GPUs. ຂະບວນການນີ້ກ່ຽວຂ້ອງກັບການແປງຕົວແບບ NeMo ເຂົ້າໄປໃນຮູບແບບທີ່ເຫມາະສົມກັບ TensorRT-LLM ໂດຍໃຊ້ໂມດູນ nemo.export.
- ການນຳໃຊ້ LLM ຫຼາຍກວ່າview
- ນຳໃຊ້ຕົວແບບພາສາຂະໜາດໃຫຍ່ NeMo ດ້ວຍ NIM
- ນຳໃຊ້ຕົວແບບພາສາຂະໜາດໃຫຍ່ NeMo ດ້ວຍ TensorRT-LLM
- ນຳໃຊ້ຕົວແບບພາສາຂະໜາດໃຫຍ່ NeMo ດ້ວຍ vLLM
ຮູບແບບທີ່ຮອງຮັບ
ຮູບແບບພາສາຂະຫນາດໃຫຍ່
ຮູບແບບພາສາຂະຫນາດໃຫຍ່ | Pretraining & SFT | PEFT | ຈັດຮຽງ | FP8 ການຝຶກອົບຮົມ Convergence | TRT/TRTLLM | ປ່ຽນເປັນ & ຈາກການກອດໃບຫນ້າ | ການປະເມີນຜົນ |
---|---|---|---|---|---|---|---|
Llama3 8B/70B, Llama3.1 405B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ຢັ້ງຢືນບາງສ່ວນ) | ແມ່ນແລ້ວ | ທັງສອງ | ແມ່ນແລ້ວ |
Mixtral 8x7B/8x22B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | ແມ່ນແລ້ວ | ທັງສອງ | ແມ່ນແລ້ວ |
Nemotron 3 8B | ແມ່ນແລ້ວ | x | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | ທັງສອງ | ແມ່ນແລ້ວ |
Nemotron 4 340B | ແມ່ນແລ້ວ | x | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | ທັງສອງ | ແມ່ນແລ້ວ |
Baichuan2 7B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | ທັງສອງ | ແມ່ນແລ້ວ |
ChatGLM3 6B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | ທັງສອງ | ແມ່ນແລ້ວ |
Gemma 2B/7B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | ແມ່ນແລ້ວ | ທັງສອງ | ແມ່ນແລ້ວ |
Gemma2 2B/9B/27B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | ທັງສອງ | ແມ່ນແລ້ວ |
Mamba2 130M/370M/780M/1.3B/2.7B/8B/ Hybrid-8B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | x | ແມ່ນແລ້ວ |
Phi3 ມິນິ 4k | x | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | x | x |
Qwen2 0.5B/1.5B/7B/72B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | ແມ່ນແລ້ວ | ທັງສອງ | ແມ່ນແລ້ວ |
StarCoder 15B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | ແມ່ນແລ້ວ | ທັງສອງ | ແມ່ນແລ້ວ |
StarCoder2 3B/7B/15B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | ແມ່ນແລ້ວ | ທັງສອງ | ແມ່ນແລ້ວ |
BERT 110M/340M | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | ທັງສອງ | x |
T5 220M/3B/11B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | x | x | x | x |
ຮູບແບບພາສາວິໄສທັດ
ຮູບແບບພາສາວິໄສທັດ | Pretraining & SFT | PEFT | ຈັດຮຽງ | FP8 ການຝຶກອົບຮົມ Convergence | TRT/TRTLLM | ປ່ຽນເປັນ & ຈາກການກອດໃບຫນ້າ | ການປະເມີນຜົນ |
---|---|---|---|---|---|---|---|
NeVA (LLaVA 1.5) | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | ຈາກ | x |
Llama 3.2 ວິໄສທັດ 11B/90B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | ຈາກ | x |
LLaVA ຕໍ່ໄປ (LLaVA 1.6) | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | ຈາກ | x |
ການຝັງຕົວແບບ
ການຝັງຕົວແບບພາສາ | Pretraining & SFT | PEFT | ຈັດຮຽງ | FP8 ການຝຶກອົບຮົມ Convergence | TRT/TRTLLM | ປ່ຽນເປັນ & ຈາກການກອດໃບຫນ້າ | ການປະເມີນຜົນ |
---|---|---|---|---|---|---|---|
SBERT 340M | ແມ່ນແລ້ວ | x | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | ທັງສອງ | x |
ລາມາ 3.2 ການຝັງ 1B | ແມ່ນແລ້ວ | x | x | ແມ່ນແລ້ວ (ບໍ່ໄດ້ຢືນຢັນ) | x | ທັງສອງ | x |
ຮູບແບບມູນນິທິໂລກ
ຮູບແບບມູນນິທິໂລກ | ຫລັງການຝຶກອົບຮົມ | ເລັ່ງການອະນຸມານ |
---|---|---|
Cosmos-1.0-Diffusion-Text2World-7B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ |
Cosmos-1.0-Diffusion-Text2World-14B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ |
Cosmos-1.0-Diffusion-Video2World-7B | ໄວໆນີ້ | ໄວໆນີ້ |
Cosmos-1.0-Diffusion-Video2World-14B | ໄວໆນີ້ | ໄວໆນີ້ |
Cosmos-1.0-Autoregressive-4B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ |
Cosmos-1.0-Autoregressive-Video2World-5B | ໄວໆນີ້ | ໄວໆນີ້ |
Cosmos-1.0-Autoregressive-12B | ແມ່ນແລ້ວ | ແມ່ນແລ້ວ |
Cosmos-1.0-Autoregressive-Video2World-13B | ໄວໆນີ້ | ໄວໆນີ້ |
ໝາຍເຫດ
NeMo ຍັງສະຫນັບສະຫນູນ pretraining ສໍາລັບທັງ disffusion ແລະ autoregressive ສະຖາປັດຕະ text2world
ຮູບແບບພື້ນຖານ.
ການປາກເວົ້າ AI
ການພັດທະນາແບບຈໍາລອງ AI ການສົນທະນາແມ່ນຂະບວນການທີ່ສັບສົນທີ່ກ່ຽວຂ້ອງກັບການກໍານົດ, ການກໍ່ສ້າງ, ແລະຮູບແບບການຝຶກອົບຮົມພາຍໃນໂດເມນໂດຍສະເພາະ. ໂດຍປົກກະຕິຂະບວນການນີ້ຮຽກຮ້ອງໃຫ້ມີການຊໍ້າຄືນຫຼາຍຄັ້ງເພື່ອບັນລຸຄວາມຖືກຕ້ອງໃນລະດັບສູງ. ມັນມັກຈະກ່ຽວຂ້ອງກັບການຊໍ້າຄືນຫຼາຍຄັ້ງເພື່ອບັນລຸຄວາມຖືກຕ້ອງສູງ, ການປັບລະອຽດກ່ຽວກັບວຽກງານຕ່າງໆ ແລະຂໍ້ມູນສະເພາະຂອງໂດເມນ, ຮັບປະກັນການປະຕິບັດການຝຶກອົບຮົມ, ແລະການກະກຽມຕົວແບບສໍາລັບການນໍາໃຊ້ inference.
NeMo Framework ສະຫນອງການສະຫນັບສະຫນູນສໍາລັບການຝຶກອົບຮົມແລະການປັບແຕ່ງແບບຈໍາລອງ Speech AI. ນີ້ລວມມີໜ້າວຽກເຊັ່ນ: ການຮັບຮູ້ສຽງເວົ້າອັດຕະໂນມັດ (ASR) ແລະການສັງເຄາະຂໍ້ຄວາມເປັນສຽງເວົ້າ (TTS). ມັນສະຫນອງການຫັນປ່ຽນທີ່ລຽບງ່າຍໄປສູ່ການຜະລິດລະດັບວິສາຫະກິດກັບ NVIDIA Riva. ເພື່ອຊ່ວຍນັກພັດທະນາ ແລະ ນັກຄົ້ນຄວ້າ, NeMo Framework ລວມມີຈຸດກວດກາທີ່ຜ່ານການຝຶກອົບຮົມກ່ອນການຝຶກຫັດທີ່ທັນສະໄໝ, ເຄື່ອງມືສຳລັບການປະມວນຜົນຂໍ້ມູນສຽງເວົ້າທີ່ສາມາດຜະລິດຄືນໄດ້, ແລະຄຸນສົມບັດສຳລັບການສຳຫຼວດແບບໂຕ້ຕອບ ແລະການວິເຄາະຊຸດຂໍ້ມູນສຽງເວົ້າ. ອົງປະກອບຂອງ NeMo Framework ສໍາລັບ Speech AI ມີດັ່ງນີ້:
ການຝຶກອົບຮົມແລະການປັບແຕ່ງ
NeMo Framework ມີທຸກຢ່າງທີ່ຈໍາເປັນເພື່ອຝຶກອົບຮົມ ແລະປັບແຕ່ງຕົວແບບການເວົ້າ (ASR, ການຈັດປະເພດສຽງເວົ້າ, ການຮັບຮູ້ຂອງລໍາໂພງ, Speaker Diarization, ແລະ TTS) ໃນວິທີການສືບພັນ.
SOTA ຮູບແບບທີ່ຜ່ານການຝຶກອົບຮົມ
- NeMo Framework ສະໜອງສູດອາຫານທີ່ທັນສະໄໝ ແລະຈຸດກວດກາທີ່ຜ່ານການຝຶກອົບຮົມຂອງຫຼາຍໆບ່ອນ ASR ແລະ TTS ແບບຈໍາລອງ, ເຊັ່ນດຽວກັນກັບຄໍາແນະນໍາກ່ຽວກັບວິທີການໂຫຼດໃຫ້ເຂົາເຈົ້າ.
- ເຄື່ອງມືການປາກເວົ້າ
- NeMo Framework ສະຫນອງຊຸດຂອງເຄື່ອງມືທີ່ເປັນປະໂຫຍດສໍາລັບການພັດທະນາແບບ ASR ແລະ TTS, ລວມທັງ:
- NeMo Forced Aligner (NFA) ສໍາລັບການສ້າງ token-, word- ແລະ segment-level timestamps ຂອງສຽງເວົ້າໃນສຽງໂດຍໃຊ້ຕົວແບບການຮັບຮູ້ສຽງເວົ້າອັດຕະໂນມັດທີ່ອີງໃສ່ CTC ຂອງ NeMo.
- ຕົວປະມວນຜົນຂໍ້ມູນສຽງເວົ້າ (SDP), ຊຸດເຄື່ອງມືສໍາລັບການເຮັດໃຫ້ການປະມວນຜົນຂໍ້ມູນສຽງເວົ້າງ່າຍຂຶ້ນ. ມັນອະນຸຍາດໃຫ້ທ່ານເປັນຕົວແທນການດໍາເນີນການປະມວນຜົນຂໍ້ມູນໃນ config file, ຫຼຸດຜ່ອນລະຫັດ boilerplate ແລະອະນຸຍາດໃຫ້ການແຜ່ພັນແລະ shareability.
- Speech Data Explorer (SDE), ເປັນ Dash-based web ຄໍາຮ້ອງສະຫມັກສໍາລັບການສໍາຫຼວດແບບໂຕ້ຕອບແລະການວິເຄາະຊຸດຂໍ້ມູນຄໍາເວົ້າ.
- ເຄື່ອງມືສ້າງຊຸດຂໍ້ມູນ ເຊິ່ງໃຫ້ຟັງຊັນເພື່ອຈັດຮຽງສຽງຍາວ files ດ້ວຍການຖອດຂໍ້ຄວາມທີ່ສອດຄ້ອງກັນແລະແບ່ງອອກເປັນຊິ້ນສ່ວນທີ່ສັ້ນກວ່າທີ່ເຫມາະສົມສໍາລັບການຝຶກອົບຮົມແບບຈໍາລອງການຮັບຮູ້ສຽງເວົ້າອັດຕະໂນມັດ (ASR).
- ເຄື່ອງມືການປຽບທຽບ ສໍາລັບ ASR Models ເພື່ອປຽບທຽບການຄາດຄະເນຂອງແບບຈໍາລອງ ASR ທີ່ແຕກຕ່າງກັນໃນລະດັບຄວາມຖືກຕ້ອງຂອງຄໍາສັບແລະຄໍາເວົ້າ.
- ASR ຜູ້ປະເມີນ ສໍາລັບການປະເມີນຜົນການປະຕິບັດຂອງຕົວແບບ ASR ແລະລັກສະນະອື່ນໆເຊັ່ນ: ການກວດສອບກິດຈະກໍາສຽງ.
- ເຄື່ອງມືປົກກະຕິຂໍ້ຄວາມ ສໍາລັບການປ່ຽນຂໍ້ຄວາມຈາກຮູບແບບການລາຍລັກອັກສອນໄປເປັນຮູບແບບການເວົ້າແລະກົງກັນຂ້າມ (ເຊັ່ນ "31st" vs "ສາມສິບທໍາອິດ").
- ເສັ້ນທາງໄປສູ່ການປະຕິບັດ
- ຮູບແບບ NeMo ທີ່ໄດ້ຮັບການຝຶກອົບຮົມຫຼືປັບແຕ່ງໂດຍໃຊ້ NeMo Framework ສາມາດຖືກປັບແຕ່ງແລະນໍາໃຊ້ກັບ NVIDIA Riva. Riva ສະໜອງພາຊະນະບັນຈຸ ແລະຕາຕະລາງ Helm ທີ່ຖືກອອກແບບໂດຍສະເພາະເພື່ອເຮັດໃຫ້ຂັ້ນຕອນອັດຕະໂນມັດສໍາລັບການຕິດຕັ້ງປຸ່ມກົດ.
ຊັບພະຍາກອນອື່ນໆ
- ເນໂມ: ຄັງເກັບມ້ຽນຫຼັກສໍາລັບ NeMo Framework
- ເນໂມ–ແລ່ນ: ເຄື່ອງມືໃນການຕັ້ງຄ່າ, ເປີດຕົວ ແລະຈັດການການທົດລອງການຮຽນຮູ້ເຄື່ອງຈັກຂອງທ່ານ.
- NeMo-Aligner: ຊຸດເຄື່ອງມືທີ່ສາມາດປັບຂະ ໜາດ ໄດ້ເພື່ອການຈັດຕົວແບບທີ່ມີປະສິດທິພາບ
- NeMo-Curator: ຂໍ້ມູນທີ່ສາມາດປັບຂະໜາດໄດ້ກ່ອນການປະມວນຜົນ ແລະຊຸດເຄື່ອງມືສຳລັບ LLMs
ມີສ່ວນຮ່ວມກັບຊຸມຊົນ NeMo, ຖາມຄໍາຖາມ, ໄດ້ຮັບການສະຫນັບສະຫນູນ, ຫຼືລາຍງານຂໍ້ບົກພ່ອງ.
- ການສົນທະນາ NeMo
- ບັນຫາ NeMo
ພາສາການຂຽນໂປຣແກຣມ ແລະກອບວຽກ
- Python: ການໂຕ້ຕອບຕົ້ນຕໍທີ່ຈະໃຊ້ NeMo Framework
- Pytorg: NeMo Framework ຖືກສ້າງຂຶ້ນຢູ່ເທິງສຸດຂອງ PyTorch
ໃບອະນຸຍາດ
- NeMo Github repo ໄດ້ຮັບອະນຸຍາດພາຍໃຕ້ໃບອະນຸຍາດ Apache 2.0
- NeMo Framework ໄດ້ຮັບອະນຸຍາດພາຍໃຕ້ຂໍ້ຕົກລົງຂອງ NVIDIA AI PRODUCT. ໂດຍການດຶງແລະນໍາໃຊ້ພາຊະນະ, ທ່ານຍອມຮັບຂໍ້ກໍານົດແລະເງື່ອນໄຂຂອງໃບອະນຸຍາດນີ້.
- ກ່ອງບັນຈຸ NeMo Framework ປະກອບດ້ວຍວັດສະດຸ Llama ທີ່ຖືກຄວບຄຸມໂດຍຂໍ້ຕົກລົງໃບອະນຸຍາດຊຸມຊົນ Meta Llama3.
ໝາຍເຫດ
ໃນປັດຈຸບັນ, ການສະຫນັບສະຫນູນ NeMo Curator ແລະ NeMo Aligner ສໍາລັບແບບ Multimodal ແມ່ນວຽກງານທີ່ກໍາລັງດໍາເນີນຢູ່ແລະຈະສາມາດໃຊ້ໄດ້ໃນໄວໆນີ້.
FAQ
ຖາມ: ຂ້ອຍສາມາດກວດເບິ່ງວ່າລະບົບຂອງຂ້ອຍໄດ້ຮັບຜົນກະທົບຈາກຄວາມອ່ອນແອໄດ້ແນວໃດ?
A: ທ່ານສາມາດກວດເບິ່ງວ່າລະບົບຂອງທ່ານໄດ້ຮັບຜົນກະທົບຈາກການຢືນຢັນສະບັບຂອງ NVIDIA NeMo Framework ທີ່ຕິດຕັ້ງ. ຖ້າມັນຕ່ຳກວ່າເວີຊັນ 24, ລະບົບຂອງເຈົ້າອາດຈະມີຄວາມສ່ຽງ.
ຖາມ: ໃຜລາຍງານບັນຫາຄວາມປອດໄພ CVE-2025-23360?
A: ບັນຫາຄວາມປອດໄພໄດ້ຖືກລາຍງານໂດຍ Or Peles – JFrog Security. NVIDIA ຮັບຮູ້ການປະກອບສ່ວນຂອງພວກເຂົາ.
ຖາມ: ຂ້ອຍຈະໄດ້ຮັບການແຈ້ງເຕືອນຂ່າວຄວາມປອດໄພໃນອະນາຄົດໄດ້ແນວໃດ?
A: ເຂົ້າໄປທີ່ໜ້າຄວາມປອດໄພຂອງຜະລິດຕະພັນ NVIDIA ເພື່ອສະໝັກຮັບການແຈ້ງເຕືອນຂ່າວຄວາມປອດໄພ ແລະ ຕິດຕາມການອັບເດດຄວາມປອດໄພຂອງຜະລິດຕະພັນ.
ເອກະສານ / ຊັບພະຍາກອນ
![]() |
NVIDIA NeMo Framework [pdf] ຄູ່ມືຜູ້ໃຊ້ NeMo Framework, NeMo, Framework |