ਲੇਨੋਵੋ ਐਲਐਲਐਮ ਸਾਈਜ਼ਿੰਗ ਵਿਆਪਕ ਫਰੇਮਵਰਕ ਉਪਭੋਗਤਾ ਗਾਈਡ

ਲੇਨੋਵੋ ਐਲਐਲਐਮ ਸਾਈਜ਼ਿੰਗ ਗਾਈਡ
ਯੋਜਨਾਬੰਦੀ / ਲਾਗੂ ਕਰਨਾ

ਸਮੱਗਰੀ ਓਹਲੇ

1 ਐਲਐਲਐਮ ਸਾਈਜ਼ਿੰਗ ਵਿਆਪਕ ਢਾਂਚਾ

2 ਅੰਗੂਠੇ ਦਾ ਨਿਯਮ

3 ਇਕੱਠ ਕਰਨ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ

4 ਤਕਨੀਕੀ ਡਾਈਵ: ਐਲਐਲਐਮ ਨੂੰ ਸਮਝਣਾ

5 ਐਲਐਲਐਮ ਇਨਫਰੈਂਸ ਮਾਪ ਮੈਟ੍ਰਿਕਸ

6 ਮਾਪਦੰਡਾਂ ਨੂੰ ਸਮਝਣਾ

7 ਮਾਲਕੀ ਦੀ ਕੁੱਲ ਲਾਗਤ: ਕਲਾਉਡ ਬਨਾਮ ਆਨ-ਪ੍ਰੇਮ

8 ਵਾਧੂ ਜਾਣਕਾਰੀ - ਆਕਾਰ ਦੇਣ ਲਈ ਗ੍ਰਾਫ਼ ਪੜ੍ਹਨਾ

9 ਸੰਬੰਧਿਤ ਉਤਪਾਦ ਪਰਿਵਾਰ

10 ਦਸਤਾਵੇਜ਼ / ਸਰੋਤ

10.1 ਹਵਾਲੇ

ਐਲਐਲਐਮ ਸਾਈਜ਼ਿੰਗ ਵਿਆਪਕ ਢਾਂਚਾ

ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਨੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਦੇ ਖੇਤਰ ਵਿੱਚ ਕ੍ਰਾਂਤੀ ਲਿਆ ਦਿੱਤੀ ਹੈ, ਜਿਸ ਨਾਲ ਟੈਕਸਟ ਜਨਰੇਸ਼ਨ, ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਭਾਸ਼ਾ ਅਨੁਵਾਦ ਵਰਗੇ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਸਮਰੱਥ ਬਣਾਇਆ ਗਿਆ ਹੈ। ਹਾਲਾਂਕਿ, ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੂੰ ਚਲਾਉਣ ਲਈ ਕੰਪਿਊਟੇਸ਼ਨਲ ਜ਼ਰੂਰਤਾਂ ਕਾਫ਼ੀ ਹੋ ਸਕਦੀਆਂ ਹਨ, ਜਿਸ ਨਾਲ ਹੱਲ ਆਰਕੀਟੈਕਟਾਂ ਲਈ ਉਹਨਾਂ ਸਿਸਟਮਾਂ ਨੂੰ ਡਿਜ਼ਾਈਨ ਅਤੇ ਕੌਂਫਿਗਰ ਕਰਨਾ ਚੁਣੌਤੀਪੂਰਨ ਹੋ ਜਾਂਦਾ ਹੈ ਜੋ ਆਪਣੇ ਗਾਹਕਾਂ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦੇ ਹਨ।
ਇਸ ਚੁਣੌਤੀ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ, ਇਹ LLM ਸਾਈਜ਼ਿੰਗ ਗਾਈਡ ਤੁਹਾਨੂੰ LLMs ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ, ਉਨ੍ਹਾਂ ਦੀਆਂ ਕੰਪਿਊਟੇਸ਼ਨਲ ਜ਼ਰੂਰਤਾਂ, ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰਨ ਵਾਲੇ ਮੁੱਖ ਕਾਰਕਾਂ ਦੀ ਵਿਆਪਕ ਸਮਝ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੀ ਗਈ ਹੈ। ਇਸ ਗਾਈਡ ਦਾ ਟੀਚਾ ਤੁਹਾਨੂੰ ਗਾਹਕਾਂ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ, ਸਮਰੱਥ ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਡਿਜ਼ਾਈਨ ਕਰਨ, ਅਤੇ ਸਫਲ LLM ਤੈਨਾਤੀਆਂ ਨੂੰ ਜਲਦੀ ਅਤੇ ਸਹੀ ਢੰਗ ਨਾਲ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ ਗਿਆਨ ਅਤੇ ਸਾਧਨਾਂ ਨਾਲ ਲੈਸ ਕਰਨਾ ਹੈ।

ਗਾਈਡ, ਜਿਸ ਤੋਂ ਪ੍ਰੇਰਿਤ ਹੈ NVIDIA ਦਾ LLM ਇਨਫਰੈਂਸ ਸਾਈਜ਼ਿੰਗ, ਮਹੱਤਵਪੂਰਨ ਵਿਸ਼ਿਆਂ ਨੂੰ ਕਵਰ ਕਰੇਗਾ ਜਿਵੇਂ ਕਿ ਅਨੁਮਾਨ ਲਗਾਉਣ ਅਤੇ ਸਿਖਲਾਈ/ਫਾਈਨ-ਟਿਊਨਿੰਗ ਲਈ GPU ਮੈਮੋਰੀ ਲੋੜਾਂ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਲਈ ਅੰਗੂਠੇ ਦੇ ਨਿਯਮ, ਗਾਹਕਾਂ ਤੋਂ ਲੋੜਾਂ ਇਕੱਠੀਆਂ ਕਰਨਾ, ਬੈਂਚਮਾਰਕ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਸਮਝਣਾ, ਅਤੇ ਮਾਲਕੀ ਦੀ ਕੁੱਲ ਲਾਗਤ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ। ਇਸ ਗਾਈਡ ਦੀ ਪਾਲਣਾ ਕਰਕੇ, ਤੁਸੀਂ LLMs ਦੇ ਗੁੰਝਲਦਾਰ ਲੈਂਡਸਕੇਪ ਨੂੰ ਨੈਵੀਗੇਟ ਕਰਨ ਦੇ ਯੋਗ ਹੋਵੋਗੇ ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਗਾਹਕਾਂ ਨੂੰ ਉਨ੍ਹਾਂ ਦੀਆਂ ਖਾਸ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਾਲੇ ਅਨੁਕੂਲਿਤ ਹੱਲ ਪ੍ਰਦਾਨ ਕਰ ਸਕੋਗੇ।
ਇਸ ਗਾਈਡ ਦੌਰਾਨ, ਅਸੀਂ ਵਿਹਾਰਕ ਉਦਾਹਰਣ ਪ੍ਰਦਾਨ ਕਰਾਂਗੇampਵੱਖ-ਵੱਖ LLM ਦ੍ਰਿਸ਼ਾਂ ਲਈ ਕੰਪਿਊਟੇਸ਼ਨਲ ਜ਼ਰੂਰਤਾਂ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਵਿੱਚ ਹੱਲ ਆਰਕੀਟੈਕਟਾਂ ਦੀ ਮਦਦ ਕਰਨ ਲਈ ਲੈਸ, ਫਾਰਮੂਲੇ ਅਤੇ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼। ਅਸੀਂ ਗਾਹਕਾਂ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਸਮਝਣ ਦੀ ਮਹੱਤਤਾ, ਜਿਵੇਂ ਕਿ ਮਾਡਲ, ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ, ਟੋਕਨ ਆਕਾਰ, ਅਤੇ ਲੇਟੈਂਸੀ ਜ਼ਰੂਰਤਾਂ ਅਤੇ ਇਹ ਕਾਰਕ ਸਿਸਟਮ ਡਿਜ਼ਾਈਨ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਭਾਵਤ ਕਰਦੇ ਹਨ, ਬਾਰੇ ਵੀ ਚਰਚਾ ਕਰਾਂਗੇ।
ਅਗਲੇ ਭਾਗ ਵਿੱਚ, ਅਸੀਂ GPU ਮੈਮੋਰੀ ਲੋੜਾਂ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ "ਰੂਲ ਆਫ਼ ਥੰਬ" ਪੇਸ਼ ਕਰਾਂਗੇ, ਜੋ ਕਿ ਅੰਦਾਜ਼ੇ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ। ਇਹ ਤੁਹਾਨੂੰ ਉਤਪਾਦਨ ਵਾਤਾਵਰਣ ਵਿੱਚ LLM ਚਲਾਉਣ ਲਈ ਘੱਟੋ-ਘੱਟ GPU ਮੈਮੋਰੀ ਲੋੜਾਂ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਦਾ ਇੱਕ ਸਰਲ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੀਕਾ ਪ੍ਰਦਾਨ ਕਰੇਗਾ।

ਅੰਗੂਠੇ ਦਾ ਨਿਯਮ

ਅੰਗੂਠੇ ਦਾ ਨਿਯਮ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਨੂੰ ਚਲਾਉਣ ਲਈ ਕੰਪਿਊਟੇਸ਼ਨਲ ਜ਼ਰੂਰਤਾਂ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਲਈ ਇੱਕ ਸਰਲ ਪਹੁੰਚ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਭਾਗ GPU ਮੈਮੋਰੀ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰਨ ਵਾਲੇ ਮੁੱਖ ਕਾਰਕਾਂ ਦੀ ਰੂਪਰੇਖਾ ਦਿੰਦਾ ਹੈ ਅਤੇ ਅਨੁਮਾਨ ਲਗਾਉਣ ਅਤੇ ਫਾਈਨ-ਟਿਊਨਿੰਗ/ਸਿਖਲਾਈ ਲਈ ਘੱਟੋ-ਘੱਟ ਮੈਮੋਰੀ ਜ਼ਰੂਰਤਾਂ ਦਾ ਤੇਜ਼ੀ ਨਾਲ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਫਾਰਮੂਲੇ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ
ਇਨਫਰੈਂਸਿੰਗ ਇੱਕ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ LLM ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਟੈਕਸਟ ਤਿਆਰ ਕਰਨ ਜਾਂ ਨਵੇਂ, ਅਣਦੇਖੇ ਡੇਟਾ 'ਤੇ ਭਵਿੱਖਬਾਣੀਆਂ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ। ਇਨਫਰੈਂਸਿੰਗ ਲਈ ਘੱਟੋ-ਘੱਟ GPU ਮੈਮੋਰੀ ਲੋੜ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ, ਅਸੀਂ ਹੇਠ ਦਿੱਤੇ ਫਾਰਮੂਲੇ ਦੀ ਵਰਤੋਂ ਕਰੋ:
ਐਮ = ਪੀ*ਜ਼ੈਡ* 1.2

ਕਿੱਥੇ:

M = ਗੀਗਾਬਾਈਟ ਵਿੱਚ ਦਰਸਾਈ ਗਈ GPU ਮੈਮੋਰੀ

P = ਬਿਲੀਅਨਾਂ ਵਿੱਚ ਮਾਡਲ (ਪੈਰਾਮੀਟਰ) ਦਾ ਆਕਾਰ
Z = ਬਾਈਟਾਂ ਵਿੱਚ ਕੁਆਂਟਾਇਜ਼ੇਸ਼ਨ ਫੈਕਟਰ (1 ਬਾਈਟ = 8 ਬਿੱਟ) - ਹੇਠਾਂ ਦੇਖੋ

1.2 = GPU ਮੈਮੋਰੀ ਵਿੱਚ ਵਾਧੂ ਡੇਟਾ ਲੋਡ ਕਰਨ ਲਈ 20% ਓਵਰਹੈੱਡ ਦਰਸਾਉਂਦਾ ਹੈ।

ਕੁਆਂਟਾਇਜ਼ੇਸ਼ਨ ਫੈਕਟਰ Z ਵਰਤੀ ਗਈ ਸ਼ੁੱਧਤਾ ਦੇ ਅਧਾਰ ਤੇ ਬਦਲਦਾ ਹੈ:

INT4: = 0.5
ਐੱਫਪੀ8/ਆਈਐਨਟੀ8: = 1

ਐੱਫਪੀ16: = 2
ਐੱਫਪੀ32: = 4

ਸਾਬਕਾ ਲਈample, 3.1-ਬਿੱਟ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ (FP70) 'ਤੇ 16 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਦੇ ਨਾਲ Llama 16 ਨੂੰ ਚਲਾਉਣ ਲਈ ਘੱਟੋ-ਘੱਟ GPU ਮੈਮੋਰੀ ਲੋੜ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ, ਅਸੀਂ ਹੇਠਾਂ ਦਿੱਤੇ ਮੁੱਲਾਂ ਨੂੰ ਜੋੜ ਸਕਦੇ ਹਾਂ:
ਐਮ = 70 * 2 * 1.2 = 168 ਜੀ.ਬੀ.

ਇਹ ਫਾਰਮੂਲਾ ਇਨਫਰੈਂਸਿੰਗ ਲਈ ਘੱਟੋ-ਘੱਟ GPU ਮੈਮੋਰੀ ਲੋੜ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਦਾ ਇੱਕ ਤੇਜ਼ ਅਤੇ ਸਰਲ ਤਰੀਕਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਹੱਲ ਆਰਕੀਟੈਕਟਾਂ ਨੂੰ ਆਪਣੇ ਗਾਹਕਾਂ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਾਲੇ ਸਿਸਟਮ ਡਿਜ਼ਾਈਨ ਕਰਨ ਦੀ ਆਗਿਆ ਮਿਲਦੀ ਹੈ।

ਫਾਈਨ-ਟਿਊਨਿੰਗ/ਸਿਖਲਾਈ
ਇੱਕ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ (LLM) ਨੂੰ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਜਾਂ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਅਨੁਮਾਨ ਲਗਾਉਣ ਨਾਲੋਂ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਫਾਈਨ-ਟਿਊਨਿੰਗ/ਸਿਖਲਾਈ ਲਈ ਘੱਟੋ-ਘੱਟ GPU ਮੈਮੋਰੀ ਲੋੜ ਦਾ ਅੰਦਾਜ਼ਾ ਹੇਠ ਲਿਖੇ ਫਾਰਮੂਲੇ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਲਗਾਇਆ ਜਾ ਸਕਦਾ ਹੈ:
ਕੁੱਲ = (Z + 12 + Z) ਬਾਈਟ/ਪੈਰਾਮੀਟਰ = P (2Z+12) GB ਮੈਮੋਰੀ ਦੀ ਲੋੜ ਹੈ
ਕਿੱਥੇ:

P = ਮਾਡਲ (ਪੈਰਾਮੀਟਰ) ਦਾ ਆਕਾਰ ਅਰਬਾਂ ਵਿੱਚ
Z = ਬਾਈਟਾਂ ਵਿੱਚ ਕੁਆਂਟਾਇਜ਼ੇਸ਼ਨ ਫੈਕਟਰ (1 ਬਾਈਟ = 8 ਬਿੱਟ)

ਹਾਲਾਂਕਿ, ਇਹ ਫਾਰਮੂਲਾ ਇੱਕ ਬਹੁਤ ਜ਼ਿਆਦਾ ਅਨੁਮਾਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਮੰਨਦਾ ਹੈ ਕਿ ਪੂਰੇ ਮਾਡਲ ਪੈਰਾਮੀਟਰ, ਆਪਟੀਮਾਈਜ਼ਰ ਅਵਸਥਾਵਾਂ, ਅਤੇ ਗਰੇਡੀਐਂਟ ਮੈਮੋਰੀ ਵਿੱਚ ਸਟੋਰ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਅਭਿਆਸ ਵਿੱਚ, ਤਕਨੀਕਾਂ ਜਿਵੇਂ ਕਿ ਘੱਟ-ਦਰਜੇ ਦੇ ਅਨੁਕੂਲਨ (LoRA) ਅਤੇ ਕੁਆਂਟਾਈਜ਼ਡ LoRA (QLORA) ਯਾਦਦਾਸ਼ਤ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਬਹੁਤ ਘਟਾ ਸਕਦਾ ਹੈ।
ਤੁਹਾਨੂੰ ਇੱਕ ਬਿਹਤਰ ਵਿਚਾਰ ਦੇਣ ਲਈ, ਇੱਥੇ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ ਅਤੇ ਸ਼ੁੱਧਤਾਵਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ LLM ਨੂੰ ਵਧੀਆ-ਟਿਊਨ ਕਰਨ ਲਈ ਕੁਝ ਅੰਦਾਜ਼ਨ GPU ਮੈਮੋਰੀ ਲੋੜਾਂ ਹਨ:

ਸਾਰਣੀ 1. VRAM ਲੋੜਾਂ ਦੀ ਤੁਲਨਾ ਵੱਖ-ਵੱਖ ਮਾਡਲ ਆਕਾਰਾਂ ਅਤੇ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਤਕਨੀਕਾਂ ਲਈ

ਵਿਧੀ	ਸ਼ੁੱਧਤਾ	7B	13ਬੀ	30ਬੀ	70ਬੀ	110ਬੀ
ਪੂਰਾ	16	67 ਜੀ.ਬੀ	125 ਜੀ.ਬੀ	288 ਜੀ.ਬੀ	672 ਜੀ.ਬੀ	1056 ਜੀ.ਬੀ
ਲੋਰਾ	16	15 ਜੀ.ਬੀ	28 ਜੀ.ਬੀ	63 ਜੀ.ਬੀ	146 ਜੀ.ਬੀ	229 ਜੀ.ਬੀ
QLoRA	8	9 ਜੀ.ਬੀ	17 ਜੀ.ਬੀ	38 ਜੀ.ਬੀ	88 ਜੀ.ਬੀ	138 ਜੀ.ਬੀ
QLoRA	4	5 ਜੀ.ਬੀ	9 ਜੀ.ਬੀ	20 ਜੀ.ਬੀ	46 ਜੀ.ਬੀ	72 ਜੀ.ਬੀ

ਜਿਵੇਂ ਕਿ ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ, LoRA ਜਾਂ QLoRA ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲ ਪੂਰੀ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਵਿਧੀ ਦੇ ਮੁਕਾਬਲੇ ਮੈਮੋਰੀ ਲੋੜਾਂ ਨੂੰ 75-90% ਤੱਕ ਘਟਾਇਆ ਜਾ ਸਕਦਾ ਹੈ। ਇਹ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ ਇਹ ਤਕਨੀਕਾਂ ਸਿਰਫ਼ ਅਨੁਕੂਲਿਤ ਮਾਪਦੰਡਾਂ ਨੂੰ ਸਟੋਰ ਕਰਦੀਆਂ ਹਨ ਨਾ ਕਿ ਪੂਰੇ ਮਾਡਲ ਨੂੰ, ਨਤੀਜੇ ਵਜੋਂ ਮਹੱਤਵਪੂਰਨ ਮੈਮੋਰੀ ਬਚਤ ਹੁੰਦੀ ਹੈ।
ਐਲਐਲਐਮ ਨੂੰ ਫਾਈਨ-ਟਿਊਨਿੰਗ/ਟ੍ਰੇਨਿੰਗ ਲਈ ਸਿਸਟਮ ਡਿਜ਼ਾਈਨ ਕਰਦੇ ਸਮੇਂ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਸਿਸਟਮ ਲੋੜੀਂਦੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੈ, ਵਰਤੇ ਗਏ ਖਾਸ ਢੰਗ ਅਤੇ ਸ਼ੁੱਧਤਾ ਦੇ ਨਾਲ-ਨਾਲ ਮਾਡਲ ਦੇ ਆਕਾਰ 'ਤੇ ਵਿਚਾਰ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। LoRA ਜਾਂ QLoRA ਵਰਗੀਆਂ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਹੱਲ ਆਰਕੀਟੈਕਟ ਵਧੇਰੇ ਕੁਸ਼ਲ ਅਤੇ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਿਸਟਮ ਡਿਜ਼ਾਈਨ ਕਰ ਸਕਦੇ ਹਨ ਜੋ ਆਪਣੇ ਗਾਹਕਾਂ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦੇ ਹਨ।

ਇਕੱਠ ਕਰਨ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ

ਇੱਕ ਵੱਡੀ ਭਾਸ਼ਾ ਮਾਡਲ (LLM) ਤੈਨਾਤੀ ਲਈ ਜ਼ਰੂਰੀ ਸਿਸਟਮ ਸੰਰਚਨਾ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ, ਗਾਹਕ ਤੋਂ ਖਾਸ ਜ਼ਰੂਰਤਾਂ ਇਕੱਠੀਆਂ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਇਹ ਜ਼ਰੂਰਤਾਂ ਅਨੁਮਾਨ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਅਤੇ ਸਿਸਟਮ ਲੋੜੀਂਦੇ ਟੀਚਿਆਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਨਗੀਆਂ।

ਅਨੁਮਾਨ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਤੋਂ ਪਹਿਲਾਂ ਹੇਠ ਲਿਖੀਆਂ ਪੰਜ ਜਾਣਕਾਰੀਆਂ ਇਕੱਠੀਆਂ ਕੀਤੀਆਂ ਜਾਣੀਆਂ ਚਾਹੀਦੀਆਂ ਹਨ:
1. ਮਾਡਲ ਚੋਣ:
ਇਸ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਵਰਤੋਂ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ LLM ਮਾਡਲ ਦੀ ਪਛਾਣ ਕਰੋ। ਮਾਡਲ ਦਾ ਆਕਾਰ ਖਾਸ ਤੌਰ 'ਤੇ ਅਨੁਮਾਨ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰਦਾ ਹੈ, ਵੱਡੇ ਮਾਡਲ ਹੌਲੀ ਅਤੇ ਵਧੇਰੇ ਮਹਿੰਗੇ ਹੁੰਦੇ ਹਨ। ਧਿਆਨ ਦਿਓ ਕਿ ਛੋਟੇ ਮਾਡਲਾਂ ਵਿੱਚ ਅਨੁਮਾਨ ਲਾਗਤਾਂ ਨੂੰ ਘਟਾਉਂਦੇ ਹੋਏ ਖਾਸ ਕੰਮਾਂ ਲਈ ਸ਼ਾਨਦਾਰ ਗੁਣਵੱਤਾ ਹੋ ਸਕਦੀ ਹੈ। ਇਸ ਲਈ, ਛੋਟੇ ਮਾਡਲਾਂ ਦੀ ਵੀ ਪੜਚੋਲ ਕਰਨ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਚੁਣੇ ਹੋਏ ਮਾਡਲ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਸਮਝਣ ਨਾਲ ਲੋੜੀਂਦੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਵਿੱਚ ਮਦਦ ਮਿਲੇਗੀ।
LLM ਵਰਤੋਂ ਦੇ ਮਾਮਲੇ ਲਈ ਲੋੜਾਂ ਇਕੱਠੀਆਂ ਕਰਦੇ ਸਮੇਂ, ਇਨਪੁਟ ਟੋਕਨ ਲੰਬਾਈ 'ਤੇ ਵਿਚਾਰ ਕਰਨਾ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ, ਜੋ ਕਿ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨ ਵਿੱਚ ਇੱਕ ਕਾਰਕ ਹੈ। ਇਨਪੁਟ ਅਤੇ ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ ਦੇ ਜੋੜ ਵਜੋਂ ਪਰਿਭਾਸ਼ਿਤ ਸੰਦਰਭ ਵਿੰਡੋ, ਇਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ ਨਿਭਾਉਂਦੀ ਹੈ। ਨਵੇਂ ਮਾਡਲ, ਜਿਵੇਂ ਕਿ ਲਾਮਾ 3.1, 128,000 ਟੋਕਨਾਂ ਤੱਕ ਦੀਆਂ ਵੱਡੀਆਂ ਸੰਦਰਭ ਵਿੰਡੋਜ਼ ਦਾ ਸਮਰਥਨ ਕਰਦੇ ਹਨ।

2. ਇਨਪੁਟ ਟੋਕਨ:
LLM ਦੇ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਟੋਕਨਾਂ ਦੀ ਔਸਤ ਸੰਖਿਆ ਨਿਰਧਾਰਤ ਕਰੋ, ਜਿਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ

ਸੰਦਰਭ
ਯੂਜ਼ਰ ਪ੍ਰੋਂਪਟ

ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਾ ਦੇ ਮਾਡਲਾਂ ਲਈ, ਇੱਕ ਟੋਕਨ ਇੱਕ ਸ਼ਬਦ ਦਾ ਲਗਭਗ 0.75 ਹੁੰਦਾ ਹੈ। ਟੋਕਨ ਗਿਣਤੀ ਵਿੱਚ ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਅਤੇ ਸੰਦਰਭ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨਾ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਂਦੇ ਸਮੇਂ ਪੂਰੇ ਇਨਪੁਟ ਕ੍ਰਮ ਨੂੰ ਵਿਚਾਰਿਆ ਜਾਂਦਾ ਹੈ।
ਇਨਪੁਟ ਟੋਕਨ ਗਿਣਤੀ ਦੀ ਸਹੀ ਗਣਨਾ ਕਰਨ ਲਈ, ਇਸ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਣ ਵਾਲੇ ਸਾਰੇ ਤੱਤ ਸ਼ਾਮਲ ਕਰੋ, ਜਿਵੇਂ ਕਿ ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ (ਕਸਟਮ ਨਿਰਦੇਸ਼), ਪ੍ਰਾਪਤ ਕੀਤੇ ਦਸਤਾਵੇਜ਼ (ਰਿਕਵਰੀਵਲ ਔਗਮੈਂਟੇਡ ਜਨਰੇਸ਼ਨ ਪਾਈਪਲਾਈਨਾਂ ਵਿੱਚ), ਅਤੇ ਚੈਟ ਇਤਿਹਾਸ (ਪਿਛਲੀ ਗੱਲਬਾਤ ਐਕਸਚੇਂਜ)। ਇਹਨਾਂ ਵਿੱਚੋਂ ਹਰੇਕ ਭਾਗ ਟੋਕਨਾਂ ਦੇ ਵੱਧ ਤੋਂ ਵੱਧ ਬਜਟ ਵਿੱਚ ਗਿਣਿਆ ਜਾਂਦਾ ਹੈ ਜੋ ਮਾਡਲ ਵਿੱਚ ਪਾਸ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ।
ਵੱਡੀ ਇਨਪੁਟ ਲੰਬਾਈ ਅਨੁਮਾਨ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰ ਸਕਦੀ ਹੈ, ਕਿਉਂਕਿ ਸ਼ਬਦਾਂ ਨੂੰ ਏਮਬੈਡਿੰਗ ਵਿੱਚ ਬਦਲਿਆ ਜਾਂਦਾ ਹੈ ਅਤੇ KV ਕੈਸ਼ ਚੌਗਿਰਦੇ ਵਿੱਚ ਵਧਦਾ ਹੈ। RAG ਪਾਈਪਲਾਈਨਾਂ ਵਰਗੀਆਂ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਵੱਡੀ ਇਨਪੁਟ ਲੰਬਾਈ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ, ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ ਪ੍ਰੋਸੈਸ ਕੀਤੇ ਜਾ ਰਹੇ ਡੇਟਾ ਦੀ ਕਾਫ਼ੀ ਮਾਤਰਾ ਦੇ ਕਾਰਨ ਪਹਿਲੀ-ਟੋਕਨ ਲੇਟੈਂਸੀ ਵਿੱਚ ਵਾਧਾ ਹੁੰਦਾ ਹੈ।
ਅਸੀਂ ਇਸ ਪੇਪਰ ਵਿੱਚ ਬਾਅਦ ਵਿੱਚ ਟੋਕਨਾਂ ਅਤੇ ਲੇਟੈਂਸੀ 'ਤੇ ਉਨ੍ਹਾਂ ਦੇ ਪ੍ਰਭਾਵ ਬਾਰੇ ਡੂੰਘਾਈ ਨਾਲ ਵਿਚਾਰ ਕਰਾਂਗੇ, ਇਹ ਪਤਾ ਲਗਾਵਾਂਗੇ ਕਿ ਉਹ LLM ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਭਾਵਤ ਕਰਦੇ ਹਨ ਅਤੇ ਅਨੁਕੂਲ ਮਾਡਲ ਸੰਚਾਲਨ ਲਈ ਕਿਹੜੇ ਵਿਚਾਰ ਜ਼ਰੂਰੀ ਹਨ।

3. ਆਉਟਪੁੱਟ ਟੋਕਨ:
LLM ਆਉਟਪੁੱਟ ਵਿੱਚ ਟੋਕਨਾਂ ਦੀ ਔਸਤ ਸੰਖਿਆ ਸਥਾਪਤ ਕਰੋ। ਇਹ ਜ਼ਰੂਰੀ ਹੈ ਕਿਉਂਕਿ ਵਧੇਰੇ ਟੋਕਨ ਤਿਆਰ ਕਰਨ ਲਈ ਵਧੇਰੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਅਤੇ ਸਮੇਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਅਨੁਮਾਨਿਤ ਆਉਟਪੁੱਟ ਆਕਾਰ ਨੂੰ ਸਮਝਣਾ ਇੱਕ ਅਜਿਹਾ ਸਿਸਟਮ ਡਿਜ਼ਾਈਨ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰੇਗਾ ਜੋ ਲੇਟੈਂਸੀ ਜਾਂ ਗੁਣਵੱਤਾ ਨਾਲ ਸਮਝੌਤਾ ਕੀਤੇ ਬਿਨਾਂ ਲੋੜੀਂਦੇ ਥਰੂਪੁੱਟ ਨੂੰ ਸੰਭਾਲ ਸਕਦਾ ਹੈ।

4. ਪ੍ਰਤੀ ਸਕਿੰਟ ਔਸਤ ਬੇਨਤੀਆਂ (RPS):
ਅਨੁਕੂਲ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਕੁਸ਼ਲ ਸਰੋਤ ਉਪਯੋਗਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ, ਸਿਸਟਮ ਨੂੰ ਪ੍ਰਤੀ ਸਕਿੰਟ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਵਾਲੀਆਂ ਬੇਨਤੀਆਂ ਦੀ ਸਿਖਰ ਸੰਖਿਆ ਨਿਰਧਾਰਤ ਕਰੋ। ਆਨ-ਪ੍ਰੀਮਿਸਸ ਤੈਨਾਤੀਆਂ ਲਈ ਆਕਾਰ ਦਿੰਦੇ ਸਮੇਂ, ਔਸਤ ਵਰਤੋਂ ਦੀ ਬਜਾਏ ਸਿਖਰ ਵਰਤੋਂ 'ਤੇ ਗਣਨਾਵਾਂ ਨੂੰ ਅਧਾਰਤ ਕਰਨਾ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ।
ਬੇਨਤੀ ਪੈਟਰਨਾਂ ਵਿੱਚ ਪਰਿਵਰਤਨਸ਼ੀਲਤਾ ਲਈ, ਅਸੀਂ ਔਸਤ RPS (ਪ੍ਰਤੀ ਸਕਿੰਟ ਬੇਨਤੀਆਂ) ਦੇ ਪੋਇਸਨ PPF (ਪੁਆਇੰਟ ਪ੍ਰੋਬੇਬਿਲਟੀ ਫੰਕਸ਼ਨ) ਦੇ 95ਵੇਂ ਪ੍ਰਤੀਸ਼ਤ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ। ਇਹ ਪਹੁੰਚ ਵੱਧ ਤੋਂ ਵੱਧ ਉਮੀਦ ਕੀਤੇ ਲੋਡ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਅਸੀਂ ਇੱਕ ਅਜਿਹਾ ਸਿਸਟਮ ਡਿਜ਼ਾਈਨ ਕਰ ਸਕਦੇ ਹਾਂ ਜੋ ਗੈਰ-ਪੀਕ ਪੀਰੀਅਡਾਂ ਦੌਰਾਨ ਘੱਟ ਵਰਤੋਂ ਕੀਤੇ ਬਿਨਾਂ ਪੀਕ ਮੰਗਾਂ ਨੂੰ ਸੰਭਾਲ ਸਕੇ।
ਇਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਗਾਹਕ ਤੋਂ ਔਸਤ ਬੇਨਤੀ ਦਰ ਪ੍ਰਾਪਤ ਕਰਨਾ ਅਤੇ ਪੋਇਸਨ ਵੰਡ ਦੇ 95ਵੇਂ ਪ੍ਰਤੀਸ਼ਤ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿਖਰ ਬੇਨਤੀ ਦਰ ਦੀ ਗਣਨਾ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ। ਇਹ ਵਿਧੀ ਸਿਸਟਮ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਦੀ ਵਧੇਰੇ ਸਹੀ ਪ੍ਰਤੀਨਿਧਤਾ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਬੇਨਤੀ ਪੈਟਰਨਾਂ ਵਿੱਚ ਕੁਦਰਤੀ ਪਰਿਵਰਤਨਸ਼ੀਲਤਾ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੀ ਹੈ। ਇਹ ਧਿਆਨ ਦੇਣਾ ਖਾਸ ਤੌਰ 'ਤੇ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਜੇਕਰ ਸਿਸਟਮ ਸਿਖਰ ਸਮਰੱਥਾ 'ਤੇ ਨਹੀਂ ਚੱਲ ਰਿਹਾ ਹੈ, ਤਾਂ ਪ੍ਰਤੀ ਟੋਕਨ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਲਾਗਤ ਕਾਫ਼ੀ ਵੱਧ ਸਕਦੀ ਹੈ।

5. ਲੇਟੈਂਸੀ ਦੀਆਂ ਲੋੜਾਂ:
ਗਾਹਕ ਦੇ ਲੇਟੈਂਸੀ ਟੀਚਿਆਂ ਅਤੇ ਸੀਮਾਵਾਂ ਨੂੰ ਸਮਝੋ, ਜਿਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

ਪਹਿਲੀ-ਟੋਕਨ ਲੇਟੈਂਸੀ: ਮਾਡਲ ਨੂੰ ਪ੍ਰਤੀਕਿਰਿਆ ਦਾ ਪਹਿਲਾ ਟੋਕਨ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲਾ ਸਮਾਂ।
ਆਖਰੀ-ਟੋਕਨ ਲੇਟੈਂਸੀ: ਮਾਡਲ ਨੂੰ ਪੂਰਾ ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲਾ ਕੁੱਲ ਸਮਾਂ।

ਬਹੁਤ ਸਾਰੀਆਂ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਲੇਟੈਂਸੀ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਾਰਕ ਹੈ, ਕਿਉਂਕਿ ਉੱਚ ਲੇਟੈਂਸੀ ਉਪਭੋਗਤਾ ਅਨੁਭਵ ਨੂੰ ਨਕਾਰਾਤਮਕ ਤੌਰ 'ਤੇ ਪ੍ਰਭਾਵਤ ਕਰ ਸਕਦੀ ਹੈ। ਘੱਟ ਫਸਟ-ਟੋਕਨ ਲੇਟੈਂਸੀ (TTFT) ਤੱਕ ਸੀਮਤ ਰਹਿਣ ਨਾਲ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨੁਕਸਾਨ ਹੋਵੇਗਾ।amper ਥਰੂਪੁੱਟ, ਜਿਸਦਾ ਅਰਥ ਹੈ ਕਿ ਸਿਸਟਮ ਦੀ ਇੱਕੋ ਸਮੇਂ ਕਈ ਬੇਨਤੀਆਂ 'ਤੇ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨਾਲ ਸਮਝੌਤਾ ਕੀਤਾ ਜਾਵੇਗਾ।
ਇਸ ਲਈ, ਗਾਹਕ ਦੀਆਂ ਖਾਸ ਜ਼ਰੂਰਤਾਂ ਦੇ ਆਧਾਰ 'ਤੇ ਲੇਟੈਂਸੀ ਅਤੇ ਥਰੂਪੁੱਟ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਬਣਾਉਣਾ ਜ਼ਰੂਰੀ ਹੈ।
ਇਹ ਲੋੜਾਂ ਅਨੁਮਾਨ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ, ਸਿਸਟਮ ਨੂੰ ਆਕਾਰ ਦੇਣ ਅਤੇ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹਨ ਕਿ ਇਹ ਗਾਹਕ ਦੀਆਂ ਉਮੀਦਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੈ। ਇਸ ਜਾਣਕਾਰੀ ਨੂੰ ਇਕੱਠਾ ਕਰਕੇ, ਤੁਸੀਂ ਗਾਹਕ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਬਿਹਤਰ ਢੰਗ ਨਾਲ ਸਮਝ ਸਕੋਗੇ ਅਤੇ ਇੱਕ ਢੁਕਵੀਂ ਸਿਸਟਮ ਸੰਰਚਨਾ ਡਿਜ਼ਾਈਨ ਕਰ ਸਕੋਗੇ ਜੋ ਪ੍ਰਦਰਸ਼ਨ, ਲਾਗਤ ਅਤੇ ਗੁਣਵੱਤਾ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਦੀ ਹੈ। ਅਗਲੇ ਭਾਗਾਂ ਵਿੱਚ, ਅਸੀਂ ਇਹਨਾਂ ਵਿੱਚੋਂ ਕੁਝ ਲੋੜਾਂ ਵਿੱਚ ਡੂੰਘਾਈ ਨਾਲ ਡੂੰਘਾਈ ਨਾਲ ਜਾਵਾਂਗੇ ਅਤੇ ਪੜਚੋਲ ਕਰਾਂਗੇ ਕਿ ਉਹ LLM ਤੈਨਾਤੀ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਭਾਵਤ ਕਰਦੇ ਹਨ।

ਤਕਨੀਕੀ ਡਾਈਵ: ਐਲਐਲਐਮ ਨੂੰ ਸਮਝਣਾ

ਇਸ ਭਾਗ ਵਿੱਚ, ਅਸੀਂ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਦੇ ਤਕਨੀਕੀ ਪਹਿਲੂਆਂ ਵਿੱਚ ਡੁਬਕੀ ਲਗਾ ਕੇ ਉਨ੍ਹਾਂ ਦੇ ਗੁੰਝਲਦਾਰ ਕਾਰਜਾਂ ਦੀ ਪੜਚੋਲ ਕਰਾਂਗੇ। ਅਸੀਂ s ਦੀ ਜਾਂਚ ਕਰਾਂਗੇtagLLM ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਦੇ ES, ਮੁੱਖ ਮਾਪ ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਸਮਝੋ, ਅਤੇ ਅਨੁਮਾਨ ਲਗਾਉਣ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਵਾਲੀਆਂ ਤਕਨੀਕਾਂ 'ਤੇ ਨਜ਼ਰ ਮਾਰੋ।

ਦੋ ਐਸtagਐਲਐਲਐਮ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਦੇ ਅਰਥ: ਪ੍ਰੀਫਿਲ ਬਨਾਮ ਡੀਕੋਡਿੰਗ
ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ (LLM) ਗੁੰਝਲਦਾਰ ਪ੍ਰਣਾਲੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਕਈ ਭਾਸ਼ਾਵਾਂ ਸ਼ਾਮਲ ਹੁੰਦੀਆਂ ਹਨtagਮਨੁੱਖੀ-ਵਰਗੇ ਟੈਕਸਟ ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਲਈ ਪ੍ਰੋਸੈਸਿੰਗ ਦੇ ਤਰੀਕੇ। ਇਹਨਾਂ ਨੂੰ ਸਮਝਣਾtages ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ, ਲੇਟੈਂਸੀ ਘਟਾਉਣ ਅਤੇ ਸਮੁੱਚੇ ਉਪਭੋਗਤਾ ਅਨੁਭਵ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਮਦਦਗਾਰ ਹੈ। ਇਸ ਭਾਗ ਵਿੱਚ, ਅਸੀਂ ਇਸ ਵਿੱਚ ਡੂੰਘਾਈ ਨਾਲ ਜਾਵਾਂਗੇ ਦੋ ਪ੍ਰਾਇਮਰੀ ਐੱਸtagਐਲਐਲਐਮ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਦੇ ਮਿਆਰ: ਪ੍ਰੀਫਿਲ ਅਤੇ ਡੀਕੋਡਿੰਗ।

ਪ੍ਰੀਫਿਲ ਐੱਸtage
ਪ੍ਰੀਫਿਲ ਐੱਸtage ਉਸ ਸਮੇਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਜੋ ਇੱਕ LLM ਨੂੰ ਇੱਕ ਉਪਭੋਗਤਾ ਦੇ ਇਨਪੁਟ ਪ੍ਰੋਂਪਟ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਅਤੇ ਪਹਿਲੇ ਆਉਟਪੁੱਟ ਟੋਕਨ ਨੂੰ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਲੱਗਦਾ ਹੈ, ਜੋ ਕਿ ਲਗਭਗ ਇੱਕ ਸ਼ਬਦ ਦੇ ਬਰਾਬਰ ਹੁੰਦਾ ਹੈ। ਇਹtage ਵਿੱਚ ਹੇਠ ਲਿਖੇ ਕਦਮ ਸ਼ਾਮਲ ਹਨ:

ਯੂਜ਼ਰ ਪ੍ਰੋਂਪਟ ਲੋਡ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ: ਯੂਜ਼ਰ ਦਾ ਇਨਪੁਟ ਪ੍ਰਾਪਤ ਹੁੰਦਾ ਹੈ ਅਤੇ ਸਿਸਟਮ ਵਿੱਚ ਲੋਡ ਹੁੰਦਾ ਹੈ।
ਕੇਵੀ-ਕੈਸ਼ ਨੂੰ ਭਰਨਾ: ਇਸ ਦੌਰਾਨtage, LLM ਆਪਣੇ ਕੀ-ਵੈਲਯੂ (KV) ਕੈਸ਼ ਨੂੰ ਇਨਪੁਟ ਟੋਕਨਾਂ ਤੋਂ ਜਾਣਕਾਰੀ ਨਾਲ ਭਰਦਾ ਹੈ। ਇਸ ਕੈਸ਼ ਦੀ ਵਰਤੋਂ ਸੰਬੰਧਿਤ ਸੰਦਰਭ-ਵਿਸ਼ੇਸ਼ ਡੇਟਾ ਨੂੰ ਸਟੋਰ ਕਰਨ ਅਤੇ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਪਹਿਲੇ ਟੋਕਨ ਲਈ ਰਿਸੈਪਸ਼ਨ ਦੀ ਬੇਨਤੀ ਕਰੋ: LLM ਨੂੰ ਇਨਪੁਟ ਪ੍ਰੋਂਪਟ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਅਤੇ ਪਹਿਲੇ ਆਉਟਪੁੱਟ ਟੋਕਨ ਨੂੰ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲਾ ਸਮਾਂ।

ਪ੍ਰੀਫਿਲ ਐੱਸtage ਮੁੱਖ ਤੌਰ 'ਤੇ ਕੰਪਿਊਟ-ਬਾਊਂਡ ਹੈ, ਭਾਵ ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ ਜ਼ਿਆਦਾਤਰ ਉਪਲਬਧ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਇਸਨੂੰ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲਾ ਸਮਾਂtage ਸਿਰਫ਼ ਇਨਪੁਟ ਟੋਕਨਾਂ ਦੀ ਗਿਣਤੀ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਜੋ ਇਸਨੂੰ ਇੱਕ ਅਨੁਮਾਨਯੋਗ ਅਤੇ ਇਕਸਾਰ ਪ੍ਰਕਿਰਿਆ ਬਣਾਉਂਦਾ ਹੈ।

ਡੀਕੋਡਿੰਗ ਐੱਸtage
ਡੀਕੋਡਿੰਗ ਐੱਸtage, ਜਿਸਨੂੰ ਜਨਰੇਸ਼ਨ ਜਾਂ ਐਕਸਪੈਂਸ਼ਨ ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ LLM ਇੱਕ-ਇੱਕ ਕਰਕੇ ਰਿਸਪਾਂਸ ਟੋਕਨ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਪ੍ਰੀਫਿਲ ਦੌਰਾਨ ਪੈਦਾ ਹੋਏ ਸ਼ੁਰੂਆਤੀ ਆਉਟਪੁੱਟ ਟੋਕਨ 'ਤੇ ਨਿਰਮਾਣ ਕਰਦਾ ਹੈ।tagਈ. ਇਸ ਐੱਸtage ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

ਇੰਟਰ-ਟੋਕਨ ਲੇਟੈਂਸੀ: ਪਹਿਲੇ ਟੋਕਨ ਤੋਂ ਬਾਅਦ ਹਰੇਕ ਅਗਲੇ ਟੋਕਨ ਨੂੰ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲਾ ਸਮਾਂ।
ਟੋਕਨ-ਦਰ-ਟੋਕਨ ਜਨਰੇਸ਼ਨ: LLM ਪ੍ਰੀਫਿਲ ਦੌਰਾਨ ਇਕੱਠੇ ਕੀਤੇ ਸੰਦਰਭ ਅਤੇ ਜਾਣਕਾਰੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਸ਼ਬਦ-ਦਰ-ਸ਼ਬਦ ਜਵਾਬ ਟੋਕਨ ਤਿਆਰ ਕਰਦਾ ਹੈ।tage.
ਇਨਪੁੱਟ ਅਤੇ ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ 'ਤੇ ਨਿਰਭਰਤਾ: ਇੰਟਰ-ਟੋਕਨ ਲੇਟੈਂਸੀ ਇਨਪੁੱਟ ਟੋਕਨਾਂ ਦੀ ਗਿਣਤੀ ਅਤੇ ਤਿਆਰ ਕੀਤੇ ਜਾ ਰਹੇ ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ ਦੀ ਗਿਣਤੀ ਦੋਵਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ।

ਪ੍ਰੀਫਿਲ ਦੇ ਉਲਟtage, ਡੀਕੋਡਿੰਗ ਆਮ ਤੌਰ 'ਤੇ ਮੈਮੋਰੀ-ਬਾਊਂਡ ਹੁੰਦੀ ਹੈ, ਭਾਵ ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ ਮੈਮੋਰੀ ਸਰੋਤਾਂ ਦੀ ਉਪਲਬਧਤਾ ਦੁਆਰਾ ਬਹੁਤ ਪ੍ਰਭਾਵਿਤ ਹੁੰਦਾ ਹੈ। ਜਿਵੇਂ ਕਿ LLM ਵਧੇਰੇ ਟੋਕਨ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਇਸਨੂੰ ਵਧ ਰਹੇ ਸੰਦਰਭ ਨੂੰ ਸਟੋਰ ਕਰਨ ਅਤੇ ਪ੍ਰਬੰਧਿਤ ਕਰਨ ਲਈ ਵਧੇਰੇ ਮੈਮੋਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਲੇਟੈਂਸੀ ਵਧ ਸਕਦੀ ਹੈ।

ਐਲਐਲਐਮ ਇਨਫਰੈਂਸ ਮਾਪ ਮੈਟ੍ਰਿਕਸ

ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਸਮੇਂ, ਅਨੁਮਾਨ ਗਤੀ ਨੂੰ ਮਾਪਣ ਲਈ ਕਈ ਮੁੱਖ ਮਾਪਦੰਡ ਵਰਤੇ ਜਾਂਦੇ ਹਨ। ਇਹਨਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

ਪਹਿਲੇ ਟੋਕਨ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਦਾ ਸਮਾਂ (TTFT): ਇਨਪੁਟ ਨੂੰ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਅਤੇ ਪਹਿਲੇ ਟੋਕਨ ਨੂੰ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲਾ ਸਮਾਂ।

ਇੰਟਰ-ਟੋਕਨ ਲੇਟੈਂਸੀ (ITL): ਪਹਿਲੇ ਟੋਕਨ ਤੋਂ ਬਾਅਦ ਹਰੇਕ ਅਗਲੇ ਟੋਕਨ ਨੂੰ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲਾ ਸਮਾਂ, ਜਿਸਨੂੰ ਟਾਈਮ ਪਰ ਆਉਟਪੁੱਟ ਟੋਕਨ (TPOT) ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ।
ਐਂਡ-ਟੂ-ਐਂਡ ਲੇਟੈਂਸੀ (E2E): ਇੱਕ ਪ੍ਰੋਂਪਟ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਅਤੇ ਇਨਪੁਟ ਤੋਂ ਆਉਟਪੁੱਟ ਤੱਕ ਸਾਰੇ ਟੋਕਨ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲਾ ਕੁੱਲ ਸਮਾਂ।

ਇਹ ਮੈਟ੍ਰਿਕਸ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਬਾਰੇ ਸੂਝ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਰੁਕਾਵਟਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਅਤੇ ਅਨੁਮਾਨ ਗਤੀ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ।

ਇਨਫਲਾਈਟ ਬੈਚਿੰਗ
ਇਨਫਲਾਈਟ ਬੈਚਿੰਗ (IFB) ਇਹ ਇੱਕ ਵਿਸ਼ੇਸ਼ ਤਕਨੀਕ ਹੈ ਜੋ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ (LLM) ਅਨੁਮਾਨ ਦੌਰਾਨ ਵਰਤੀ ਜਾਂਦੀ ਹੈ ਤਾਂ ਜੋ GPU ਮੈਮੋਰੀ ਅਤੇ ਕੰਪਿਊਟ ਉਪਯੋਗਤਾ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਬਣਾਇਆ ਜਾ ਸਕੇ, ਅੰਤ ਵਿੱਚ ਲੇਟੈਂਸੀ ਨੂੰ ਘਟਾਇਆ ਜਾ ਸਕੇ। ਇਹ ਵਿਧੀ ਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ ਆਟੋ-ਰਿਗਰੈਸਿਵ ਅਨੁਮਾਨ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ, ਜਿੱਥੇ LLM ਕ੍ਰਮਵਾਰ ਟੋਕਨ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਅਗਲੇ ਟੋਕਨਾਂ ਨੂੰ ਤਿਆਰ ਕਰਨ ਲਈ ਪਹਿਲਾਂ ਤਿਆਰ ਕੀਤੇ ਟੋਕਨਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ।
IFB ਵੱਖ-ਵੱਖ s 'ਤੇ ਕ੍ਰਮਾਂ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈtages (ਪ੍ਰੀਫਿਲ ਅਤੇ ਡੀਕੋਡਿੰਗ ਦੋਵੇਂ) ਨੂੰ ਇੱਕੋ ਬੈਚ ਦੇ ਅੰਦਰ ਪ੍ਰੋਸੈਸ ਕੀਤਾ ਜਾਣਾ ਹੈ ਬਿਨਾਂ ਸਾਰੀਆਂ ਬੇਨਤੀਆਂ ਦੇ ਪੂਰਾ ਹੋਣ ਦੀ ਉਡੀਕ ਕੀਤੇ ਬਿਨਾਂ ਨਵੇਂ ਪੇਸ਼ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ। ਇਹ ਪਹੁੰਚ ਕਈ ਮੁੱਖ ਫਾਇਦੇ ਪੇਸ਼ ਕਰਦੀ ਹੈ:

ਸਥਿਰ ਬੈਚ ਆਕਾਰ: IFB ਹਰੇਕ ਟੋਕਨ ਪੀੜ੍ਹੀ ਲਈ ਲਗਭਗ ਸਥਿਰ ਬੈਚ ਆਕਾਰ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਉੱਚ GPU ਉਪਯੋਗਤਾ ਹੁੰਦੀ ਹੈ।
ਤੇਜ਼ੀ ਨਾਲ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ: ਨਵੀਆਂ ਬੇਨਤੀਆਂ ਸਲਾਟ ਉਪਲਬਧ ਹੋਣ 'ਤੇ ਤੇਜ਼ੀ ਨਾਲ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਸ਼ੁਰੂ ਕਰ ਸਕਦੀਆਂ ਹਨ, ਕਿਉਂਕਿ ਸ਼ਡਿਊਲਰ ਮੌਜੂਦਾ ਬੇਨਤੀਆਂ ਦੇ ਪੂਰਾ ਹੋਣ ਦੀ ਬਜਾਏ ਸਿਰਫ ਅਗਲੇ ਟੋਕਨ ਦੇ ਜਨਰੇਸ਼ਨ ਦੀ ਉਡੀਕ ਕਰਦਾ ਹੈ।

ਟੈਂਸਰਆਰਟੀ-ਐਲਐਲਐਮ LLM ਸਰਵਿੰਗ ਦੌਰਾਨ GPU ਵਰਤੋਂ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਕਸਟਮ ਇਨਫਲਾਈਟ ਬੈਚਿੰਗ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ। ਇਹ ਵਿਸ਼ੇਸ਼ਤਾ:

ਬੈਚ ਵਿੱਚ ਪੂਰੀਆਂ ਹੋਈਆਂ ਬੇਨਤੀਆਂ ਨੂੰ ਬਦਲਦਾ ਹੈ।
ਐਂਡ-ਆਫ-ਸੀਕਵੈਂਸ (EoS) ਮਾਰਕਰ ਤੋਂ ਬਾਅਦ ਬੇਨਤੀਆਂ ਨੂੰ ਬੇਦਖਲ ਕਰਦਾ ਹੈ ਅਤੇ ਨਵੀਆਂ ਬੇਨਤੀਆਂ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ।

ਥਰੂਪੁੱਟ, ਪਹਿਲੇ ਟੋਕਨ ਦਾ ਸਮਾਂ, ਅਤੇ ਸਮੁੱਚੀ GPU ਵਰਤੋਂ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦਾ ਹੈ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, IFB ਨੂੰ TensorRT-LLM Triton ਬੈਕਐਂਡ ਵਿੱਚ ਸਹਿਜੇ ਹੀ ਜੋੜਿਆ ਗਿਆ ਹੈ ਅਤੇ ਇਸਨੂੰ TensorRT-LLM ਬੈਚ ਮੈਨੇਜਰ ਦੁਆਰਾ ਪ੍ਰਬੰਧਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਜਦੋਂ ਮੈਮੋਰੀ-ਬਾਊਂਡ ਅਤੇ ਕੰਪਿਊਟ-ਬਾਊਂਡ ਓਪਰੇਸ਼ਨਾਂ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਨ, ਚੰਕਡ ਡੀਕੋਡਿੰਗ, ਸੱਟੇਬਾਜ਼ੀ ਡੀਕੋਡਿੰਗ, ਅਤੇ ਸਪਾਰਸਿਟੀ ਵਰਗੀਆਂ ਹੋਰ ਤਕਨੀਕਾਂ ਨਾਲ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ, ਤਾਂ IFB LLMs ਦੇ ਥਰੂਪੁੱਟ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ, ਇਸਨੂੰ ਇੱਕ ਕੁਸ਼ਲ LLM ਅਨੁਮਾਨ ਲਈ ਲਾਜ਼ਮੀ ਸੰਦ.

ਟੈਂਸਰ ਸਮਾਨਤਾ
ਟੈਂਸਰ ਪੈਰੇਲਲਿਜ਼ਮ (TP) ਇੱਕ ਤਕਨੀਕ ਹੈ ਜੋ ਲਾਰਜ ਲੈਂਗੂਏਜ ਮਾਡਲ (LLM) ਇਨਫਰੈਂਸ ਵਿੱਚ ਕਈ GPUs ਵਿੱਚ ਕੰਪਿਊਟੇਸ਼ਨਲ ਲੋਡ ਵੰਡਣ ਲਈ ਵਰਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਵਿਧੀ ਵਿੱਚ ਇੱਕ ਮਾਡਲ ਨੂੰ ਕਈ GPUs ਵਿੱਚ ਵੰਡਣਾ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਕਿ ਇਹਨਾਂ GPUs ਵਿਚਕਾਰ ਕੁਸ਼ਲ ਡੇਟਾ ਐਕਸਚੇਂਜ 'ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। TP ਖਾਸ ਤੌਰ 'ਤੇ ਵੱਡੇ ਮਾਡਲਾਂ ਲਈ ਲਾਭਦਾਇਕ ਹੈ ਜਿੱਥੇ ਮੈਮੋਰੀ ਲੋੜਾਂ ਇੱਕ ਸਿੰਗਲ GPU ਦੀ ਸਮਰੱਥਾ ਤੋਂ ਵੱਧ ਹੁੰਦੀਆਂ ਹਨ।

ਟੈਂਸਰ ਸਮਾਨਤਾ ਦੀਆਂ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ:

ਘੱਟ ਲੇਟੈਂਸੀ ਪਰ ਘੱਟ ਥਰੂਪੁੱਟ: ਜਦੋਂ ਕਿ TP ਗਣਨਾਵਾਂ ਨੂੰ ਸਮਾਨਾਂਤਰ ਬਣਾ ਕੇ ਲੇਟੈਂਸੀ ਨੂੰ ਘਟਾ ਸਕਦਾ ਹੈ, ਇਹ ਇੰਟਰ-GPU ਸੰਚਾਰ ਨਾਲ ਜੁੜੇ ਓਵਰਹੈੱਡ ਦੇ ਕਾਰਨ ਸਮੁੱਚੇ ਥਰੂਪੁੱਟ ਨੂੰ ਵੀ ਘਟਾ ਸਕਦਾ ਹੈ।

ਵੱਡੇ ਮਾਡਲਾਂ ਲਈ ਲੋੜ: LLaMa-70B ਵਰਗੇ ਵੱਡੇ ਮਾਡਲਾਂ ਲਈ, ਘੱਟੋ-ਘੱਟ 2 (TP >= 2) ਦਾ ਟੈਂਸਰ ਸਮਾਨਾਂਤਰਤਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਉਪਲਬਧ ਮੈਮੋਰੀ ਅਤੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਸਰੋਤਾਂ ਦੇ ਅੰਦਰ ਫਿੱਟ ਕਰਨ ਲਈ ਕਈ GPUs ਵਿੱਚ ਢੁਕਵੇਂ ਢੰਗ ਨਾਲ ਵੰਡਿਆ ਜਾ ਸਕਦਾ ਹੈ।
NVLink-ਸਮਰਥਿਤ ਸਰਵਰਾਂ ਲਈ ਸਿਫ਼ਾਰਸ਼: ਜਦੋਂ TP 2 ਤੋਂ ਵੱਧ ਜਾਂਦਾ ਹੈ, ਤਾਂ NVIDIA ਜ਼ੋਰਦਾਰ ਢੰਗ ਨਾਲ ਅਨੁਮਾਨ ਲਈ NVLink-ਸਮਰਥਿਤ ਸਰਵਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਸਿਫ਼ਾਰਸ਼ ਕਰਦਾ ਹੈ। NVLink ਇੱਕ ਉੱਚ-ਬੈਂਡਵਿਡਥ, ਘੱਟ-ਲੇਟੈਂਸੀ ਇੰਟਰਕਨੈਕਟ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਜੋ ਰਵਾਇਤੀ PCIe ਕਨੈਕਸ਼ਨਾਂ ਦੇ ਮੁਕਾਬਲੇ GPUs ਵਿਚਕਾਰ ਡੇਟਾ ਟ੍ਰਾਂਸਫਰ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਬਿਹਤਰ ਬਣਾਉਂਦਾ ਹੈ।

ਮਾਪਦੰਡਾਂ ਨੂੰ ਸਮਝਣਾ

ਗਾਹਕਾਂ ਲਈ ਇੱਕ ਆਦਰਸ਼ ਸੰਰਚਨਾ ਨੂੰ ਆਕਾਰ ਦੇਣ ਅਤੇ ਚੁਣਨ ਵਿੱਚ ਬੈਂਚਮਾਰਕ ਕੇਂਦਰੀ ਹੁੰਦੇ ਹਨ, ਕਿਉਂਕਿ ਉਹ ਥਰੂਪੁੱਟ, ਲੇਟੈਂਸੀ, ਅਤੇ ਬੇਨਤੀ ਦਰ ਵਰਗੇ ਮੁੱਖ ਮਾਪਦੰਡਾਂ ਵਿਚਕਾਰ ਵਪਾਰ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਨ। ਇਹਨਾਂ ਬੈਂਚਮਾਰਕਾਂ ਨੂੰ ਸਮਝਣਾ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ (LLM) ਅਨੁਮਾਨ ਲਈ ਅਨੁਕੂਲ ਸੰਰਚਨਾ ਨਿਰਧਾਰਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਹਾਰਡਵੇਅਰ ਅਤੇ ਸੌਫਟਵੇਅਰ ਜ਼ਰੂਰਤਾਂ ਬਾਰੇ ਸੂਚਿਤ ਫੈਸਲੇ ਲਏ ਜਾ ਸਕਦੇ ਹਨ।

ਥਰੂਪੁੱਟ ਬਨਾਮ ਲੇਟੈਂਸੀ
LLM ਅਨੁਮਾਨ ਦੇ ਸੰਦਰਭ ਵਿੱਚ, ਥਰੂਪੁੱਟ ਅਤੇ ਲੇਟੈਂਸੀ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਪ੍ਰਾਪਤ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਥਰੂਪੁੱਟ ਉਹਨਾਂ ਬੇਨਤੀਆਂ ਦੀ ਸੰਖਿਆ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਜੋ ਪ੍ਰਤੀ ਯੂਨਿਟ ਸਮੇਂ ਤੇ ਪ੍ਰਕਿਰਿਆ ਕੀਤੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ, ਜਦੋਂ ਕਿ ਲੇਟੈਂਸੀ ਇੱਕ ਸਿੰਗਲ ਬੇਨਤੀ ਨੂੰ ਸ਼ੁਰੂ ਤੋਂ ਅੰਤ ਤੱਕ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲਾ ਸਮਾਂ ਹੈ।

ਵਪਾਰ:
ਲੇਟੈਂਸੀ ਸੀਮਾਵਾਂ ਨੂੰ ਪੇਸ਼ ਕਰਨ ਨਾਲ ਉਪਲਬਧ ਥਰੂਪੁੱਟ ਘੱਟ ਸਕਦੀ ਹੈ। ਇਸ ਦੇ ਉਲਟ, ਲੇਟੈਂਸੀ ਸੀਮਾਵਾਂ ਨੂੰ ਢਿੱਲਾ ਕਰਨ ਨਾਲ ਬਹੁਤ ਜ਼ਿਆਦਾ ਥਰੂਪੁੱਟ ਹੋ ਸਕਦਾ ਹੈ। ਗਾਹਕ ਵਰਤੋਂ ਦੇ ਮਾਮਲਿਆਂ ਨੂੰ ਸਮਝਣਾ ਇਨਪੁਟ ਟੋਕਨਾਂ, ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ, ਅਤੇ ਪ੍ਰਤੀ ਯੂਨਿਟ ਸਮੇਂ ਔਸਤ ਬੇਨਤੀਆਂ ਦੇ ਅਨੁਮਾਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਖਾਸ ਹਾਰਡਵੇਅਰ ਦੇ ਪ੍ਰਸਤਾਵ ਦੀ ਆਗਿਆ ਮਿਲਦੀ ਹੈ ਜੋ ਜ਼ਰੂਰੀ ਲੇਟੈਂਸੀ ਨੂੰ ਬਣਾਈ ਰੱਖਦੇ ਹੋਏ ਲੋੜੀਂਦੇ ਥਰੂਪੁੱਟ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ।
ਥਰੂਪੁੱਟ ਵਧਾਉਣ ਲਈ ਕਈ ਬੇਨਤੀਆਂ ਨੂੰ ਜੋੜਨ ਨਾਲ ਦੇਰੀ ਹੋ ਸਕਦੀ ਹੈ, ਵਿਅਕਤੀਗਤ ਬੇਨਤੀਆਂ ਲਈ ਲੇਟੈਂਸੀ ਵਧ ਸਕਦੀ ਹੈ। LLM ਇਨਫਰੈਂਸ ਵਿੱਚ ਦੋ ਪੜਾਅ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ - ਪ੍ਰੀਫਿਲ (ਉੱਚ ਲੇਟੈਂਸੀ, ਸਮਾਨਾਂਤਰ ਪ੍ਰੋਸੈਸਿੰਗ ਤੋਂ ਲਾਭ) ਅਤੇ ਡੀਕੋਡ (ਘੱਟ ਲੇਟੈਂਸੀ, ਘੱਟ ਕੰਪਿਊਟ ਉਪਯੋਗਤਾ)।

ਵਿਹਾਰਕ ਪ੍ਰਭਾਵ:

ਉੱਚ ਥਰੂਪੁੱਟ: ਉੱਚ ਬੇਨਤੀ ਵਾਲੀਅਮ ਵਾਲੇ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਤੈਨਾਤੀਆਂ ਲਈ ਆਦਰਸ਼।
ਘੱਟ ਲੇਟੈਂਸੀ: ਰੀਅਲ-ਟਾਈਮ ਰਿਸਪਾਂਸ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ, ਜਿਵੇਂ ਕਿ ਗੱਲਬਾਤ ਵਾਲੇ AI ਜਾਂ ਇੰਟਰਐਕਟਿਵ ਸਿਸਟਮ।

ਥਰੂਪੁੱਟ-ਲੇਟੈਂਸੀ ਟ੍ਰੇਡਆਫ ਨੂੰ ਸਮਝ ਕੇ ਅਤੇ ਪ੍ਰਬੰਧਨ ਕਰਕੇ, LLM ਇਨਫਰੈਂਸ ਸਿਸਟਮਾਂ ਨੂੰ ਖਾਸ ਐਪਲੀਕੇਸ਼ਨ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਅਨੁਕੂਲ ਬਣਾਇਆ ਜਾ ਸਕਦਾ ਹੈ। ਕਸਟਮ ਬੈਂਚਮਾਰਕਿੰਗ ਲਈ, ਟੂਲ ਜਿਵੇਂ ਕਿ NVIDIA ਦੁਆਰਾ GenAI-Perf ਕਿਸੇ ਸਿਸਟਮ 'ਤੇ ਕਿਸੇ ਖਾਸ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਬਾਰੇ ਕੀਮਤੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ।

ਬੈਂਚਮਾਰਕ ਗ੍ਰਾਫ਼ਾਂ ਦੀ ਵਿਆਖਿਆ ਕਿਵੇਂ ਕਰਨੀ ਹੈ, ਇਸ ਦਸਤਾਵੇਜ਼ ਦੇ ਅੰਤ ਵਿੱਚ ਵਿਸ਼ਾ ਵੇਖੋ, ਵਾਧੂ ਜਾਣਕਾਰੀ - ਆਕਾਰ ਦੇਣ ਲਈ ਗ੍ਰਾਫ਼ਾਂ ਨੂੰ ਪੜ੍ਹਨਾ।

ਵੱਧ ਤੋਂ ਵੱਧ ਬੈਚ ਆਕਾਰ, ਸਮਕਾਲੀਨਤਾ, ਬੇਨਤੀ ਦਰ, ਅਤੇ ਥਰੂਪੁੱਟ ਨੂੰ ਸਮਝਣਾ
ਸਾਰੀਆਂ ਸ਼ਬਦਾਵਲੀ ਨੂੰ ਸੰਭਾਲਣਾ ਥੋੜ੍ਹਾ ਉਲਝਣ ਵਾਲਾ ਹੋ ਸਕਦਾ ਹੈ, ਇਸ ਲਈ ਆਓ ਹਰੇਕ ਸੰਕਲਪ ਨੂੰ ਤੋੜੀਏ ਤਾਂ ਜੋ ਉਹਨਾਂ ਦੇ ਸਬੰਧਾਂ ਅਤੇ ਸਿਸਟਮ ਮੁਲਾਂਕਣ ਵਿੱਚ ਮਹੱਤਤਾ ਨੂੰ ਸਪੱਸ਼ਟ ਕੀਤਾ ਜਾ ਸਕੇ।

ਵੱਧ ਤੋਂ ਵੱਧ ਬੈਚ ਆਕਾਰ
max_batch_size ਪੈਰਾਮੀਟਰ ਦੇ ਦੋ ਰੋਲ ਹਨ: ਇੱਕ ਇੰਜਣ ਬਣਾਉਣ ਦੌਰਾਨ ਅਤੇ ਦੂਜਾ ਰਨਟਾਈਮ 'ਤੇ।

ਇੰਜਣ ਬਿਲਡ: ਇਹ ਸੈਟਿੰਗ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੀ ਹੈ ਕਿ ਨਤੀਜਾ ਸਿਸਟਮ, ਇੱਕ ਖਾਸ ਬੈਚ ਆਕਾਰ ਲਈ ਆਪਣੀ ਸਮਰੱਥਾ ਦੇ ਨਾਲ, ਉਪਲਬਧ ਮੈਮੋਰੀ ਦੇ ਅੰਦਰ ਫਿੱਟ ਬੈਠਦਾ ਹੈ। ਇਹ ਅਸਲ ਵਿੱਚ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਦੌਰਾਨ ਮੈਮੋਰੀ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਰੋਕਣ ਲਈ ਸਮਰੱਥਾ ਯੋਜਨਾਬੰਦੀ ਬਾਰੇ ਹੈ।
ਰਨਟਾਈਮ: ਇਹ ਸੈਟਿੰਗ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ ਕਿ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਕਿੰਨੀਆਂ ਬੇਨਤੀਆਂ ਨੂੰ ਇਕੱਠੇ ਬੈਚ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਰਨਟਾਈਮ max_batch_size ਬਿਲਡ-ਟਾਈਮ max_batch_size ਤੋਂ ਘੱਟ ਜਾਂ ਬਰਾਬਰ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। ਅਸਲ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਬੇਨਤੀਆਂ ਦੀ ਅਸਲ ਬੈਚਿੰਗ ਇਸ ਪੈਰਾਮੀਟਰ ਦੁਆਰਾ ਪ੍ਰਭਾਵਿਤ ਹੁੰਦੀ ਹੈ, ਜੋ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਕੁਸ਼ਲਤਾ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦੀ ਹੈ।

ਬੈਚ ਦਾ ਆਕਾਰ ਅਤੇ ਸਮਕਾਲੀਤਾ

ਸਮਕਾਲੀਨਤਾ (C) < ਵੱਧ ਤੋਂ ਵੱਧ ਬੈਚ ਆਕਾਰ (MBS): ਜਦੋਂ ਸਮਕਾਲੀ ਬੇਨਤੀਆਂ ਦੀ ਗਿਣਤੀ ਵੱਧ ਤੋਂ ਵੱਧ ਬੈਚ ਆਕਾਰ ਤੋਂ ਘੱਟ ਹੁੰਦੀ ਹੈ, ਤਾਂ ਇੰਜਣ ਆਮ ਤੌਰ 'ਤੇ ਸਮਕਾਲੀਨਤਾ ਪੱਧਰ ਦੇ ਬਰਾਬਰ ਆਕਾਰ ਵਾਲੇ ਬੈਚਾਂ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਦਾ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਹਰੇਕ ਬੈਚ ਵਿੱਚ ਮੁਫਤ ਸਲਾਟ ਉਪਲਬਧ ਹਨ, ਕਿਉਂਕਿ ਬੈਚ ਵਿੱਚ ਸਾਰੀਆਂ ਸੰਭਾਵੀ ਸਥਿਤੀਆਂ ਭਰੀਆਂ ਨਹੀਂ ਜਾਂਦੀਆਂ ਹਨ।
ਸਮਕਾਲੀ (C) >= ਵੱਧ ਤੋਂ ਵੱਧ ਬੈਚ ਆਕਾਰ (MBS): ਜੇਕਰ ਸਮਕਾਲੀ ਵੱਧ ਤੋਂ ਵੱਧ ਬੈਚ ਆਕਾਰ ਦੇ ਬਰਾਬਰ ਜਾਂ ਵੱਧ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਬੈਚ ਆਮ ਤੌਰ 'ਤੇ ਭਰੇ ਹੁੰਦੇ ਹਨ, ਵੱਧ ਤੋਂ ਵੱਧ ਸਮਰੱਥਾ 'ਤੇ ਪ੍ਰਕਿਰਿਆ ਕਰਦੇ ਹਨ। ਨਵੀਆਂ ਬੇਨਤੀਆਂ ਲਈ ਕਤਾਰ ਵਧਣੀ ਸ਼ੁਰੂ ਹੋ ਜਾਵੇਗੀ, ਔਸਤ ਆਕਾਰ C - MBS ਦੇ ਨਾਲ, ਕਿਉਂਕਿ ਆਉਣ ਵਾਲੀਆਂ ਬੇਨਤੀਆਂ ਪਿਛਲੇ ਬੈਚਾਂ ਦੇ ਖਤਮ ਹੋਣ ਦੀ ਉਡੀਕ ਕਰਦੀਆਂ ਹਨ।

ਨਤੀਜਾ ਮੈਟ੍ਰਿਕ ਦੇ ਤੌਰ 'ਤੇ ਸਮਰੂਪਤਾ ਅਤੇ ਬੇਨਤੀ ਦਰ
ਸਿਸਟਮ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਮਾਪਣ ਲਈ, ਵਿਚਾਰ ਕਰੋ:

ਥਰੂਪੁੱਟ: ਪ੍ਰਤੀ ਯੂਨਿਟ ਸਮੇਂ ਵਿੱਚ ਸਿਸਟਮ ਦੁਆਰਾ ਪ੍ਰਕਿਰਿਆ ਕੀਤੀਆਂ ਜਾ ਸਕਣ ਵਾਲੀਆਂ ਬੇਨਤੀਆਂ ਦੀ ਗਿਣਤੀ।
ਐਂਡ-ਟੂ-ਐਂਡ ਲੇਟੈਂਸੀ: ਕਿਸੇ ਬੇਨਤੀ ਨੂੰ ਸ਼ੁਰੂ ਤੋਂ ਅੰਤ ਤੱਕ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਲਈ ਲੱਗਿਆ ਕੁੱਲ ਸਮਾਂ।

ਸਮਕਾਲੀ: ਇੱਕੋ ਸਮੇਂ ਸੰਭਾਲੀਆਂ ਜਾ ਸਕਣ ਵਾਲੀਆਂ ਬੇਨਤੀਆਂ ਦੀ ਗਿਣਤੀ।

ਉੱਚ ਸਮਕਾਲੀਨਤਾ ਅਤੇ ਉੱਚ ਲੇਟੈਂਸੀ ਵਾਲਾ ਸਿਸਟਮ ਘੱਟ ਸਮਕਾਲੀਨਤਾ ਪਰ ਘੱਟ ਲੇਟੈਂਸੀ ਵਾਲੇ ਸਿਸਟਮ ਵਾਂਗ ਹੀ ਥਰੂਪੁੱਟ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਬਾਅਦ ਵਾਲਾ ਵਧੇਰੇ ਕੁਸ਼ਲ ਹੈ ਕਿਉਂਕਿ ਇਹ ਵਿਅਕਤੀਗਤ ਬੇਨਤੀਆਂ ਦਾ ਤੇਜ਼ੀ ਨਾਲ ਜਵਾਬ ਦਿੰਦਾ ਹੈ।
ਇਸ ਲਈ, ਸਿਸਟਮਾਂ ਨੂੰ ਆਕਾਰ ਦੇਣ ਅਤੇ ਹਿੱਸੇਦਾਰਾਂ ਨਾਲ ਪ੍ਰਦਰਸ਼ਨ 'ਤੇ ਚਰਚਾ ਕਰਨ ਲਈ ਪ੍ਰਾਇਮਰੀ ਮਾਪ ਵਜੋਂ "ਪ੍ਰਤੀ ਮਿੰਟ ਬੇਨਤੀਆਂ" (ਜਾਂ ਇੱਕ ਸਮਾਨ ਸਮਾਂ-ਅਧਾਰਤ ਮੈਟ੍ਰਿਕ) ਦੀ ਵਰਤੋਂ ਇੱਕ ਸੰਤੁਲਿਤ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ view ਸਿਸਟਮ ਸਮਰੱਥਾ ਦਾ। ਇਹ ਸਮਕਾਲੀਨਤਾ ਅਤੇ ਲੇਟੈਂਸੀ ਦੋਵਾਂ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਸਿਸਟਮ ਕੁਸ਼ਲਤਾ ਨਾਲ ਕੀ ਸੰਭਾਲ ਸਕਦਾ ਹੈ ਇਸਦੀ ਇੱਕ ਸਪਸ਼ਟ ਤਸਵੀਰ ਮਿਲਦੀ ਹੈ।

ਇੱਕ ਇਨਪੁਟ ਪੈਰਾਮੀਟਰ ਦੇ ਤੌਰ 'ਤੇ ਸਮਰੂਪਤਾ ਅਤੇ ਬੇਨਤੀ ਦਰ
ਸਹੀ ਗਤੀ ਮਾਪ (ਥਰੂਪੁੱਟ) ਲਈ, ਇੱਕ ਪ੍ਰੋਸੈਸਿੰਗ ਚੱਕਰ ਤੋਂ ਦੂਜੇ ਤੱਕ ਇੱਕ ਸਥਿਰ ਇੰਜਣ ਬੈਚ ਆਕਾਰ ਬਣਾਈ ਰੱਖਣਾ ਲਾਜ਼ਮੀ ਹੈ।

ਇੱਕ ਇਨਪੁਟ ਵਜੋਂ ਸਮਕਾਲੀਕਰਨ ਦੀ ਵਰਤੋਂ: ਇਹ ਪਹੁੰਚ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੀ ਹੈ ਕਿ ਬੈਚ ਦਾ ਆਕਾਰ ਇਕਸਾਰ ਰਹੇ, ਭਰੋਸੇਯੋਗ ਮਾਪ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਇਨਪੁੱਟ ਪੈਰਾਮੀਟਰ ਦੇ ਤੌਰ 'ਤੇ ਬੇਨਤੀ ਦਰ ਸੈੱਟ ਕਰਨਾ: ਇਹ ਸਮੱਸਿਆ ਵਾਲਾ ਹੋ ਸਕਦਾ ਹੈ ਕਿਉਂਕਿ ਜੇਕਰ ਬੇਨਤੀ ਦਰ ਸਿਸਟਮ ਦੇ ਥਰੂਪੁੱਟ ਤੋਂ ਵੱਧ ਜਾਂਦੀ ਹੈ, ਤਾਂ ਕਤਾਰ ਲਗਾਤਾਰ ਵਧਦੀ ਰਹੇਗੀ, ਜਿਸ ਨਾਲ ਲੇਟੈਂਸੀ ਵਧਦੀ ਜਾਵੇਗੀ। ਇਸਦੇ ਉਲਟ, ਸਿਸਟਮ ਦੇ ਥਰੂਪੁੱਟ ਤੋਂ ਹੇਠਾਂ ਬੇਨਤੀ ਦਰ ਸੈੱਟ ਕਰਨ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਸਾਰੇ ਉਪਲਬਧ ਸਲਾਟਾਂ ਦੀ ਵਰਤੋਂ ਨਹੀਂ ਕੀਤੀ ਜਾਂਦੀ, ਜਿਸ ਨਾਲ ਪ੍ਰਦਰਸ਼ਨ ਘੱਟ ਹੁੰਦਾ ਹੈ।

ਸਿਫ਼ਾਰਸ਼ਾਂ

ਇਨਪੁੱਟ ਮੈਟ੍ਰਿਕਸ ਦੇ ਤੌਰ 'ਤੇ ਟੋਕਨ ਆਕਾਰਾਂ ਦੇ ਨਾਲ ਸਮਕਾਲੀ ਵਰਤੋਂ: ਇਹ ਨਿਯੰਤਰਿਤ ਪ੍ਰਯੋਗਾਂ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ ਜੋ ਸਿਸਟਮ ਨੂੰ ਇਸਦੀਆਂ ਸੀਮਾਵਾਂ ਤੱਕ ਤਣਾਅ ਦੇ ਸਕਦੇ ਹਨ ਜਾਂ ਹਲਕੇ ਭਾਰ ਹੇਠ ਇਸਦੀ ਜਵਾਬਦੇਹੀ ਨੂੰ ਮਾਪ ਸਕਦੇ ਹਨ।
ਬੇਨਤੀ ਦਰ ਨੂੰ ਨਤੀਜਾ ਮੈਟ੍ਰਿਕ ਵਜੋਂ ਵਰਤੋ: ਇਹ ਇਸ ਗੱਲ ਦੀ ਸੂਝ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਕਿ ਸਿਸਟਮ ਅਸਲ ਵਿੱਚ ਇੱਕ ਦਿੱਤੇ ਸਮੇਂ ਦੇ ਅੰਦਰ ਕਿੰਨੀਆਂ ਬੇਨਤੀਆਂ 'ਤੇ ਕਾਰਵਾਈ ਕਰ ਸਕਦਾ ਹੈ, ਜੋ ਇਸਦੀ ਸਮਰੱਥਾ ਅਤੇ ਕੁਸ਼ਲਤਾ ਦੋਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਇਹਨਾਂ ਮਾਪਦੰਡਾਂ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਕੇ ਅਤੇ ਸਹੀ ਮਾਪਦੰਡਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਕੇ, ਉੱਦਮ ਵਧੇਰੇ ਕੁਸ਼ਲ ਪ੍ਰਣਾਲੀਆਂ ਡਿਜ਼ਾਈਨ ਕਰ ਸਕਦੇ ਹਨ ਜੋ ਥਰੂਪੁੱਟ, ਲੇਟੈਂਸੀ ਅਤੇ ਸਰੋਤ ਉਪਯੋਗਤਾ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸੰਤੁਲਿਤ ਕਰਦੇ ਹਨ।

ਮਾਲਕੀ ਦੀ ਕੁੱਲ ਲਾਗਤ: ਕਲਾਉਡ ਬਨਾਮ ਆਨ-ਪ੍ਰੇਮ

ਆਧੁਨਿਕ ਕਾਰੋਬਾਰਾਂ ਲਈ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ (LLM) ਇਨਫਰੈਂਸਿੰਗ ਨੂੰ ਤੈਨਾਤ ਕਰਨਾ ਜ਼ਰੂਰੀ ਹੁੰਦਾ ਜਾ ਰਿਹਾ ਹੈ। ਦੋ ਮੁੱਖ ਵਿਕਲਪ ਹਨ: ਕਲਾਉਡ-ਅਧਾਰਿਤ ਅਤੇ ਆਨ-ਪ੍ਰੀਮਾਈਸ। ਅਸੀਂ ਤੁਹਾਨੂੰ ਸੂਚਿਤ ਫੈਸਲਾ ਲੈਣ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਹਰੇਕ ਵਿਕਲਪ ਦੇ ਲਾਭਾਂ ਅਤੇ ਸੀਮਾਵਾਂ ਦੀ ਪੜਚੋਲ ਕਰਾਂਗੇ।

ਕਲਾਉਡ-ਅਧਾਰਿਤ ਤੈਨਾਤੀ
ਕਲਾਉਡ-ਅਧਾਰਿਤ ਤੈਨਾਤੀ ਇੱਕ "ਭੁਗਤਾਨ-ਜਿਵੇਂ-ਤੁਸੀਂ-ਗੋ" ਮਾਡਲ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦੀ ਹੈ, ਜਿੱਥੇ ਤੁਸੀਂ ਸਿਰਫ਼ ਵਰਤੇ ਗਏ ਸਰੋਤਾਂ ਲਈ ਭੁਗਤਾਨ ਕਰਦੇ ਹੋ।
ਹਾਲਾਂਕਿ, ਵਿਚਾਰਨ ਲਈ ਕੁਝ ਕਮੀਆਂ ਹਨ:

ਡਾਟਾ ਸੁਰੱਖਿਆ: ਜਦੋਂ ਤੱਕ ਐਂਟਰਪ੍ਰਾਈਜ਼-ਗ੍ਰੇਡ ਲਾਇਸੈਂਸ ਨਹੀਂ ਖਰੀਦਿਆ ਜਾਂਦਾ, ਤੁਹਾਡੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਭਵਿੱਖ ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਸੰਭਾਵੀ ਤੌਰ 'ਤੇ ਡੇਟਾ ਲੀਕ ਹੋ ਸਕਦਾ ਹੈ।

ਕੀਮਤ ਅਨਿਸ਼ਚਿਤਤਾ: ਕੀਮਤਾਂ ਬਦਲ ਸਕਦੀਆਂ ਹਨ, ਅਤੇ ਤੁਹਾਡਾ ਮਾਡਲ 'ਤੇ ਘੱਟ ਕੰਟਰੋਲ ਹੈ, ਜੋ ਕਿ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਜਾਂ ਅਨੁਕੂਲਤਾ ਦਾ ਸਮਰਥਨ ਨਹੀਂ ਕਰ ਸਕਦਾ ਹੈ।
ਸੀਮਤ ਨਿਯੰਤਰਣ: ਤੁਹਾਡੇ ਕੋਲ ਪ੍ਰੋਂਪਟਾਂ ਦੀ ਲੇਟੈਂਸੀ ਅਤੇ ਥਰੂਪੁੱਟ 'ਤੇ ਸੀਮਤ ਨਿਯੰਤਰਣ ਹੈ।

ਕਲਾਉਡ-ਅਧਾਰਿਤ ਤੈਨਾਤੀ ਦੀ ਲਾਗਤ ਆਮ ਤੌਰ 'ਤੇ ਇਨਪੁਟ ਅਤੇ ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ ਦੇ ਅਧਾਰ ਤੇ ਗਿਣੀ ਜਾਂਦੀ ਹੈ, ਪ੍ਰਤੀ ਟੋਕਨ ਇੱਕ ਨਿਸ਼ਚਿਤ ਕੀਮਤ ਦੇ ਨਾਲ। ਉਦਾਹਰਣ ਲਈampਹਾਂ, ਇੱਕ ਮਿਲੀਅਨ ਇਨਪੁੱਟ ਟੋਕਨਾਂ ਦੀ ਕੀਮਤ $15 ਹੋ ਸਕਦੀ ਹੈ, ਜਦੋਂ ਕਿ ਇੱਕ ਮਿਲੀਅਨ ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ ਦੀ ਕੀਮਤ $60 ਹੋ ਸਕਦੀ ਹੈ।
ਲਾਗਤ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ, ਤੁਸੀਂ ਕੈਲਕੁਲੇਟਰ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ। ਜੋ ਇਨਪੁਟ ਅਤੇ ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ ਦੀ ਗਿਣਤੀ ਨੂੰ ਵਿਚਾਰਦਾ ਹੈ।

ਆਨ-ਪ੍ਰੀਮਾਈਸ ਡਿਪਲਾਇਮੈਂਟ
ਆਨ-ਪ੍ਰੀਮਾਈਸ ਤੈਨਾਤੀ ਲਈ ਕਾਫ਼ੀ ਪਹਿਲਾਂ ਤੋਂ ਨਿਵੇਸ਼ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਪਰ ਕਈ ਫਾਇਦੇ ਪੇਸ਼ ਕਰਦਾ ਹੈ:

ਪੂਰਾ ਨਿਯੰਤਰਣ: ਤੁਹਾਡਾ ਸਿਸਟਮ ਉੱਤੇ ਪੂਰਾ ਨਿਯੰਤਰਣ ਹੈ, ਜਿਸ ਨਾਲ ਲੋੜ ਅਨੁਸਾਰ ਬਦਲਾਅ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ।
ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ: ਸਮਰੱਥਾ ਦੇ ਨੇੜੇ ਇੱਕ ਨਿਸ਼ਚਿਤ ਵਰਤੋਂ ਦੇ ਨਾਲ, ਪ੍ਰੀਮਾਈਸ 'ਤੇ ਤੈਨਾਤੀ ਲੰਬੇ ਸਮੇਂ ਵਿੱਚ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋ ਸਕਦੀ ਹੈ।

ਸੁਰੱਖਿਆ: ਤੁਹਾਡਾ ਡੇਟਾ ਸੁਰੱਖਿਅਤ ਹੈ, ਅਤੇ ਤੁਹਾਡਾ ਸਿਸਟਮ 'ਤੇ ਪੂਰਾ ਕੰਟਰੋਲ ਹੈ।

ਆਨ-ਪ੍ਰੀਮਾਈਸ ਤੈਨਾਤੀ ਨਾਲ ਜੁੜੇ ਖਰਚਿਆਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

GPU ਸਰਵਰ ਖਰੀਦ: GPU ਸਰਵਰ ਖਰੀਦਣ ਦੀ ਕੀਮਤ, ਜੋ ਕਿ ਹਾਰਡਵੇਅਰ ਅਤੇ ਸਿਸਟਮ ਦੀ ਕਿਸਮ ਦੇ ਆਧਾਰ 'ਤੇ ਵੱਖਰੀ ਹੁੰਦੀ ਹੈ।

ਡਾਟਾਸੈਂਟਰ ਦੇ ਖਰਚੇ: ਬਿਜਲੀ, ਕਿਰਾਏ ਦੀ ਜਗ੍ਹਾ, ਸਟਾਫ ਅਤੇ ਹੋਰ ਖਰਚਿਆਂ ਨਾਲ ਸਬੰਧਤ ਖਰਚੇ।
ਲਾਇਸੈਂਸ ਫੀਸ: ਕਿਸੇ ਵੀ ਵਾਧੂ ਸੇਵਾਵਾਂ ਲਈ ਸਾਲਾਨਾ ਲਾਇਸੈਂਸ ਫੀਸ ਜਿਵੇਂ ਕਿ NVAIE

ਪ੍ਰਤੀ 1 ਮਿਲੀਅਨ ਪ੍ਰੋਂਪਟ (ਕਾਲਾਂ) ਦੀ ਲਾਗਤ ਲੱਭਣ ਲਈ:

ਕਿੱਥੇ

Z = ਪ੍ਰਤੀ 1 ਮਿਲੀਅਨ ਪ੍ਰੋਂਪਟ ਦੀ ਲਾਗਤ

C = ਇੱਕ ਸਾਲ ਵਿੱਚ ਔਸਤਨ ਕੁੱਲ ਆਨ ਪ੍ਰੀਮ ਲਾਗਤ
X = ਸਿਸਟਮ 'ਤੇ ਪ੍ਰਤੀ ਸਕਿੰਟ ਪ੍ਰੋਂਪਟ (ਥਰੂਪੁੱਟ)

ਕਲਾਉਡ ਅਤੇ ਆਨ-ਪ੍ਰੀਮਾਈਸ ਡਿਪਲਾਇਮੈਂਟ ਦੀ ਤੁਲਨਾ
ਕਲਾਉਡ ਅਤੇ ਆਨ-ਪ੍ਰੀਮਾਈਸ ਤੈਨਾਤੀ ਵਿਚਕਾਰ ਇੱਕ ਨਿਰਪੱਖ ਤੁਲਨਾ ਕਰਨ ਲਈ, ਅਸੀਂ ਇਹ ਮੰਨਦੇ ਹਾਂ ਕਿ:

ਦੋਵਾਂ ਪਲੇਟਫਾਰਮਾਂ 'ਤੇ ਤਾਇਨਾਤ ਮਾਡਲ ਗੁਣਵੱਤਾ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਬਰਾਬਰ ਹਨ।
ਦੋਵਾਂ ਪਲੇਟਫਾਰਮਾਂ 'ਤੇ ਪ੍ਰਾਪਤ ਕੀਤੀ ਲੇਟੈਂਸੀ ਅਤੇ ਥਰੂਪੁੱਟ ਇੱਕੋ ਜਿਹੇ ਹਨ।

ਅਸੀਂ ਇੱਕ ਨਿਰਪੱਖ ਤੁਲਨਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਪ੍ਰਤੀ 1 ਮਿਲੀਅਨ ਪ੍ਰੋਂਪਟ 'ਤੇ ਔਨ-ਪ੍ਰੇਮ ਲਾਗਤਾਂ ਦੀ ਤੁਲਨਾ ਪ੍ਰਤੀ 1 ਮਿਲੀਅਨ ਪ੍ਰੋਂਪਟ 'ਤੇ ਔਨ-ਕਲਾਊਡ ਲਾਗਤਾਂ ਨਾਲ ਕਰ ਸਕਦੇ ਹਾਂ। ਅਸੀਂ ਔਨ-ਪ੍ਰੇਮ ਲਈ ਪ੍ਰਤੀ ਇਨਪੁੱਟ ਟੋਕਨ ਅਤੇ ਆਉਟਪੁੱਟ ਟੋਕਨ ਲਾਗਤ ਦਾ ਵੀ ਪਤਾ ਲਗਾ ਸਕਦੇ ਹਾਂ।

ਲਾਗਤ ਸੰਖੇਪ
ਸਿੱਟੇ ਵਜੋਂ, ਕਲਾਉਡ-ਅਧਾਰਿਤ ਅਤੇ ਆਨ-ਪ੍ਰੀਮਾਈਸ ਤੈਨਾਤੀ ਵਿਕਲਪਾਂ ਦੇ ਆਪਣੇ ਫਾਇਦੇ ਅਤੇ ਸੀਮਾਵਾਂ ਹਨ।
ਕਲਾਉਡ-ਅਧਾਰਿਤ ਤੈਨਾਤੀ ਇੱਕ ਲਚਕਦਾਰ ਅਤੇ ਸਕੇਲੇਬਲ ਹੱਲ ਪੇਸ਼ ਕਰਦੀ ਹੈ ਪਰ ਡੇਟਾ ਸੁਰੱਖਿਆ ਅਤੇ ਨਿਯੰਤਰਣ ਨਾਲ ਸਮਝੌਤਾ ਕਰ ਸਕਦੀ ਹੈ। ਆਨ-ਪ੍ਰੀਮਾਈਸ ਤੈਨਾਤੀ ਪੂਰਾ ਨਿਯੰਤਰਣ ਅਤੇ ਸੁਰੱਖਿਆ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ ਪਰ ਇੱਕ ਪਹਿਲਾਂ ਤੋਂ ਨਿਵੇਸ਼ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
ਲੰਬੇ ਸਮੇਂ ਵਿੱਚ, ਇੱਕ ਬ੍ਰੇਕ-ਈਵਨ ਬਿੰਦੂ 'ਤੇ ਪਹੁੰਚ ਜਾਂਦਾ ਹੈ ਜਿੱਥੇ ਔਨ-ਪ੍ਰੀਮਾਈਸ ਤੈਨਾਤੀ ਔਨ-ਕਲਾਊਡ ਉਦਾਹਰਣਾਂ ਨਾਲੋਂ ਵਿੱਤੀ ਤੌਰ 'ਤੇ ਅਰਥ ਰੱਖਦੀ ਹੈ।

ਸਿਫਾਰਸ਼
ਕਲਾਉਡ-ਅਧਾਰਿਤ ਅਤੇ ਆਨ-ਪ੍ਰੀਮਾਈਸ ਤੈਨਾਤੀ ਵਿਚਕਾਰ ਫੈਸਲਾ ਲੈਂਦੇ ਸਮੇਂ, ਹੇਠ ਲਿਖਿਆਂ 'ਤੇ ਵਿਚਾਰ ਕਰੋ:

ਡਾਟਾ ਸੁਰੱਖਿਆ: ਜੇਕਰ ਇਹ ਤੁਹਾਡੀ ਸਭ ਤੋਂ ਵੱਡੀ ਤਰਜੀਹ ਹੈ, ਤਾਂ ਆਨ-ਪ੍ਰੀਮਾਈਸ ਤੈਨਾਤੀ ਬਿਹਤਰ ਹੈ।

ਸਕੇਲੇਬਿਲਟੀ: ਜੇਕਰ ਤੁਹਾਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਸਕੇਲ ਕਰਨ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਕਲਾਉਡ-ਅਧਾਰਿਤ ਤੈਨਾਤੀ ਵਧੇਰੇ ਢੁਕਵੀਂ ਹੋ ਸਕਦੀ ਹੈ।
ਬਜਟ: ਜੇਕਰ ਬਜਟ ਇੱਕ ਚਿੰਤਾ ਦਾ ਵਿਸ਼ਾ ਹੈ, ਤਾਂ ਆਨ-ਪ੍ਰੀਮਾਈਸ ਤੈਨਾਤੀ ਲੰਬੇ ਸਮੇਂ ਵਿੱਚ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋ ਸਕਦੀ ਹੈ।

ਅੰਤ ਵਿੱਚ, ਫੈਸਲਾ ਤੁਹਾਡੀਆਂ ਖਾਸ ਜ਼ਰੂਰਤਾਂ ਅਤੇ ਤਰਜੀਹਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ।

ਸਿੱਟਾ
ਸਿੱਟੇ ਵਜੋਂ, ਵੱਡੀ ਭਾਸ਼ਾ ਮਾਡਲ (LLM) ਤੈਨਾਤੀ ਲਈ ਸਿਸਟਮ ਡਿਜ਼ਾਈਨ ਕਰਦੇ ਸਮੇਂ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਕੰਪਿਊਟੇਸ਼ਨਲ ਜ਼ਰੂਰਤਾਂ ਦਾ ਸਹੀ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ। ਇਸ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ, ਗਾਹਕਾਂ ਤੋਂ ਖਾਸ ਜ਼ਰੂਰਤਾਂ ਇਕੱਠੀਆਂ ਕਰੋ, ਜਿਸ ਵਿੱਚ ਮਾਡਲ ਚੋਣ, ਇਨਪੁਟ ਟੋਕਨ ਲੰਬਾਈ, ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ, ਅਤੇ ਲੇਟੈਂਸੀ ਜ਼ਰੂਰਤਾਂ ਸ਼ਾਮਲ ਹਨ। ਪ੍ਰਦਾਨ ਕੀਤੇ ਗਏ ਫਾਰਮੂਲੇ ਅਤੇ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼, ਜਿਵੇਂ ਕਿ GPU ਮੈਮੋਰੀ ਜ਼ਰੂਰਤਾਂ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ "ਰੂਲ ਆਫ਼ ਥੰਬ", ਹੱਲ ਆਰਕੀਟੈਕਟਾਂ ਲਈ ਗਾਹਕਾਂ ਦੀਆਂ ਮੰਗਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਾਲੇ ਸਮਰੱਥ ਪ੍ਰਣਾਲੀਆਂ ਦਾ ਤੇਜ਼ੀ ਨਾਲ ਮੁਲਾਂਕਣ ਅਤੇ ਡਿਜ਼ਾਈਨ ਕਰਨ ਲਈ ਕੀਮਤੀ ਸਾਧਨਾਂ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹਨ।
ਮਾਡਲ ਦੇ ਆਕਾਰ, ਸ਼ੁੱਧਤਾ ਅਤੇ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ ਵਰਗੇ ਮੁੱਖ ਕਾਰਕਾਂ 'ਤੇ ਵਿਚਾਰ ਕਰਕੇ, ਤੁਸੀਂ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਲਾਗਤ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਨ ਲਈ ਸਿਸਟਮ ਸੰਰਚਨਾਵਾਂ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾ ਸਕਦੇ ਹੋ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਲੋ-ਰੈਂਕ ਅਡੈਪਟੇਸ਼ਨ (LoRA) ਅਤੇ ਕੁਆਂਟਾਈਜ਼ਡ LoRA (QLoRA) ਵਰਗੀਆਂ ਤਕਨੀਕਾਂ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਅਤੇ ਸਿਖਲਾਈ ਦੌਰਾਨ ਯਾਦਦਾਸ਼ਤ ਦੀਆਂ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਮੂਲ ਰੂਪ ਵਿੱਚ ਘਟਾ ਸਕਦੀਆਂ ਹਨ, ਵਧੇਰੇ ਕੁਸ਼ਲ ਅਤੇ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੱਲਾਂ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦੀਆਂ ਹਨ।
ਇਹ LLM ਇਨਫਰੈਂਸ ਸਾਈਜ਼ਿੰਗ ਗਾਈਡ LLMs ਦੇ ਗੁੰਝਲਦਾਰ ਲੈਂਡਸਕੇਪ ਨੂੰ ਨੈਵੀਗੇਟ ਕਰਨ, ਸਫਲ ਤੈਨਾਤੀਆਂ ਪ੍ਰਦਾਨ ਕਰਨ, ਅਤੇ ਉਹਨਾਂ ਦੇ ਗਾਹਕਾਂ ਦੀਆਂ ਵਿਲੱਖਣ ਜ਼ਰੂਰਤਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਾਲੇ ਅਨੁਕੂਲਿਤ ਹੱਲ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ ਗਿਆਨ ਅਤੇ ਮੁਹਾਰਤ ਨਾਲ ਸਸ਼ਕਤ ਬਣਾਉਂਦੀ ਹੈ। ਇਹਨਾਂ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ ਅਤੇ ਵਧੀਆ ਅਭਿਆਸਾਂ ਦੀ ਪਾਲਣਾ ਕਰਕੇ, ਤੁਸੀਂ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਦੇ ਤੇਜ਼ੀ ਨਾਲ ਵਿਕਸਤ ਹੋ ਰਹੇ ਖੇਤਰ ਵਿੱਚ ਅਨੁਕੂਲ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਯਕੀਨੀ ਬਣਾ ਸਕਦੇ ਹੋ, ਲਾਗਤਾਂ ਘਟਾ ਸਕਦੇ ਹੋ ਅਤੇ ਵਪਾਰਕ ਸਫਲਤਾ ਨੂੰ ਵਧਾ ਸਕਦੇ ਹੋ।

ਵਾਧੂ ਜਾਣਕਾਰੀ - ਆਕਾਰ ਦੇਣ ਲਈ ਗ੍ਰਾਫ਼ ਪੜ੍ਹਨਾ

'ਤੇ ਆਧਾਰਿਤ ਗ੍ਰਾਫ਼ NVIDIA NIMs ਤੋਂ ਬੈਂਚਮਾਰਕ ਡੇਟਾ ਇਸ ਤਰ੍ਹਾਂ ਦਿਸਦਾ ਹੈ:

ਚਿੱਤਰ 5: ਐਸamp3 ਇਨਪੁਟ ਅਤੇ 8 ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ ਵਾਲੇ ਲਾਮਾ 2000 2000B ਮਾਡਲ ਲਈ ਥਰੂਪੁੱਟ ਬਨਾਮ ਪਹਿਲਾ ਟੋਕਨ ਲੇਟੈਂਸੀ ਗ੍ਰਾਫ਼
ਇੰਟਰਐਕਟਿਵ ਗ੍ਰਾਫ਼ ਤੁਹਾਨੂੰ ਮਾਡਲ, ਡਿਵਾਈਸਾਂ, ਇਨਪੁਟ + ਆਉਟਪੁੱਟ ਟੋਕਨ ਸੁਮੇਲ, X-ਐਕਸਿਸ ਮੈਟ੍ਰਿਕ ਅਤੇ Y-ਐਕਸਿਸ ਨਤੀਜਾ ਚੁਣਨ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ। X-ਐਕਸਿਸ ਲਈ ਸਾਡੇ ਕੋਲ ਟੋਕਨਾਂ ਲਈ TTFT, TTLT, ਜਾਂ ITL ਵਰਗੇ ਇਨਪੁਟ ਪੈਰਾਮੀਟਰ ਹੋ ਸਕਦੇ ਹਨ। Y-ਐਕਸਿਸ ਲਈ ਸਾਡੇ ਕੋਲ ਆਉਟਪੁੱਟ ਪੈਰਾਮੀਟਰ ਹਨ ਜਿਵੇਂ ਕਿ ਪ੍ਰਤੀ ਸਕਿੰਟ ਪ੍ਰਤੀ ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਜਾਂ ਪ੍ਰਤੀ ਸਕਿੰਟ ਪ੍ਰਤੀ ਸਿਸਟਮ ਜਾਂ ਪ੍ਰਤੀ GPU ਉਦਾਹਰਣ ਆਊਟ_ਟੋਕਨ।
ਇੱਕ ਸਾਬਕਾampਆਕਾਰ:
ਇੱਕ ਗਾਹਕ llama2000 2000B ਮਾਡਲ ਵਾਲਾ 3 ਇੰਚ, 8 ਆਊਟ ਟੋਕਨ ਚਾਹੁੰਦਾ ਹੈ ਅਤੇ 1 ਸਕਿੰਟ ਤੋਂ ਘੱਟ TTFT ਚਾਹੁੰਦਾ ਹੈ। ਸੀਮਾਵਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਅਸੀਂ 1 ਸਕਿੰਟ TTFT (FTL) ਦੇ ਖੱਬੇ ਗ੍ਰਾਫ 'ਤੇ ਇੱਕ ਬਿੰਦੂ ਲੱਭਦੇ ਹਾਂ, ਇਹ ਇਸ ਤਰ੍ਹਾਂ ਦਿਖਾਈ ਦੇਵੇਗਾ:

ਇਹ ਤੁਹਾਨੂੰ ਦੱਸਦਾ ਹੈ ਕਿ ਇੱਕ ਸਿੰਗਲ 8xH100 ਸਿਸਟਮ TRT-LLM ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਸਮੇਂ 400 ਸਮਕਾਲੀ (ਪੀਕ) ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੇ ਯੋਗ ਹੋਵੇਗਾ। ਹਾਲਾਂਕਿ, ਅਸੀਂ ਦੇਖਦੇ ਹਾਂ ਕਿ ਇਸਦੀ ਕੁੱਲ ਲੇਟੈਂਸੀ 38 ਸਕਿੰਟਾਂ ਤੋਂ ਵੱਧ ਹੈ। ਜੇਕਰ ਅਸੀਂ ਘੱਟ ਕੁੱਲ ਲੇਟੈਂਸੀ ਚਾਹੁੰਦੇ ਹਾਂ (ਮੰਨ ਲਓ ਕਿ 20 ਸਕਿੰਟਾਂ ਤੋਂ ਘੱਟ), ਤਾਂ ਸਾਨੂੰ ਥਰੂਪੁੱਟ ਦੀ ਕੁਰਬਾਨੀ ਦੇਣੀ ਪਵੇਗੀ, X-ਐਕਸਿਸ ਨੂੰ ਕੁੱਲ ਲੇਟੈਂਸੀ (TTLT) ਵਜੋਂ ਸੁਧਾਰਦੇ ਹੋਏ, ਸਾਡੇ ਕੋਲ ਹੈ:

ਇੱਥੇ ਸਾਡੇ ਕੋਲ 100ms TTFT ਅਤੇ 358s ਤੋਂ ਘੱਟ TTLT ਵਾਲੇ 20 ਸਮਕਾਲੀ ਉਪਭੋਗਤਾਵਾਂ ਦੇ ਨਾਲ ਇੱਕ ਬਿੰਦੂ ਹੈ। ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਵੇਖਦੇ ਹਾਂ, ਲੇਟੈਂਸੀ ਸੀਮਾਵਾਂ ਸੈੱਟ ਕਰਨਾ ਥਰੂਪੁੱਟ ਅਤੇ ਵੱਧ ਤੋਂ ਵੱਧ ਸਮਕਾਲੀਨਤਾ ਨੂੰ ਬਹੁਤ ਪ੍ਰਭਾਵਿਤ ਕਰਦਾ ਹੈ।
ਆਪਣੇ ਸਿਸਟਮ ਤੇ ਬੈਂਚਮਾਰਕ ਚਲਾਉਣ ਲਈ, ਵੇਖੋ LLM ਬੈਂਚਮਾਰਕਿੰਗ ਗਾਈਡ ਲਈ NVIDIA ਦਾ NIM ਵਰਤਣ ਲਈ GenAIPerf ਵੱਲੋਂ ਹੋਰ LLM ਮੈਟ੍ਰਿਕਸ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ।

ਲੇਖਕ
ਸਚਿਨ ਗੋਪਾਲ ਵਾਨੀ ਲੇਨੋਵੋ ਵਿਖੇ ਇੱਕ ਏਆਈ ਡੇਟਾ ਸਾਇੰਟਿਸਟ ਹੈ, ਜੋ ਵੱਖ-ਵੱਖ ਗਾਹਕਾਂ ਲਈ ਐਂਡ-ਟੂ-ਐਂਡ ਮਸ਼ੀਨ ਲਰਨਿੰਗ (ਐਮਐਲ) ਐਪਲੀਕੇਸ਼ਨਾਂ 'ਤੇ ਕੰਮ ਕਰਦਾ ਹੈ, ਅਤੇ ਨਿਊਟਾਕ ਏਆਈ ਫਰੇਮਵਰਕ ਵਿਕਸਤ ਕਰਦਾ ਹੈ। ਉਸਨੇ ਰਟਗਰਜ਼ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਵਿੱਚ ਮੁਹਾਰਤ ਹਾਸਲ ਕਰਕੇ ਸੋਨ ਤਗਮਾ ਜੇਤੂ ਵਜੋਂ ਗ੍ਰੈਜੂਏਸ਼ਨ ਕੀਤੀ ਹੈ, ਅਤੇ ਜੇਐਨ ਟਾਟਾ ਸਕਾਲਰਸ਼ਿਪ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ।
ਡੇਵਿਡ ਐਲੀਸਨ ਲੇਨੋਵੋ ਆਈਐਸਜੀ ਦੇ ਮੁੱਖ ਡੇਟਾ ਸਾਇੰਟਿਸਟ ਹਨ। ਲੇਨੋਵੋ ਦੇ ਯੂਐਸ ਅਤੇ ਯੂਰਪੀਅਨ ਏਆਈ ਡਿਸਕਵਰ ਸੈਂਟਰਾਂ ਰਾਹੀਂ, ਉਹ ਇੱਕ ਅਜਿਹੀ ਟੀਮ ਦੀ ਅਗਵਾਈ ਕਰਦੇ ਹਨ ਜੋ ਬਾਹਰੀ ਗਾਹਕਾਂ ਲਈ ਹੱਲ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਅਤਿ-ਆਧੁਨਿਕ ਏਆਈ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ ਜਦੋਂ ਕਿ ਵਰਲਡ ਵਾਈਡ ਇਨਫਰਾਸਟ੍ਰਕਚਰ ਸਲਿਊਸ਼ਨਜ਼ ਗਰੁੱਪ ਲਈ ਸਮੁੱਚੀ ਏਆਈ ਰਣਨੀਤੀ ਦਾ ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ ਸਮਰਥਨ ਕਰਦੀ ਹੈ। ਲੇਨੋਵੋ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ, ਉਹ ਇੱਕ ਅੰਤਰਰਾਸ਼ਟਰੀ ਵਿਗਿਆਨਕ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਉਪਕਰਣ ਕੰਪਨੀ ਚਲਾਉਂਦੇ ਸਨ ਅਤੇ ਯੂਐਸ ਡਾਕ ਸੇਵਾ ਲਈ ਇੱਕ ਡੇਟਾ ਸਾਇੰਟਿਸਟ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਸਨ। ਇਸ ਤੋਂ ਪਹਿਲਾਂ, ਉਸਨੇ ਜੌਨਸ ਹੌਪਕਿੰਸ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਬਾਇਓਮੈਡੀਕਲ ਇੰਜੀਨੀਅਰਿੰਗ ਵਿੱਚ ਪੀਐਚਡੀ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਉਨ੍ਹਾਂ ਦੇ ਉੱਚ ਪੱਧਰੀ ਜਰਨਲਾਂ ਵਿੱਚ ਕਈ ਪ੍ਰਕਾਸ਼ਨ ਹਨ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਨੈਸ਼ਨਲ ਅਕੈਡਮੀ ਆਫ਼ ਦ ਸਾਇੰਸਜ਼ ਦੀ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਦੋ ਸ਼ਾਮਲ ਹਨ।

ਸੰਬੰਧਿਤ ਉਤਪਾਦ ਪਰਿਵਾਰ

ਇਸ ਦਸਤਾਵੇਜ਼ ਨਾਲ ਸੰਬੰਧਿਤ ਉਤਪਾਦ ਪਰਿਵਾਰ ਹੇਠ ਲਿਖੇ ਹਨ:

ਬਣਾਵਟੀ ਗਿਆਨ

ਨੋਟਿਸ
Lenovo ਸਾਰੇ ਦੇਸ਼ਾਂ ਵਿੱਚ ਇਸ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਚਰਚਾ ਕੀਤੇ ਗਏ ਉਤਪਾਦਾਂ, ਸੇਵਾਵਾਂ ਜਾਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਪੇਸ਼ਕਸ਼ ਨਹੀਂ ਕਰ ਸਕਦਾ ਹੈ। ਆਪਣੇ ਖੇਤਰ ਵਿੱਚ ਵਰਤਮਾਨ ਵਿੱਚ ਉਪਲਬਧ ਉਤਪਾਦਾਂ ਅਤੇ ਸੇਵਾਵਾਂ ਬਾਰੇ ਜਾਣਕਾਰੀ ਲਈ ਆਪਣੇ ਸਥਾਨਕ Lenovo ਪ੍ਰਤੀਨਿਧੀ ਨਾਲ ਸਲਾਹ ਕਰੋ। ਕਿਸੇ Lenovo ਉਤਪਾਦ, ਪ੍ਰੋਗਰਾਮ, ਜਾਂ ਸੇਵਾ ਦਾ ਕੋਈ ਵੀ ਹਵਾਲਾ ਇਹ ਦੱਸਣ ਜਾਂ ਸੰਕੇਤ ਕਰਨ ਲਈ ਨਹੀਂ ਹੈ ਕਿ ਸਿਰਫ਼ ਉਸ Lenovo ਉਤਪਾਦ, ਪ੍ਰੋਗਰਾਮ, ਜਾਂ ਸੇਵਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਕੋਈ ਵੀ ਕਾਰਜਸ਼ੀਲ ਤੌਰ 'ਤੇ ਬਰਾਬਰ ਉਤਪਾਦ, ਪ੍ਰੋਗਰਾਮ, ਜਾਂ ਸੇਵਾ ਜੋ ਕਿਸੇ ਵੀ Lenovo ਬੌਧਿਕ ਸੰਪੱਤੀ ਅਧਿਕਾਰ ਦੀ ਉਲੰਘਣਾ ਨਹੀਂ ਕਰਦੀ ਹੈ, ਇਸਦੀ ਬਜਾਏ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਹਾਲਾਂਕਿ, ਕਿਸੇ ਹੋਰ ਉਤਪਾਦ, ਪ੍ਰੋਗਰਾਮ, ਜਾਂ ਸੇਵਾ ਦੇ ਸੰਚਾਲਨ ਦਾ ਮੁਲਾਂਕਣ ਅਤੇ ਪੁਸ਼ਟੀ ਕਰਨਾ ਉਪਭੋਗਤਾ ਦੀ ਜ਼ਿੰਮੇਵਾਰੀ ਹੈ। Lenovo ਕੋਲ ਇਸ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਦੱਸੇ ਗਏ ਵਿਸ਼ੇ ਨੂੰ ਕਵਰ ਕਰਨ ਵਾਲੇ ਪੇਟੈਂਟ ਜਾਂ ਲੰਬਿਤ ਪੇਟੈਂਟ ਐਪਲੀਕੇਸ਼ਨ ਹੋ ਸਕਦੇ ਹਨ। ਇਸ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਪੇਸ਼ ਕਰਨ ਨਾਲ ਤੁਹਾਨੂੰ ਇਹਨਾਂ ਪੇਟੈਂਟਾਂ ਲਈ ਕੋਈ ਲਾਇਸੈਂਸ ਨਹੀਂ ਮਿਲਦਾ। ਤੁਸੀਂ ਲਿਖਤੀ ਰੂਪ ਵਿੱਚ ਲਾਇਸੈਂਸ ਪੁੱਛਗਿੱਛਾਂ ਨੂੰ ਇੱਥੇ ਭੇਜ ਸਕਦੇ ਹੋ:

ਲੈਨੋਵੋ (ਸੰਯੁਕਤ ਰਾਜ), ਇੰਕ.
8001 ਵਿਕਾਸ ਡਰਾਈਵ
ਮੌਰਿਸਵਿਲ, ਐਨਸੀ 27560
ਅਮਰੀਕਾ
ਧਿਆਨ ਦਿਓ: ਲਾਇਸੈਂਸਿੰਗ ਦੇ ਲੇਨੋਵੋ ਡਾਇਰੈਕਟਰ

LENOVO ਇਸ ਪ੍ਰਕਾਸ਼ਨ ਨੂੰ "ਜਿਵੇਂ ਹੈ" ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਕਿਸੇ ਵੀ ਕਿਸਮ ਦੀ ਵਾਰੰਟੀ ਤੋਂ ਬਿਨਾਂ, ਜਾਂ ਤਾਂ ਪ੍ਰਗਟਾਵੇ ਜਾਂ ਅਪ੍ਰਤੱਖ, ਸਮੇਤ, ਪਰ ਇਸ ਤੱਕ ਸੀਮਤ ਨਹੀਂ, ਗੈਰ-ਉਲੰਘਣ ਦੀ ਅਪ੍ਰਤੱਖ ਵਾਰੰਟੀਆਂ, ਵਿਸ਼ੇਸ਼ ਉਦੇਸ਼। ਕੁਝ ਅਧਿਕਾਰ ਖੇਤਰ ਕੁਝ ਟ੍ਰਾਂਜੈਕਸ਼ਨਾਂ ਵਿੱਚ ਸਪੱਸ਼ਟ ਜਾਂ ਅਪ੍ਰਤੱਖ ਵਾਰੰਟੀਆਂ ਦੇ ਬੇਦਾਅਵਾ ਦੀ ਇਜਾਜ਼ਤ ਨਹੀਂ ਦਿੰਦੇ ਹਨ, ਇਸਲਈ, ਇਹ ਬਿਆਨ ਤੁਹਾਡੇ 'ਤੇ ਲਾਗੂ ਨਹੀਂ ਹੋ ਸਕਦਾ ਹੈ।
ਇਸ ਜਾਣਕਾਰੀ ਵਿੱਚ ਤਕਨੀਕੀ ਅਸ਼ੁੱਧੀਆਂ ਜਾਂ ਟਾਈਪੋਗ੍ਰਾਫਿਕਲ ਗਲਤੀਆਂ ਸ਼ਾਮਲ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਇੱਥੇ ਜਾਣਕਾਰੀ ਵਿੱਚ ਸਮੇਂ-ਸਮੇਂ 'ਤੇ ਬਦਲਾਅ ਕੀਤੇ ਜਾਂਦੇ ਹਨ; ਇਹਨਾਂ ਤਬਦੀਲੀਆਂ ਨੂੰ ਪ੍ਰਕਾਸ਼ਨ ਦੇ ਨਵੇਂ ਸੰਸਕਰਣਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਕੀਤਾ ਜਾਵੇਗਾ। Lenovo ਬਿਨਾਂ ਨੋਟਿਸ ਦੇ ਕਿਸੇ ਵੀ ਸਮੇਂ ਇਸ ਪ੍ਰਕਾਸ਼ਨ ਵਿੱਚ ਵਰਣਿਤ ਉਤਪਾਦ(ਵਾਂ) ਅਤੇ/ਜਾਂ ਪ੍ਰੋਗਰਾਮਾਂ ਵਿੱਚ ਸੁਧਾਰ ਅਤੇ/ਜਾਂ ਤਬਦੀਲੀਆਂ ਕਰ ਸਕਦਾ ਹੈ।

ਇਸ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਵਰਣਿਤ ਉਤਪਾਦ ਇਮਪਲਾਂਟੇਸ਼ਨ ਜਾਂ ਹੋਰ ਜੀਵਨ ਸਹਾਇਤਾ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਵਰਤਣ ਲਈ ਨਹੀਂ ਹਨ ਜਿੱਥੇ ਖਰਾਬੀ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਵਿਅਕਤੀਆਂ ਨੂੰ ਸੱਟ ਲੱਗ ਸਕਦੀ ਹੈ ਜਾਂ ਮੌਤ ਹੋ ਸਕਦੀ ਹੈ। ਇਸ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਮੌਜੂਦ ਜਾਣਕਾਰੀ Lenovo ਉਤਪਾਦ ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜਾਂ ਵਾਰੰਟੀਆਂ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਜਾਂ ਬਦਲਦੀ ਨਹੀਂ ਹੈ। ਇਸ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਕੁਝ ਵੀ Lenovo ਜਾਂ ਤੀਜੀਆਂ ਧਿਰਾਂ ਦੇ ਬੌਧਿਕ ਸੰਪੱਤੀ ਅਧਿਕਾਰਾਂ ਦੇ ਤਹਿਤ ਇੱਕ ਐਕਸਪ੍ਰੈਸ ਜਾਂ ਅਪ੍ਰਤੱਖ ਲਾਇਸੈਂਸ ਜਾਂ ਮੁਆਵਜ਼ੇ ਵਜੋਂ ਕੰਮ ਨਹੀਂ ਕਰੇਗਾ। ਇਸ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਸ਼ਾਮਲ ਸਾਰੀ ਜਾਣਕਾਰੀ ਖਾਸ ਵਾਤਾਵਰਣ ਵਿੱਚ ਪ੍ਰਾਪਤ ਕੀਤੀ ਗਈ ਸੀ ਅਤੇ ਇੱਕ ਉਦਾਹਰਣ ਵਜੋਂ ਪੇਸ਼ ਕੀਤੀ ਗਈ ਹੈ। ਦੂਜੇ ਓਪਰੇਟਿੰਗ ਵਾਤਾਵਰਨ ਵਿੱਚ ਪ੍ਰਾਪਤ ਨਤੀਜਾ ਵੱਖਰਾ ਹੋ ਸਕਦਾ ਹੈ। Lenovo ਤੁਹਾਡੇ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤੀ ਜਾਣ ਵਾਲੀ ਕਿਸੇ ਵੀ ਜਾਣਕਾਰੀ ਦੀ ਵਰਤੋਂ ਜਾਂ ਵੰਡ ਸਕਦਾ ਹੈ ਜਿਸ ਨੂੰ ਉਹ ਤੁਹਾਡੇ ਲਈ ਕੋਈ ਜ਼ੁੰਮੇਵਾਰੀ ਲਏ ਬਿਨਾਂ ਉਚਿਤ ਮੰਨਦਾ ਹੈ।
ਗੈਰ-ਲੇਨੋਵੋ ਨੂੰ ਇਸ ਪ੍ਰਕਾਸ਼ਨ ਵਿੱਚ ਕੋਈ ਵੀ ਹਵਾਲਾ Web ਸਾਈਟਾਂ ਸਿਰਫ਼ ਸਹੂਲਤ ਲਈ ਪ੍ਰਦਾਨ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ ਅਤੇ ਕਿਸੇ ਵੀ ਤਰੀਕੇ ਨਾਲ ਉਹਨਾਂ ਦੇ ਸਮਰਥਨ ਵਜੋਂ ਕੰਮ ਨਹੀਂ ਕਰਦੀਆਂ Web ਸਾਈਟਾਂ। ਉਹ 'ਤੇ ਸਮੱਗਰੀ Web ਸਾਈਟਾਂ ਇਸ Lenovo ਉਤਪਾਦ ਲਈ ਸਮੱਗਰੀ ਦਾ ਹਿੱਸਾ ਨਹੀਂ ਹਨ, ਅਤੇ ਉਹਨਾਂ ਦੀ ਵਰਤੋਂ Web ਸਾਈਟਾਂ ਤੁਹਾਡੇ ਆਪਣੇ ਜੋਖਮ 'ਤੇ ਹਨ। ਇੱਥੇ ਮੌਜੂਦ ਕੋਈ ਵੀ ਪ੍ਰਦਰਸ਼ਨ ਡੇਟਾ ਇੱਕ ਨਿਯੰਤਰਿਤ ਵਾਤਾਵਰਣ ਵਿੱਚ ਨਿਰਧਾਰਤ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਸ ਲਈ, ਦੂਜੇ ਓਪਰੇਟਿੰਗ ਵਾਤਾਵਰਨ ਵਿੱਚ ਪ੍ਰਾਪਤ ਨਤੀਜਾ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਹੋ ਸਕਦਾ ਹੈ। ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਕੁਝ ਮਾਪ ਵਿਕਾਸ-ਪੱਧਰੀ ਪ੍ਰਣਾਲੀਆਂ 'ਤੇ ਕੀਤੇ ਗਏ ਹੋਣ ਅਤੇ ਇਸ ਗੱਲ ਦੀ ਕੋਈ ਗਾਰੰਟੀ ਨਹੀਂ ਹੈ ਕਿ ਇਹ ਮਾਪ ਆਮ ਤੌਰ 'ਤੇ ਉਪਲਬਧ ਪ੍ਰਣਾਲੀਆਂ 'ਤੇ ਇੱਕੋ ਜਿਹੇ ਹੋਣਗੇ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਕੁਝ ਮਾਪਾਂ ਦਾ ਅਨੁਮਾਨ ਐਕਸਟਰਾਪੋਲੇਸ਼ਨ ਦੁਆਰਾ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਅਸਲ ਨਤੀਜੇ ਵੱਖ-ਵੱਖ ਹੋ ਸਕਦੇ ਹਨ। ਇਸ ਦਸਤਾਵੇਜ਼ ਦੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਖਾਸ ਵਾਤਾਵਰਣ ਲਈ ਲਾਗੂ ਡੇਟਾ ਦੀ ਪੁਸ਼ਟੀ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।

ਇਹ ਦਸਤਾਵੇਜ਼, LP2130, 24 ਜਨਵਰੀ, 2025 ਨੂੰ ਬਣਾਇਆ ਜਾਂ ਅੱਪਡੇਟ ਕੀਤਾ ਗਿਆ ਸੀ।
ਹੇਠਾਂ ਦਿੱਤੇ ਤਰੀਕਿਆਂ ਵਿੱਚੋਂ ਕਿਸੇ ਇੱਕ ਤਰੀਕੇ ਨਾਲ ਸਾਨੂੰ ਆਪਣੀਆਂ ਟਿੱਪਣੀਆਂ ਭੇਜੋ:
ਔਨਲਾਈਨ ਵਰਤੋ ਸਾਡੇ ਨਾਲ ਸੰਪਰਕ ਕਰੋview ਫਾਰਮ ਇੱਥੇ ਮਿਲਿਆ: https://lenovopress.lenovo.com/LP2130
ਆਪਣੀਆਂ ਟਿੱਪਣੀਆਂ ਨੂੰ ਇੱਕ ਈ-ਮੇਲ ਵਿੱਚ ਭੇਜੋ: comments@lenovopress.com
ਇਹ ਦਸਤਾਵੇਜ਼ ਔਨਲਾਈਨ 'ਤੇ ਉਪਲਬਧ ਹੈ https://lenovopress.lenovo.com/LP2130.

ਟ੍ਰੇਡਮਾਰਕ
Lenovo ਅਤੇ Lenovo ਲੋਗੋ ਸੰਯੁਕਤ ਰਾਜ, ਦੂਜੇ ਦੇਸ਼ਾਂ, ਜਾਂ ਦੋਵੇਂ ਵਿੱਚ Lenovo ਦੇ ਟ੍ਰੇਡਮਾਰਕ ਜਾਂ ਰਜਿਸਟਰਡ ਟ੍ਰੇਡਮਾਰਕ ਹਨ। Lenovo ਟ੍ਰੇਡਮਾਰਕ ਦੀ ਇੱਕ ਮੌਜੂਦਾ ਸੂਚੀ 'ਤੇ ਉਪਲਬਧ ਹੈ Web at https://www.lenovo.com/us/en/legal/copytrade/.
ਹੇਠ ਲਿਖੀਆਂ ਸ਼ਰਤਾਂ ਸੰਯੁਕਤ ਰਾਜ, ਦੂਜੇ ਦੇਸ਼ਾਂ, ਜਾਂ ਦੋਵਾਂ ਵਿੱਚ Lenovo ਦੇ ਟ੍ਰੇਡਮਾਰਕ ਹਨ: Lenovo®
ਹੋਰ ਕੰਪਨੀ, ਉਤਪਾਦ, ਜਾਂ ਸੇਵਾ ਦੇ ਨਾਮ ਦੂਜਿਆਂ ਦੇ ਟ੍ਰੇਡਮਾਰਕ ਜਾਂ ਸੇਵਾ ਚਿੰਨ੍ਹ ਹੋ ਸਕਦੇ ਹਨ।

ਲੇਨੋਵੋ ਐਲਐਲਐਮ ਸਾਈਜ਼ਿੰਗ ਗਾਈਡ

ਦਸਤਾਵੇਜ਼ / ਸਰੋਤ

ਲੇਨੋਵੋ ਐਲਐਲਐਮ ਸਾਈਜ਼ਿੰਗ ਵਿਆਪਕ ਫਰੇਮਵਰਕ [pdf] ਯੂਜ਼ਰ ਗਾਈਡ
ਐਲਐਲਐਮ ਸਾਈਜ਼ਿੰਗ ਵਿਆਪਕ ਢਾਂਚਾ, ਐਲਐਲਐਮ ਸਾਈਜ਼ਿੰਗ, ਵਿਆਪਕ ਢਾਂਚਾ, ਢਾਂਚਾ

ਹਵਾਲੇ

ਯੂਜ਼ਰ ਮੈਨੂਅਲ