२०२५-०४-०२
# प्रति डॉलर टोकन
मैं इन संख्याओं की कई बार पुनर्गणना करता हूँ, इसलिए यहाँ एक सुविधाजनक संदर्भ दे रहा हूँ। आप अपनी आवश्यकता के अनुसार खुद के मान भी इस्तेमाल कर सकते हैं।
FLOP : फ्लोटिंग पॉइंट ऑपरेशन(ऑपरेशनों) - यहाँ float32 मान लें जब तक कुछ और निर्दिष्ट न किया जाए। FLOP/s : प्रति सेकंड फ्लोटिंग पॉइंट ऑपरेशन FLOPs, FLOPS : मैं इस शब्दावली का उपयोग नहीं करूँगा
किसी GPU के लिए: FLOP/$ = (GPU FLOP/s) * (GPU का उपयोगी जीवनकाल सेकंड में) / (GPU बिक्री मूल्य डॉलर में)
किसी GPU और किसी LLM (इनफेरेंस के लिए) के संदर्भ में: $/token = (FLOP / token) / (GPU FLOP/$) = e * (LLM पैरामीटर) / (GPU FLOP/$)
जहाँ e : हर फॉरवर्ड पास में प्रत्येक LLM पैरामीटर तक पहुँच (और गुणा) करने की संख्या e > 1
(मान लें कि 5 साल में ऊर्जा लागत, बिक्री मूल्य की तुलना में बहुत कम है) (मान लें कि हर फॉरवर्ड पास के लिए एक इनफेरेंस टोकन निकलता है)
मान लें कि Llama3 405B इनफेरेंस, और एक मशीन चुनें:
Llama3 405B float32 मेमोरी = 405B * 4 = 1620 GB H200 मेमोरी = 141 GB 1620 GB / 141 GB = 11.48 => कम से कम 12xH200 की आवश्यकता
मान लें 2x8xH200 SXM:
कुल FLOP/$ = (2 * 8 * 67 TFLOP/s) * (5 साल) / ( 2 * $300k ) = 2.817e17 FLOP/$
मान लें Llama3 405B इनफेरेंस:
$/token = e * (405 बिलियन) / (2.817e17 FLOP/$) = e * 1.44e-6 $/token = e * $1.44/1M tokens
तुलना के लिए यहाँ [OpenAI मूल्य पेज](https://openai.com/api/pricing/) देखें।