आपकी डेस्क अब एक एआई लैब है: आरपी टेक, एक एनवीआईडीआईए पार्टनर, बैंगलोर में एनवीआईडीआईए डीजीएक्स स्पार्क का डेमो करता है

एआई इंफ्रास्ट्रक्चर के बारे में अधिकांश बातचीत एक ही स्थान पर समाप्त होती है: क्लाउड। अधिक गणना, अधिक लागत, डेवलपर और कार्य के बीच अधिक दूरी।

11 अप्रैल, 2026 को, NVIDIA पार्टनर आरपी टेक ने, योरस्टोरी के सहयोग से, हयात सेंट्रिक, बेंगलुरु में एक अलग बातचीत की मेजबानी की। 100 से अधिक अनुभवी डेवलपर्स एक ऐसी मशीन के साथ एक शाम बिताने के लिए एकत्र हुए, जिसका वजन 1.2 किलोग्राम था और यह टेबलटॉप पर आराम से फिट बैठती थी।

विषय प्रत्यक्ष था: आपकी डेस्क अब एक जनरल एआई लैब है। डिवाइस NVIDIA DGX स्पार्क था।

स्थानीय AI विकास एक डेवलपर समस्या क्यों है?

डेमो शुरू होने से पहले, अर्श गोयलएआई और इंजीनियरिंग सामग्री निर्माता, ने तकनीकी नींव रखी। उन्होंने सत्र के दौरान आवश्यक शब्दावली के बारे में कमरे में भ्रमण किया: पैरामीटर, अनुमान, फाइन-ट्यूनिंग, एकीकृत मेमोरी, CUDA, TensorRT, RAPIDS, NeMo, NIM। एक शब्दावली अभ्यास के रूप में नहीं, बल्कि इसलिए कि इन शर्तों को जानने और उन्हें चलाने की लागत को समझने के बीच का अंतर ठीक वही है जहां अधिकांश डेवलपर्स एक दीवार से टकराते हैं।

दीवार परिचित है. निजी लैपटॉप में लगभग 24 जीबी रैम होती है। क्लाउड वातावरण गणना की समस्या को हल करता है लेकिन आपको एक नई समस्या सौंपता है: बार-बार सेटअप, अप्रत्याशित बिलिंग, और यह लगातार सवाल कि आपका डेटा आपकी मशीन से निकलने पर वास्तव में कहां जाता है।

गोयल ने कमरे में कहा, “एआई विकास का भविष्य पहले स्थानीय होना चाहिए।”

उन्होंने NVIDIA DGX स्पार्क को भी ऐतिहासिक संदर्भ में रखा। 2016 में लॉन्च किए गए मूल DGX स्टेशन का वजन 60-70 किलोग्राम था। अब इसका वजन 1.2 किलोग्राम है। एक ही वंश, 10 साल का अंतर।

NVIDIA DGX स्पार्क वास्तव में क्या करता है

अमित कुमारNVIDIA में सॉल्यूशंस आर्किटेक्चर और इंजीनियरिंग के प्रबंधक ने मुख्य तकनीकी सत्र चलाया। उन्होंने शुरू करने से पहले एक जानबूझकर विकल्प चुना: लैपटॉप से एसएसएच पर डिवाइस से कनेक्ट करने के बजाय, उन्होंने एनवीडिया डीजीएक्स स्पार्क को सीधे कमरे के डिस्प्ले में प्लग किया। वह चाहते थे कि दर्शक रिमोट टर्मिनल नहीं, बल्कि वास्तविक डेस्कटॉप देखें।

वह जिस विशिष्टता पर लौटता रहा वह 128 जीबी की एकीकृत मेमोरी थी। एक मानक प्रणाली में, सीपीयू और जीपीयू एक पीसीआई बस के माध्यम से जुड़ते हैं, जो बाधा बन जाता है। NVIDIA DGX स्पार्क पर, ग्रेस सीपीयू और ब्लैकवेल जीपीयू एक साथ बैठते हैं, एनवीलिंक के माध्यम से जुड़े होते हैं, लगभग 300 जीबीपीएस पर समान मेमोरी पूल साझा करते हैं। नतीजा यह हुआ कि दोनों चिप्स एक साथ समान 128 जीबी तक पहुंच गए।

कुमार ने कहा, “128 जीबी एकीकृत मेमोरी है। यह एक बड़ी उपलब्धि है।”

यह दिखाने के लिए कि व्यवहार में इसका क्या मतलब है, कुमार ने सत्र से पहले ही नेमोट्रॉन 3 120-बिलियन-पैरामीटर मॉडल को डिवाइस पर लोड कर दिया था। उस आकार के मॉडल को FP16 परिशुद्धता में 240 जीबी स्टोरेज की आवश्यकता होगी। ओलामा के परिमाणित प्रारूप का उपयोग करते हुए, यह 86 जीबी बैठता है और डिवाइस की एकीकृत मेमोरी में पूरी तरह से फिट बैठता है। मॉडल लोड होते ही रूम ने डैशबोर्ड को लाइव देखा: मेमोरी उपयोग बढ़ गया, GPU उपयोग शून्य से 95% हो गया, और फिर, एक बार अनुमान पूरा हो जाने पर, वापस शून्य पर आ गया। मॉडल स्मृति में बना रहा। GPU के पास करने के लिए और कुछ नहीं था।

कुमार समझौते के बारे में स्पष्ट थे। NVIDIA DGX स्पार्क डेटा सेंटर GPU में पाए जाने वाले HBM के बजाय LPDDR मेमोरी का उपयोग करता है। यह 150 वॉट पर चलता है। यह डेटा सेंटर रैक का प्रतिस्थापन नहीं है। लेकिन 20 डेवलपर्स की एक टीम के लिए जो एक निजी, स्थानीय अनुमान वातावरण, या प्रति सेकंड 20-25 अनुरोध चलाने वाला संगठन चलाना चाहते हैं, अर्थशास्त्र अलग हैं। और जो कोई भी आगे जाना चाहता है, उसके लिए 256 जीबी एकीकृत मेमोरी सिस्टम बनाने के लिए दो NVIDIA DGX स्पार्क इकाइयों को QSFP केबल के माध्यम से जोड़ा जा सकता है। चार इकाइयों को एक स्विच की आवश्यकता होती है।

नेमोक्लॉ और एंटरप्राइज़-ग्रेड एजेंटों के लिए मामला

सत्र का एक बड़ा हिस्सा एनवीआईडीआईए के ओपन-सोर्स ओपन क्लॉ एजेंट के एंटरप्राइज़ संस्करण, नेमोक्लॉ पर केंद्रित था। अंतर क्यों मायने रखता है, इस बारे में कुमार की व्याख्या ठोस थी। ओपन क्लॉ एक व्यक्तिगत एआई सहायक है जो आपकी ओर से आपकी मशीन पर सॉफ़्टवेयर के साथ बातचीत कर सकता है। समस्या यह है कि कठोर रेलिंग के बिना, यह संकेतों और संभाव्यता पर काम करता है। कुमार ने कहा, “अगर आप इसे अपने संगठन में किसी को व्हाट्सएप संदेश भेजने के लिए कहते हैं, लेकिन गलती से, समान नाम के साथ, यह इसे आपके बॉस को भेज सकता है।” कोई भी कठोर सीमा इसे नहीं रोकती।

NemoClaw ओपन शेल द्वारा बनाए गए सैंडबॉक्स के अंदर एजेंट को चलाकर इसे संबोधित करता है, एक रनटाइम जो YAML कॉन्फ़िगरेशन फ़ाइल में परिभाषित नीतियों को लागू करता है। नियम नियतिवादी हैं. यदि कॉन्फ़िगरेशन कहता है कि एजेंट किसी विशिष्ट एप्लिकेशन तक नहीं पहुंच सकता है या बाहरी समापन बिंदु पर डेटा नहीं भेज सकता है, तो प्रॉम्प्ट कुछ भी कहे, वह सीमा कायम रहती है। यह उसी तरह कार्य करता है जैसे कुबेरनेट्स पॉड नीतियों को लागू करता है।

कुमार ने GitHub से लाइव पूर्ण इंस्टॉलेशन का प्रदर्शन किया: NVIDIA के कंटेनर रनटाइम के माध्यम से GPU के साथ संचार करने के लिए डॉकर को कॉन्फ़िगर करना, ओलामा के माध्यम से नेमोट्रॉन 3 मॉडल को लोड करना, सैंडबॉक्स नीतियों को सेट करना और सैंडबॉक्स को टेलीग्राम बॉट से कनेक्ट करना। उन्होंने बॉट का नाम “अमित बॉट” रखा क्योंकि, उन्होंने कहा, उनका नाम अमित है। जब उन्होंने टेलीग्राम से एक संदेश भेजा, तो रूम ने डैशबोर्ड पर GPU उपयोग में वृद्धि देखी, और प्रतिक्रिया पूरी तरह से टेबल पर NVIDIA DGX स्पार्क से आई। उन्होंने कहा, “आपका डेटा बस यहीं जा रहा है और कहीं और वापस नहीं आ रहा है।”

उन्होंने डिवाइस पर फाइन-ट्यूनिंग स्कोप को भी कवर किया: लोरा फाइन-ट्यूनिंग 70 बिलियन पैरामीटर तक के मॉडल पर काम करने योग्य है; लगभग 13 बिलियन मापदंडों तक पूर्ण फाइन-ट्यूनिंग।

अवधारणा के प्रमाण से लेकर उत्पादन तक: NVIDIA एजेंट टूलकिट

सत्र NVIDIA NeMo एजेंट टूलकिट के साथ समाप्त हुआ, जिसे कुमार ने लैंगग्राफ या Google ADK के प्रतिस्पर्धी ढांचे के रूप में नहीं, बल्कि एक उत्पादन परत के रूप में रखा जो उनके ऊपर बैठता है। यह जिस विशिष्ट समस्या का समाधान करता है वह तब होता है जब एक मल्टी-एजेंट सिस्टम प्रूफ-ऑफ-कॉन्सेप्ट चरण को छोड़ देता है और वास्तविक कार्यभार का सामना करता है। सत्रों के दौरान स्मृति बढ़ती है। एकाधिक एलएलएम कॉलों में टोकन खपत को ट्रैक करना कठिन है। और कठोर सीमाओं के बिना, एजेंट ऐसे लूप में प्रवेश कर सकते हैं जो अनियंत्रित रूप से चलते हैं।

टूलकिट मेमोरी प्रबंधन को संभालता है, प्रति मॉडल और प्रति कॉल टोकन खपत पर टेलीमेट्री प्रदान करता है, और डेवलपर्स को उन लूपों को रोकने वाली कठिन सीमाएं निर्धारित करने देता है।

प्रश्नोत्तर सत्र में बाहरी जीपीयू समर्थन और एनवीआईडीआईए रन को शामिल किया गया: एआई संगतता, वीएलएलएम, टेन्सोरआरटी-एलएलएम और एसजीलैंग के बीच अनुमान बैकएंड चयन, और बड़े पैमाने पर प्री-फिल और डिकोड के प्रबंधन में एनवीआईडीआईए डायनेमो की भूमिका।

वॉकथ्रू, प्रश्नोत्तरी और नेटवर्किंग डिनर के दौरान सत्र ने जो प्रदर्शित किया, वह यह है कि स्थानीय प्रयोग और एंटरप्राइज़-ग्रेड परिनियोजन के बीच अंतर कम हो रहा है। NVIDIA DGX स्पार्क और NVIDIA सॉफ्टवेयर स्टैक, जिसे RP Tech, एक NVIDIA पार्टनर, बैंगलोर के डेवलपर समुदाय में लाया गया है, एक सीधा मामला बनाते हैं: आपके AI वर्कफ़्लो में सबसे सक्षम GPU आपके डेस्क पर बैठा हुआ हो सकता है।