कैसे NVIDIA DGX स्पार्क सॉवरेन AI को स्थानीय वास्तविकता बना रहा है

एआई जगत में इस बात पर चर्चा बढ़ रही है कि जब आप क्लाउड-आधारित एआई टूल का उपयोग करते हैं तो आपका डेटा कहां जाता है। लागत, गोपनीयता और नियंत्रण स्वयं मॉडल जितने ही महत्वपूर्ण होते जा रहे हैं। यह बदलाव ठीक वैसा ही है जिसे संबोधित करने के लिए NVIDIA DGX स्पार्क को डिज़ाइन किया गया है।

हाल ही में आयोजित एक वेबिनार में आरपी टेकएक NVIDIA पार्टनर, योरस्टोरी के सहयोग से, मेघ मकवाणाNVIDIA में एप्लाइड जेनएआई सॉल्यूशंस इंजीनियरिंग के प्रबंधक ने प्रदर्शित किया कि NVIDIA DGX स्पार्क कैसे काम करता है और यह क्या संभव बनाता है।

एनवीडिया डीजीएक्स स्पार्क ग्रेस ब्लैकवेल सुपरचिप द्वारा संचालित एक छोटा, पोर्टेबल उपकरण है। अपने कॉम्पैक्ट आकार के बावजूद, यह 128 जीबी मेमोरी के साथ आता है, जिसका अर्थ है कि यह क्लाउड कनेक्शन या सर्वर रूम की आवश्यकता के बिना सार्वजनिक रूप से उपलब्ध कुछ सबसे बड़े एआई मॉडल चला सकता है।

अकेले मॉडल का आकार ही पर्याप्त क्यों नहीं है?

मकवाना बताते हैं कि बस एक बड़े एआई मॉडल को डाउनलोड करना और उसे चलाना हमेशा आसान नहीं होता है, और क्वांटाइजेशन नामक तकनीक उस समस्या को हल करने में कैसे मदद करती है।

सरल शब्दों में, परिमाणीकरण एक मॉडल को संपीड़ित करने के बारे में है ताकि यह बहुत अधिक सटीकता खोए बिना कम मेमोरी ले। अपने मानक प्रारूप में 70 बिलियन पैरामीटर मॉडल लगभग 140 जीबी मेमोरी लेता है, जो कि NVIDIA DGX स्पार्क से अधिक है। इसे FP8 नामक प्रारूप में संपीड़ित करने पर, यह लगभग 70 जीबी तक गिर जाता है। इसे NVFp4 में संपीड़ित करने से, एक प्रारूप जो मूल रूप से ब्लैकवेल चिप पर चलता है, इसे 35-40 जीबी तक कम कर देता है।

वास्तविक दुनिया के प्रदर्शन में अंतर को लाइव प्रदर्शित किया गया। मॉडल का मानक संस्करण लगभग 150-170 मिलीसेकंड की प्रतिक्रिया प्रारंभ समय के साथ, प्रति सेकंड लगभग 13 टोकन का उत्पादन करता है। एनवीएफपी4 संस्करण पर स्विच करने के बाद, प्रतिक्रिया प्रारंभ समय लगभग 60-65 मिलीसेकंड तक गिर गया, और टोकन पीढ़ी की समग्र गति दोगुनी से अधिक हो गई।

“यदि आप इन मॉडलों को कम परिशुद्धता में परिमाणित करते हैं, तो अब आप कई मॉडल चला सकते हैं,” मकवाना ने कहा, यह इंगित करते हुए कि एक संपीड़ित भाषा मॉडल एक ही डिवाइस पर एक भाषण पहचान मॉडल और एक टेक्स्ट-टू-स्पीच मॉडल को एक ही समय में चलाने के लिए पर्याप्त जगह छोड़ देता है, जो कि वॉयस एजेंट के लिए बिल्कुल आवश्यक है।

वॉयस एजेंट, संप्रभु एलएलएम, और आगे क्या आता है

मकवाना ने वॉयस एजेंटों पर काफी समय बिताया, जो तीन घटकों को जोड़ते हैं: एक स्पीच-टू-टेक्स्ट मॉडल जो आप जो कहते हैं उसे शब्दों में परिवर्तित करता है, एक भाषा मॉडल जो एक प्रतिक्रिया उत्पन्न करता है, और एक टेक्स्ट-टू-स्पीच मॉडल जो प्रतिक्रिया को ज़ोर से पढ़ता है।

उन्होंने इसे बनाने के दो तरीके बताए। पहला एक पाइपलाइन दृष्टिकोण है, जहां प्रत्येक घटक अलग है और उसे स्वैप किया जा सकता है या अनुकूलित किया जा सकता है। यह डेवलपर्स को अधिक नियंत्रण देता है, जिसमें मॉडल को विशिष्ट निर्देश देने और इसे वेब खोज या मैसेजिंग ऐप्स जैसे बाहरी टूल से कनेक्ट करने की क्षमता शामिल है। दूसरा दृष्टिकोण नेमोट्रॉन 3 वॉयस चैट का उपयोग करता है, एक एकल मॉडल जो ऑडियो इनपुट से ऑडियो आउटपुट तक पूरी बातचीत को संभालता है। यह तेज़ और सरल है, लेकिन समान स्तर के अनुकूलन की अनुमति नहीं देता है।

सत्र में OpenClaw को भी शामिल किया गया, जो एक ओपन-सोर्स एजेंट फ्रेमवर्क है जो NVIDIA DGX स्पार्क पर चल सकता है। इसे एक निजी सहायक के रूप में सोचें जो न केवल प्रश्नों का उत्तर देता है बल्कि आपकी ओर से कार्य भी कर सकता है, जैसे आपके लिए महत्वपूर्ण विषयों की निगरानी करना, पूरे वेब से सामग्री का सारांश देना, या दोहराए जाने वाले वर्कफ़्लो को स्वचालित करना। NVIDIA ने शीर्ष पर ओपनशेल नामक अपनी स्वयं की परत जोड़ी है, जो गोपनीयता नियंत्रण, सुरक्षित निष्पादन के लिए एक सैंडबॉक्स वातावरण और एजेंट क्या कर सकता है और क्या नहीं, यह परिभाषित करने के लिए एक नीति इंजन लाता है।

भारतीय भाषा समर्थन के लिए, DGX वर्तमान में हिंदी, बंगाली, तमिल और तेलुगु के लिए भाषण पहचान का समर्थन करता है, और अधिक भाषाओं की योजना बनाई गई है। जिन टीमों को अभी व्यापक भाषा कवरेज की आवश्यकता है, उनके लिए मकवाना ने भारत के लिए एआई जैसी ओपन-सोर्स पहल पर विचार करने की सिफारिश की। विशेष रूप से हिंदी टेक्स्ट-टू-स्पीच के लिए, मैगपाई टीटीएस मॉडल उपलब्ध है।

वेबिनार में वाक् पहचान के लिए पैराकीट, नेमोट्रॉन नैनो भाषा मॉडल और मैगपाई टीटीएस का उपयोग करके निर्मित एक वॉयस एजेंट का लाइव डेमो भी दिखाया गया, जो वास्तविक समय में पूर्ण आवाज वार्तालाप के रूप में चल रहा था।

एक निवेश जो सबसे ज्यादा मायने रखता है

सत्र इस प्रश्न के साथ समाप्त हुआ कि अपने स्वयं के एआई मॉडल बनाने वाले कई संगठन इस समस्या से जूझ रहे हैं: यदि आपको बड़े मॉडल पर पैसा खर्च करने या बेहतर गुणवत्ता वाले डेटा के बीच चयन करना हो, तो आप किसे चुनेंगे?

मकवाना का जवाब स्पष्ट था. “किसी भी दिन, डेटा। मॉडल आकार और आर्किटेक्चर लोकतांत्रिक हैं। यदि आपके पास वास्तव में उच्च गुणवत्ता वाला डेटा है, तो आप अभी भी वास्तव में महान छोटे भाषा मॉडल बना सकते हैं।”

इसे बंद करना एक व्यावहारिक नोट था। सक्षम एआई को स्थानीय स्तर पर चलाने के उपकरण अब मौजूद हैं और पहुंच के भीतर हैं। यह निर्धारित करता है कि क्या वे प्रणालियाँ वास्तव में अच्छी तरह से काम करती हैं, इसका हार्डवेयर से कम और आप इसमें क्या डालते हैं उससे अधिक लेना-देना है।

Source link


Discover more from News Link360

Subscribe to get the latest posts sent to your email.

Leave a Reply

Discover more from News Link360

Subscribe now to keep reading and get access to the full archive.

Continue reading