हाल ही में आयोजित एक वेबिनार में आरपी टेकएक NVIDIA पार्टनर, योरस्टोरी के सहयोग से, मेघ मकवाणाNVIDIA में एप्लाइड जेनएआई सॉल्यूशंस इंजीनियरिंग के प्रबंधक ने प्रदर्शित किया कि NVIDIA DGX स्पार्क कैसे काम करता है और यह क्या संभव बनाता है।
एनवीडिया डीजीएक्स स्पार्क ग्रेस ब्लैकवेल सुपरचिप द्वारा संचालित एक छोटा, पोर्टेबल उपकरण है। अपने कॉम्पैक्ट आकार के बावजूद, यह 128 जीबी मेमोरी के साथ आता है, जिसका अर्थ है कि यह क्लाउड कनेक्शन या सर्वर रूम की आवश्यकता के बिना सार्वजनिक रूप से उपलब्ध कुछ सबसे बड़े एआई मॉडल चला सकता है।
अकेले मॉडल का आकार ही पर्याप्त क्यों नहीं है?
मकवाना बताते हैं कि बस एक बड़े एआई मॉडल को डाउनलोड करना और उसे चलाना हमेशा आसान नहीं होता है, और क्वांटाइजेशन नामक तकनीक उस समस्या को हल करने में कैसे मदद करती है।
सरल शब्दों में, परिमाणीकरण एक मॉडल को संपीड़ित करने के बारे में है ताकि यह बहुत अधिक सटीकता खोए बिना कम मेमोरी ले। अपने मानक प्रारूप में 70 बिलियन पैरामीटर मॉडल लगभग 140 जीबी मेमोरी लेता है, जो कि NVIDIA DGX स्पार्क से अधिक है। इसे FP8 नामक प्रारूप में संपीड़ित करने पर, यह लगभग 70 जीबी तक गिर जाता है। इसे NVFp4 में संपीड़ित करने से, एक प्रारूप जो मूल रूप से ब्लैकवेल चिप पर चलता है, इसे 35-40 जीबी तक कम कर देता है।
वास्तविक दुनिया के प्रदर्शन में अंतर को लाइव प्रदर्शित किया गया। मॉडल का मानक संस्करण लगभग 150-170 मिलीसेकंड की प्रतिक्रिया प्रारंभ समय के साथ, प्रति सेकंड लगभग 13 टोकन का उत्पादन करता है। एनवीएफपी4 संस्करण पर स्विच करने के बाद, प्रतिक्रिया प्रारंभ समय लगभग 60-65 मिलीसेकंड तक गिर गया, और टोकन पीढ़ी की समग्र गति दोगुनी से अधिक हो गई।
“यदि आप इन मॉडलों को कम परिशुद्धता में परिमाणित करते हैं, तो अब आप कई मॉडल चला सकते हैं,” मकवाना ने कहा, यह इंगित करते हुए कि एक संपीड़ित भाषा मॉडल एक ही डिवाइस पर एक भाषण पहचान मॉडल और एक टेक्स्ट-टू-स्पीच मॉडल को एक ही समय में चलाने के लिए पर्याप्त जगह छोड़ देता है, जो कि वॉयस एजेंट के लिए बिल्कुल आवश्यक है।
वॉयस एजेंट, संप्रभु एलएलएम, और आगे क्या आता है
मकवाना ने वॉयस एजेंटों पर काफी समय बिताया, जो तीन घटकों को जोड़ते हैं: एक स्पीच-टू-टेक्स्ट मॉडल जो आप जो कहते हैं उसे शब्दों में परिवर्तित करता है, एक भाषा मॉडल जो एक प्रतिक्रिया उत्पन्न करता है, और एक टेक्स्ट-टू-स्पीच मॉडल जो प्रतिक्रिया को ज़ोर से पढ़ता है।
उन्होंने इसे बनाने के दो तरीके बताए। पहला एक पाइपलाइन दृष्टिकोण है, जहां प्रत्येक घटक अलग है और उसे स्वैप किया जा सकता है या अनुकूलित किया जा सकता है। यह डेवलपर्स को अधिक नियंत्रण देता है, जिसमें मॉडल को विशिष्ट निर्देश देने और इसे वेब खोज या मैसेजिंग ऐप्स जैसे बाहरी टूल से कनेक्ट करने की क्षमता शामिल है। दूसरा दृष्टिकोण नेमोट्रॉन 3 वॉयस चैट का उपयोग करता है, एक एकल मॉडल जो ऑडियो इनपुट से ऑडियो आउटपुट तक पूरी बातचीत को संभालता है। यह तेज़ और सरल है, लेकिन समान स्तर के अनुकूलन की अनुमति नहीं देता है।
सत्र में OpenClaw को भी शामिल किया गया, जो एक ओपन-सोर्स एजेंट फ्रेमवर्क है जो NVIDIA DGX स्पार्क पर चल सकता है। इसे एक निजी सहायक के रूप में सोचें जो न केवल प्रश्नों का उत्तर देता है बल्कि आपकी ओर से कार्य भी कर सकता है, जैसे आपके लिए महत्वपूर्ण विषयों की निगरानी करना, पूरे वेब से सामग्री का सारांश देना, या दोहराए जाने वाले वर्कफ़्लो को स्वचालित करना। NVIDIA ने शीर्ष पर ओपनशेल नामक अपनी स्वयं की परत जोड़ी है, जो गोपनीयता नियंत्रण, सुरक्षित निष्पादन के लिए एक सैंडबॉक्स वातावरण और एजेंट क्या कर सकता है और क्या नहीं, यह परिभाषित करने के लिए एक नीति इंजन लाता है।
भारतीय भाषा समर्थन के लिए, DGX वर्तमान में हिंदी, बंगाली, तमिल और तेलुगु के लिए भाषण पहचान का समर्थन करता है, और अधिक भाषाओं की योजना बनाई गई है। जिन टीमों को अभी व्यापक भाषा कवरेज की आवश्यकता है, उनके लिए मकवाना ने भारत के लिए एआई जैसी ओपन-सोर्स पहल पर विचार करने की सिफारिश की। विशेष रूप से हिंदी टेक्स्ट-टू-स्पीच के लिए, मैगपाई टीटीएस मॉडल उपलब्ध है।
वेबिनार में वाक् पहचान के लिए पैराकीट, नेमोट्रॉन नैनो भाषा मॉडल और मैगपाई टीटीएस का उपयोग करके निर्मित एक वॉयस एजेंट का लाइव डेमो भी दिखाया गया, जो वास्तविक समय में पूर्ण आवाज वार्तालाप के रूप में चल रहा था।
एक निवेश जो सबसे ज्यादा मायने रखता है
सत्र इस प्रश्न के साथ समाप्त हुआ कि अपने स्वयं के एआई मॉडल बनाने वाले कई संगठन इस समस्या से जूझ रहे हैं: यदि आपको बड़े मॉडल पर पैसा खर्च करने या बेहतर गुणवत्ता वाले डेटा के बीच चयन करना हो, तो आप किसे चुनेंगे?
मकवाना का जवाब स्पष्ट था. “किसी भी दिन, डेटा। मॉडल आकार और आर्किटेक्चर लोकतांत्रिक हैं। यदि आपके पास वास्तव में उच्च गुणवत्ता वाला डेटा है, तो आप अभी भी वास्तव में महान छोटे भाषा मॉडल बना सकते हैं।”
इसे बंद करना एक व्यावहारिक नोट था। सक्षम एआई को स्थानीय स्तर पर चलाने के उपकरण अब मौजूद हैं और पहुंच के भीतर हैं। यह निर्धारित करता है कि क्या वे प्रणालियाँ वास्तव में अच्छी तरह से काम करती हैं, इसका हार्डवेयर से कम और आप इसमें क्या डालते हैं उससे अधिक लेना-देना है।
Discover more from News Link360
Subscribe to get the latest posts sent to your email.
