AI Accuracy पर बड़ा खुलासा: गूगल बेंचमार्क में Gemini, ChatGPT और Grok की खुली पोल

AI Accuracy पर बड़ा खुलासा: गूगल बेंचमार्क में Gemini, ChatGPT और Grok की खुली पोल

गूगल की नई FACTS Benchmark रिपोर्ट ने एआई चैटबॉट्स की विश्वसनीयता पर सवाल खड़े किए हैं। रिपोर्ट के मुताबिक, दुनिया के सबसे उन्नत एआई मॉडल भी 70 प्रतिशत से ज्यादा फैक्चुअल सटीकता हासिल नहीं कर पाए। इसका मतलब है कि एआई से मिलने वाले हर तीन में से एक जवाब गलत हो सकता है।

AI Chatbot Accuracy Report: गूगल ने हाल ही में जारी अपने FACTS Benchmark Suite में खुलासा किया है कि एआई चैटबॉट्स अभी पूरी तरह भरोसेमंद नहीं हैं। यह आकलन वैश्विक स्तर पर विकसित एआई मॉडल्स पर किया गया, जिसमें Gemini, ChatGPT, Claude और Grok जैसे सिस्टम शामिल रहे। रिपोर्ट के अनुसार, इन मॉडल्स की फैक्चुअल एक्यूरेसी 50 से 69 प्रतिशत के बीच रही। गूगल का कहना है कि यह अध्ययन यूजर्स को सचेत करने के लिए है, ताकि वे एआई से मिले जवाबों को अंतिम सत्य मानने के बजाय उनकी जांच और पुष्टि जरूर करें।

गूगल की रिपोर्ट ने क्यों बढ़ाई चिंता

गूगल के इस असेसमेंट में सामने आया कि सबसे बेहतर प्रदर्शन करने वाला Gemini 3 Pro मॉडल भी केवल 69 प्रतिशत फैक्चुअल एक्यूरेसी हासिल कर सका। यानी यह मॉडल भी हर सवाल पर पूरी तरह सही जवाब देने में सक्षम नहीं है। ओपनएआई, एंथ्रोपिक और xAI जैसे बड़े नामों के मॉडल इस स्तर तक भी नहीं पहुंच पाए।

रिपोर्ट के अनुसार Gemini 2.5 Pro और ChatGPT-5 की सटीकता करीब 62 प्रतिशत रही। वहीं Claude 4.5 Opus लगभग 51 प्रतिशत और Grok 4 करीब 54 प्रतिशत एक्यूरेसी तक ही सीमित रहे। मल्टीमॉडल टास्क, जैसे चार्ट, डायग्राम और इमेज को समझने वाले मामलों में ज्यादातर एआई मॉडल और भी कमजोर नजर आए, जहां सटीकता 50 प्रतिशत से नीचे चली गई।

FACTS Benchmark क्या अलग करता है

गूगल का FACTS बेंचमार्क बाकी एआई टेस्ट से अलग तरीके से काम करता है। आमतौर पर एआई मॉडल को टेक्स्ट समरी, कोडिंग या सवाल-जवाब जैसे टास्क दिए जाते हैं, लेकिन इस बेंचमार्क का फोकस पूरी तरह फैक्चुअल सच्चाई पर है।

यह टेस्ट चार प्रमुख उपयोग मामलों पर आधारित है। पहला यह जांचता है कि एआई मॉडल अपने ट्रेनिंग डेटा के आधार पर कितने सही तथ्य पेश कर सकता है। दूसरा मॉडल की सर्च से जुड़ी क्षमता को परखता है। तीसरा यह देखता है कि मॉडल दिए गए डॉक्यूमेंट से नई और अतिरिक्त जानकारी कितनी सही तरह से ग्रहण करता है। चौथा टेस्ट मल्टीमॉडल समझ, यानी इमेज, चार्ट और डायग्राम को समझने की क्षमता को जांचता है।

यूजर्स के लिए क्या है सबक

इस रिपोर्ट ने एआई चैटबॉट्स पर निर्भर लोगों के लिए साफ चेतावनी दी है। ऑफिस वर्क, स्टडी, हेल्थ, फाइनेंस या टेक्निकल फैसलों में एआई से मिले हर जवाब को अंतिम सच मान लेना नुकसानदेह हो सकता है। विशेषज्ञों का मानना है कि एआई को सहायक टूल के तौर पर इस्तेमाल किया जाना चाहिए, न कि निर्णायक स्रोत के रूप में।

गूगल का यह आकलन बताता है कि एआई तेजी से बेहतर हो रहा है, लेकिन अभी वह इंसानी समझ और फैक्चुअल भरोसे के स्तर तक नहीं पहुंच पाया है। खासकर संवेदनशील और महत्वपूर्ण मामलों में क्रॉस-वेरिफिकेशन बेहद जरूरी है।

Leave a comment