गूगल रिपोर्ट: एआई चैटबॉट्स 70% से सटीक नहीं

गूगल की नई FACTS Benchmark रिपोर्ट ने एआई चैटबॉट्स की विश्वसनीयता पर सवाल खड़े किए हैं। रिपोर्ट के मुताबिक, दुनिया के सबसे उन्नत एआई मॉडल भी 70 प्रतिशत से ज्यादा फैक्चुअल सटीकता हासिल नहीं कर पाए। इसका मतलब है कि एआई से मिलने वाले हर तीन में से एक जवाब गलत हो सकता है।

AI Chatbot Accuracy Report: गूगल ने हाल ही में जारी अपने FACTS Benchmark Suite में खुलासा किया है कि एआई चैटबॉट्स अभी पूरी तरह भरोसेमंद नहीं हैं। यह आकलन वैश्विक स्तर पर विकसित एआई मॉडल्स पर किया गया, जिसमें Gemini, ChatGPT, Claude और Grok जैसे सिस्टम शामिल रहे। रिपोर्ट के अनुसार, इन मॉडल्स की फैक्चुअल एक्यूरेसी 50 से 69 प्रतिशत के बीच रही। गूगल का कहना है कि यह अध्ययन यूजर्स को सचेत करने के लिए है, ताकि वे एआई से मिले जवाबों को अंतिम सत्य मानने के बजाय उनकी जांच और पुष्टि जरूर करें।

गूगल की रिपोर्ट ने क्यों बढ़ाई चिंता

गूगल के इस असेसमेंट में सामने आया कि सबसे बेहतर प्रदर्शन करने वाला Gemini 3 Pro मॉडल भी केवल 69 प्रतिशत फैक्चुअल एक्यूरेसी हासिल कर सका। यानी यह मॉडल भी हर सवाल पर पूरी तरह सही जवाब देने में सक्षम नहीं है। ओपनएआई, एंथ्रोपिक और xAI जैसे बड़े नामों के मॉडल इस स्तर तक भी नहीं पहुंच पाए।

रिपोर्ट के अनुसार Gemini 2.5 Pro और ChatGPT-5 की सटीकता करीब 62 प्रतिशत रही। वहीं Claude 4.5 Opus लगभग 51 प्रतिशत और Grok 4 करीब 54 प्रतिशत एक्यूरेसी तक ही सीमित रहे। मल्टीमॉडल टास्क, जैसे चार्ट, डायग्राम और इमेज को समझने वाले मामलों में ज्यादातर एआई मॉडल और भी कमजोर नजर आए, जहां सटीकता 50 प्रतिशत से नीचे चली गई।

यह भी पढ़ें:-
हेल्थ सलाह के लिए ChatGPT का इस्तेमाल करते हैं? पहले जान लें इसकी सीमाएं
ChatGPT Update: तेजी से जवाब देने वाला नया वर्जन लॉन्च, देखें फीचर्स

FACTS Benchmark क्या अलग करता है

गूगल का FACTS बेंचमार्क बाकी एआई टेस्ट से अलग तरीके से काम करता है। आमतौर पर एआई मॉडल को टेक्स्ट समरी, कोडिंग या सवाल-जवाब जैसे टास्क दिए जाते हैं, लेकिन इस बेंचमार्क का फोकस पूरी तरह फैक्चुअल सच्चाई पर है।

यह टेस्ट चार प्रमुख उपयोग मामलों पर आधारित है। पहला यह जांचता है कि एआई मॉडल अपने ट्रेनिंग डेटा के आधार पर कितने सही तथ्य पेश कर सकता है। दूसरा मॉडल की सर्च से जुड़ी क्षमता को परखता है। तीसरा यह देखता है कि मॉडल दिए गए डॉक्यूमेंट से नई और अतिरिक्त जानकारी कितनी सही तरह से ग्रहण करता है। चौथा टेस्ट मल्टीमॉडल समझ, यानी इमेज, चार्ट और डायग्राम को समझने की क्षमता को जांचता है।

यह भी पढ़ें:-
Instagram फॉलोइंग लिमिट का खुलासा, CEO ने बताया अधिकतम संख्या
सालभर का Airtel प्लान अब सस्ता, अनलिमिटेड कॉलिंग और डेटा के साथ कई बेनिफिट्स

यूजर्स के लिए क्या है सबक

इस रिपोर्ट ने एआई चैटबॉट्स पर निर्भर लोगों के लिए साफ चेतावनी दी है। ऑफिस वर्क, स्टडी, हेल्थ, फाइनेंस या टेक्निकल फैसलों में एआई से मिले हर जवाब को अंतिम सच मान लेना नुकसानदेह हो सकता है। विशेषज्ञों का मानना है कि एआई को सहायक टूल के तौर पर इस्तेमाल किया जाना चाहिए, न कि निर्णायक स्रोत के रूप में।

गूगल का यह आकलन बताता है कि एआई तेजी से बेहतर हो रहा है, लेकिन अभी वह इंसानी समझ और फैक्चुअल भरोसे के स्तर तक नहीं पहुंच पाया है। खासकर संवेदनशील और महत्वपूर्ण मामलों में क्रॉस-वेरिफिकेशन बेहद जरूरी है।

यह भी पढ़ें:-
गैस लीक हुई AC की समस्या? टेक्नीशियन के बिना खुद करें जांच
SMS Spoofing से हो सकती है बड़ी ठगी, जाने कैसे काम करता है यह साइबर जाल