"ప్రపంచంలో అత్యంత తెలివైన" Grok3 ని పరీక్షిస్తోంది

ఐపు వాటన్ గ్రూప్ (1)

పరిచయం

ముందస్తు శిక్షణ పొందిన మోడళ్లకు గ్రోక్3 "ఎండ్ పాయింట్" అవుతుందని మీరు అనుకుంటున్నారా?

ఎలోన్ మస్క్ మరియు xAI బృందం అధికారికంగా ప్రత్యక్ష ప్రసారం సందర్భంగా గ్రోక్ యొక్క తాజా వెర్షన్, గ్రోక్3ని విడుదల చేశారు. ఈ కార్యక్రమానికి ముందు, సంబంధిత సమాచారం యొక్క గణనీయమైన మొత్తం, మస్క్ యొక్క 24/7 ప్రమోషనల్ హైప్‌తో కలిసి, గ్రోక్3 కోసం ప్రపంచ అంచనాలను అపూర్వమైన స్థాయికి పెంచింది. కేవలం ఒక వారం క్రితం, మస్క్ డీప్‌సీక్ R1పై వ్యాఖ్యానిస్తూ లైవ్ స్ట్రీమ్ సందర్భంగా నమ్మకంగా ఇలా అన్నాడు, "xAI మెరుగైన AI మోడల్‌ను ప్రారంభించబోతోంది." ప్రత్యక్ష ప్రసారంలో సమర్పించబడిన డేటా నుండి, గణితం, సైన్స్ మరియు ప్రోగ్రామింగ్ కోసం బెంచ్‌మార్క్‌లలో గ్రోక్3 అన్ని ప్రస్తుత ప్రధాన స్రవంతి నమూనాలను అధిగమించిందని, స్పేస్‌ఎక్స్ యొక్క మార్స్ మిషన్‌లకు సంబంధించిన గణన పనుల కోసం గ్రోక్3 ఉపయోగించబడుతుందని మస్క్ పేర్కొన్నాడు, "మూడు సంవత్సరాలలోపు నోబెల్ బహుమతి స్థాయిలో పురోగతులు" అంచనా వేశాడు. అయితే, ఇవి ప్రస్తుతం మస్క్ యొక్క వాదనలు మాత్రమే. ప్రారంభించిన తర్వాత, నేను గ్రోక్3 యొక్క తాజా బీటా వెర్షన్‌ను పరీక్షించాను మరియు పెద్ద మోడళ్ల కోసం క్లాసిక్ ట్రిక్ ప్రశ్నను వేసాను: "ఏది పెద్దది, 9.11 లేదా 9.9?" విచారకరంగా, ఎటువంటి అర్హతలు లేదా గుర్తులు లేకుండా, తెలివైన గ్రోక్3 అని పిలవబడే వ్యక్తి ఇప్పటికీ ఈ ప్రశ్నకు సరిగ్గా సమాధానం ఇవ్వలేకపోయాడు. ప్రశ్న యొక్క అర్థాన్ని ఖచ్చితంగా గుర్తించడంలో గ్రోక్3 విఫలమైంది.

 

ఈ పరీక్ష చాలా మంది స్నేహితుల నుండి త్వరగా గణనీయమైన దృష్టిని ఆకర్షించింది మరియు యాదృచ్ఛికంగా, విదేశాలలో ఇలాంటి వివిధ పరీక్షలు Grok3 "పీసా లీనింగ్ టవర్ నుండి ముందుగా ఏ బంతి పడిపోతుంది?" వంటి ప్రాథమిక భౌతిక శాస్త్రం/గణిత ప్రశ్నలతో ఇబ్బంది పడుతున్నట్లు చూపించాయి. అందువల్ల, దీనిని "సాధారణ ప్రశ్నలకు సమాధానం ఇవ్వడానికి ఇష్టపడని మేధావి" అని హాస్యాస్పదంగా లేబుల్ చేశారు.

640 తెలుగు in లో

Grok3 బాగుంది, కానీ అది R1 లేదా o1-Pro కంటే మెరుగైనది కాదు.

ఆచరణలో అనేక సాధారణ జ్ఞాన పరీక్షలలో Grok3 "వైఫల్యాలను" ఎదుర్కొంది. xAI లాంచ్ ఈవెంట్ సమయంలో, మస్క్ పాత్ ఆఫ్ ఎక్సైల్ 2 గేమ్ నుండి పాత్ర తరగతులు మరియు ప్రభావాలను విశ్లేషించడానికి Grok3ని ఉపయోగించి ప్రదర్శించాడు, అతను తరచుగా ఆడుతున్నానని పేర్కొన్నాడు, కానీ Grok3 అందించిన చాలా సమాధానాలు తప్పు. ప్రత్యక్ష ప్రసారం సమయంలో మస్క్ ఈ స్పష్టమైన సమస్యను గమనించలేదు.

 

ఈ తప్పు విదేశీ నెటిజన్లు గేమింగ్‌లో "ప్రత్యామ్నాయాన్ని కనుగొన్నందుకు" మస్క్‌ను ఎగతాళి చేయడానికి మరిన్ని ఆధారాలను అందించడమే కాకుండా, ఆచరణాత్మక అనువర్తనాల్లో Grok3 యొక్క విశ్వసనీయత గురించి గణనీయమైన ఆందోళనలను కూడా లేవనెత్తింది. అటువంటి "మేధావి" కోసం, దాని వాస్తవ సామర్థ్యాలతో సంబంధం లేకుండా, మార్స్ అన్వేషణ పనులు వంటి చాలా సంక్లిష్టమైన అనువర్తన దృశ్యాలలో దాని విశ్వసనీయత సందేహాస్పదంగానే ఉంది.

 

ప్రస్తుతం, వారాల క్రితం Grok3కి యాక్సెస్ పొందిన చాలా మంది టెస్టర్లు మరియు నిన్న కొన్ని గంటల పాటు మోడల్ సామర్థ్యాలను పరీక్షించిన వారు అందరూ ఒక సాధారణ ముగింపును సూచిస్తున్నారు: "Grok3 మంచిది, కానీ ఇది R1 లేదా o1-Pro కంటే మెరుగైనది కాదు."

640 (1)

"ఎన్విడియాను అంతరాయం కలిగించడం" పై ఒక క్లిష్టమైన దృక్పథం

విడుదల సమయంలో అధికారికంగా సమర్పించబడిన PPTలో, Grok3 చాట్‌బాట్ అరీనాలో "చాలా ముందుంది" అని చూపబడింది, కానీ ఇది తెలివిగా గ్రాఫిక్ పద్ధతులను ఉపయోగించింది: లీడర్‌బోర్డ్‌లోని నిలువు అక్షం 1400-1300 స్కోర్ పరిధిలో మాత్రమే ఫలితాలను జాబితా చేసింది, దీని వలన పరీక్ష ఫలితాల్లో అసలు 1% వ్యత్యాసం ఈ ప్రెజెంటేషన్‌లో అసాధారణంగా ముఖ్యమైనదిగా కనిపిస్తుంది.

640 తెలుగు in లో

వాస్తవ మోడల్ స్కోరింగ్ ఫలితాల్లో, Grok3 DeepSeek R1 మరియు GPT-4.0 కంటే కేవలం 1-2% ముందుంది, ఇది ఆచరణాత్మక పరీక్షలలో చాలా మంది వినియోగదారుల అనుభవాలకు అనుగుణంగా ఉంటుంది, వారు "గుర్తించదగిన తేడా లేదు" అని కనుగొన్నారు. Grok3 దాని వారసులను 1%-2% మాత్రమే అధిగమించింది.

640 తెలుగు in లో

Grok3 ప్రస్తుతం బహిరంగంగా పరీక్షించబడిన అన్ని మోడళ్ల కంటే ఎక్కువ స్కోర్ చేసినప్పటికీ, చాలామంది దీనిని తీవ్రంగా పరిగణించరు: ఎందుకంటే, xAI గతంలో Grok2 యుగంలో "స్కోర్ మానిప్యులేషన్" కోసం విమర్శించబడింది. లీడర్‌బోర్డ్ సమాధాన నిడివి శైలిని శిక్షించడంతో, స్కోర్‌లు బాగా తగ్గాయి, దీని వలన పరిశ్రమలోని వ్యక్తులు తరచుగా "అధిక స్కోరింగ్ కానీ తక్కువ సామర్థ్యం" అనే దృగ్విషయాన్ని విమర్శిస్తారు.

 

లీడర్‌బోర్డ్ "మానిప్యులేషన్" ద్వారా లేదా దృష్టాంతాలలో డిజైన్ ట్రిక్స్ ద్వారా, అవి xAI మరియు మోడల్ సామర్థ్యాలలో "ప్యాక్‌ను నడిపించడం" అనే భావనతో మస్క్ యొక్క వ్యామోహాన్ని వెల్లడిస్తాయి. ఈ మార్జిన్‌లకు మస్క్ భారీ ధర చెల్లించాడు: లాంచ్ సమయంలో, అతను 200,000 H100 GPUలను ఉపయోగించినట్లు (లైవ్ స్ట్రీమ్ సమయంలో "100,000 కంటే ఎక్కువ" అని పేర్కొన్నాడు) మరియు మొత్తం 200 మిలియన్ గంటల శిక్షణ సమయాన్ని సాధించినట్లు ప్రగల్భాలు పలికాడు. ఇది GPU పరిశ్రమకు మరొక ముఖ్యమైన వరం అని కొందరు నమ్మడానికి మరియు ఈ రంగంపై డీప్‌సీక్ ప్రభావాన్ని "మూర్ఖత్వం"గా పరిగణించడానికి దారితీసింది. ముఖ్యంగా, కొంతమంది పూర్తి కంప్యూటేషనల్ శక్తి మోడల్ శిక్షణ యొక్క భవిష్యత్తు అని నమ్ముతారు.

 

అయితే, కొంతమంది నెటిజన్లు డీప్‌సీక్ V3ని ఉత్పత్తి చేయడానికి రెండు నెలల్లో 2000 H800 GPUల వినియోగాన్ని పోల్చి చూశారు, Grok3 యొక్క వాస్తవ శిక్షణ విద్యుత్ వినియోగం V3 కంటే 263 రెట్లు ఎక్కువగా ఉందని లెక్కించారు. 1402 పాయింట్లు సాధించిన డీప్‌సీక్ V3 మరియు Grok3 మధ్య అంతరం 100 పాయింట్ల కంటే కొంచెం తక్కువగా ఉంది. ఈ డేటా విడుదలైన తర్వాత, Grok3 "ప్రపంచంలోని బలమైనది" అనే టైటిల్ వెనుక స్పష్టమైన మార్జినల్ యుటిలిటీ ప్రభావం ఉందని చాలా మంది త్వరగా గ్రహించారు - బలమైన పనితీరును ఉత్పత్తి చేసే పెద్ద మోడళ్ల తర్కం తగ్గుతున్న రాబడిని చూపించడం ప్రారంభించింది.

640 (2)

"అధిక స్కోరింగ్ ఉన్నప్పటికీ తక్కువ సామర్థ్యం" ఉన్నప్పటికీ, వినియోగానికి మద్దతుగా Grok2 X (ట్విట్టర్) ప్లాట్‌ఫామ్ నుండి అధిక-నాణ్యత గల ఫస్ట్-పార్టీ డేటాను విస్తారంగా కలిగి ఉంది. అయితే, Grok3 శిక్షణలో, xAI సహజంగానే OpenAI ప్రస్తుతం ఎదుర్కొంటున్న "సీలింగ్"ను ఎదుర్కొంది - ప్రీమియం శిక్షణ డేటా లేకపోవడం మోడల్ సామర్థ్యాల యొక్క ఉపాంత ప్రయోజనాన్ని త్వరగా బహిర్గతం చేస్తుంది.

 

గ్రోక్3 మరియు మస్క్ డెవలపర్లు ఈ వాస్తవాలను లోతుగా అర్థం చేసుకుని గుర్తించిన మొదటి వ్యక్తి కావచ్చు, అందుకే మస్క్ సోషల్ మీడియాలో వినియోగదారులు ప్రస్తుతం అనుభవిస్తున్న వెర్షన్ "ఇప్పటికీ బీటా మాత్రమే" మరియు "పూర్తి వెర్షన్ రాబోయే నెలల్లో విడుదల అవుతుంది" అని నిరంతరం పేర్కొంటూనే ఉన్నారు. మస్క్ గ్రోక్3 యొక్క ఉత్పత్తి నిర్వాహకుడి పాత్రను పోషించారు, వ్యాఖ్యల విభాగంలో వినియోగదారులు ఎదుర్కొనే వివిధ సమస్యలపై అభిప్రాయాన్ని అందించాలని సూచిస్తున్నారు. అతను భూమిపై అత్యధికంగా అనుసరించే ఉత్పత్తి నిర్వాహకుడు కావచ్చు.

 

అయినప్పటికీ, ఒక రోజులోనే, Grok3 పనితీరు నిస్సందేహంగా బలమైన పెద్ద మోడళ్లకు శిక్షణ ఇవ్వడానికి "భారీ గణన కండరాల"పై ఆధారపడాలని ఆశించే వారికి అలారంలను లేవనెత్తింది: బహిరంగంగా అందుబాటులో ఉన్న Microsoft సమాచారం ఆధారంగా, OpenAI యొక్క GPT-4 1.8 ట్రిలియన్ పారామితుల పారామీటర్ పరిమాణాన్ని కలిగి ఉంది, ఇది GPT-3 కంటే పది రెట్లు ఎక్కువ. GPT-4.5 యొక్క పారామీటర్ పరిమాణం ఇంకా పెద్దదిగా ఉండవచ్చని పుకార్లు సూచిస్తున్నాయి.

 

మోడల్ పారామీటర్ పరిమాణాలు పెరుగుతున్న కొద్దీ, శిక్షణ ఖర్చులు కూడా విపరీతంగా పెరుగుతున్నాయి. Grok3 ఉనికితో, GPT-4.5 వంటి పోటీదారులు మరియు పారామీటర్ పరిమాణం ద్వారా మెరుగైన మోడల్ పనితీరును సాధించడానికి "డబ్బును బర్న్ చేయడం" కొనసాగించాలనుకునే ఇతరులు ఇప్పుడు స్పష్టంగా కనిపించే సీలింగ్‌ను పరిగణించాలి మరియు దానిని ఎలా అధిగమించాలో ఆలోచించాలి. ఈ సమయంలో, OpenAIలో మాజీ చీఫ్ సైంటిస్ట్ ఇల్యా సట్స్‌కేవర్ గత డిసెంబర్‌లో "మనకు తెలిసిన ప్రీ-ట్రైనింగ్ ముగిసిపోతుంది" అని గతంలో పేర్కొన్నారు, ఇది చర్చలలో తిరిగి తెరపైకి వచ్చింది, పెద్ద మోడళ్లకు శిక్షణ ఇవ్వడానికి నిజమైన మార్గాన్ని కనుగొనే ప్రయత్నాలను ప్రేరేపించింది.

640 (3)

ఇలియా దృక్కోణం పరిశ్రమలో అలారం మోగించింది. అందుబాటులో ఉన్న కొత్త డేటా యొక్క ఆసన్నమైన అలసటను అతను ఖచ్చితంగా ముందుగానే ఊహించాడు, దీని వలన డేటా సముపార్జన ద్వారా పనితీరును మెరుగుపరచడం సాధ్యం కాని పరిస్థితి ఏర్పడుతుంది, దీనిని శిలాజ ఇంధనాల అలసటతో పోల్చాడు. "చమురు లాగే, ఇంటర్నెట్‌లో మానవుడు ఉత్పత్తి చేసే కంటెంట్ పరిమిత వనరు" అని అతను సూచించాడు. సట్స్‌కేవర్ అంచనాలలో, తదుపరి తరం నమూనాలు, శిక్షణకు ముందు, "నిజమైన స్వయంప్రతిపత్తి" మరియు తార్కిక సామర్థ్యాలను "మానవ మెదడు మాదిరిగానే" కలిగి ఉంటాయి.

 

నేటి ప్రీ-ట్రైన్డ్ మోడల్స్ కాకుండా, ప్రధానంగా కంటెంట్ మ్యాచింగ్ (గతంలో నేర్చుకున్న మోడల్ కంటెంట్ ఆధారంగా) పై ఆధారపడతాయి, భవిష్యత్ AI వ్యవస్థలు మానవ మెదడు యొక్క "ఆలోచన" కు సమానమైన రీతిలో సమస్యలను పరిష్కరించడానికి పద్ధతులను నేర్చుకోగలవు మరియు స్థాపించగలవు. ఒక మానవుడు కేవలం ప్రాథమిక వృత్తిపరమైన సాహిత్యంతో ఒక సబ్జెక్టులో ప్రాథమిక నైపుణ్యాన్ని సాధించగలడు, అయితే AI పెద్ద మోడల్‌కు అత్యంత ప్రాథమిక ప్రారంభ-స్థాయి సామర్థ్యాన్ని సాధించడానికి మిలియన్ల కొద్దీ డేటా పాయింట్లు అవసరం. పదాలను కొద్దిగా మార్చినప్పుడు కూడా, ఈ ప్రాథమిక ప్రశ్నలు సరిగ్గా అర్థం కాకపోవచ్చు, ఇది మోడల్ తెలివితేటలలో నిజంగా మెరుగుపడలేదని వివరిస్తుంది: వ్యాసం ప్రారంభంలో పేర్కొన్న ప్రాథమిక ఇంకా పరిష్కరించలేని ప్రశ్నలు ఈ దృగ్విషయానికి స్పష్టమైన ఉదాహరణను సూచిస్తాయి.

微信图片_20240614024031.jpg1

ముగింపు

అయితే, క్రూరమైన శక్తికి మించి, "ముందస్తు శిక్షణ పొందిన మోడల్‌లు వాటి ముగింపుకు చేరుకుంటున్నాయి" అని పరిశ్రమకు వెల్లడించడంలో Grok3 నిజంగా విజయవంతమైతే, అది ఈ రంగానికి గణనీయమైన ప్రభావాలను కలిగిస్తుంది.

బహుశా Grok3 చుట్టూ ఉన్న ఉన్మాదం క్రమంగా తగ్గిన తర్వాత, Fei-Fei Li యొక్క "కేవలం $50కి నిర్దిష్ట డేటాసెట్‌లో అధిక-పనితీరు గల నమూనాలను ట్యూన్ చేయడం" వంటి మరిన్ని కేసులను మనం చూస్తాము, చివరికి AGIకి నిజమైన మార్గాన్ని కనుగొంటాము.

ELV కేబుల్ సొల్యూషన్‌ను కనుగొనండి

నియంత్రణ కేబుల్స్

BMS, BUS, ఇండస్ట్రియల్, ఇన్స్ట్రుమెంటేషన్ కేబుల్ కోసం.

స్ట్రక్చర్డ్ కేబులింగ్ సిస్టమ్

నెట్‌వర్క్&డేటా, ఫైబర్-ఆప్టిక్ కేబుల్, ప్యాచ్ కార్డ్, మాడ్యూల్స్, ఫేస్‌ప్లేట్

2024 ప్రదర్శనలు & ఈవెంట్ల సమీక్ష

ఏప్రిల్ 16-18, 2024 దుబాయ్‌లో మిడిల్-ఈస్ట్-ఎనర్జీ

ఏప్రిల్ 16-18, 2024 మాస్కోలో సెక్యూరికా

మే 9, 2024 షాంఘైలో కొత్త ఉత్పత్తులు & సాంకేతికతల ప్రారంభ కార్యక్రమం

అక్టోబర్ 22-25, 2024 బీజింగ్‌లో భద్రతా చైనా

నవంబర్ 19-20, 2024 కనెక్ట్డ్ వరల్డ్ కెఎస్ఎ


పోస్ట్ సమయం: ఫిబ్రవరి-19-2025