Kujaribu "Smartest in the World" Grok3

AIPU WATON GROUP (1)

Utangulizi

Unafikiri Grok3 itakuwa "mwisho" wa mifano iliyofunzwa kabla?

Elon Musk na timu ya xAI walizindua rasmi toleo jipya zaidi la Grok, Grok3, wakati wa mtiririko wa moja kwa moja. Kabla ya tukio hili, kiasi kikubwa cha taarifa zinazohusiana, pamoja na utangazaji wa Musk wa 24/7, ziliinua matarajio ya kimataifa kwa Grok3 hadi viwango visivyo na kifani. Wiki moja tu iliyopita, Musk alisema kwa ujasiri wakati wa mtiririko wa moja kwa moja wakati akitoa maoni juu ya DeepSeek R1, "xAI inakaribia kuzindua muundo bora wa AI." Kutokana na data iliyotolewa moja kwa moja, Grok3 imeripotiwa kuwa imevuka mifano yote ya sasa ya kawaida katika viwango vya hisabati, sayansi, na programu, huku Musk akidai kwamba Grok3 itatumika kwa kazi za hesabu zinazohusiana na misheni ya SpaceX's Mars, akitabiri "mafanikio katika kiwango cha Tuzo ya Nobel ndani ya miaka mitatu." Walakini, haya kwa sasa ni madai tu ya Musk. Baada ya uzinduzi, nilijaribu toleo la hivi karibuni la beta la Grok3 na kuuliza swali la hila la kawaida kwa miundo mikubwa: "Ni ipi kubwa zaidi, 9.11 au 9.9?" Kwa kusikitisha, bila sifa au alama zozote, Grok3 anayeitwa smartest bado hakuweza kujibu swali hili kwa usahihi. Grok3 imeshindwa kutambua kwa usahihi maana ya swali.

 

Jaribio hili lilivutia usikivu mkubwa kutoka kwa marafiki wengi kwa haraka, na kwa bahati mbaya, majaribio mbalimbali sawa ng'ambo yameonyesha Grok3 akitatizika na maswali ya kimsingi ya fizikia/hisabati kama vile "Ni mpira gani unaotoka kwanza kutoka Mnara wa Pisa unaoegemea?" Kwa hivyo, imeitwa kwa ucheshi kama "fikra asiyependa kujibu maswali rahisi."

640

Grok3 ni nzuri, lakini sio bora kuliko R1 au o1-Pro.

Grok3 ilipata "kufeli" kwenye majaribio mengi ya maarifa ya kawaida katika mazoezi. Wakati wa tukio la uzinduzi wa xAI, Musk alionyesha kutumia Grok3 kuchanganua madarasa ya wahusika na athari kutoka kwa mchezo wa Njia ya Uhamisho 2, ambayo alidai kucheza mara nyingi, lakini majibu mengi yaliyotolewa na Grok3 hayakuwa sahihi. Musk wakati wa mtiririko wa moja kwa moja hakugundua suala hili dhahiri.

 

Kosa hili halikutoa tu ushahidi zaidi kwa watumiaji wa mtandao wa ng'ambo kumdhihaki Musk kwa "kutafuta mbadala" katika michezo ya kubahatisha lakini pia lilizua wasiwasi mkubwa kuhusu kutegemewa kwa Grok3 katika matumizi ya vitendo. Kwa "fikra" kama hiyo, bila kujali uwezo wake halisi, kuegemea kwake katika hali ngumu sana za matumizi, kama vile kazi za uchunguzi wa Mirihi, bado kuna shaka.

 

Hivi sasa, wapimaji wengi ambao walipata upatikanaji wa wiki za Grok3 zilizopita, na wale ambao walijaribu tu uwezo wa mfano kwa saa chache jana, wote wanaonyesha hitimisho la kawaida: "Grok3 ni nzuri, lakini si bora kuliko R1 au o1-Pro."

640 (1)

Mtazamo Muhimu juu ya "Kuvuruga Nvidia"

Katika PPT iliyowasilishwa rasmi wakati wa toleo, Grok3 ilionyeshwa kuwa "mbele sana" katika Uwanja wa Chatbot, lakini mbinu hii ya picha ilitumia kwa ustadi: mhimili wima kwenye ubao wa wanaoongoza uliorodhesha tu matokeo katika safu ya alama 1400-1300, na kufanya tofauti ya awali ya 1% katika matokeo ya mtihani kuonekana muhimu sana katika wasilisho hili.

640

Katika matokeo halisi ya alama za mfano, Grok3 iko mbele ya 1-2% tu ya DeepSeek R1 na GPT-4.0, ambayo inalingana na uzoefu wa watumiaji wengi katika majaribio ya vitendo ambayo ilipata "hakuna tofauti inayoonekana." Grok3 inazidi warithi wake kwa 1% -2%.

640

Ingawa Grok3 imepata alama za juu zaidi kuliko miundo yote iliyojaribiwa kwa sasa hadharani, wengi hawachukulii hili kwa uzito: baada ya yote, xAI imeshutumiwa hapo awali kwa "udanganyifu wa alama" katika enzi ya Grok2. Kadiri ubao wa wanaoongoza ulivyoadhibu mtindo wa urefu wa jibu, alama zilipungua sana, na hivyo kusababisha wadadisi wa sekta mara nyingi kukosoa hali ya "kupata alama nyingi lakini uwezo mdogo."

 

Iwe kupitia "udanganyifu" wa ubao wa wanaoongoza au mbinu za kubuni katika vielelezo, hufichua xAI na Musk wanatazamia na dhana ya "kuongoza kifurushi" katika uwezo wa kielelezo. Musk alilipa bei kubwa kwa pembezoni hizi: wakati wa uzinduzi, alijivunia kutumia 200,000 H100 GPUs (akidai "zaidi ya 100,000" wakati wa mtiririko wa moja kwa moja) na kufikia muda wa mafunzo wa saa milioni 200. Hii ilisababisha wengine kuamini kuwa inawakilisha faida nyingine muhimu kwa tasnia ya GPU na kuzingatia athari za DeepSeek kwenye sekta hiyo kama "upumbavu." Hasa, wengine wanaamini kuwa nguvu kamili ya hesabu itakuwa mustakabali wa mafunzo ya mfano.

 

Hata hivyo, baadhi ya watumiaji wa mtandao walilinganisha matumizi ya GPU 2000 H800 kwa muda wa miezi miwili ili kuzalisha DeepSeek V3, wakihesabu kuwa matumizi halisi ya nguvu ya mafunzo ya Grok3 ni mara 263 ya V3. Pengo kati ya DeepSeek V3, ambayo ilipata alama 1402, na Grok3 iko chini ya alama 100. Kufuatia kutolewa kwa data hii, wengi waligundua kwa haraka kwamba nyuma ya jina la Grok3 kama "mwenye nguvu zaidi duniani" kuna athari ya matumizi ya kando-mantiki ya miundo mikubwa inayozalisha utendakazi thabiti imeanza kuonyesha mapato yanayopungua.

640 (2)

Hata ikiwa na "uwezo wa bao la juu lakini la chini," Grok2 ilikuwa na kiasi kikubwa cha data ya ubora wa juu kutoka kwa jukwaa la X (Twitter) ili kusaidia matumizi. Hata hivyo, katika mafunzo ya Grok3, xAI ilikumbana na "dari" ambayo OpenAI inakabili kwa sasa—ukosefu wa data ya mafunzo ya malipo hufichua haraka matumizi ya kando ya uwezo wa modeli.

 

Watengenezaji wa Grok3 na Musk wanaweza kuwa wa kwanza kuelewa na kubainisha ukweli huu kwa kina, ndiyo maana Musk amekuwa akitaja mara kwa mara kwenye mitandao ya kijamii kuwa toleo ambalo watumiaji wa toleo hilo wanapitia sasa ni "bado tu" na kwamba "toleo kamili litatolewa katika miezi ijayo." Musk amechukua jukumu la msimamizi wa bidhaa wa Grok3, akipendekeza watumiaji watoe maoni kuhusu masuala mbalimbali yanayokumbana na sehemu ya maoni. Anaweza kuwa meneja wa bidhaa anayefuatwa zaidi duniani.

 

Hata hivyo, ndani ya siku moja, utendaji wa Grok3 bila shaka uliibua kengele kwa wale wanaotarajia kutegemea "misuli kubwa ya kukokotoa" kutoa mafunzo kwa miundo mikubwa yenye nguvu zaidi: kulingana na taarifa za Microsoft zinazopatikana hadharani, GPT-4 ya OpenAI ina ukubwa wa kigezo cha vigezo trilioni 1.8, zaidi ya mara kumi ya GPT-3. Uvumi unaonyesha kwamba saizi ya kigezo cha GPT-4.5 inaweza kuwa kubwa zaidi.

 

Kadiri saizi za kigezo cha mfano zinavyoongezeka, gharama za mafunzo pia zinaongezeka. Kwa uwepo wa Grok3, wagombeaji kama GPT-4.5 na wengine wanaotaka kuendelea "kuchoma pesa" ili kufikia utendakazi bora wa kigezo kupitia saizi ya kigezo lazima wazingatie dari ambayo sasa inaonekana wazi na kutafakari jinsi ya kuishinda. Kwa wakati huu, Ilya Sutskever, mwanasayansi mkuu wa zamani katika OpenAI, hapo awali alisema Desemba iliyopita, "Mafunzo ya awali tunayofahamu yatafikia mwisho," ambayo yamejitokeza tena katika majadiliano, na kusababisha jitihada za kutafuta njia ya kweli ya mafunzo ya wanamitindo wakubwa.

640 (3)

Mtazamo wa Ilya umekuwa wa kengele katika tasnia. Aliona kimbele uchovu unaokaribia wa data mpya inayoweza kufikiwa, na kusababisha hali ambapo utendakazi hauwezi kuendelea kuimarishwa kupitia upataji wa data, akifananisha na uchovu wa nishati ya mafuta. Alionyesha kuwa "kama mafuta, maudhui yanayotokana na binadamu kwenye mtandao ni rasilimali ndogo." Katika utabiri wa Sutskever, kizazi kijacho cha wanamitindo, baada ya mafunzo ya awali, kitakuwa na "uhuru wa kweli" na uwezo wa kufikiri "sawa na ubongo wa binadamu."

 

Tofauti na miundo ya leo iliyofunzwa awali ambayo kimsingi hutegemea ulinganifu wa maudhui (kulingana na maudhui ya kielelezo kilichojifunza hapo awali), mifumo ya baadaye ya AI itaweza kujifunza na kuanzisha mbinu za kutatua matatizo kwa namna sawa na "kufikiri" kwa ubongo wa binadamu. Mwanadamu anaweza kupata ustadi wa kimsingi katika somo kwa kutumia fasihi ya msingi tu ya kitaaluma, wakati muundo mkubwa wa AI unahitaji mamilioni ya pointi za data ili kufikia ufanisi wa msingi zaidi wa kiwango cha kuingia. Hata maneno yanapobadilishwa kidogo, maswali haya ya msingi yanaweza yasieleweke ipasavyo, ikionyesha kwamba kielelezo hakijaboreshwa kikweli katika akili: maswali ya msingi lakini yasiyoweza kusuluhishwa yaliyotajwa mwanzoni mwa makala yanawakilisha mfano wazi wa jambo hili.

微信图片_20240614024031.jpg1

Hitimisho

Walakini, zaidi ya nguvu ya kikatili, ikiwa Grok3 itafaulu kufichua kwa tasnia kwamba "miundo iliyofunzwa mapema inakaribia mwisho wao," inaweza kuwa na athari kubwa kwa uwanja huo.

Labda baada ya ghasia inayozunguka Grok3 kupungua hatua kwa hatua, tutashuhudia kesi zaidi kama mfano wa Fei-Fei Li wa "kuweka miundo ya utendaji wa juu kwenye mkusanyiko maalum wa data kwa $50 pekee," hatimaye kugundua njia ya kweli ya AGI.

Pata Suluhisho la Cable ya ELV

Kudhibiti nyaya

Kwa BMS, BASI, Viwanda, Kebo ya Ala.

Mfumo wa Cabling Ulioundwa

Mtandao na Data, Fiber-Optic Cable, Patch Cord, Moduli, Faceplate

Mapitio ya Maonyesho na Matukio ya 2024

Apr.16-18th, 2024 Middle-East-Nishati huko Dubai

Aprili 16-18, 2024 Securika huko Moscow

Mei.9, 2024 TUKIO LA UZINDUZI WA BIDHAA NA TEKNOLOJIA MPYA mjini Shanghai

Oct.22-25th, 2024 USALAMA CHINA mjini Beijing

Nov.19-20, 2024 WORLD CONNECTED KSA


Muda wa kutuma: Feb-19-2025