Kupima "Smartnest zaidi ulimwenguni" GROK3

Kikundi cha Aipu Waton (1)

Utangulizi

Je! Unafikiri GROK3 itakuwa "mwisho" wa mifano iliyofunzwa kabla?

Elon Musk na timu ya XAI walizindua rasmi toleo la hivi karibuni la Grok, Grok3, wakati wa kuishi. Kabla ya tukio hili, idadi kubwa ya habari inayohusiana, pamoja na hype ya uendelezaji ya Musk 24/7, iliinua matarajio ya ulimwengu kwa GROK3 kwa viwango visivyo kawaida. Wiki moja iliyopita, Musk alisema kwa ujasiri wakati wa kuishi wakati akitoa maoni juu ya Deepseek R1, "XAI inakaribia kuzindua mfano bora wa AI." Kutoka kwa data iliyowasilishwa moja kwa moja, GROK3 imeripotiwa kuzidi mifano yote ya sasa katika alama za hesabu, sayansi, na programu, na Musk hata akidai kuwa GROK3 itatumika kwa kazi za computational zinazohusiana na misheni ya SpaceX ya Mars, ikitabiri "mafanikio katika kiwango cha tuzo ya Nobel ndani ya miaka mitatu." Walakini, hizi kwa sasa ni madai ya Musk tu. Baada ya uzinduzi, nilijaribu toleo la hivi karibuni la beta la GROK3 na kuuliza swali la hila la kawaida kwa mifano mikubwa: "Ambayo ni kubwa, 9.11 au 9.9?" Kwa kusikitisha, bila kufuzu yoyote au alama, kinachojulikana kama SmartS3 zaidi bado hakuweza kujibu swali hili kwa usahihi. Grok3 ilishindwa kutambua kwa usahihi maana ya swali.

 

Mtihani huu ulileta umakini mkubwa kutoka kwa marafiki wengi, na kwa bahati mbaya, vipimo kadhaa sawa vya nje ya nchi vimeonyesha GROK3 ikipambana na maswali ya msingi ya fizikia/hisabati kama "ni mpira gani unaanguka kwanza kutoka kwa mnara wa Pisa?" Kwa hivyo, imekuwa ikiitwa kwa ucheshi kama "fikra isiyotaka kujibu maswali rahisi."

640

GROK3 ni nzuri, lakini sio bora kuliko R1 au O1-Pro.

GROK3 uzoefu "kushindwa" juu ya vipimo vingi vya kawaida vya maarifa katika mazoezi. Wakati wa hafla ya uzinduzi wa XAI, Musk alionyesha kutumia GROK3 kuchambua madarasa ya tabia na athari kutoka kwa njia ya Mchezo wa Kutoka 2, ambayo alidai kucheza mara nyingi, lakini majibu mengi yaliyotolewa na GROK3 hayakuwa sahihi. Musk wakati wa kuishi hakugundua suala hili dhahiri.

 

Kosa hili halitoi ushahidi zaidi kwa wavu wa nje ya nchi kumdhihaki Musk kwa "kupata mbadala" katika michezo ya kubahatisha lakini pia ilizua wasiwasi mkubwa juu ya kuegemea kwa Grok3 katika matumizi ya vitendo. Kwa "fikra kama hiyo," bila kujali uwezo wake halisi, kuegemea kwake katika hali ngumu sana za matumizi, kama vile kazi za uchunguzi wa Mars, bado ina shaka.

 

Hivi sasa, wajaribu wengi ambao walipata ufikiaji wa wiki za Grok3 zilizopita, na wale ambao walijaribu tu uwezo wa mfano kwa masaa machache jana, wote wanaonyesha hitimisho la kawaida: "GROK3 ni nzuri, lakini sio bora kuliko R1 au O1-Pro."

640 (1)

Mtazamo muhimu juu ya "kuvuruga nvidia"

Katika PPT iliyowasilishwa rasmi wakati wa kutolewa, Grok3 ilionyeshwa kuwa "mbele sana" katika uwanja wa Chatbot, lakini mbinu hii ya busara ilitumia picha: mhimili wa wima kwenye ubao wa kiongozi uliorodheshwa tu katika safu ya alama 1400-1300, na kufanya tofauti 1 ya asili katika matokeo ya mtihani yanaonekana kuwa muhimu sana katika uwasilishaji huu.

640

Katika matokeo halisi ya bao la mfano, GROK3 ni 1-2% tu mbele ya Deepseek R1 na GPT-4.0, ambayo inalingana na uzoefu wa watumiaji wengi katika vipimo vya vitendo ambavyo havikupata "tofauti kubwa." GROK3 inazidi warithi wake kwa 1%-2%.

640

Ingawa GROK3 imefunga zaidi kuliko mifano yote iliyojaribiwa kwa umma, wengi hawachukui kwa umakini: baada ya yote, XAI hapo awali ilikosolewa kwa "udanganyifu wa alama" katika enzi ya GROK2. Wakati ubao wa kiongozi uliadhibu mtindo wa majibu ya majibu, alama zilipungua sana, na kusababisha wahusika wa tasnia mara nyingi kukosoa hali ya "bao kubwa lakini uwezo wa chini."

 

Ikiwa ni kupitia ubao wa "ujanja" au hila za kubuni katika vielelezo, zinafunua XAI na Musk kuzingatiwa kwa wazo la "kuongoza pakiti" katika uwezo wa mfano. Musk alilipa bei kubwa kwa maandamano haya: Wakati wa uzinduzi huo, alijivunia kutumia GPU 200,000 H100 (akidai "zaidi ya 100,000" wakati wa kuishi) na kufikia jumla ya muda wa mafunzo ya masaa milioni 200. Hii ilisababisha wengine kuamini kuwa inawakilisha msaada mwingine muhimu kwa tasnia ya GPU na kuzingatia athari za Deepseek kwenye sekta hiyo kama "ujinga." Kwa kweli, wengine wanaamini kuwa nguvu kubwa ya computational itakuwa mustakabali wa mafunzo ya mfano.

 

Walakini, wauzaji wengine walilinganisha matumizi ya 2000 H800 GPUs zaidi ya miezi miwili kutengeneza Deepseek V3, kuhesabu kwamba matumizi halisi ya nguvu ya GROK3 ni mara 263 mara ya V3. Pengo kati ya Deepseek V3, ambayo ilifunga alama 1402, na GROK3 ni chini ya alama 100. Kufuatia kutolewa kwa data hii, wengi waligundua haraka kuwa nyuma ya kichwa cha Grok3 kama "nguvu zaidi ulimwenguni" iko athari ya wazi ya matumizi ya chini -mantiki ya mifano kubwa inayozalisha utendaji wenye nguvu imeanza kuonyesha kupungua kwa mapato.

640 (2)

Hata na "bao kubwa lakini uwezo wa chini," GROK2 ilikuwa na idadi kubwa ya data ya hali ya kwanza kutoka kwa jukwaa la X (Twitter) kusaidia matumizi. Walakini, katika mafunzo ya GROK3, XAI kwa kawaida ilikutana na "dari" ambayo OpenAI inakabiliwa nayo kwa sasa - ukosefu wa data ya mafunzo ya kwanza huonyesha haraka matumizi ya chini ya uwezo wa mfano.

 

Watengenezaji wa Grok3 na Musk wanaweza kuwa wa kwanza kuelewa na kutambua ukweli huu kwa undani, ndiyo sababu Musk ametaja kila wakati kwenye media za kijamii kuwa watumiaji wa toleo wanapata sasa ni "bado ni beta" na kwamba "toleo kamili litatolewa katika miezi ijayo." Musk amechukua jukumu la meneja wa bidhaa wa Grok3, na kupendekeza watumiaji kutoa maoni juu ya maswala kadhaa yaliyokutana katika sehemu ya maoni.

 

Walakini, ndani ya siku, utendaji wa Grok3 bila shaka uliinua kengele kwa wale wanaotarajia kutegemea "misuli kubwa ya computative" kutoa mafunzo kwa mifano mikubwa: kwa msingi wa habari inayopatikana ya Microsoft, GPT-4 ya OpenI ina ukubwa wa vigezo vya trilioni 1.8, zaidi ya mara kumi ya GPT-3. Uvumi unaonyesha kuwa saizi ya parameta ya GPT-4.5 inaweza kuwa kubwa zaidi.

 

Kadiri ukubwa wa paramu ya mfano inavyoongezeka, gharama za mafunzo pia zinaongezeka. Kwa uwepo wa Grok3, wagombea kama GPT-4.5 na wengine ambao wanataka kuendelea "kuchoma pesa" kufikia utendaji bora wa mfano kupitia saizi ya parameta lazima kuzingatia dari ambayo sasa iko wazi na kutafakari jinsi ya kuishinda. Kwa wakati huu, Ilya Sutskever, mwanasayansi mkuu wa zamani huko OpenAI, hapo awali alikuwa alisema Desemba mwaka jana, "Mafunzo ya mapema ambayo tunafahamiana yatamaliza," ambayo yameibuka tena katika majadiliano, na kusababisha juhudi za kupata njia ya kweli ya mafunzo ya mifano kubwa.

640 (3)

Mtazamo wa Ilya umesikika kengele kwenye tasnia. Aliona kwa usahihi uchovu wa karibu wa data mpya inayopatikana, na kusababisha hali ambayo utendaji hauwezi kuendelea kuboreshwa kupitia upatikanaji wa data, kuifananisha na uchovu wa mafuta ya mafuta. Alionyesha kuwa "kama mafuta, yaliyotokana na wanadamu kwenye mtandao ni rasilimali ndogo." Katika utabiri wa Sutskever, kizazi kijacho cha mifano, mafunzo ya baada ya mapema, yatakuwa na "uhuru wa kweli" na uwezo wa hoja "sawa na ubongo wa mwanadamu."

 

Tofauti na mifano ya leo iliyofunzwa ambayo inategemea sana kulinganisha yaliyomo (kulingana na yaliyomo yaliyojifunza hapo awali), mifumo ya baadaye ya AI itaweza kujifunza na kuanzisha mbinu za kutatua shida kwa njia sawa na "fikira" za ubongo wa mwanadamu. Binadamu anaweza kufikia ustadi wa kimsingi katika somo na fasihi ya msingi tu ya kitaalam, wakati mfano mkubwa wa AI unahitaji mamilioni ya vidokezo vya data kufikia ufanisi wa msingi wa kiwango cha kuingia. Hata wakati maneno yanabadilishwa kidogo, maswali haya ya msingi hayawezi kueleweka kwa usahihi, ikionyesha kuwa mfano huo haujaboreka kwa dhati kwa akili: maswali ya msingi lakini yasiyoweza kutajwa yaliyotajwa mwanzoni mwa kifungu yanaonyesha mfano wazi wa jambo hili.

微信图片 _20240614024031.jpg1

Hitimisho

Walakini, zaidi ya nguvu ya brute, ikiwa kweli Grok3 itafanikiwa kufunua tasnia kwamba "mifano iliyofunzwa mapema inakaribia mwisho wao," ingebeba athari kubwa kwa uwanja.

Labda baada ya frenzy inayozunguka Grok3 kupungua polepole, tutashuhudia kesi zaidi kama mfano wa Fei-Fei Li wa "kuweka mifano ya utendaji wa hali ya juu kwenye daftari maalum kwa $ 50 tu," mwishowe kugundua njia ya kweli ya AGI.

Pata suluhisho la kebo ya ELV

Kudhibiti nyaya

Kwa BMS, basi, viwanda, kebo ya ala.

Mfumo ulioandaliwa wa nyaya

Mtandao na data, cable ya fiber-optic, kamba ya kiraka, moduli, uso

Maonyesho ya 2024 na Mapitio ya Matukio

Aprili.16-18, 2024 Middle-East-Energy huko Dubai

Aprili.16th-18, 2024 Secrika huko Moscow

Mei.9, 2024 Bidhaa mpya na Teknolojia Uzinduzi wa Tukio huko Shanghai

Oct.22nd-25th, 2024 Usalama China huko Beijing

Novemba.19-20, 2024 Ulimwengu uliounganishwa KSA


Wakati wa chapisho: Feb-19-2025