Kwa BMS, BASI, Viwanda, Cable ya Ala.

Tamasha la Spring linapofikia tamati, msisimko unaozunguka DeepSeek unabaki kuwa na nguvu. Likizo ya hivi majuzi iliangazia hali muhimu ya ushindani ndani ya tasnia ya teknolojia, huku wengi wakijadili na kuchambua "samaki wa paka." Silicon Valley inakabiliwa na hali ya shida ambayo haijawahi kushuhudiwa: watetezi wa chanzo huria wanatoa maoni yao tena, na hata OpenAI inakagua tena ikiwa mkakati wake wa chanzo-msingi ulikuwa chaguo bora zaidi. Mtazamo mpya wa gharama ya chini ya ukokotoaji umezua mwitikio wa msururu kati ya vigogo kama Nvidia, na kusababisha kurekodi hasara ya siku moja ya thamani ya soko katika historia ya soko la hisa la Marekani, huku mashirika ya serikali yanachunguza ufuasi wa chip zinazotumiwa na DeepSeek. Huku kukiwa na maoni mseto ya DeepSeek ng'ambo, ndani ya nchi, inakabiliwa na ukuaji wa ajabu. Baada ya kuzinduliwa kwa muundo wa R1, programu inayohusishwa imeona ongezeko la trafiki, hali inayoonyesha kwamba ukuaji katika sekta za programu utasukuma mfumo wa ikolojia wa AI mbele. Kipengele chanya ni kwamba DeepSeek itapanua uwezekano wa programu, na kupendekeza kuwa kutegemea ChatGPT hakutakuwa ghali sana katika siku zijazo. Mabadiliko haya yameonekana katika shughuli za hivi majuzi za OpenAI, ikiwa ni pamoja na utoaji wa muundo wa hoja unaoitwa o3-mini kwa watumiaji bila malipo kwa kujibu DeepSeek R1, pamoja na masasisho yaliyofuata ambayo yalifanya msururu wa mawazo wa o3-mini hadharani. Watumiaji wengi wa ng'ambo walionyesha shukrani kwa DeepSeek kwa maendeleo haya, ingawa msururu huu wa mawazo hutumika kama muhtasari.
Kwa matumaini, ni dhahiri kwamba DeepSeek inaunganisha wachezaji wa ndani. Kwa kuzingatia kupunguza gharama za mafunzo, watengenezaji mbalimbali wa chipu wa juu, watoa huduma wa wingu wa kati, na waanzishaji wengi wanajiunga kikamilifu na mfumo wa ikolojia, na hivyo kuongeza ufanisi wa gharama kwa kutumia muundo wa DeepSeek. Kulingana na karatasi za DeepSeek, mafunzo kamili ya modeli ya V3 yanahitaji tu saa milioni 2.788 za H800 GPU, na mchakato wa mafunzo ni thabiti sana. Usanifu wa MoE (Mchanganyiko wa Wataalamu) ni muhimu kwa kupunguza gharama za mafunzo ya awali kwa kipengele cha kumi ikilinganishwa na Llama 3 yenye vigezo bilioni 405. Kwa sasa, V3 ndiyo modeli ya kwanza inayotambulika hadharani inayoonyesha uchache wa hali ya juu katika MoE. Zaidi ya hayo, MLA (Uangalifu wa Tabaka nyingi) hufanya kazi kwa ushirikiano, hasa katika vipengele vya hoja. "Kwa kiasi kikubwa cha MoE, ndivyo ukubwa wa kundi linalohitajika wakati wa hoja ili kutumia kikamilifu nguvu ya hesabu, huku ukubwa wa KVCache ukiwa ndio kikwazo kikuu; MLA hupunguza kwa kiasi kikubwa ukubwa wa KVCache," alibainisha mtafiti kutoka Chuanjing Technology katika uchanganuzi wa Mapitio ya Teknolojia ya AI. Kwa ujumla, mafanikio ya DeepSeek yapo katika mchanganyiko wa teknolojia mbalimbali, sio moja tu. Wataalamu wa sekta hiyo wanasifu uwezo wa uhandisi wa timu ya DeepSeek, wakibainisha ubora wao katika mafunzo sambamba na uboreshaji wa waendeshaji, kufikia matokeo ya msingi kwa kuboresha kila undani. Mbinu huria ya DeepSeek huchochea zaidi maendeleo ya jumla ya miundo mikubwa, na inategemewa kuwa ikiwa miundo kama hiyo itapanuka na kuwa picha, video na zaidi, hii itachochea mahitaji kwa kiasi kikubwa katika sekta nzima.
Fursa kwa Huduma za Wahusika Wengine
Takwimu zinaonyesha kuwa tangu kuchapishwa kwake, DeepSeek imeongeza watumiaji milioni 22.15 wanaotumia kila siku (DAU) ndani ya siku 21 tu, na kufikia 41.6% ya watumiaji wa ChatGPT na kuzidi watumiaji milioni 16.95 wanaofanya kazi kila siku wa Doubao, na hivyo kuwa programu inayokua kwa kasi zaidi ulimwenguni, ikiongoza kwenye Duka la Apple.57 kwa kila siku. Hata hivyo, wakati watumiaji wakimiminika kwa wingi, wavamizi wa mtandao wamekuwa wakishambulia programu ya DeepSeek bila kuchoka, na kusababisha matatizo makubwa kwenye seva zake. Wachanganuzi wa sekta wanaamini hii kwa kiasi fulani inatokana na DeepSeek kupeleka kadi kwa ajili ya mafunzo huku ikikosa uwezo wa kutosha wa kukokotoa wa kufikiri. Mtaalam wa ndani wa tasnia aliarifu Ukaguzi wa Teknolojia ya AI, "Masuala ya mara kwa mara ya seva yanaweza kutatuliwa kwa urahisi kwa kutoza ada au kufadhili kununua mashine zaidi; hatimaye, inategemea maamuzi ya DeepSeek." Hii inaleta mabadiliko katika kuzingatia teknolojia dhidi ya uzalishaji. DeepSeek imeegemea kwa kiasi kikubwa katika quantum quantization kwa ajili ya kujikimu, baada ya kupokea ufadhili kidogo kutoka nje, na kusababisha shinikizo la chini la mtiririko wa pesa na mazingira safi ya kiteknolojia. Kwa sasa, kwa kuzingatia matatizo yaliyotajwa hapo juu, baadhi ya watumiaji wanahimiza DeepSeek kwenye mitandao ya kijamii kuinua viwango vya matumizi au kuanzisha vipengele vinavyolipiwa ili kuboresha faraja ya mtumiaji. Zaidi ya hayo, wasanidi wameanza kutumia API rasmi au API za wahusika wengine kwa uboreshaji. Walakini, jukwaa la wazi la DeepSeek lilitangaza hivi majuzi, "rasilimali za sasa za seva ni chache, na malipo ya huduma ya API yamesimamishwa."
Hii bila shaka inafungua fursa zaidi kwa wachuuzi wengine katika sekta ya miundombinu ya AI. Hivi majuzi, kampuni kubwa za ndani na kimataifa za wingu zimezindua API za kielelezo za DeepSeek - makampuni makubwa ya ng'ambo ya Microsoft na Amazon yalikuwa miongoni mwa watu wa kwanza kujiunga mwishoni mwa Januari. Kiongozi wa ndani, Huawei Cloud, alichukua hatua ya kwanza, akitoa huduma za hoja za DeepSeek R1 na V3 kwa ushirikiano na Flow yenye makao yake Silicon mnamo Februari 1. Ripoti kutoka kwa Ukaguzi wa Teknolojia ya AI zinaonyesha kuwa huduma za Silicon-based Flow zimeona utitiri wa watumiaji, kwa ufanisi "kuanguka" jukwaa. Kampuni kubwa tatu za teknolojia—BAT (Baidu, Alibaba, Tencent) na ByteDance—pia zilitoa ofa za gharama nafuu na za muda mfupi kuanzia Februari 3, zikikumbusha vita vya mwaka jana vya bei ya wauzaji wa mtandaoni vilivyowashwa na uzinduzi wa muundo wa V2 wa DeepSeek, ambapo DeepSeek ilianza kuitwa "mchinjaji wa bei." Vitendo vya kuchanganyikiwa vya wachuuzi wa wingu vinaangazia uhusiano mkubwa wa awali kati ya Microsoft Azure na OpenAI, ambapo mwaka wa 2019, Microsoft iliwekeza kiasi kikubwa cha dola bilioni 1 katika OpenAI na ilipata manufaa baada ya ChatGPT kuzinduliwa mwaka wa 2023. Hata hivyo, uhusiano huu wa karibu ulianza kudorora baada ya Llama ya Meta, na kuruhusu wachuuzi wengine walio nje ya mfumo wao mkubwa wa Microsoft kushindana. Katika tukio hili, DeepSeek haijapita tu ChatGPT katika suala la joto la bidhaa lakini pia imeanzisha miundo ya programu huria kufuatia toleo la o1, sawa na msisimko unaozunguka ufufuo wa Llama wa GPT-3.
Kwa kweli, watoa huduma za wingu pia wanajiweka kama lango la trafiki kwa programu za AI, kumaanisha kuwa uhusiano wa kina na wasanidi programu hutafsiri kuwa faida za mapema. Ripoti zinaonyesha kuwa Baidu Smart Cloud ilikuwa na zaidi ya wateja 15,000 wanaotumia muundo wa DeepSeek kupitia mfumo wa Qianfan siku ya uzinduzi wa modeli hiyo. Zaidi ya hayo, makampuni kadhaa madogo yanatoa suluhu, ikiwa ni pamoja na Flow-based Flow, Luchen Technology, Chuanjing Technology, na watoa huduma mbalimbali wa AI Infra ambao wamezindua usaidizi kwa miundo ya DeepSeek. Ukaguzi wa Teknolojia ya AI umejifunza kuwa fursa za sasa za uboreshaji za utumaji uliojanibishwa wa DeepSeek kimsingi zipo katika maeneo mawili: moja ni kuboresha sifa za uchache za muundo wa MoE kwa kutumia mbinu mchanganyiko ya kupeleka kigezo cha bilioni 671 cha muundo wa MoE ndani ya nchi huku ukitumia marejeleo mseto ya GPU/CPU. Zaidi ya hayo, uboreshaji wa MLA ni muhimu. Walakini, miundo miwili ya DeepSeek bado inakabiliwa na changamoto fulani katika uboreshaji wa upelekaji. "Kwa sababu ya saizi ya modeli na vigezo vingi, uboreshaji ni ngumu sana, haswa kwa usambazaji wa ndani ambapo kufikia usawa kati ya utendakazi na gharama itakuwa ngumu," alisema mtafiti kutoka Chuanjing Technology. Kikwazo kikubwa zaidi kiko katika kushinda vikomo vya uwezo wa kumbukumbu. "Tunachukua mbinu ya ushirikiano wa kutumia kikamilifu CPU na rasilimali nyingine za hesabu, tukiweka tu sehemu zisizoshirikiwa za matrix ya MoE kwenye CPU/DRAM kwa ajili ya usindikaji kwa kutumia waendeshaji wa utendaji wa juu wa CPU, wakati sehemu mnene hubaki kwenye GPU," alifafanua zaidi. Ripoti zinaonyesha kuwa mfumo wa chanzo huria wa Chuanjing KTransformers kimsingi huingiza mikakati na waendeshaji mbalimbali katika utekelezaji wa Transfoma asili kupitia kiolezo, ikiboresha kwa kiasi kikubwa kasi ya uelekezaji kwa kutumia mbinu kama vile CUDAGraph. DeepSeek imeunda fursa kwa ajili ya hizi startups, kama faida ya ukuaji ni kuwa dhahiri; makampuni mengi yameripoti ukuaji unaoonekana wa wateja baada ya kuzindua API ya DeepSeek, kupokea maswali kutoka kwa wateja wa awali wanaotafuta uboreshaji. Wenye mambo ya ndani ya tasnia wamebainisha, "Hapo awali, vikundi vya wateja vilivyoanzishwa kwa kiasi fulani mara nyingi vilifungiwa katika huduma sanifu za kampuni kubwa, zikiwa zimefungamana sana na faida zao za gharama kutokana na ukubwa. Hata hivyo, baada ya kukamilisha utumaji wa DeepSeek-R1/V3 kabla ya Tamasha la Spring, ghafla tulipokea maombi ya ushirikiano kutoka kwa wateja kadhaa wanaojulikana, na hata kuwajulisha wateja wetu ambao walikuwa wamelala ili kuanzisha huduma za DeepSeek hapo awali." Hivi sasa, inaonekana kuwa DeepSeek inafanya utendaji wa uelekezaji wa kielelezo kuwa muhimu zaidi, na kwa kupitishwa kwa miundo mikubwa, hii itaendelea kuathiri maendeleo katika tasnia ya AI Infra kwa kiasi kikubwa. Ikiwa muundo wa kiwango cha DeepSeek unaweza kutumwa ndani kwa gharama ya chini, utasaidia sana serikali na biashara juhudi za kuleta mabadiliko ya kidijitali. Hata hivyo, changamoto zinaendelea, kwani baadhi ya wateja wanaweza kushikilia matarajio makubwa kuhusu uwezo mkubwa wa modeli, na kuifanya iwe dhahiri zaidi kwamba kusawazisha utendakazi na gharama inakuwa muhimu katika utumiaji wa vitendo.
Ili kutathmini kama DeepSeek ni bora kuliko ChatGPT, ni muhimu kuelewa tofauti zao kuu, uwezo na matukio ya matumizi. Hapa kuna ulinganisho wa kina:
Kipengele/Kipengele | DeepSeek | GumzoGPT |
---|---|---|
Umiliki | Imetengenezwa na kampuni ya Kichina | Iliyoundwa na OpenAI |
Chanzo Model | Chanzo-wazi | Umiliki |
Gharama | Bure kutumia; chaguzi za bei nafuu za ufikiaji wa API | Usajili au bei ya malipo kwa kila matumizi |
Kubinafsisha | Inaweza kubinafsishwa sana, kuruhusu watumiaji kurekebisha na kujenga juu yake | Ubinafsishaji mdogo unapatikana |
Utendaji katika Kazi Maalum | Hufanya vyema katika maeneo fulani kama vile uchanganuzi wa data na urejeshaji taarifa | Inabadilika na utendaji dhabiti katika uandishi wa ubunifu na kazi za mazungumzo |
Usaidizi wa Lugha | Kuzingatia sana lugha na utamaduni wa Kichina | Usaidizi wa lugha pana lakini US-centric |
Gharama ya Mafunzo | Gharama za chini za mafunzo, zilizoboreshwa kwa ufanisi | Gharama za juu za mafunzo, zinazohitaji rasilimali nyingi za hesabu |
Tofauti ya Majibu | Inaweza kutoa majibu tofauti, ikiwezekana yakiathiriwa na muktadha wa siasa za kijiografia | Majibu thabiti kulingana na data ya mafunzo |
Watazamaji Walengwa | Inalenga watengenezaji na watafiti wanaotaka kubadilika | Inalenga watumiaji wa jumla wanaotafuta uwezo wa mazungumzo |
Tumia Kesi | Inafaa zaidi kwa utengenezaji wa nambari na kazi za haraka | Inafaa kwa kuunda maandishi, kujibu maswali, na kushiriki katika mazungumzo |
Mtazamo Muhimu juu ya "Kuvuruga Nvidia"
Kwa sasa, kando na Huawei, watengenezaji kadhaa wa chipu nchini kama Moore Threads, Muxi, Biran Technology, na Tianxu Zhixin pia wanajirekebisha na miundo miwili ya DeepSeek. Mtengenezaji wa chip aliambia Ukaguzi wa Teknolojia wa AI, "Muundo wa DeepSeek unaonyesha uvumbuzi, lakini bado unabaki kuwa LLM. Marekebisho yetu ya DeepSeek yanalenga hasa maombi ya hoja, na kufanya utekelezaji wa kiufundi kuwa moja kwa moja na wa haraka." Hata hivyo, mbinu ya MoE inahitaji mahitaji ya juu zaidi katika suala la kuhifadhi na usambazaji, pamoja na kuhakikisha upatanifu wakati wa kupeleka na chips za nyumbani, kuwasilisha changamoto nyingi za kihandisi ambazo zinahitaji ufumbuzi wakati wa kukabiliana. "Kwa sasa, nguvu za hesabu za ndani hazilingani na Nvidia katika utumiaji na uthabiti, inayohitaji ushiriki wa kiwanda asilia kwa usanidi wa mazingira ya programu, utatuzi wa shida, na uboreshaji wa utendaji wa kimsingi," mtaalamu wa tasnia alisema kulingana na uzoefu wa vitendo. Sambamba na hilo, "Kutokana na kiwango kikubwa cha kigezo cha DeepSeek R1, nguvu za hesabu za ndani zinahitaji nodi zaidi za kusawazisha. Zaidi ya hayo, vipimo vya maunzi vya ndani bado viko nyuma kwa kiasi; kwa mfano, Huawei 910B kwa sasa haiwezi kuunga mkono makisio ya FP8 yaliyoletwa na DeepSeek." Mojawapo ya mambo muhimu ya muundo wa DeepSeek V3 ni kuanzishwa kwa mfumo wa mafunzo wa usahihi mchanganyiko wa FP8, ambao umeidhinishwa kwa ufanisi kwenye muundo mkubwa sana, unaoashiria mafanikio makubwa. Hapo awali, wachezaji wakuu kama Microsoft na Nvidia walipendekeza kazi inayohusiana, lakini mashaka yanabaki kwenye tasnia kuhusu uwezekano. Inaeleweka kuwa ikilinganishwa na INT8, faida ya msingi ya FP8 ni kwamba ukadiriaji wa baada ya mafunzo unaweza kufikia usahihi usio na hasara huku ukiimarisha kwa kiasi kikubwa kasi ya uelekezaji. Ikilinganishwa na FP16, FP8 inaweza kuongeza kasi hadi mara mbili kwenye H20 ya Nvidia na kuongeza kasi zaidi ya mara 1.5 kwenye H100. Hasa, mijadala inayozunguka mwelekeo wa nguvu za kikokotoo za ndani pamoja na mifano ya ndani inazidi kushika kasi, uvumi kuhusu kama Nvidia inaweza kutatizwa, na kama mkondo wa CUDA unaweza kuepukwa, unazidi kuenea. Ukweli mmoja usiopingika ni kwamba DeepSeek kwa kweli imesababisha kushuka kwa thamani ya soko la Nvidia, lakini mabadiliko haya yanaibua maswali kuhusu uadilifu wa uwezo wa kimahesabu wa Nvidia wa hali ya juu. Masimulizi yaliyokubaliwa hapo awali kuhusu ulimbikizaji wa hesabu unaoendeshwa na mtaji yanapingwa, lakini bado ni vigumu kwa Nvidia kubadilishwa kikamilifu katika matukio ya mafunzo. Uchanganuzi wa utumiaji wa kina wa CUDA wa DeepSeek unaonyesha kuwa kubadilika—kama vile kutumia SM kwa mawasiliano au kudhibiti moja kwa moja kadi za mtandao—hakuwezi kutekelezwa kwa GPU za kawaida. Maoni ya tasnia yanasisitiza kuwa njia ya Nvidia inahusisha mfumo ikolojia wote wa CUDA badala ya CUDA yenyewe tu, na maagizo ya PTX (Utekelezaji Sambamba wa Thread) ambayo DeepSeek inaajiri bado ni sehemu ya mfumo ikolojia wa CUDA. "Kwa muda mfupi, nguvu ya computational ya Nvidia haiwezi kupuuzwa-hii ni wazi hasa katika mafunzo; hata hivyo, kupeleka kadi za ndani kwa sababu itakuwa rahisi, hivyo maendeleo yatakuwa ya haraka zaidi. Marekebisho ya kadi za ndani hasa inalenga katika inference; hakuna mtu bado ameweza kufundisha mfano wa utendaji wa DeepSeek kwenye kadi za ndani za mchambuzi wa AI Review AI ya teknolojia, "a. Kwa ujumla, kutoka kwa maoni ya uelekezaji, hali zinatia moyo kwa chipsi kubwa za nyumbani. Fursa za watengenezaji wa chips nchini ndani ya eneo la makisio ni dhahiri zaidi kutokana na mahitaji ya juu kupita kiasi ya mafunzo, ambayo yanazuia kuingia. Wachambuzi wanadai kwamba kutumia tu kadi za inference za ndani inatosha; ikihitajika, kupata mashine ya ziada inawezekana, ilhali miundo ya mafunzo huleta changamoto za kipekee—kudhibiti idadi iliyoongezeka ya mashine kunaweza kuwa mzigo mzito, na viwango vya juu vya makosa vinaweza kuathiri vibaya matokeo ya mafunzo. Mafunzo pia yana mahitaji mahususi ya mizani ya nguzo, ilhali mahitaji ya makundi kwa ajili ya makisio si magumu, hivyo kurahisisha mahitaji ya GPU. Hivi sasa, utendakazi wa kadi moja ya Nvidia ya H20 hauzidi ule wa Huawei au Cambrian; nguvu zake ziko kwenye nguzo. Kulingana na athari ya jumla kwenye soko la nguvu la hesabu, mwanzilishi wa Luchen Technology, You Yang, alibainisha katika mahojiano na Ukaguzi wa Teknolojia ya AI, "DeepSeek inaweza kudhoofisha kwa muda uanzishaji na ukodishaji wa vikundi vya ukokotoaji vya mafunzo makubwa zaidi. Kwa muda mrefu, kwa kupunguza kwa kiasi kikubwa gharama zinazohusiana na mafunzo makubwa ya kielelezo, hoja, na matumizi, kwa hivyo mahitaji ya msingi ya soko yanaweza kuzingatiwa. daima kuendesha mahitaji endelevu katika soko la umeme la hesabu." Zaidi ya hayo, "Mahitaji ya DeepSeek ya kuongezeka kwa huduma za kufikiria na kupanga vizuri yanapatana zaidi na mazingira ya kikokotozi ya nyumbani, ambapo uwezo wa wenyeji ni dhaifu, unaosaidia kupunguza upotevu kutoka kwa rasilimali zisizo na kazi baada ya uanzishwaji wa nguzo; hii inaunda fursa zinazowezekana kwa watengenezaji katika viwango tofauti vya mfumo wa ikolojia wa nyumbani." Teknolojia ya Luchen imeshirikiana na Huawei Cloud kuzindua mfululizo wa API za hoja za DeepSeek R1 na huduma za upigaji picha za wingu kulingana na nguvu za kompyuta za nyumbani. You Yang ulionyesha matumaini kuhusu siku zijazo: "DeepSeek inatia imani katika suluhu zinazozalishwa nchini, na kuhimiza shauku kubwa na uwekezaji katika uwezo wa ndani wa hesabu kwenda mbele."

Hitimisho
Ikiwa DeepSeek ni "bora" kuliko ChatGPT inategemea mahitaji na malengo mahususi ya mtumiaji. Kwa kazi zinazohitaji kubadilika, gharama ya chini na ubinafsishaji, DeepSeek inaweza kuwa bora zaidi. Kwa uandishi wa ubunifu, uchunguzi wa jumla, na violesura vya mazungumzo vinavyofaa mtumiaji, ChatGPT inaweza kuongoza. Kila chombo hutumikia madhumuni tofauti, hivyo uchaguzi utategemea sana mazingira ambayo hutumiwa.
Kudhibiti nyaya
Mfumo wa Cabling Ulioundwa
Mtandao na Data, Fiber-Optic Cable, Patch Cord, Moduli, Faceplate
Apr.16-18th, 2024 Middle-East-Nishati huko Dubai
Aprili 16-18, 2024 Securika huko Moscow
Mei.9, 2024 TUKIO LA UZINDUZI WA BIDHAA NA TEKNOLOJIA MPYA mjini Shanghai
Oct.22-25th, 2024 USALAMA CHINA mjini Beijing
Nov.19-20, 2024 WORLD CONNECTED KSA
Muda wa kutuma: Feb-10-2025