Deepseek, kas ja miks?

Worried about security, omitted information, and discrimation in deepseek

DeepSeek on tehisintellekti maastikul tekitanud tõelise tormi. Oma sünteetilise mudeliga on nad tõestanud, et väiksemad, odavamad mudelid suudavad konkureerida suurte baasmudelitega. Kirjutasin LinkedINis, mida arvan Deepseekist. Siiani ei ole pidanud oma arvamust muutma:

  • Deepseek on sünteetiline mudel,
  • Deepseek on baasmudelitest efektiivsem,
  • Deepseeki ei saa usaldada.

Iga teema vajab pikemat selgitamist.

Kuigi OpenAI, Anthropic ja Google vihjavad pidevalt üldise tehisintellekti (AGI) tekkimisele, on tulevik ikkagi udune. Viimastes väljaütlemistes on Anthropic nihutanud AGI tekkimise ajaraami aastasse 2030. Teised on sama väljaütlemise pealt tõlgendanud, et AGI on reaalsus aastal 2026. Praktilises plaanis ei ole vahet, kumb raami serv on õige – praegu AGI ei eksisteeri. Küll aga on juba praegu võimalik luua kasulikke AI-rakendusi, mis lahendavad konkreetseid äriülesandeid.

AGI loomiseks on vaja teha üha suuremaid mitmekesisemate andmetüüpidega mudeleid. Selle jaoks on suured tehisintellekti arendajad saanud miljardeid, et kasvatada mudeleid veelgi suuremaks ja saavutada „imeline eesmärk“.

Paljude äriülesannete jaoks on tänane AI juba hea küll. Näiteks koosolekust kokkuvõtete tegemiseks sobis hästi juba GPT 3.5 Turbo mudel, mis nägi ilmavalgust 14. märtsil 2023. Uuemad ja kallimad mudelid oskavad rohkem, kuid kvalitatiivne hüpe on minimaalne. Mingi konkreetse äriülesande lahendamiseks piisab sageli palju väiksemast mudelist.

Deepseek tõestas, et väikese sünteetilise mudeli loomine ja käitamine võib olla väga odav. Arvestades arvutusjõudluse kasvu, on tänane väike mudel mõne aasta tagune suur mudel – paljude äriülesannete jaoks piisavalt nutikas. Tulemuseks on olukord, kus suures AI arendajad kaasavad miljardeid raha, et arendada üha paremaid mudeleid, aga mudelite tarbijad arvavad, et nende ülesannete jaoks on 1000 korda odavamad mudelid head küll.

DeepSeek’i mudelid, nagu DeepSeek-V3, kasutavad Mixture-of-Experts (MoE) arhitektuuri, mis võimaldab aktiveerida ainult osa parameetritest iga tokeni töötlemisel. Näiteks DeepSeek-V3 sisaldab 671 miljardit parameetrit, millest iga tokeni jaoks aktiveeritakse vaid 37 miljardit. See lähenemine vähendab oluliselt arvutusvõimsuse ja energia vajadust, võimaldades väiksematel mudelitel saavutada võrreldavat jõudlust suurte baasmudelitega. Nutikalt disainitud mudelid võivad pakkuda kõrget jõudlust ilma massiivsete investeeringuteta.

Hoolimata tehnilistest saavutustest, on DeepSeek’i usaldusväärsus küsimärgi all. Deepseeki mudeli tsensuur ja võimalikud andmeturbe riskid ei tee seda äris kasutamisel praktiliseks. Lisaks on täheldatud, et mudel võib kajastada Hiina valitsuse eelistusi ja diskrimineeriva AI rakendamine on vähemalt Euroopa Liidus seadusega vastuolus.

Deepseeki mõju saab olema, et odavad eriülesannete täitmiseks vajalike väikeseid mudeleid hakkab välja potsatama nagu seeni pärast vihma ja iga äriülesende jaoks võib olla mõistlik valida erinev AI mudel. Deepseek muudab AI-tööstuse dünaamikat, nihutades fookuse suurtelt ja kallitelt mudelitelt väiksemate ja spetsialiseeritumate lahenduste suunas.


Lisa kommentaar

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga


Liitu Mentosteeri uudiskirjaga

Please enable JavaScript in your browser to complete this form.
Name