Väärtus sünnib andmete taaskasutusest

Andmete taaskasutamine nõuab nende ümbertöötlemist, sest enamik on lihtsalt praht

Kuigi uudisvoog tehisintellekti “revolutsioonilistest edusammudest” ei ole vaibunud, on viimase aasta jooksul tehtud nähtavad edusammaud pigem väikesed.

Viimane tõeline hüpe tuli OpenAI o3 mudeliga, kus mudelile anti rohkem aega “mõelda” ning tulemuste kvaliteet paranes. ChatGPT 5 puhul ei olnud läbimurre mudelis endas, vaid hoopis tööriistades selle ümber. OpenAI lõi süsteemi, mis oskab automaatselt valida õige mudeli vastavalt ülesandele – kood, tekst, kokkuvõtted. See on oluline, sest enamik kasutajaid ei taha ega pea oskama mudelit käsitsi valida.

Tõde on aga, et vastuste kvaliteet ei ole hüppeliselt kasvanud. Uuendus toimub mudelite ümber, mitte mudelites endis.

Mudelid on piisavalt head, andmed aga liiga halvad

2024. aasta kevadeks oli GPT-4o juba “piisavalt hea”. Sealt edasi on ei ole tulemus sõltunud niivõrd GPT mudelist, vaid mudelile antud andmete kvaliteedist.

Seda näitab ka Anthropicu MCP (Model Context Protocol) ja Microsofti otsus võtta Anthropic GitHub Copiloti põhitehnoloogiaks. See samm tõstab esile olulise tõe: ka kõige parem AI ei toimi ilma korralike andmeteta.

Microsofti teekond Microsoft 365 Copilotiga paljastas selle probleemi valusalt: enamik ettevõtete andmeid on lihtsalt praht. SharePointi kaustad, meilid ja CRM-i kirjed on täis aegunud versioone, segast infot ja madala väärtusega sisu. Kui Copilot peab koostama “müügipakkumise” või “tootekirjelduse”, peab ta kaevama läbi selle digitaalse prügimäe, teadmata, mis on oluline ja mis mitte.

Me ei anna ju lapsele kõiki kunagi kirjutatud raamatuid ja ei eelda, et ta õpib neist targaks. Me anname talle hoolikalt koostatud õpikud. Sama loogika peab kehtima ka AI puhul. Miks eeldame, et LLM suudab iseseisvalt läbi töötada kogu ettevõtte failimassiivi ja anda kvaliteetse tulemuse?

Andmete taaskasutus: prügist ressursiks

Kui LLM-id on muutunud teineteisest eristamatuks, siis tegelik väärtus lisatakse andmete taaskasutuses. Ettevõtted, kes suudavad oma andmed muuta korrastatud ja AI-sõbralikeks teadmistebaasideks, saavad reaalse konkurentsieelise.

Siin on kuus sammu, kuidas seda teha:

  1. Määra eesmärk ja sihtrühm
    MIs on andmekogu eesmärk? Müügijuhendid, tehnilised manuaalid, klienditeeninduse vastused?
  2. Kaardista ja auditeeri olemasolev info
    Uuri, mis sul üldse olemas on, kus see paikneb ja mis on aegunud.
  3. Klassifitseeri ja rühmitage teemad
    Näiteks: tooteandmed, protsessi juhendid, nõuetele vastavuse materjalid.
  4. Eralda oluline teadmine
    Too välja see 20%, mis tegelikult loob väärtust.
  5. Ehita dokumentatsiooni raamistik
    Pane see info vormi, mida AI saab kergesti kasutada – struktureeritud teadmistebaasid, protsessikirjeldused.
  6. Loo halduse ja uuendamise kord
    Vananenud info on hullem kui info puudumine.

AI saab igas sammus aidata – näiteks kokkuvõtete tegemisel või tekstide rühmitamisel – aga otsused, mis jääb ja mis läheb, peavad tegema inimesed.

Miks on vaja tegutseda kohe?

Kui sinu konkurendid teevad andmete taaskasutuse ära enne sind, hakkab nende AI süsteem sind igal sammul ületama. Nad suudavad kiiremini koostada pakkumisi, paremini hallata dokumentatsiooni ja pakkuda täpsemaid analüüse. Sina aga jääd andmepahna lõksu.

AI ei ole enam küsimus, millist mudelit kasutada. See lahing on läbi. Kõik mudelid annavad sisuliselt sarnase tulemuse. Küsimus on: kas sinu andmed on taaskasutuseks valmis või mitte?


Liitu Mentosteeri uudiskirjaga

Name