Odkud umělá inteligence čerpá informace?

Už jste někdy seděli a škrábali se na hlavě, jako… odkud se tohle vlastně bere? Vždyť umělá inteligence se neprohrabe zaprášenými knihovnami ani nepouští krátké video z YouTube. Přesto nějakým způsobem nachází odpovědi na všechno – od triků s lasagněmi až po fyziku černých děr – jako by uvnitř měla nějakou bezednou kartotéku. Realita je podivnější a možná i zajímavější, než byste si mysleli. Pojďme si to trochu rozebrat (a jo, možná cestou vyvrátíme i pár mýtů).

Je to čarodějnictví? 🌐

Není to kouzlo, i když to tak někdy vypadá. To, co se děje „pod kapotou“, je v podstatě predikce vzorců. Modely velkých jazyků (LLM) neukládají fakta tak, jako se váš mozek drží receptu na sušenky vaší babičky; místo toho jsou trénovány k hádání dalšího slova (tokenu) na základě toho, co bylo předtím [2]. V praxi to znamená, že se zachycují ve vztazích: která slova k sobě patří, jak se věty obvykle tvarují, jak se celé myšlenky budují jako lešení. Proto výstup zní správně, i když – upřímně řečeno – jde o statistickou mimikry, nikoli o porozumění [4].

Co tedy vlastně dělá informace generované umělou inteligencí užitečnými? Několik věcí:

Diverzita dat – čerpání z nespočtu zdrojů, ne z jednoho úzkého proudu.
Aktualizace - bez obnovovacích cyklů rychle zastará.
Filtrace – ideálně zachycení odpadu dříve, než se dostane dovnitř (i když, buďme upřímní, ta síť má díry).
Křížová kontrola – opírání se o autoritativní zdroje (například NASA, WHO, velké univerzity), což je nezbytná součást většiny příruček pro správu umělé inteligence [3].

Přesto si někdy sebevědomě vymýšlí. Ty takzvané halucinace? V podstatě vybroušené nesmysly pronášené s vážnou tváří [2][3].

Články, které byste si mohli po tomto přečíst:

🔗 Dokáže umělá inteligence předpovídat čísla v loterii?
Zkoumání mýtů a faktů o předpovědích loterií s využitím umělé inteligence.

🔗 Co znamená zaujmout holistický přístup k umělé inteligenci
Pochopení umělé inteligence s vyváženým pohledem na etiku a dopad.

🔗 Co říká Bible o umělé inteligenci
Zkoumání biblických perspektiv na technologie a stvoření člověka.

Rychlé srovnání: Odkud umělá inteligence čerpá 📊

Ne každý zdroj je si rovný, ale každý hraje svou roli. Zde je stručný přehled.

Typ zdroje	Kdo to používá (AI)	Cena/hodnota	Proč to funguje (nebo nefunguje...)
Knihy a články	Velké jazykové modely	K nezaplacení (nebo tak nějak)	Husté, strukturované znalosti – prostě rychle stárnou.
Webové stránky a blogy	Prakticky všechny umělé inteligence	Zdarma (s hlukem)	Divoká odrůda; směs geniality a naprostého odpadu.
Akademické práce	Umělé inteligence s velkým výzkumným zaměřením	Někdy placené	Přísnost + důvěryhodnost, ale zahaleno v těžkém žargonu.
Uživatelská data	Personalizované umělé inteligence	Vysoce citlivý/á ⚠️	Elegantní střih, ale spousta problémů se soukromím.
Web v reálném čase	AI propojené s vyhledáváním	Zdarma (pokud je online)	Udržuje informace aktuální; nevýhodou je riziko šíření fám.

Vesmír tréninkových dat 🌌

Toto je fáze „učení v dětství“. Představte si, že dítěti najednou dáte miliony pohádek, výstřižků z novin a králičích děr z Wikipedie. Takhle vypadá předškolování. V reálném světě poskytovatelé dávají dohromady veřejně dostupná data, licencované zdroje a text generovaný školitelem [2].

Vrstvené nahoře: vybrané lidské příklady – dobré odpovědi, špatné odpovědi, postrčení správným směrem – ještě předtím, než vůbec začne posilování [1].

Výhrada transparentnosti: společnosti nezveřejňují všechny podrobnosti. Některá ochranná opatření jsou utajení (duševní vlastnictví, bezpečnostní obavy), takže máte jen částečný vhled do skutečného dění [2].

Vyhledávání v reálném čase: Extra poleva 🍒

Některé modely nyní dokáží nahlédnout mimo svou trénovací bublinu. To se nazývá generování s rozšířeným vyhledáváním (RAG) –v podstatě se stahují části z živého indexu nebo úložiště dokumentů a poté se vpletou do odpovědi [5]. Ideální pro rychle se měnící informace, jako jsou titulky zpráv nebo ceny akcií.

Problém? Internet je v tom, že je geniální a zároveň riskantní. Pokud jsou filtry nebo kontroly původu slabé, riskujete, že se zpět vplíží nepotřebná data – přesně před čím varují rámce pro měření rizik [3].

Běžné řešení: firmy propojují modely s vlastními interními databázemi, takže odpovědi citují aktuální personální politiku nebo aktualizovanou produktovou dokumentaci, místo aby se s tím vyhýbaly. Zamyslete se nad tím: méně momentů „oh, oh“, více důvěryhodných odpovědí.

Jemné ladění: Leštící krok umělé inteligence 🧪

Neupravené předtrénované modely jsou neohrabané. Proto se dolaďují:

Učit je být nápomocní, neškodní a čestní (prostřednictvím posilovacího učení z lidské zpětné vazby, RLHF) [1].
Broušení nebezpečných nebo toxických hran (zarovnání) [1].
Úprava tónu – ať už přátelského, formálního nebo hravě sarkastického.

Nejde ani tak o leštění diamantu, jako spíše o to, jak se pokusit se chovat statistickou lavinu jako partner v konverzaci.

Hrboly a neúspěchy 🚧

Nepředstírejme, že je to bezchybné:

Halucinace - jasné odpovědi, které jsou naprosto mylné [2][3].
Zkreslení – odráží vzorce zabudované do dat; pokud se nezaškrtne, může je dokonce zesilovat [3][4].
Žádná zkušenost z první ruky - může mluvit o receptech na polévku, ale nikdy žádnou neochutnal [4].
Přílišná sebejistota – text plyne, jako by věděl, i když ne. Rámce pro hodnocení rizik kladou důraz na označování předpokladů [3].

Proč se cítím jako vědět 🧠

Nemá žádné přesvědčení, žádnou paměť v lidském smyslu a už vůbec žádné vlastní já. Přestože plynule spojuje věty dohromady, váš mozek to čte, jako by tomu rozuměl. To, co se děje, je jen masivní predikce dalšího žetonu: zpracovávání bilionů pravděpodobností ve zlomcích sekundy [2].

Pojem „inteligence“ je emergentní behaviorální a vědci jej s trochou ironie nazývají „stochastickým papouščím“ [4].

Analogie pro děti 🎨

Představte si papouška, který přečetl všechny knihy v knihovně. Příběhům sice nerozumí , ale dokáže slova zkombinovat do něčeho, co mu připadá moudré. Někdy je to trefa, někdy je to nesmysl – ale s dostatkem talentu rozdíl nepoznáte.

Shrnutí: Odkud pocházejí informace o umělé inteligenci 📌

Jednoduše řečeno:

Masivní data pro školení (veřejná + licencovaná + generovaná školitelem) [2].
Jemné doladění s lidskou zpětnou vazbou pro utváření tónu/chování [1].
Vyhledávací systémy připojené k živým datovým proudům [5].

Umělá inteligence nic „neví“ – předpovídá text. To je její superschopnost i Achillova pata. Sečteno a podtrženo? Vždy si důležité informace ověřte s důvěryhodným zdrojem [3].

Reference

Ouyang, L. a kol. (2022). Trénování jazykových modelů pro následování instrukcí s lidskou zpětnou vazbou (InstructGPT). arXiv.
OpenAI (2023). Technická zpráva GPT-4 – směs licencovaných, veřejných a lidmi vytvořených dat; cíl a omezení predikce dalšího tokenu. arXiv.
NIST (2023). Rámec pro řízení rizik umělé inteligence (AI RMF 1.0) – původ, důvěryhodnost a kontroly rizik. PDF.
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). O nebezpečích stochastických papoušků: Mohou být jazykové modely příliš velké? PDF.
Lewis, P. a kol. (2020). Generování rozšířených vyhledávacích dat pro znalostně intenzivní NLP. arXiv.

Najděte nejnovější AI v oficiálním obchodě s AI asistenty

O nás

Zpět na blog