Už jste někdy seděli a škrábali se na hlavě, jako… odkud se tohle vlastně bere ? Vždyť umělá inteligence se neprohrabe zaprášenými knihovnami ani nepouští krátké video z YouTube. Přesto nějakým způsobem nachází odpovědi na všechno – od triků s lasagněmi až po fyziku černých děr – jako by uvnitř měla nějakou bezednou kartotéku. Realita je podivnější a možná i zajímavější, než byste si mysleli. Pojďme si to trochu rozebrat (a jo, možná cestou vyvrátíme i pár mýtů).
Je to čarodějnictví? 🌐
Není to kouzlo, i když to tak někdy vypadá. To, co se děje „pod kapotou“, je v podstatě predikce vzorců . Modely velkých jazyků (LLM) neukládají fakta tak, jako se váš mozek drží receptu na sušenky vaší babičky; místo toho jsou trénovány k hádání dalšího slova (tokenu) na základě toho, co bylo předtím [2]. V praxi to znamená, že se zachycují ve vztazích: která slova k sobě patří, jak se věty obvykle tvarují, jak se celé myšlenky budují jako lešení. Proto výstup zní správně, i když – upřímně řečeno – jde o statistickou mimikry, nikoli o porozumění [4].
Co tedy vlastně dělá informace generované umělou inteligencí užitečnými ? Několik věcí:
-
Diverzita dat – čerpání z nespočtu zdrojů, ne z jednoho úzkého proudu.
-
Aktualizace - bez obnovovacích cyklů rychle zastará.
-
Filtrace – ideálně zachycení odpadu dříve, než se dostane dovnitř (i když, buďme upřímní, ta síť má díry).
-
Křížová kontrola – opírání se o autoritativní zdroje (například NASA, WHO, velké univerzity), což je nezbytná součást většiny příruček pro správu umělé inteligence [3].
Přesto si někdy sebevědomě vymýšlí. Ty takzvané halucinace ? V podstatě vybroušené nesmysly pronášené s vážnou tváří [2][3].
Články, které byste si mohli po tomto přečíst:
🔗 Dokáže umělá inteligence předpovídat čísla v loterii?
Zkoumání mýtů a faktů o předpovědích loterií s využitím umělé inteligence.
🔗 Co znamená zaujmout holistický přístup k umělé inteligenci
Pochopení umělé inteligence s vyváženým pohledem na etiku a dopad.
🔗 Co říká Bible o umělé inteligenci
Zkoumání biblických perspektiv na technologie a stvoření člověka.
Rychlé srovnání: Odkud umělá inteligence čerpá 📊
Ne každý zdroj je si rovný, ale každý hraje svou roli. Zde je stručný přehled.
| Typ zdroje | Kdo to používá (AI) | Cena/hodnota | Proč to funguje (nebo nefunguje...) |
|---|---|---|---|
| Knihy a články | Velké jazykové modely | K nezaplacení (nebo tak nějak) | Husté, strukturované znalosti – prostě rychle stárnou. |
| Webové stránky a blogy | Prakticky všechny umělé inteligence | Zdarma (s hlukem) | Divoká odrůda; směs geniality a naprostého odpadu. |
| Akademické práce | Umělé inteligence s velkým výzkumným zaměřením | Někdy placené | Přísnost + důvěryhodnost, ale zahaleno v těžkém žargonu. |
| Uživatelská data | Personalizované umělé inteligence | Vysoce citlivý/á ⚠️ | Elegantní střih, ale spousta problémů se soukromím. |
| Web v reálném čase | AI propojené s vyhledáváním | Zdarma (pokud je online) | Udržuje informace aktuální; nevýhodou je riziko šíření fám. |
Vesmír tréninkových dat 🌌
Toto je fáze „učení v dětství“. Představte si, že dítěti najednou miliony veřejně dostupná data, licencované zdroje a text generovaný školitelem [2].
Vrstvené nahoře: vybrané lidské příklady – dobré odpovědi, špatné odpovědi, postrčení správným směrem – ještě předtím, než vůbec začne posilování [1].
Výhrada transparentnosti: společnosti nezveřejňují všechny podrobnosti. Některá ochranná opatření jsou utajení (duševní vlastnictví, bezpečnostní obavy), takže máte jen částečný vhled do skutečného dění [2].
Vyhledávání v reálném čase: Extra poleva 🍒
Některé modely nyní dokáží nahlédnout mimo svou trénovací bublinu. To se nazývá generování s rozšířeným vyhledáváním (RAG) – v podstatě se stahují části z živého indexu nebo úložiště dokumentů a poté se vpletou do odpovědi [5]. Ideální pro rychle se měnící informace, jako jsou titulky zpráv nebo ceny akcií.
Problém? Internet je v tom, že je geniální a zároveň riskantní. Pokud jsou filtry nebo kontroly původu slabé, riskujete, že se zpět vplíží nepotřebná data – přesně před čím varují rámce pro měření rizik [3].
Běžné řešení: firmy propojují modely s vlastními interními databázemi, takže odpovědi citují aktuální personální politiku nebo aktualizovanou produktovou dokumentaci, místo aby se s tím vyhýbaly. Zamyslete se nad tím: méně momentů „oh, oh“, více důvěryhodných odpovědí.
Jemné ladění: Leštící krok umělé inteligence 🧪
Neupravené předtrénované modely jsou neohrabané. Proto se dolaďují :
-
Učit je být nápomocní, neškodní a čestní (prostřednictvím posilovacího učení z lidské zpětné vazby, RLHF) [1].
-
Broušení nebezpečných nebo toxických hran (zarovnání) [1].
-
Úprava tónu – ať už přátelského, formálního nebo hravě sarkastického.
Nejde ani tak o leštění diamantu, jako spíše o to, jak se pokusit se chovat statistickou lavinu jako partner v konverzaci.
Hrboly a neúspěchy 🚧
Nepředstírejme, že je to bezchybné:
-
Halucinace - jasné odpovědi, které jsou naprosto mylné [2][3].
-
Zkreslení – odráží vzorce zabudované do dat; pokud se nezaškrtne, může je dokonce zesilovat [3][4].
-
Žádná zkušenost z první ruky - může mluvit o receptech na polévku, ale nikdy žádnou neochutnal [4].
-
Přílišná sebejistota – text plyne, jako by věděl, i když ne. Rámce pro hodnocení rizik kladou důraz na označování předpokladů [3].
Proč se cítím jako vědět 🧠
Nemá žádné přesvědčení, žádnou paměť v lidském smyslu a už vůbec žádné vlastní já. Přestože plynule spojuje věty dohromady, váš mozek to čte, jako by tomu rozuměl . To, co se děje, je jen masivní predikce dalšího žetonu : zpracovávání bilionů pravděpodobností ve zlomcích sekundy [2].
Pojem „inteligence“ je emergentní behaviorální a vědci jej s trochou ironie nazývají „stochastickým papouščím“ [4].
Analogie pro děti 🎨
Představte si papouška, který přečetl všechny knihy v knihovně. Příběhům sice nerozumí , ale dokáže slova zkombinovat do něčeho, co mu připadá moudré. Někdy je to trefa, někdy je to nesmysl – ale s dostatkem talentu rozdíl nepoznáte.
Shrnutí: Odkud pocházejí informace o umělé inteligenci 📌
Jednoduše řečeno:
-
Masivní data pro školení (veřejná + licencovaná + generovaná školitelem) [2].
-
Jemné doladění s lidskou zpětnou vazbou pro utváření tónu/chování [1].
-
Vyhledávací systémy připojené k živým datovým proudům [5].
Umělá inteligence nic „neví“ – předpovídá text . To je její superschopnost i Achillova pata. Sečteno a podtrženo? Vždy si důležité informace ověřte s důvěryhodným zdrojem [3].
Reference
-
Ouyang, L. a kol. (2022). Trénování jazykových modelů pro následování instrukcí s lidskou zpětnou vazbou (InstructGPT) . arXiv .
-
OpenAI (2023). Technická zpráva GPT-4 – směs licencovaných, veřejných a lidmi vytvořených dat; cíl a omezení predikce dalšího tokenu. arXiv .
-
NIST (2023). Rámec pro řízení rizik umělé inteligence (AI RMF 1.0) – původ, důvěryhodnost a kontroly rizik. PDF .
-
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). O nebezpečích stochastických papoušků: Mohou být jazykové modely příliš velké? PDF .
-
Lewis, P. a kol. (2020). Generování rozšířených vyhledávacích dat pro znalostně intenzivní NLP . arXiv .