Jak optimalizovat modely umělé inteligence

Jak optimalizovat modely umělé inteligence

Stručná odpověď: Pro optimalizaci modelů umělé inteligence vyberte jedno primární omezení (latence, náklady, paměť, kvalita, stabilita nebo propustnost) a poté si před provedením jakýchkoli změn zaznamenejte důvěryhodnou základní hodnotu. Nejprve odstraňte úzká hrdla v rámci procesu a poté aplikujte nízkorizikové postupy, jako je smíšená přesnost a dávkování; pokud si kvalita zachovává svou hodnotu, přejděte k nástrojům pro kompilaci/běhové prostředí a teprve poté v případě potřeby snižte velikost modelu kvantizací nebo destilací.

Klíčové poznatky:

Omezení : Vyberte si jednu nebo dvě cílové metriky; optimalizace je prostředím kompromisů, nikoli bezplatných výher.

Měření : Profilujte skutečné pracovní zátěže s p50/p95/p99, propustností, využitím a paměťovými špičkami.

Kanál : Opravte tokenizaci, zavaděče dat, předzpracování a dávkování před manipulací s modelem.

Podávání : Používejte ukládání do mezipaměti, záměrné dávkování, ladění souběžnosti a pečlivě sledujte latenci ocasu.

Ochranné zábradlí : Po každé změně výkonu spusťte zlaté výzvy, metriky úkolů a namátkové kontroly.

Infografika o optimalizaci modelů umělé inteligence

🔗 Jak efektivně hodnotit modely umělé inteligence
Klíčová kritéria a kroky pro spravedlivé a spolehlivé hodnocení modelů.

🔗 Jak měřit výkon umělé inteligence pomocí reálných metrik
Používejte k porovnání benchmarky, latenci, náklady a signály kvality.

🔗 Jak testovat modely umělé inteligence před produkčním provozem
Praktický pracovní postup testování: rozdělení dat, zátěžové případy a monitorování.

🔗 Jak používat umělou inteligenci k tvorbě obsahu
Proměňte nápady v koncepty rychleji pomocí strukturovaných výzev a iterací.


1) Co znamená „optimalizovat“ v praxi (protože každý to používá jinak) 🧠

Když lidé říkají „optimalizovat model umělé inteligence“, mohou tím myslet:

  • Zrychlete to (nižší latence)

  • Zlevněte to (méně hodin GPU, nižší výdaje na cloud)

  • Zmenšení (zatížení paměti, nasazení na okraji sítě)

  • Zvyšší přesnost (zlepšení kvality, méně halucinací)

  • Zvyšší stabilita (menší odchylka, méně selhání v produkci)

  • Usnadněte obsluhu (propustnost, dávkování, předvídatelný výkon)

Zde je mírně otravná pravda: nemůžete maximalizovat všechny tyto možnosti najednou. Optimalizace je jako zmáčknout balónek – zatlačte jednu stranu dovnitř a druhá strana vyskočí. Ne vždy, ale dost často na to, abyste počítali s kompromisy.

Takže než se čehokoli dotknete, vyberte si primární omezení :

  • Pokud poskytujete uživatelům služby živě, zajímá vás latence p95 ( percentily AWS CloudWatch ) a výkon ocasu ( osvědčený postup pro „tail latenci“ ) 📉

  • Pokud trénujete, záleží vám na čase potřebném k dosažení kvality a využití GPU 🔥

  • Pokud nasazujete na zařízeních, záleží vám na RAM a napájení 🔋


2) Jak vypadá dobrá verze optimalizace modelu umělé inteligence ✅

Dobrá verze optimalizace není jen „použít kvantizaci a modlit se“. Je to systém. Nejlepší nastavení obvykle mají:

  • Základní linie, které důvěřujete.
    Pokud nedokážete reprodukovat své současné výsledky, nemůžete vědět, že jste něco zlepšili. Jednoduché… ale lidé to přeskočí. Pak se to točí kolem.

  • Jasná cílová metrika
    „Rychlejší“ je vágní. „Snížit latenci p95 z 900 ms na 300 ms při stejném skóre kvality“ je skutečný cíl.

  • Zábradlí pro kvalitu
    Každé vítězství ve výkonu riskuje tichý pokles kvality. Potřebujete testy, hodnocení nebo alespoň sadu pro analýzu příčetnosti.

  • Povědomí o hardwaru
    „Rychlý“ model na jedné grafické kartě se může procházet i na jiné. CPU jsou svým vlastním specifickým druhem chaosu.

  • Iterativní změny, ne jednorázové přepracování.
    Když změníte pět věcí najednou a výkon se zlepší, nevíte proč. Což je… znepokojivé.

Optimalizace by měla působit jako ladění kytary – malé úpravy, pozorně poslouchejte, opakujte 🎸. Pokud to připomíná žonglování s noži, něco je v nepořádku.


3) Srovnávací tabulka: Oblíbené možnosti optimalizace modelů umělé inteligence 📊

Níže je uvedena rychlá a trochu nepřehledná srovnávací tabulka běžných optimalizačních nástrojů/přístupů. Ne, není to úplně „fér“ – skutečný život také ne.

Nástroj / Možnost Publikum Cena Proč to funguje
PyTorch torch.compile ( dokumentace PyTorch ) Lidé z PyTorchu Uvolnit Zachycení grafu + triky s kompilátorem můžou ušetřit režijní náklady… někdy je to magie ✨
ONNX Runtime ( dokumentace k ONNX Runtime ) Nasazení týmů Volný/á Silná optimalizace inference, široká podpora, vhodné pro standardizované zobrazování
TensorRT ( dokumentace NVIDIA TensorRT ) Nasazení NVIDIA Placené vibrace (často v balíčku) Agresivní fúze kernelu + precizní zpracování, velmi rychlé, když to klapne
DeepSpeed ​​( dokumentace ZeRO ) Tréninkové týmy Uvolnit Optimalizace paměti a propustnosti (ZeRO atd.). Může působit jako tryskový motor
FSDP (PyTorch) (dokumentace k PyTorch FSDP ) Tréninkové týmy Uvolnit Parametry/gradienty Shards, díky nimž jsou velké modely méně děsivé
kvantizace bitů a bajtů ( bitsandbytes ) LLM kutilové Uvolnit Nízké bitové váhy, obrovská úspora paměti - kvalita záleží na tom, ale fuj 😬
Destilace ( Hinton a kol., 2015 ) Produktové týmy „Časové náklady“ Model menšího studenta dědí chování, obvykle dlouhodobě nejlepší návratnost investic
Prořezávání ( tutoriál prořezávání PyTorch ) Výzkum + produkce Uvolnit Odstraňuje mrtvou váhu. Funguje lépe v kombinaci s rekvalifikací
Flash Attention / roztavená zrna ( papír FlashAttention ) Výkonnostní nadšenci Uvolnit Rychlejší pozornost, lepší paměť, chování. Skutečné vítězství pro transformátory
Triton Inference Server ( dynamické dávkování ) Provoz/infrastruktura Uvolnit Obsluha produkce, dávkování, vícemodelové kanály - působí podnikově

Přiznání k formátovací zvláštnosti: „Cena“ je neuspořádaná, protože open source vás stále může stát víkend ladění, což je… cena. 😵💫


4) Začněte s měřením: Profilujte, jak to myslíte vážně 🔍

Pokud z celého tohoto návodu uděláte pouze jednu věc, udělejte toto: správně změřte.

V mém vlastním testování největší „průlomy v optimalizaci“ vyplynuly z objevu něčeho trapně jednoduchého, jako například:

  • zavaděč dat vyčerpává GPU

  • Úzké místo předzpracování CPU

  • malé dávky způsobující režii spouštění jádra

  • pomalá tokenizace (tokenizátoři mohou být tichí padouši)

  • fragmentace paměti ( poznámky k alokátoru paměti CUDA v PyTorch )

  • jedna vrstva dominující výpočetní technika

Co měřit (minimální sada)

  • Latence (p50, p95, p99) ( SRE na percentilech latence )

  • Propustnost (tokeny/s, požadavky/s)

  • Využití GPU (výpočetní výkon + paměť)

  • Vrcholy VRAM / RAM

  • Cena za 1000 tokenů (nebo za inferenci)

Praktické profilování myšlení

  • Napište jeden scénář, který vás zajímá (nejde o hračku).

  • Všechno si zaznamenejte do malého „deníku výkonu“.
    Ano, je to únavné… ale ušetří vám to později sebekritiku.

(Pokud chcete pro začátek konkrétní nástroj: PyTorch Profiler ( dokumentace torch.profiler ) a Nsight Systems ( NVIDIA Nsight Systems ) jsou obvyklými podezřelými.)


5) Optimalizace dat a školení: Tichá superschopnost 📦🚀

Lidé se posedle zabývají architekturou modelu a zapomínají na pipeline. Mezitím pipeline tiše spotřebovává polovinu GPU.

Snadné výhry, které se rychle objeví

  • Používejte smíšenou přesnost (FP16/BF16 tam, kde je stabilní) ( PyTorch AMP / torch.amp ).
    Obvykle rychlejší, často v pořádku - ale pozor na numerické zvláštnosti.

  • Akumulace gradientu při omezené velikosti dávky ( 🤗 Průvodce zrychlením )
    Udržuje optimalizaci stabilní bez exploze paměti.

  • Kontrolní bod přechodu ( torch.utils.checkpoint )
    Vyměňuje výpočty za paměť – umožňuje větší kontexty.

  • Efektivní tokenizace ( 🤗 Tokenizéři )
    Tokenizace se může ve velkém měřítku stát úzkým hrdlem. Není to okouzlující; je to důležité.

  • Ladění datového zavaděče
    Více workerů, zafixovaná paměť, předběžné načítání - nenápadné, ale efektivní 😴➡️💪 ( Průvodce laděním výkonu PyTorchu )

Parametricky efektivní jemné ladění

Pokud dolaďujete velké modely, metody PEFT (jako jsou adaptéry ve stylu LoRA) mohou masivně snížit náklady na školení a zároveň zůstat překvapivě silné ( 🤗 Průvodce Transformers PEFT , článek o LoRA ). To je jeden z těch momentů, kdy si říkáte: „Proč jsme to neudělali dříve?“.


6) Optimalizace na úrovni architektury: Správné dimenzování modelu 🧩

Někdy je nejlepší způsob optimalizace… přestat používat model, který je na daný účel příliš velký. Já vím, svatokrádež 😄.

Zavolejte si na základě několika základních informací:

  • Rozhodněte se, zda potřebujete kompletní všeobecné zpravodajské znalosti, nebo specialistu.

  • Kontextové okno udržujte tak velké, jak je potřeba, ne větší.

  • Použijte model natrénovaný pro danou úlohu (klasifikační modely pro klasifikační práci atd.).

Praktické strategie pro správné dimenzování

  • Pro většinu požadavků
    přepněte na menší páteřní síť. Poté směrujte „tvrdé dotazy“ na větší model.

  • Použijte dvoufázové nastavení.
    Rychlé návrhy modelů, silnější ověření nebo úpravy modelu.
    Je to jako psaní s kamarádem, který je vybíravý – otravné, ale efektivní.

  • Zkraťte délku výstupu.
    Výstupní tokeny stojí peníze a čas. Pokud se váš model táhne, platíte za táhnutí.

Viděl jsem týmy dramaticky snižovat náklady vynucováním kratších výstupů. Připadá mi to malicherné. Funguje to.


7) Optimalizace kompilátoru a grafů: Odkud pochází rychlost 🏎️

Toto je vrstva „přimět počítač k chytřejšímu fungování“.

Běžné techniky:

Jednoduše řečeno: váš model může být matematicky rychlý, ale provozně pomalý. Kompilátory to částečně opravují.

Praktické poznámky (neboli jizvy)

  • Tyto optimalizace mohou být citlivé na změny tvaru modelu.

  • Některé modely hodně zrychlují, jiné se sotva pohnou.

  • Někdy se zrychlí a objeví se záhadná chyba - jako by se nastěhoval skřítek 🧌

Přesto, když to funguje, je to jedno z nejčistších vítězství.


8) Kvantizace, prořezávání, destilace: Menší bez pláče (příliš mnoho) 🪓📉

Tohle je ta část, kterou lidé chtějí… protože to zní jako vystoupení zdarma. Může to tak být, ale musíte to brát jako chirurgický zákrok.

Kvantizace (váhy/aktivace s nižší přesností)

  • Skvělé pro rychlost inference a paměť

  • Riziko: pokles kvality, zejména u okrajových případů

  • Nejlepší postup: vyhodnocujte na skutečné testovací sadě, ne na vibracích

Běžné příchutě, o kterých uslyšíte:

Prořezávání (odstranění parametrů)

  • Odstraňuje „nedůležité“ váhy nebo struktury ( tutoriál PyTorch prořezávání )

  • Obvykle je potřeba přeškolení pro obnovení kvality

  • Funguje lépe, než si lidé myslí… když se to dělá pečlivě

Destilace (student se učí od učitele)

Toto je moje osobní nejoblíbenější dlouhodobá páka. Destilace může vytvořit menší model, který se chová podobně, a často je stabilnější než extrémní kvantizace ( Destilace znalostí v neuronové síti ).

Nedokonalá metafora: destilace je jako přelít složitou polévku přes filtr a získat… menší polévku. Takhle polévka nefunguje, ale chápete, o co jde 🍲.


9) Podávání a inference: Skutečná bojová zóna 🧯

Můžete „optimalizovat“ model a stále jej špatně obsluhovat. Právě při obsluze se latence a náklady stávají skutečnými.

Výhry v podávání, na kterých záleží

  • Dávkování
    Zlepšuje propustnost. Ale zvyšuje latenci, pokud to přeženete. Vyvažte to. ( Tritonovo dynamické dávkování )

  • Ukládání do mezipaměti
    Ukládání výzev do mezipaměti a opětovné použití KV-cache může být pro opakované kontexty rozsáhlé. ( Vysvětlení KV cache )

  • Streamovaný výstup
    Uživatelé mají pocit, že je to rychlejší, i když celkový čas je podobný. Na vnímání záleží 🙂.

  • Snížení režijních nákladů token po tokenu
    Některé zásobníky vykonávají na token více práce. Snižte tyto režijní náklady a vyhrajete velké peníze.

Pozor na latenci ocasu

Váš průměr může vypadat skvěle, zatímco váš p99 je katastrofa. Uživatelé bohužel žijí v ocasní části. ( „Latence ocasu“ a proč průměry lžou )


10) Optimalizace s ohledem na hardware: Přizpůsobte model stroji 🧰🖥️

Optimalizace bez znalosti hardwaru je jako ladění závodního auta bez kontroly pneumatik. Jasně, můžete to udělat, ale je to trochu hloupé.

Úvahy o grafické kartě (GPU)

  • Limitujícím faktorem je často šířka pásma paměti, nikoli hrubý výpočetní výkon

  • Větší dávky mohou pomoci, dokud to nepůjde

  • Fúze jádra a optimalizace pozornosti jsou pro transformátory obrovské ( FlashAttention: přesná pozornost s vědomím IO ).

Úvahy o CPU

  • Vláknová tvorba, vektorizace a lokalita paměti jsou velmi důležité

  • Režie tokenizace může dominovat ( 🤗 „rychlí“ tokenizéři )

  • Možná budete potřebovat jiné kvantizační strategie než na GPU

Aspekty pro edge/mobilní zařízení

  • Paměťová náročnost se stává prioritou číslo jedna

  • Rozptyl latence je důležitý, protože zařízení jsou… náladová

  • Menší, specializované modely často porážejí velké, obecné modely


11) Zábrany kvality: Neoptimalizujte se do podoby chyb 🧪

Každé rychlé vítězství by mělo být doprovázeno kontrolou kvality. Jinak budete slavit, odesílat a pak dostanete zprávu typu „proč asistent najednou mluví jako pirát?“ 🏴☠️

Pragmatické zábrany:

  • Zlaté výzvy (pevná sada výzev, které vždy testujete)

  • Metriky úkolů (přesnost, F1, BLEU, cokoli se hodí)

  • Lidské namátkové kontroly (ano, vážně)

  • Prahové hodnoty regrese („povolený pokles ne více než X %)

Sledujte také režimy selhání:

  • posun formátování

  • změny v chování při odmítání

  • frekvence halucinací

  • inflace délky odezvy

Optimalizace může změnit chování překvapivými způsoby. Zvláštním způsobem. Nepříjemným způsobem. Předvídatelně, s odstupem času.


12) Kontrolní seznam: Jak optimalizovat modely umělé inteligence krok za krokem ✅🤖

Pokud chcete jasné pořadí operací pro optimalizaci modelů umělé inteligence , zde je pracovní postup, který obvykle pomáhá udržet lidi zdravý rozum:

  1. Definujte úspěch.
    Vyberte 1–2 primární metriky (latence, náklady, propustnost, kvalita).

  2. Měření základních
    profilů skutečných pracovních zátěží, zaznamenávání p50/p95, paměti a nákladů. ( PyTorch Profiler )

  3. Oprava úzkých míst v kanálu
    Načítání dat, tokenizace, předzpracování, dávkování.

  4. Používejte nízkorizikové výpočetní výhry
    Smíšená přesnost, optimalizace jádra, lepší dávkování.

  5. Vyzkoušejte optimalizace kompilátoru/běhového prostředí:
    zachycení grafů, běhové prostředí inference, fúze operátorů. ( tutoriál k torch.compile , dokumentace k ONNX Runtime ).

  6. Snižte náklady na model.
    Pečlivě kvantifikujte, pokud možno destilujte, v případě potřeby prořezávejte.

  7. Ladění poskytování
    mezipaměti, souběžnost, zátěžové testování, opravy latence ocasu.

  8. Ověření kvality
    Spuštění regresních testů a porovnání výstupů vedle sebe.

  9. Opakování.
    Malé změny, jasné poznámky, opakování. Nenápadné - efektivní.

A ano, stále se jedná o Jak optimalizovat modely umělé inteligence, i když to spíš připomíná „Jak přestat šlapat na hrábě“. Totéž.


13) Časté chyby (abyste je neopakovali jako my ostatní) 🙃

  • Optimalizace před měřením
    Ztrácíte čas. A pak sebevědomě optimalizujete špatnou věc…

  • Honba za jediným benchmarkem
    Benchmarky lžou opomenutím. Pravdou je vaše pracovní vytížení.

  • Ignorování paměti
    Problémy s pamětí způsobují zpomalení, pády a jitter. ( Pochopení využití paměti CUDA v PyTorch )

  • Příliš brzké nadměrné kvantování
    Kvantifikace s nízkými bity může být úžasná, ale začněte nejdříve bezpečnějšími kroky.

  • Žádný plán pro vrácení zpět
    Pokud se nemůžete rychle vrátit zpět, každé nasazení se stane stresujícím. Stres způsobuje chyby.


Závěrečné poznámky: Lidský způsob optimalizace 😌⚡

Optimalizace modelů umělé inteligence není jen ojedinělý trik. Je to vrstvený proces: měření, oprava pipeline, používání kompilátorů a běhových prostředí, ladění obsluhy a následné zmenšení modelu kvantizací nebo destilací, pokud je to potřeba. Dělejte to krok za krokem, dodržujte zásady kvality a nespoléhejte se na metriku „zdá se to rychlejší“ (vaše pocity jsou krásné, vaše pocity nejsou profiler).

Pokud chcete nejkratší cestu s sebou:

  • Nejdřív změřte 🔍

  • Optimalizujte další proces 🧵

  • Pak optimalizujte model 🧠

  • Pak optimalizujte zobrazování 🏗️

  • Neustále kontrolujte kvalitu ✅

A pokud to pomůže, připomeňte si: cílem není „dokonalý model“. Cílem je model, který je rychlý, cenově dostupný a dostatečně spolehlivý, abyste mohli v noci spát… většinu nocí 😴.

Často kladené otázky

Co optimalizace modelu umělé inteligence znamená v praxi

„Optimalizace“ obvykle znamená zlepšení jednoho primárního omezení: latence, nákladů, paměťové náročnosti, přesnosti, stability nebo propustnosti. Nejtěžší částí jsou kompromisy – posouvání v jedné oblasti může narušit jinou. Praktickým přístupem je zvolit si jasný cíl (jako je latence p95 nebo poměr času ke kvalitě) a optimalizovat podle něj. Bez cíle je snadné se „zlepšit“ a stále prohrát.

Jak optimalizovat modely umělé inteligence bez tichého snížení kvality

Každou změnu rychlosti nebo nákladů berte jako potenciální tichou regresi. Používejte ochranné prvky, jako jsou zlaté výzvy, metriky úkolů a rychlé namátkové kontroly lidmi. Stanovte si jasnou hranici pro přijatelný posun kvality a porovnávejte výstupy vedle sebe. Tím zabráníte tomu, aby se z „je to rychlejší“ po odeslání produktu stalo „proč se to najednou stalo divným?“.

Co měřit před zahájením optimalizace

Začněte s percentily latence (p50, p95, p99), propustností (tokeny/s nebo požadavky/s), využitím GPU a špičkovou pamětí VRAM/RAM. Sledujte náklady na inferenci nebo na 1000 tokenů, pokud jsou náklady omezením. Profilujte skutečný scénář, který obsluhujete, ne hračku. Vedení malého „deníku výkonu“ vám pomůže vyhnout se dohadům a opakování chyb.

Rychlé a nízkorizikové úspěchy v tréninkovém výkonu

Smíšená přesnost (FP16/BF16) je často nejrychlejší první pákou, ale pozor na numerické zvláštnosti. Pokud je velikost dávky omezená, může akumulace gradientu stabilizovat optimalizaci bez spotřeby paměti. Kontrolní body gradientu vyměňují extra výpočetní výkon za menší paměť, což umožňuje větší kontexty. Nezanedbávejte tokenizaci a ladění zavaděče dat – ty mohou nenápadně vyčerpat GPU.

Kdy použít torch.compile, ONNX Runtime nebo TensorRT

Tyto nástroje se zaměřují na provozní režii: zachycení grafů, fúzi jader a optimalizaci grafů za běhu. Mohou přinést čisté zrychlení inference, ale výsledky se liší v závislosti na tvaru modelu a hardwaru. Některá nastavení fungují jako kouzlo, jiná se sotva pohybují. Počítejte s citlivostí na změny tvaru a občasnými „skřítky“ – změřte si výsledky před a po na vaší skutečné pracovní zátěži.

Zda se kvantizace vyplatí a jak se vyhnout přílišnému přehnanému úsilí

Kvantizace může snížit paměť a zrychlit inferenci, zejména u INT8, ale kvalita může v okrajových případech klesnout. Možnosti s nižším počtem bitů (jako INT4/k-bit) přinášejí větší úspory s vyšším rizikem. Nejbezpečnějším zvykem je vyhodnocovat na reálné testovací sadě a porovnávat výstupy, ne podle intuice. Začněte nejprve s bezpečnějšími kroky a poté snižte přesnost pouze v případě potřeby.

Rozdíl mezi prořezáváním a destilací pro zmenšení velikosti modelu

Prořezávání odstraňuje parametry „mrtvé váhy“ a často vyžaduje přetrénování, aby se obnovila kvalita, zejména pokud se provádí agresivně. Destilace trénuje menší model studenta, aby napodoboval chování většího učitele, a může představovat lepší dlouhodobou návratnost investic než extrémní kvantizace. Pokud chcete menší model, který se chová podobně a zůstává stabilní, destilace je často čistší cestou.

Jak snížit náklady na inferenci a latenci pomocí vylepšení obsluhy

Optimalizace se stává hmatatelnou právě v oblasti obsluhy: dávkování zvyšuje propustnost, ale při přehnaném použití může negativně ovlivnit latenci, proto je třeba jej pečlivě vyladit. Ukládání do mezipaměti (rychlé ukládání do mezipaměti a opětovné použití KV-cache) může být při opakování kontextů masivní. Streamování výstupu zlepšuje vnímanou rychlost, i když je celkový čas podobný. Také hledejte režii jednotlivých tokenů ve vašem zásobníku – malá práce na token se rychle nasčítá.

Proč je latence ocasu při optimalizaci modelů umělé inteligence tak důležitá

Průměry mohou vypadat skvěle, zatímco p99 je katastrofa a uživatelé mají tendenci žít v ocasu. Latence ocasu často pramení z jitteru: fragmentace paměti, špičky předzpracování CPU, zpomalení tokenizace nebo špatné chování dávkování. Proto průvodce klade důraz na percentily a skutečné pracovní zatížení. Pokud optimalizujete pouze p50, stále můžete vytvořit zážitek, který se „náhodně jeví jako pomalý“

Reference

  1. Amazon Web Services (AWS)Percentily AWS CloudWatch (definice statistik)docs.aws.amazon.com

  2. Google - Ocas ve velkém měřítku (osvědčené postupy pro latenci ocasu) - sre.google

  3. Google - Cíle úrovně služeb (kniha SRE) - percentily latence - sre.google

  4. PyTorch - torch.kompilace - docs.pytorch.org

  5. PyTorch - FullyShardedDataParallel (FSDP) - docs.pytorch.org

  6. PyTorchPyTorch Profilerdocs.pytorch.org

  7. PyTorch - CUDA sémantika: správa paměti (poznámky k alokátoru paměti CUDA) - docs.pytorch.org

  8. PyTorch - Automatická smíšená přesnost (torch.amp / AMP) - docs.pytorch.org

  9. PyTorch - torch.utils.checkpoint - docs.pytorch.org

  10. PyTorch - Průvodce laděním výkonu - docs.pytorch.org

  11. PyTorch - Výukový program prořezávání - docs.pytorch.org

  12. PyTorch - Využití paměti CUDA v PyTorchu - docs.pytorch.org

  13. PyTorch - tutoriál / přehled torch.compile - docs.pytorch.org

  14. Běhové prostředí ONNX - Dokumentace k běhovému prostředí ONNX - onnxruntime.ai

  15. NVIDIA - Dokumentace k TensorRT - docs.nvidia.com

  16. NVIDIA - Kvantované typy TensorRT - docs.nvidia.com

  17. NVIDIA - Nsight Systems - developer.nvidia.com

  18. NVIDIA - Triton Inference Server - dynamické dávkování - docs.nvidia.com

  19. DeepSpeed ​​- Dokumentace k ZeRO Stage 3 - deepspeed.readthedocs.io

  20. bitsandbytes (nadace bitsandbytes) - bitsandbytes - github.com

  21. Objímající tvář - Zrychlení: Průvodce akumulací gradientu - huggingface.co

  22. k Hugging Face - Tokenizéry - huggingface.co

  23. Hugging Face - Transformers: Průvodce PEFT - huggingface.co

  24. Objímající tvář - Vysvětlení kešky Transformers: KV - huggingface.co

  25. Hugging Face - Transformers: „Rychlé“ tokenizátoři (třídy tokenizátorů) - huggingface.co

  26. arXiv - Destilace znalostí v neuronové síti (Hinton a kol., 2015) - arxiv.org

  27. arXiv - LoRA: Adaptace modelů velkých jazyků s nízkým hodnocením - arxiv.org

  28. arXiv - FlashAttention: Rychlá a paměťově efektivní přesná pozornost s vědomím I/O - arxiv.org

Najděte nejnovější AI v oficiálním obchodě s AI asistenty

O nás

Zpět na blog