Google outlines MIRAS and Titans, a possible path toward continuously learning AI
Rok po zveřejnění své práce Titans, Google formálně detailně popisuje architekturu na svém výzkumném blogu a spojuje ji s novým frameworkem nazvaným MIRAS. Oba projekty se zaměřují na hlavní hranici v oblasti AI: modely, které se učí během používání a udržují funkční dlouhodobou paměť namísto toho, aby zůstaly statické po pretréninku.
Google rámcuje motivaci známými pojmy. Tradiční transformátory se potýkají s velmi dlouhými vstupy, jako jsou knihy, sekvence genomů nebo rozšířená videa, protože jejich výpočetní náklady rostou kvadraticky s délkou kontextu. Rychlejší alternativy, jako jsou moderní RNN nebo modely stavového prostoru, se škálují lépe, ale komprimují celý kontext do jednoho interního stavu, čímž ztrácejí důležité detaily. Titans je navržen tak, aby překlenul tuto propast kombinací přesné krátkodobé paměti prostřednictvím okenní pozornosti se samostatnou, trénovatelnou dlouhodobou pamětí, která se může aktualizovat během inference a selektivně uchovávat překvapivé nebo neočekávané informace.
Společnost také představuje MIRAS, teoretický framework poprvé popsaný v dubnu v práci "Všechno je propojeno: Cesta test-time memorizace, pozornostní zaujatosti, retence a online optimalizace". Výzkumníci tvrdí, že mnoho nových sekvenčních modelů vydaných v posledních letech - od variant Transformeru po RetNet, Mamba, DeltaNet a RWKV - lze považovat za různé implementace stejné základní myšlenky: interní vyhledávací systém, který propojuje vstupy (klíče) s výstupy (hodnotami).
MIRAS rozděluje tento systém do čtyř designových otázek. Jak vypadá vyhledávací struktura - vektor, matice nebo malá nebo hluboká síť? Jaké interní skórovací pravidlo určuje, co se dobře ukládá? Jak rychle nová informace přepíše staré záznamy? A jaké pravidlo aktualizace řídí, jak se tyto záznamy v průběhu času mění? Z této perspektivy Google odvozuje nové modely bez pozornosti, jako jsou Moneta, Yaad a Memora, které záměrně prozkoumávají tyto designové prostory a v testech s extrémně dlouhými kontexty někdy překonávají Mamba2 a standardní Transformátory.
Titans a MIRAS odrážejí limity dnešních dominantních architektur Transformerů a mohou představovat část posunu směrem k tomu, co Ilya Sutskever nedávno popsal jako novou éru výzkumu AI. V rozhovoru s Dwarkeshem Patelem bývalý hlavní vědec OpenAI tvrdil, že pouhé škálování dat a výpočetních prostředků naráží na klesající výnosy, a nastínil vizi svého startupu SSI superinteligence, která se učí za pochodu více jako talentovaný teenager než plně formovaná AGI vypuštěná z tréninkového clusteru.
Přístup Googlu se liší od přístupu Sutskevera, ale zaměřuje se na stejnou mezeru: přesun od statických, jednorázových pretrénovaných modelů směrem k systémům, které rozšiřují své schopnosti v průběhu času, ať už prostřednictvím explicitních paměťových modulů, jako jsou Titans, nebo prostřednictvím nových učebních paradigmat, které ještě čekají na objevení.
Původní článek z 17. ledna 2025
Výzkumníci společnosti Google vyvinuli nový typ modelu Transformer, který dává jazykovým modelům něco podobného dlouhodobé paměti. Systém zvládne mnohem delší sekvence informací než současné modely, což vede k lepšímu výkonu napříč různými úkoly.
Nová architektura "Titans" se inspiruje tím, jak funguje lidská paměť. Kombinací umělé krátkodobé a dlouhodobé paměti prostřednictvím pozornostních bloků a paměťových MLP může systém pracovat s dlouhými sekvencemi informací.
Jednou z chytrých funkcí systému je, jak se rozhoduje, co si zapamatovat. Titans používá jako hlavní metriku "překvapení" - čím neočekávanější je určitá informace, tím je pravděpodobnější, že se uloží do dlouhodobé paměti. Systém také ví, kdy má na věci zapomenout, což mu pomáhá efektivně využívat paměťový prostor.
Tým vytvořil tři různé verze Titans, z nichž každá zpracovává dlouhodobou paměť odlišně:
- Memory as Context (MAC)
- Memory as Gate (MAG)
- Memory as Layer (MAL)
Zatímco každá verze má své silné stránky, varianta MAC funguje obzvláště dobře s velmi dlouhými sekvencemi.
Lepší výkon při úkolech s dlouhým kontextem
V rozsáhlém testování Titans překonával tradiční modely, jako je klasický Transformer a novější hybridní modely, jako je Mamba2, zejména při práci s velmi dlouhými texty. Tým uvádí, že dokáže efektivněji zpracovat kontextová okna o více než 2 milionech tokenů, čímž stanoví nové rekordy pro modelování jazyka i predikci časových řad s dlouhými kontexty.
Systém také exceloval v testu "Jehla v kupce sena", kde potřebuje najít konkrétní informace ve velmi dlouhých textech. Titans dosáhl přesnosti přes 95 % i u textů o 16 000 tokenech. I když některé modely od OpenAI, Anthropic a Google fungují lépe, jsou mnohem větší - největší verze Titans má pouze 760 milionů parametrů.
Titans se opravdu ukázal v benchmarku BABILong, náročném testu dlouhodobého porozumění, kde modely potřebují propojit fakta roztroušená napříč velmi dlouhými dokumenty. Systém překonal větší modely, jako jsou GPT-4, RecurrentGemma-9B a Llama3.1-70B. Dokonce porazil Llama3 s Retrieval Augmented Generation (RAG), i když některé specializované modely pro vyhledávání stále fungují lépe.
Tým očekává, že kód zveřejní v blízké budoucnosti. Zatímco Titans a podobné architektury by mohly vést k jazykovým modelům, které zvládají delší kontexty a dělají lepší inference, výhody by se nemusely omezovat jen na zpracování textu. Rané testy týmu s modelováním DNA naznačují, že technologie by mohla zlepšit i další aplikace, včetně video modelů - za předpokladu, že slibné výsledky benchmarku obstojí i v reálném použití.