https://the-decoder.com 15. November 2025

Researchers push "Context Engineering 2.0" as the road to lifelong AI memory

Researchers push "Context Engineering 2.0" as the road to lifelong AI memory

Výzkumníci volají po zásadní revizi toho, jak AI zpracovává paměť a kontext. Jejich návrh: Sémantický operační systém, který dokáže ukládat, aktualizovat a zapomínat informace po celá desetiletí, fungující spíše jako lidská paměť než dnešní krátkodobá kontextová okna.

Autoři sledují vývoj kontextového inženýrství ve čtyřech fázích. V 90. letech 20. století rané systémy citlivé na kontext nutily lidi překládat záměry do rigidních, strojově čitelných příkazů. Tyto systémy mohly zpracovávat pouze strukturované vstupy.

To se změnilo v roce 2020 s modely jako GPT-3. Tyto systémy začaly interpretovat přirozený jazyk a rozumět implikacím místo toho, aby se spoléhaly na explicitní instrukce. Kontextové inženýrství se přesunulo z dat senzorů na nestrukturované vstupy v lidském stylu. Konverzace, které kdysi zmizely, se nyní staly polostálými vzpomínkami.

Anthropic nedávno vrátil koncept do centra pozornosti jako doplněk k inženýrství výzev. Inženýr výzev Riley Goodside již používal tento termín na začátku roku 2023, a do léta 2025 o něm diskutovali CEO Shopify Tobi Lutke a bývalý výzkumník OpenAI Andrej Karpathy .

Co by dlouhodobý kontext znamenal pro vývoj AI

V rámci výzkumníků se Era 3.0 zaměřuje na interpretaci na lidské úrovni, včetně sociálních podnětů a emocí. Era 4.0 jde dále a představuje si systémy, které rozumí lidem lépe, než rozumí sami sobě. Namísto pouhé reakce by stroj sám o sobě odhaloval nová spojení. Zda může současná technologie reálně dosáhnout tohoto bodu, se stále široce diskutuje. Podle výzkumníků: „Momentálně se nacházíme v éře 2.0, přecházíme do éry 3.0.“

Práce zdůrazňuje známý problém: modely ztrácejí přesnost, jakmile se kontext zvětšuje. Mnoho systémů se začíná zhoršovat, i když je jejich paměť zaplněna jen z poloviny. Výpočetní náklady přidávají další omezení. Zdvojnásobení kontextu nezdvojnásobuje pracovní zátěž, ale čtyřnásobuje ji. Modely transformátorů porovnávají každý token s každým dalším tokenem, což vede k přibližně 1 milionu porovnání pro 1 000 tokenů a zhruba 100 milionům pro 10 000.

Rychlá odbočka: To vše je důvod, proč vložení celého PDF do okna chatu je obvykle špatný nápad, když potřebujete jen pár stránek. Modely fungují lépe když je vstup zkrácen na to, na čem záleží, ale většina chatovacích rozhraní to ignoruje, protože je obtížné naučit uživatele spravovat kontext místo nahrávání všeho.

Některé společnosti si představují dokonale přesné, generativní AI vyhledávání pro firmy, ale v praxi musí kontextové inženýrství a inženýrství výzev stále spolupracovat. Generativní vyhledávání může být skvělé pro průzkum, ale neexistuje záruka, že vrátí přesně to, co jste požadovali. Abyste pochopili, co model dokáže, musíte rozumět tomu, co ví, což je v kostce kontextové inženýrství.

Sémantický operační systém

Výzkumníci tvrdí, že sémantický operační systém by mohl překonat tato omezení uložením a správou kontextu odolnějším a strukturovanějším způsobem. Nastínili čtyři požadované schopnosti:

  1. Rozsáhlé sémantické úložiště, které zachycuje význam, nejen surová data.
  2. Lidskému podobná správa paměti, která dokáže záměrně přidávat, upravovat a zapomínat informace.
  3. Nové architektury, které zpracovávají čas a sekvence efektivněji než transformátory.
  4. Vestavěná interpretovatelnost, aby uživatelé mohli zkoumat, ověřovat a opravovat uvažování systému.

Práce se zabývá několika metodami pro zpracování textového kontextu. Nejjednodušší je časové razítkování informací pro zachování pořadí. To funguje dobře pro chatboty, protože je to snadné, ale postrádá to sémantickou strukturu a špatně se škáluje.

Pokročilejší přístup organizuje informace do funkčních rolí, jako je „cíl“, „rozhodnutí“ nebo „akce“. To přidává jasnost, ale může se zdát příliš rigidní pro flexibilní uvažování. Další techniky převádějí kontext do dvojic otázka-odpověď nebo budují hierarchie od obecných po specifické koncepty.

Každá metoda má kompromisy: přeformulování otázek a odpovědí narušuje tok myšlenek, zatímco hierarchie činí nápady jasnými, ale často jim chybí logické vztahy nebo změny v průběhu času.

Řešení multimodálních dat

Moderní AI musí kombinovat text, obrázky, audio, video, kód a data ze senzorů. Tyto modality se zásadně liší: text je sekvenční, obrázky jsou prostorové a audio je spojité.

Výzkumníci popisují tři hlavní strategie pro multimodální zpracování. Jedna vkládá všechna data do sdíleného vektorového prostoru, aby se související koncepty sdružovaly dohromady. Další vkládá více modalit do jediného transformátoru, což jim umožňuje navzájem se navzájem účastnit v každé vrstvě. Třetí používá křížovou pozornost, takže jedna modalita se může zaměřit na konkrétní části druhé.

Ale na rozdíl od lidského mozku, který se plynule přesouvá mezi smyslovými kanály, se technické systémy stále spoléhají na pevné mapování. Ústředním konceptem sémantického operačního systému je „samo-pečení“ – proměna pomíjivých dojmů na stabilní, strukturované vzpomínky. Krátkodobá paměť uchovává aktuální informace, dlouhodobá paměť zachycuje opakující se nebo důležité vzorce a učení probíhá, když se data přesouvají mezi nimi.

Rané známky sémantického OS

Některé rané kroky směrem k sémantickému operačnímu systému jsou již viditelné. LeadResearcher společnosti Anthropic dokáže ukládat dlouhodobé výzkumné plány i po zpracování více než 200 000 tokenů. Google Gemini CLI používá souborový systém jako lehkou databázi, která uchovává pozadí, role a konvence projektu v centrálním souboru a komprimuje je pomocí shrnutí generovaných AI. Tongyi DeepResearch společnosti Alibaba pravidelně kondenzuje informace do „stavu uvažování“, což umožňuje budoucím vyhledáváním stavět na těchto shrnutích namísto celých historií.

Autoři naznačují, že rozhraní mozek-počítač by mohla nakonec změnit shromažďování kontextu zaznamenáváním zaměření, emocionální intenzity a kognitivního úsilí. To by rozšířilo paměťové systémy z externích akcí na interní myšlenky.

Kontext jako nová forma identity

Práce končí filozofickým bodem. Na základě myšlenky Karla Marxe, že lidé jsou formováni svými společenskými vztahy, výzkumníci tvrdí, že digitální stopy nyní hrají podobnou roli.

Naše konverzace, rozhodnutí a interakce nás stále více definují. Píšou: „Lidská mysl nemusí být nahrána, ale lidský kontext může – čímž se kontext sám stává trvalou formou znalostí, paměti a identity.“

Podle jejich názoru by naše vzorce rozhodování, komunikační styly a způsoby myšlení mohly přetrvávat po generace, vyvíjet se a generovat nové poznatky dlouho poté, co odejdeme.

Kontext se stává formou paměti, znalostí a identity. Digitální stopy by mohly pokračovat v posunu a interakci se světem i po skončení života člověka. Sémantický operační systém má poskytnout technický základ pro tuto budoucnost.