DeepEyesV2 outperforms bigger rivals by favoring tools over sheer knowledge
Čínští výzkumníci vytvořili multimodální model umělé inteligence, který dokáže analyzovat obrázky, spouštět kód a vyhledávat na webu. Místo spoléhání na znalosti získané během tréninku DeepEyesV2 zvyšuje výkon inteligentním používáním externích nástrojů, což mu umožňuje ve mnoha případech překonat větší modely.
Během prvních experimentů se výzkumný tým Xiaohongshu setkal se základním problémem. Pouze posilování učení nestačilo k produkci stabilního používání nástrojů v multimodálních úkolech. Modely se zpočátku snažily psát kód v jazyce Python pro analýzu obrazu, ale často generovaly chybné úryvky. Jak se trénink prodlužoval, začaly nástroje zcela vynechávat.
Proč multimodální modely potřebují nový přístup k tréninku
Tyto výzvy vedly tým k vývoji dvoufázového tréninkového pipeline. Fáze studeného startu učí model, jak propojit porozumění obrazu s používáním nástrojů, následovaná posilovacím učením k upřesnění těchto chování.
K vytvoření vysoce kvalitních ukázek tým použil přední modely jako Gemini 2.5 Pro, GPT-4o a Claude Sonnet 4 k generování trajektorií používání nástrojů. Zachovali pouze ty s přesnými odpověďmi a čistým kódem. Systém odměn za posilování učení zůstal záměrně jednoduchý, s odměnami vázanými na přesnost odpovědi a formát výstupu.
DeepEyesV2 používá tři kategorie nástrojů pro multimodální úkoly. Spuštění kódu zpracovává zpracování obrazu a numerickou analýzu. Vyhledávání obrázků vyhledává vizuálně podobný obsah. Textové vyhledávání přidává kontext, který není na obrázku viditelný.
Nový benchmark testuje koordinaci obrazových nástrojů
Pro vyhodnocení tohoto přístupu výzkumníci vytvořili RealX-Bench, benchmark navržený k testování toho, jak dobře modely koordinují vizuální porozumění, vyhledávání na webu a uvažování. Jeden příklad ze studie ukazuje, jak složité tyto úkoly mohou být. Když byl model požádán, aby identifikoval typ květu na obrázku, nejprve ořízne relevantní oblast, aby zachytil detaily. Poté spustí vizuální vyhledávání na webu pomocí oříznutého obrázku, aby našel podobné květy, a nakonec tyto výsledky zkombinuje, aby určil druh.
Výsledky odhalují velkou propast mezi modely AI a lidským výkonem. Dokonce i nejsilnější proprietární model dosáhl pouze 46 procent přesnosti, zatímco lidé dosáhli 70 procent.
Úkoly, které vyžadují všechny tři dovednosti, jsou obzvláště náročné. Podle studie klesla přesnost Gemini z celkových 46 procent na pouhých 27,8 procenta, když se muselo spojit rozpoznávání, uvažování a vyhledávání. Pokles zdůrazňuje, jak si současné modely dokáží poradit s jednotlivými dovednostmi, ale mají problém je integrovat.
DeepEyesV2 dosáhl celkové přesnosti 28,3 procenta. To jej řadí před jeho základní model Qwen2.5-VL-7B s 22,3 procenty, i když stále za verzemi s 32 a 72 miliardami parametry. DeepEyesV2 však překonal ostatní open-source modely v úkolech, které vyžadují koordinaci napříč všemi třemi schopnostmi.
Analýza také zjistila, že vyhledávací nástroje hrají hlavní roli při zvyšování přesnosti, přičemž největší zisky přináší textové vyhledávání. To naznačuje, že mnoho modelů se stále potýká s smysluplným začleněním informací pouze z vizuálního vyhledávání.
Jak používání nástrojů pomáhá menším modelům konkurovat
DeepEyesV2 vykazuje největší zisky ve specializovaných benchmarkách. V úkolech matematického uvažování dosáhl 52,7 procenta v MathVerse, což je zlepšení o 7,1 bodu oproti jeho základnímu modelu.
Model si také vede dobře v úkolech řízených vyhledáváním. Dosáhl 63,7 procenta v MMSearch, čímž překonal vyhrazený model MMSearch-R1 s 53,8 procenty. A v každodenních úkolech porozumění obrazu dokonce 7miliardový model DeepEyesV2 překonal Qwen2.5-VL-32B, a to i přes to, že měl více než čtyřikrát méně parametrů.
Tyto výsledky naznačují, že dobře strukturované používání nástrojů může kompenzovat omezení menších modelů. Namísto spoléhání na další parametry DeepEyesV2 zlepšuje výkon efektivnějším přiváděním externích zdrojů.
Analýza týmu ukazuje jasné vzorce v tom, jak model volí nástroje. Pro úkoly vizuálního vnímání často ořízne obrázek, aby izoloval relevantní oblast. Pro matematické problémy založené na diagramech kombinuje analýzu obrazu s numerickým výpočtem. Pro vizuálně založené znalostní otázky spouští cílené webové vyhledávání na základě obrázku.
Po posilovacím učení se model stal znatelně adaptivnějším. Používal nástroje celkově méně často, což naznačuje, že se naučil je volat pouze v případě potřeby. Ale vysoká variabilita používání nástrojů napříč úkoly ukazuje, že nadále přizpůsobuje svou strategii každému typu problému.
Xiaohongshu zvyšuje svou stopu v globálním prostředí AI. Jeho první open-source jazykový model, dots.llm1, přinesl konkurenční výsledky a překonal modely od Alibaby a Deepseek v efektivitě. Jeho model rozpoznávání znaků, dots.ocr, vykazoval podobné schopnosti.
Dřívější vydání DeepEyes v květnu již kombinovalo uvažování s multimodálním porozuměním. DeepEyesV2 staví na tomto základu s cílem spojit tyto schopnosti dohromady ve více agentových prostředích. Xiaohongshu, známý také lokálně jako Rednote, provozuje hlavní čínskou platformu sociálních médií a e-commerce podobnou TikToku.
DeepEyesV2 je k dispozici na Hugging Face a GitHub pod licencí Apache License 2.0 a lze jej používat komerčně.