Apple's STARFlow-V proves that generative video does not strictly require a diffusion architecture
S modelem STARFlow-V představil Apple model pro generování videa, který se technicky liší od konkurentů jako Sora, Veo a Runway. STARFlow-V, navržený pro větší stabilitu, zejména u delších klipů, se spoléhá na „Normalizing Flows“ spíše než na difuzní modely, které v současnosti dominují v této oblasti.
Apple zkoumal tuto metodu nejméně od loňského roku a v létě publikoval článek o generování obrazu pomocí normalizačních toků. Nyní, aplikováno na video, Apple tvrdí, že STARFlow-V je první svého druhu, který konkuruje difuzním modelům ve vizuální kvalitě a rychlosti, i když při relativně nízkém rozlišení 640 × 480 pixelů při 16 snímcích za sekundu.
Zatímco difuzní modely generují čisté video postupným odstraňováním šumu z obrázků v několika krocích, normalizační toky se učí přímou matematickou transformaci mezi náhodným šumem a komplexními video daty. To umožňuje trénink v jednom kroku namísto mnoha malých iteracích.
Po tréninku model generuje video přímo z náhodných hodnot, což eliminuje potřebu iterativních výpočtů. Apple tvrdí, že to činí trénink efektivnějším a snižuje chyby, které se často vyskytují při generování krok za krokem.
Systém zvládá různé úkoly bez úprav. Kromě standardního textu na video zvládá i obraz na video tím, že vstup považuje za počáteční snímek. Podporuje také úpravy videa na video, což uživatelům umožňuje přidávat nebo odebírat objekty.
Pro klipy přesahující délku tréninku model používá techniku posuvného okna: generuje sekci, zachovává kontext z posledních snímků a pokračuje plynule. Nicméně, demonstrační klipy trvající až 30 sekund vykazují omezenou varianci v průběhu času.
Generování dlouhých sekvencí zůstává hlavní překážkou pro video AI, protože generování snímek po snímku často vede k hromadění chyb. STARFlow-V to zmírňuje přístupem s duální architekturou: jedna komponenta spravuje časovou sekvenci napříč snímky, zatímco druhá zpřesňuje detaily v jednotlivých snímcích.
Pro stabilizaci optimalizace Apple přidává malé množství šumu během tréninku. I když to může mít za následek mírně zrnité video, paralelní „kauzální denoiser síť“ odstraňuje zbytkový šum a zároveň zachovává konzistenci pohybu. Apple také optimalizoval rychlost: původně trvalo generování pěti sekund videa více než 30 minut. Díky paralelismu a opětovnému použití dat z předchozích snímků je generování nyní zhruba 15krát rychlejší.
Trénink zahrnoval 70 milionů párů text-video z datové sady Panda a interní skladové knihovny, doplněných 400 miliony páry text-obraz. Pro zlepšení kvality vstupu Apple použil jazykový model k rozšíření původních popisů videa na devět různých variant. Proces probíhal několik týdnů na 96 GPU Nvidia H100, škáloval model z 3 na 7 miliard parametrů a zároveň neustále zvyšoval rozlišení a délku videa.
Na benchmarku VBench dosáhl STARFlow-V skóre 79,7 bodů. I když to zaostává za předními difuzními modely jako Veo 3 (85,06) a HunyuanVideo (83,24), výrazně překonává ostatní autoregresivní modely.
Porovnání s ostatními modely snímek po snímku je pozoruhodné. NOVA dosáhla pouze 75,31 bodu, zatímco Wan 2.1 dosáhl 74,96. Podle společnosti Apple vykazují tito konkurenti významné zhoršení kvality v průběhu času, kdy se NOVA stává stále rozmazanější a Alibaba's Wan vykazuje blikání a nesrovnalosti.
Navzdory tréninku na pěti sekundových klipech zůstává STARFlow-V údajně stabilní pro videa do 30 sekund. Ukázky Applu ukazují, že konkurenční modely trpí rozmazáním nebo zkreslením barev již po několika sekundách.
Společnost Apple uznává několik omezení: model není dostatečně rychlý pro použití v reálném čase na standardních grafických kartách a kvalita se nedá předvídatelně škálovat s větším množstvím dat.
Nakonec se model potýká s fyzikou. Mezi příklady patří chobotnice klouzající sklem a skála spontánně se objevující pod kozou. Komerční modely, jako je nedávný Runway Gen-4.5, čelí podobným problémům, ale obecně je zvládají lépe.
Budoucí práce se zaměří na rychlejší výpočet, menší varianty modelu a tréninková data, která zdůrazňují fyzikální přesnost. Apple uvolňuje kód na GitHubu, následovaný váhami modelu na Hugging Face.