Vai al contenuto

Sora, Luma, Runway Gen-3: il text-to-video comparato

Il text-to-video è la frontiera più avanzata dei modelli generativi di Intelligenza Artificiale. Scrivere un prompt, più o meno dettagliato, e veder comparire un video è affascinante ma il lavoro che devono fare le reti neurali soggiacenti questi modelli è notevole. Le difficoltà che i modelli text-to-image incontrano – coma la consistenza tra immagini successive o la comparsa di difetti nell’anatomia delle forme umane – sono, nel text-to-video, ingigantite dal fattore temporale e dalla necessità di rispettare vincoli stringenti come quelli derivanti dalla forza di gravità.

Tuttavia aumentano le aziende che cercano di creare e migliorare rapidamente questa tipologia di IA generative.

Sora di OpenAI è stata la prima a produrre video qualitativamente superiori. Sebbene dopo mesi dall’annuncio il modello non sia ancora disponibile pubblicamente, i test fatti dai ricercatori e dai professionisti a cui è stata data la possibilità di sperimentare sono ancora i benchmark di riferimento.

Luma è un’azienda specializzata nella conversione di oggetti e scene reali, catturati per esempio con la fotocamera dello smartphone, in modelli interattivi 3D. Dream Machine è un modello IA, gratuito con limitazioni di prompt giornalieri, per la generazione di video a partire da una richiesta testuale.

Runway, altro competitor di Sora, ha da poco rilasciato, per alcuni tester, una nuova versione (Gen-3) del suo text-to-video,

Vincenzo Cosenza è uno dei fortunati ad averlo già provato e mi ha fornito i video per una comparazione con Sora e Luma.

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Sora
Runway
Luma

Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

Sora
Runway
Luma

A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

Sora
Runway
Luma

A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures

Sora
Runway
Luma

Sora risulta decisamente migliore rispetto a Luma mentre Runway Gen 3 si avvicina e in alcuni casi (per esempio la vista a volo d’uccello dell’oceano) lo supera. Nel caso della ragazza per le vie di Tokio il movimento di Luma non è fluido e mancano dettagli; con Runway è notevole il dinamismo della gonna della ragazza. L’astronauta di Luma non è male (ma perché tutti sembrano avere un centrino ricamato all’uncinetto sul casco? update giustamente Nicolò Gallio mi fa notare che nel prompt c’è scritto: “a red wool knitted motorcycle helmet“…). Il Nemo di Luma sembra un’inquietante mutaforma, Runway ha scelto un stile “infantile”.

Un’analisi più dettagliata di Gen-3 di Runway in questo video di Vincenzo.