SORA è la nuova tecnologia di generazione video AI di OpenAI ed è qualcosa che posso garantire con certezza che non verrà realizzato prima di circa 4 o 5 anni di ricerca. Normalmente direi che va bene sbagliarsi, ma questa volta ho paura anch'io.
Esistono diverse tecniche per generare immagini tramite AI e Sora utilizza dispositivi di diffusione, come Stable Diffusion. In breve, come ho spiegato in diversi articoli su How the Technology Works, l'intelligenza artificiale è addestrata a riconoscere le immagini in base al rumore casuale, nello stesso modo in cui possiamo riconoscere oggetti nelle nuvole, volti nelle foglie e divinità nei toast.
Il trucco è insegnare all’IA quando riconosce un oggetto, aggiungere rumore all’immagine e premiarla quando riconosce l’oggetto. Abbiamo raggiunto un punto in cui l’immagine per noi è puro rumore casuale, ma l’intelligenza artificiale può imporre uno schema e ricostruire l’oggetto.
Se lo alleni con sufficiente varietà, impara il concetto di oggetto, quindi se gli chiedi di cercare un gatto e studia decine di migliaia di immagini, avrà un modello statistico di come dovrebbe apparire il gatto e estrarre dal rumore un'immagine che prima non esisteva.
Sora fa la stessa cosa, ma con il video. In 3D.
Per coloro che seguono il mondo dell'intelligenza artificiale, leggono un gran numero di articoli di ricerca e ne capiscono a malapena alcuni, Sora è stata una sorpresa. I problemi con la creazione di video coerenti sono maggiori rispetto a quelli con immagini “semplici”.
Fino ad ora avevamo due modi principali per creare video tramite AI: AnimateDiff + ControlNet e Stable Video Diffusion.
AnimateDiff utilizza modelli addestrati utilizzando video incentrati sul movimento. È in grado di creare e animare immagini in lotti di 16 fotogrammi, ma quasi senza controllo. Con pazienza puoi realizzare molte cose meravigliose, ma nulla minaccia il tuo disegno.
Utilizzando strumenti come ControlNet, OpenPose e altri, possiamo estrarre vettori di movimento da altri video e applicarli all'animazione. È un sacco di lavoro, ma in teoria è sufficiente per creare un'animazione completa, simulando MotionCap, senza il fastidio di incollare palline da ping pong di altre persone.
Stable Video Diffusion è un modello addestrato esclusivamente per il video, in grado di generare TXT2VID e IMG2VID, ovvero ricevere un prompt o un'immagine come input. E i risultati (beh, sei mesi fa) sono stati impressionanti.
Sora colloca queste tecniche nell'età della pietra.
A differenza delle tecnologie precedenti, che riescono a malapena a mantenere la coerenza per poche decine di fotogrammi (25 e SVD inizia a caricarsi), Sora può creare video di 1 minuto.
Sora ha una coerenza completa, raggiungendo anche la permanenza degli oggetti, gli oggetti possono essere temporaneamente bloccati da altri e poi riapparire. Questo è un modello di diffusione molto complesso.
La formazione si è basata sul concetto di patch, in cui ogni elemento del video viene trattato come un elemento individuale, il che offre maggiore flessibilità. Sora non è un creatore di pixel; Mondiche cerca di mantenere la coerenza e solo poi finisce per trasformarla in immagini.
Un fenomeno non pianificato osservato dopo che Sora ha iniziato a realizzare video è che ha sviluppato da solo diversi modelli di simulazione fisica interna. Dinamica dei fluidi, gravità, luce, ray tracing, Sora ha imparato tutto da solo studiando i video utilizzati nel suo addestramento, e il risultato sono immagini straordinarie come questa immagine di due navi pirata in una tazza di caffè.
Tutto il movimento delle onde, qualcosa che era quasi impossibile ai tempi del Titanic, e che ancora oggi è una cosa costosa e dispendiosa in termini di tempo a Hollywood, è stato dedotto da Sora, senza una linea di programmazione o configurazione.
E a differenza delle soluzioni Stable Diffusion, Sora utilizza (almeno) GPT-3 per interpretare i suggerimenti, ottenendo maggiore precisione e facilità di comprensione, allo stesso modo in cui DALL-E 3 capisce meglio ciò che vogliamo.
Ciò significa che Sora non solo crea ciò che chiediamo, ma modifica anche video preesistenti.
Esatto, Sora accetta i video e puoi richiederne la modifica.
Oh, Sora crea anche video utilizzando immagini fisse.
L'abilità quasi surreale è quella di combinare due video esistenti in un terzo. È un risultato quasi onirico, la matematica pura offre qualcosa degno di Lord Morpheus.
Sora ha ancora molte limitazioni, oltre il limite del minuto. Molte simulazioni fisiche non sono implementate correttamente, ci sono incongruenze con gli oggetti soprattutto nelle immagini di sfondo, gli oggetti tendono a scomparire, ma cosa fare Odiatori Quello che non capiscono, insieme ai negazionisti, è che stiamo assistendo all'età della pietra di questa tecnologia.
La leggenda narra che dopo che Michael Faraday dimostrò i principi dell'induzione magnetica, generando elettricità dai campi magnetici, un ministro o un altro burocrate anziano chiese a cosa servisse quella tecnologia.
Secondo quanto riferito, Faraday rispose: “Vostra Eminenza, a cosa serve un neonato?”
Ho commentato su Xwiter che il Sora è 14 Bis e la gente accusa Santos Dumont di non aver costruito un SR-71. È una ridicola mancanza di immaginazione pensare che stiamo assistendo alla versione finale di questa tecnologia.
Durante una parte della giornata, Sam Altman ha giocato ascoltando i suggerimenti dei follower e creando video con Sora, il cui accesso rimane limitato ai soli VIP OpenAI. Essere in grado di creare video coerenti da zero, con risoluzione FullHD, in pochi minuti è scoraggiante, anche se richiede un enorme data center.
Qualche tempo fa ho presentato Stable Diffusion XL Turbo, che funziona essenzialmente in tempo reale.
È uno strumento che cambia tutto, poiché puoi creare storyboard, scene di layout e illustrazioni più velocemente di qualsiasi designer. Gli illustratori possono comporre scene e pannelli e la pianificazione che potrebbe richiedere giorni e giorni di andata e ritorno con il cliente può essere eseguita sul posto.
Estrapolare al video. Immagina di visualizzare in anteprima un'intera scena, descrivendola solo in dettaglio all'intelligenza artificiale. Oggi ci sono intere aziende che si dedicano a questo, e costa molto e richiede molto tempo.
C'è chi dice che daremo un libro a un'intelligenza artificiale e produrrà un intero film, ma questa è fantascienza, impossibile, è qualcosa in un futuro lontano, come tra 5 anni.
Sora è solo l'inizio. È facile immaginare un insegnante che pianifica le lezioni e descrive le grafiche e i video che gli servono per spiegare i concetti che utilizzerà quel giorno, così come è facile immaginare uno studente a casa che chiede al suo personaggio preferito di spiegare ciò che non capisce .
Ovviamente l'uso principale di questa tecnologia sarebbe Pr0n, ma questo è lo standard dai tempi di Gutenberg.
Per quanto riguarda Hollywood, non credo che l'industria sarà distrutta da Sora o da qualsiasi altra intelligenza artificiale. L'intelligenza artificiale è buona quanto dice, se non sai cosa stai chiedendo, il risultato sarà mediocre.
Nessuna intelligenza artificiale scriverà il prossimo casa Biancanon senza a Entrata la qualità. E allora cadiamo nel classico meme io rubo, che è diventato incredibilmente vecchio. Quando Will Smith chiese a Sonny il robot se poteva scrivere una sinfonia o dipingere un capolavoro, Sonny rispose: “Sei capace?”
Con il giusto suggerimento, l’intelligenza artificiale può creare bellissime immagini. Il problema è il router.
Oggi Tutta ze-ruela pubblica libriNon c'è più alcun controllo da parte dell'editore, chiunque può scrivere e rendere disponibili i propri libri su Internet. Il risultato è stato un incredibile calo della qualità media del materiale pubblicato e il 99% dei libri autopubblicati su Amazon sono spazzatura.
Questo è uno strumento, solo uno strumento. Se usato bene, apre spazio alla creatività e permette alle buone idee di prendere vita. Le persone che non sanno tracciare una linea retta scrivono fumetti. I programmatori che hanno buone idee ma nessuna capacità di disegno rilasciano giochi di ruolo. Gli artisti che non hanno esperienza di programmazione sviluppano giochi con l'aiuto di ChatGPT.
Gli strumenti sono in continua espansione, mai in diminuzione. Nessuno smette di fare qualcosa perché viene rilasciato uno strumento. Lamentarsi di ciò significava che il cinema sonoro metteva senza lavoro pianisti e progettisti di cartoline vocali.
Sora, o meglio la tecnologia di cui fa parte, cambierà il mondo, molto più di Internet, molto più della Rivoluzione Industriale, che fa paura perché è una tecnologia che colpisce le attività più nobili.
Tutti gli illuminati hanno ignorato i progressi tecnologici che hanno decimato professioni come gli ascensori, i portalampade e gli operatori dei tabelloni segnapunti degli stadi, ma il bersaglio ora sono gli artisti, gli scrittori, gli editori, gli illustratori e le persone che segretamente si considerano “superiori” ai semplici distintivi dei lavoratori.
Bene ragazzi, sembra che la situazione sia cambiata…