A oggi è quasi impossibile trovare qualcuno che non abbia mai provato o non abbia mai sentito parlare di Intelligenza Artificiale generativa. La rete è già inquinata da contenuti prodotti dai modelli generativi di testo e di immagini, a cui presto si aggiungeranno video e audio.
Se però si va a vedere gli indici contenutistici dell’emergente arcipelago di corsi, master, webinar e proposte di consulenza dei nuovi “esperti” del settore, si trovano sempre gli stessi nomi: ChatGPT, Midjourney, DALL-E, Runway ML. Andando infine a indagare circa la profondità delle competenze fornite su questi strumenti popolari (un copia e incolla di indicazioni già presenti nelle pagine di documentazione degli stessi software) si ha la conferma della più totale inesperienza e incompetenza di certi nuovi guru dell’IA generativa.
Esistono infinite altre applicazioni di IA (alcune esistevano già da anni e senza che nessuno se ne accorgesse) che attualmente non sono popolari quanto dovrebbero. Strumenti dall’infinita potenza – molti dei quali immuni dai problemi etici comunemente associati all’IA generativa – che potrebbero sbloccare incrementi nella produttività e nella qualità nettamente superiori all’utilizzo dei software “di superficie”.
Alcune di queste applicazioni effettuano operazioni assai banali, magari risolvendo diversamente problemi che avevano già strumenti di risoluzione tradizionali, espandendone le portata e migliorandone i risultati. Tra questi c’è sicuramente tutta la dimensione dell’audio, della sua manipolazione e della sua pulizia.
Il caso della pulizia delle tracce audio e della rimozione di rumori accidentali o ambientali è particolarmente esemplificativo del cambio di paradigma effettivamente imposto dall’IA generativa. L’estrazione del segnale utile (come ad esempio la voce di un attore o di un cantante) ha richiesto da sempre l’impiego in cascata di complicati filtri per la frequenze, equalizzatori e compressori, con il fine ultimo di limitare le frequenze del rumore e massimizzare invece quelle del segnale utile. Si intuisce immediatamente come quasi sempre la rimozione totale sia impossibile: questo è dovuto all’alta improbabilità che rumore e segnale utile abbiano frequenze non sovrapposte.
Ed è qui che strumenti a base di IA generativa superano le tecniche tradizionali: essendo appunto una tecnologia “generativa”, e quindi costruttiva, abbiamo la possibilità di aggiungere informazione alla traccia audio e non solo di rimuoverla come con i metodi classici che sono per loro natura distruttivi.
Potete sperimentare una nostra demo qui.
Come per l’audio esistono modelli IA che rendono possibile fare la stessa cosa sia per le immagini che per i video, strumenti che modificano retroattivamente le condizioni di luce di immagini/video e tantissimi altri tools che purtroppo continuano a rimanere sconosciuti ai più. Parte del problema risiede sicuramente nelle doti impressionanti e quasi magiche degli strumenti generativi di contenuti e forse nella complessità delle interfacce necessarie all’utilizzo dei modelli meno popolari. Il grande lavoro sarà individuare e sviluppare il front-end giusto.