La rivoluzione dell'audiovisivo: le tecnologie di ASR, MT e Automatic Dubbing

Come le tecnologie di ASR e di MT stanno cambiando la traduzione audiovisiva

Fino a qualche anno fa sembrava impossibile, ma oggi sta accadendo. Le tecnologie di riconoscimento vocale automatico – Automatic Speech Recognition (ASR), traduzione automatica (MT) e doppiaggio automatico – Automatic Dubbig (AD) stanno rivoluzionando anche la traduzione nel campo audiovisivo.

Già da qualche anno è prassi comune, per la sottotitolazione, utilizzare template, file che contengono i sottotitoli nella lingua originale già provvisti di time code (tempi di entrata e di uscita dei sottotitoli), pronti per essere tradotti in altre lingue. Storicamente, un lavoro di sottotitolazione comprende due fasi, la trascrizione e la traduzione. Nella fase di trascrizione, viene creato il template nella lingua dell’audio originale, e il template viene poi tradotto in tutte le lingue di destinazione richieste dal progetto, rispettando i parametri di lunghezza e caratteri per riga e velocità di lettura. [se ti interessa approfondire il settore della sottotitolazione, ti consigliamo di dare un’occhiata al nostro programma di alta formazione sulla sottotitolazione]

Tuttavia, i recenti progressi nell’ASR e nella traduzione automatica hanno trasformato queste fasi di trascrizione e traduzione in compiti di post-editing, che mirano a velocizzare il processo e richiedono un altro tipo di lavoro rispetto al testo.

I nuovi strumenti di MT applicati alla sottotitolazione

I motori di ASR e di MT possono essere addestrati utilizzando dati provenienti da enormi banche dati di sottotitoli trascritti e tradotti, al fine di migliorare l’output dei motori. Nel 2019 Apptek, un’azienda che opera nel settore dell’intelligenza artificiale applicata al riconoscimento vocale e alla traduzione automatica, ha condiviso con la comunità scientifica i risultati ottenuti con la MT applicata alla sottotitolazione. Sono stati sviluppati due tool innovativi: Intelligent Line Segmentation (ILS), per la segmentazione automatica, e Subtitle Edit Rate, per la misurazione della post-editing distance.

Automatic dubbing: il caso di Amazon

Insieme alla traduzione automatica, un’altra tecnologia in fase di esplorazione e sviluppo è quella del doppiaggio automatico. Si tratta di un progetto molto ambizioso, poiché sostituire il parlato di un video con un parlato sintetico in una lingua diversa è molto complesso: gli adattamenti dei dialoghi devono, oltre a riflettere il significato dell’originale, avvicinarsi il più possibile al labiale che appare nel video. Nel processo di traduzione e adattamento per il doppiaggio, il traduttore e dialoghista (figure professionali a volte disgiunte) è responsabile di assicurare che il significato originale sia preservato, di occuparsi della corrispondenza della lunghezza delle battute e dell’aderenza al sincrono labiale.

Alcune piattaforme di distribuzione di contenuti d’intrattenimento a pagamento, come Netflix e Amazon Prime, oltre a lavorare sulle strategie di internazionalizzazione, stanno esplorando il discorso del doppiaggio automatico e della traduzione automatica.

Un team di ricercatori Amazon ha recentemente lavorato a un nuovo modello, che viene descritto nel documento “Machine Translation Verbosity Control for Automatic Dubbing”; gli autori sono un collettivo di scienziati e ingegneri di Amazon AI, e tra loro c’è Marcello Federico, co-fondatore del CAT tool MateCat. La ricerca si è concentrata sul problema del “controllo della verbosità dell’output della traduzione automatica” con lo scopo di generare un doppiaggio automatico di migliore qualità. La “verbosità” si riferisce alla lunghezza: l’obiettivo dello studio è stato quello di controllare la lunghezza dell’output della traduzione automatica per l’uso nel doppiaggio.

Traduzioni migliori, doppiaggio peggiore?

In termini di qualità di MT, i ricercatori hanno concluso che il modello da loro elaborato “produce traduzioni non solo molto più vicine in lunghezza all’input, ma spesso anche migliori a livello qualitativo” rispetto a un modello standard.

Tuttavia, la valutazione dei video doppiati automaticamente da parte di un campione di 40 individui, ha confermato una maggiore preferenza per i video doppiati senza controllo della verbosità.

Al momento, il doppiaggio automatico non produce risultati qualitativamente equiparabili a quelli prodotti dagli studi di doppiaggio che, grazie alla crescita dei prodotti audiovisivi sul mercato, stanno registrando un aumento della domanda.

Anche la società madre di TikTok, ByteDance, esplora il doppiaggio automatico con Neural Dubber

Un team di ricercatori di ByteDance, gigante cinese proprietario dell’app TikTok, ha pubblicato a ottobre 2021 l’articolo “Neural Dubber: Dubbing for Silent Videos According to Scripts”, in cui si presenta Neural Dubber, il primo modello di rete neurale nata per gestire un innovativo processo di doppiaggio automatico di video: l’obiettivo è quello di sintetizzare il parlato umano sincronizzandolo con il video.

Neural Dubber è un modello text-to-speech (TTS) che permette di far corrispondere il parlato sincronizzandolo con il movimento delle labbra del video, con velocità e tono di voce adeguati alle caratteristiche somatiche del parlante.

La questione dei compensi

Le tecnologie di intelligenza artificiale si stanno evolvendo rapidamente, e le grandi aziende indirizzano i propri investimenti sullo sviluppo di strumenti che hanno l’obiettivo di ottimizzare tempi e costi delle traduzioni. Questa tendenza solleva una questione già molto dibattuta nel settore della sottotitolazione e del doppiaggio, che è quella del riconoscimento economico dei professionisti.

L’industria dell’intrattenimento digitale sta crescendo esponenzialmente e così la mole di lavoro, ma questa crescita non corrisponde ad un aumento del riconoscimento economico dei professionisti del settore. Un recente articolo del Guardian: “Where have all the translators gone?” pone l’attenzione sul ribasso dei compensi dei traduttori audiovisivi. Le grandi aziende offrono tariffe sempre più basse, con un conseguente abbassamento della qualità delle traduzioni e una svalutazione della professione.

L’avvento delle tecnologie di intelligenza artificiale sta modificando il lavoro dei traduttori e dei sottotitolisti, ma d’altro canto, le grandi aziende non devono e non possono prescindere dal lavoro di professionisti qualificati.

Francesca Caleffi

Studentessa all'ultimo anno della Laurea magistrale in Interpretariato e Traduzione presso l'Università degli Studi Internazionali di Roma, Francesca è un'aspirante interprete e traduttrice. Durante il suo percorso accademico ha svolto un Erasmus all'Universidade do Porto, e le sue lingue di lavoro sono inglese e portoghese. Al momento Francesca si sta approcciando alla Lingua dei Segni italiana, e terminati gli studi vorrebbe lavorare come interprete e traduttrice, continuando a imparare e a viaggiare.

La rivoluzione dell’audiovisivo: le tecnologie di ASR, MT e Automatic Dubbing

Come le tecnologie di ASR e di MT stanno cambiando la traduzione audiovisiva

I nuovi strumenti di MT applicati alla sottotitolazione

Automatic dubbing: il caso di Amazon

Traduzioni migliori, doppiaggio peggiore?

Anche la società madre di TikTok, ByteDance, esplora il doppiaggio automatico con Neural Dubber

La questione dei compensi

Iscriviti alla mailing list

Iscrizione completata! Riceverai presto la nostra email di benvenuto.

Iscriviti alla nostra Newsletter

L'iscrizione è stata completata!

Condividi il post