Ascolta lo streaming di Radio Onda Rossa !

Big data e linguistica: Raccogliere il necessario, rappresentare tutto!

Data di trasmissione
Durata 1h 30m 29s

Nella puntata di oggi, un'ospite speciale ci aiuta a capire meglio le implicazioni più sottili dell'approccio "big data" (basato cioè sull'accumulazione di archivi di dati caratterizzati dalla quantità prima che dalla qualità) nello specifico della linguistica.

Oggi ci concentreremo sui problemi più prettamente linguistici, osservando come i modelli di intelligenza artificiale che generano testo (insomma i vari ChatGPT) creano a tutti gli effetti la lingua; la raccolta di dati "a strascico", lungi dall'essere un metodo per ascoltare tutte le voci si dimostra un modo per selezionare le voci legittime; così, quello che poteva sembrare un problema semplice per un algoritmo innocuo apre il problema, per niente banale, della rappresentazione.

Lo facciamo seguendo, in parte, l'articolo che è costato il licenziamento di Timnit Gebru e accompagnati da musiche centroasiatiche.