Home AI AI lär sig att ”lyssna”: Kompakta talmarkörer hjälper modeller att förstå talade ord
FocalCodec-arkitektur

AI lär sig att ”lyssna”: Kompakta talmarkörer hjälper modeller att förstå talade ord

by admin

Stora språkmodeller (LLM) som ChatGPT och Gemini var ursprungligen utformade för att endast fungera med text. Idag har de utvecklats till system som kan hantera många typer av information samtidigt (multimodala system) samt förstå och generera bilder, ljud, tal och musik.

Det vanligaste sättet att lägga till tal i multimodala modeller är att konvertera det till små byggstenar som kallas ljudtokens, som fungerar för ljud på ungefär samma sätt som tecken gör för text. Ljudtoken innehåller dock fortfarande mycket information, vilket gör tal svårare att hantera än text. Trots de senaste framstegen är det fortfarande en stor utmaning att integrera tal i stora språkmodeller.

”Tal är en extremt rik och komplex iptv signal”, säger Luca Della Libera, doktorand vid Gina Cody School of Engineering and Computer Science. ”Utöver de ord vi säger innehåller det information om våra känslor, accent, identitet och många andra signaler.

På grund av denna komplexitet har standardljudtoken ofta en hög bithastighet (mängden information som ryms i varje sekund av ljudet). De packar in en enorm mängd information i varje sekund av ljudet, vilket gör det svårt för stora språkmodeller att lära sig från tal på ett effektivt sätt.”

Fokus på talets betydelse

Della Libera och hans medarbetare utvecklade FocalCodec, en ny metod för ljudtokenisering som komprimerar tal mycket mer effektivt än tidigare metoder. Den bevarar både ljudet och betydelsen av orden vid en extremt låg bithastighet.

Istället för att förlita sig på tunga bearbetningssteg använder systemet ett enkelt sätt att omvandla ljud till kompakta enheter (binär sfärisk kvantisering) och en teknik som hjälper modellen att fokusera på de mest meningsfulla delarna av talet (fokal modulering). Detta gör analysen snabbare och bevarar de väsentliga egenskaperna hos rösten.

För att testa FocalCodec genomförde teamet en lyssningsstudie med 33 deltagare som jämförde olika ljudprover. Deltagarna bedömde ofta det rekonstruerade talet som nästan identiskt med de ursprungliga inspelningarna. Detta visar att systemet kan komprimera talet avsevärt utan att det låter robotlikt eller förvrängt.

Erkänt på en ledande AI-konferens

Arbetet har accepterats till den trettionionde årliga konferensen om neurala informationsbehandlingssystem (NeurIPS 2025), en av de mest selektiva konferenserna inom maskininlärning och artificiell intelligens. Artikeln är tillgängligarXiv-preprintservern.

”Detta arbete är särskilt viktigt, eftersom det introducerar en ny metod som kan vara mycket värdefull för att bygga moderna multimodala LLM:er”, säger Mirco Ravanelli, biträdande professor och Della Liberas handledare. ”Genom att göra talet lättare och enklare att integrera kommer vi närmare AI-system som förstår ljud med samma säkerhet som de förstår text.”

Arbetet speglar det pågående samarbetet mellan Concordia och Mila–Quebec Artificial Intelligence Institute. Artikeln innehåller också bidrag från Francesco Paissan, gästforskare vid Mila och student vid universitetet i Trento, samt Cem Subakan, adjungerad biträdande professor vid Concordia.

Mer information: Luca Della Libera et al, FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks, arXiv (2025). DOI: 10.48550/arxiv.2502.04465

Related Posts