AI-model van OpenAI herkent automatisch spraak en vertaalt deze naar het Engels

Een roze golfvorm op een blauwe achtergrond, die poëtisch audio suggereert.

Benj Edwards / Ars Technica

Op woensdag heeft OpenAI een nieuw open source AI-model uitgebracht, Whisper genaamd, dat audio herkent en vertaalt op een niveau dat het menselijk herkenningsvermogen benadert. Het kan interviews, podcasts, gesprekken en meer transcriberen.

OpenAI heeft Whisper getraind op 680.000 uur aan audiogegevens en overeenkomende transcripties in 98 talen die van internet zijn verzameld. Volgens OpenAI heeft deze open-collectiebenadering geleid tot “verbeterde robuustheid voor accenten, achtergrondgeluiden en technische taal”. Het kan ook de gesproken taal detecteren en vertalen naar het Engels.

OpenAI beschrijft Whisper als een encoder-decodertransformator, een type neuraal netwerk dat context kan gebruiken die is verkregen uit invoergegevens om associaties te leren die vervolgens kunnen worden vertaald in de uitvoer van het model. OpenAI presenteert dit overzicht van de werking van Whisper:

Invoeraudio wordt opgesplitst in brokken van 30 seconden, omgezet in een log-Mel-spectrogram en vervolgens doorgegeven aan een encoder. Een decoder is getraind om het bijbehorende tekstbijschrift te voorspellen, vermengd met speciale tokens die het enkele model aansturen om taken uit te voeren zoals taalidentificatie, tijdstempels op zinsniveau, meertalige spraaktranscriptie en spraakvertaling naar het Engels.

Door Whisper open te sourcen, hoopt OpenAI een nieuw basismodel te introduceren waar anderen in de toekomst op kunnen voortbouwen om spraakverwerking en toegankelijkheidstools te verbeteren. OpenAI heeft een aanzienlijk trackrecord op dit gebied. In januari 2021 bracht OpenAI CLIP uit, een open source computervisiemodel dat aantoonbaar het recente tijdperk van snel voortschrijdende beeldsynthesetechnologie zoals DALL-E 2 en Stable Diffusion heeft aangestoken.

Bij Ars Technica hebben we Whisper getest op basis van code die beschikbaar is op GitHub, en we hebben het meerdere voorbeelden gegeven, waaronder een podcast-aflevering en een bijzonder moeilijk te begrijpen gedeelte met audio uit een telefonisch interview. Hoewel het enige tijd kostte om een ​​standaard Intel desktop-CPU te gebruiken (de technologie werkt nog niet in realtime), heeft Whisper goed werk verricht door de audio in tekst te transcriberen via het demonstratieprogramma Python – veel beter dan sommige AI-aangedreven audiotranscriptieservices die we in het verleden hebben geprobeerd.

Voorbeeld console-uitvoer van het Whisper-demonstratieprogramma van OpenAI terwijl het een podcast transcribeert.
Vergroten / Voorbeeld console-uitvoer van het Whisper-demonstratieprogramma van OpenAI terwijl het een podcast transcribeert.

Benj Edwards / Ars Technica

Met de juiste installatie kan Whisper gemakkelijk worden gebruikt om interviews en podcasts te transcriberen en mogelijk podcasts die in niet-Engelse talen zijn geproduceerd, gratis naar het Engels te vertalen. Dat is een krachtige combinatie die uiteindelijk de transcriptie-industrie zou kunnen verstoren.

Zoals met bijna elk belangrijk nieuw AI-model tegenwoordig, biedt Whisper positieve voordelen en het potentieel voor misbruik. Op de modelkaart van Whisper (onder de sectie “Bredere implicaties”) waarschuwt OpenAI dat Whisper kan worden gebruikt om bewaking te automatiseren of om individuele sprekers in een gesprek te identificeren, maar het bedrijf hoopt dat het “voornamelijk voor nuttige doeleinden” zal worden gebruikt.

Leave a Comment