OpenAI hoort je fluisteren | Hackaday

Als u spraakherkenning van hoge kwaliteit wilt proberen zonder iets te kopen, veel succes. Natuurlijk kun je de spraakherkenning op je telefoon lenen of een paar virtuele assistenten op een Raspberry Pi dwingen om de verwerking voor je af te handelen, maar die zijn niet goed voor groot werk dat je niet gebonden wilt hebben aan een gesloten bron oplossing. OpenAI heeft Whisper geïntroduceerd, waarvan zij beweren dat het een open source neuraal netwerk is dat “de robuustheid en nauwkeurigheid op menselijk niveau benadert bij Engelse spraakherkenning.” Het lijkt ook te werken op ten minste enkele andere talen.

Als je de demonstraties probeert, zul je zien dat snel praten of met een lief accent geen invloed lijkt te hebben op de resultaten. Het bericht vermeldt dat het is getraind op 680.000 uur aan gesuperviseerde gegevens. Als je zoveel met een AI zou praten, zou het 77 jaar duren zonder slaap!

Intern wordt spraak opgesplitst in happen van 30 seconden die een spectrogram voeden. Encoders verwerken het spectrogram en decoders verwerken de resultaten met behulp van voorspellingen en andere heuristieken. Ongeveer een derde van de gegevens was afkomstig uit niet-Engelstalige bronnen en vervolgens vertaald. U kunt de paper lezen over hoe de gegeneraliseerde training slechter presteert dan sommige specifiek getrainde modellen op standaard benchmarks, maar ze geloven dat Whisper het beter doet in willekeurige spraak dan bepaalde benchmarks.

De grootte van het model bij de “kleine” variant is nog steeds 39 megabyte en de “grote” variant is meer dan anderhalve gig. Dus dit zal waarschijnlijk niet snel op je Arduino draaien. Als je echter wilt coderen, staat het allemaal op GitHub.

Er zijn andere oplossingen, maar niet zo robuust. Als je de op assistent gebaseerde route wilt gaan, vind je hier wat inspiratie.

Leave a Comment