Что это
Whisper — система автоматического распознавания речи от OpenAI, натренированная на 680 тысячах часов мультиязычных данных из интернета. Открытая модель, которая переводит аудио в текст с впечатляющей точностью и понимает десятки языков. Выпущена в сентябре 2022 года и живёт на GitHub.
Почему это важно
До Whisper качественная транскрибация либо стоила денег, либо требовала облака, либо работала плохо. Whisper перевернул игру — работает локально на видеокарте, бесплатно, и справляется с акцентами, шумом и переключением языков внутри одного аудио. Стандарт для подкастов, лекций, субтитров и голосовых помощников.