Інноваційний стартап ElevenLabs, відомий своїми розробками у сфері штучного інтелекту, представив автономну модель перетворення мови в текст під назвою Scribe. Компанія, яка нещодавно залучила $180 мільйонів інвестицій і досягла оцінки в $3,3 мільярда, тепер прагне конкурувати на ринку розпізнавання мовлення.
Про це інформує Techcrunch.
Раніше ElevenLabs здобула популярність завдяки своїй бібліотеці голосів та сервісам синтезу мовлення. Однак тепер компанія планує розширити свою діяльність, змагаючись із такими гравцями, як OpenAI Whisper, Gladia, Speechmatics, AssemblyAI та Deepgram.
На момент запуску Scribe підтримує понад 99 мов. За словами компанії, понад 25 мов демонструють високу точність розпізнавання, з рівнем помилок менше 5%. До цього списку входять англійська (97% точності), французька, німецька, гінді, японська, португальська, іспанська та інші. Решта мов класифікуються за рівнем точності як “високі“, “хороші” та “помірні“.
Scribe перевершує конкурентів
За результатами тестувань FLEURS і Common Voice, модель Scribe продемонструвала кращі показники, ніж Google Gemini 2.0 Flash і Whisper Large V3. В ElevenLabs зазначають, що ця модель є першим автономним продуктом компанії в сфері розпізнавання мовлення.
Генеральний директор ElevenLabs Маті Станішевскі наголошує, що ринок розпізнавання мовлення ще далекий від досконалості.
“Багато хто вважає, що проблема транскрипції мовлення вже вирішена, але для багатьох мов якість розпізнавання все ще залишає бажати кращого. Ми переконані, що можемо запропонувати кращі моделі завдяки нашим унікальним алгоритмам і швидкому зворотному зв’язку від команди”, — заявив Маті Станішевскі.
Функції та майбутні оновлення
Модель Scribe має низку унікальних функцій:
- Розпізнавання динаміки розмови – визначає, хто саме говорить.
- Мітки часу на рівні слів – забезпечують точність субтитрів.
- Ідентифікація звукових подій – автоматично розпізнає сміх, оплески та інші аудіосигнали.
Зараз Scribe працює лише з попередньо записаними аудіофайлами, але ElevenLabs обіцяє випустити версію з низькою затримкою для роботи в реальному часі. Це відкриє можливості для розшифровки зустрічей, голосових нотаток і прямих трансляцій.
Вартість використання Scribe становить $0,40 за годину транскрипції. Незважаючи на конкурентну ціну, деякі конкуренти пропонують дешевші рішення з різними функціональними відмінностями.
Запуск Scribe демонструє амбіції ElevenLabs у сфері розпізнавання мовлення. Чи вдасться компанії закріпитися на ринку – покаже час.

