Стартап Podcastle, відомий своїм інструментом для запису та редагування подкастів, оголосив про запуск власної AI-моделі Asyncflow v1.0. Ця модель перетворює текст в мовлення. Компанія також відкриває API-доступ, що дозволяє розробникам інтегрувати цю технологію у власні застосунки.
Про це повідомляє Techcrunch.
Нова модель дозволяє користувачам обирати з понад 450 голосів, що можуть озвучувати текст різними мовами та інтонаціями. Завдяки оптимізованій технології витрати на навчання та обробку AI-голосів значно знижені, що дає Podcastle конкурентну перевагу перед іншими гравцями ринку.
Конкуренція на ринку синтезу мовлення
Podcastle виходить у сегмент, де вже активно працюють такі компанії, як ElevenLabs, Speechify і WellSaid, які розробляють AI-озвучку для реклами, маркетингу, навчання та створення контенту.

Засновник стартапу Арто Єріцян зазначив, що створення AI-моделі синтезу мовлення довгий час залишалося складним завданням через високі витрати на навчання та вимоги до якості даних. Однак завдяки прориву в мовних моделях компанія змогла розробити високоякісну технологію без потреби у величезних масивах даних.
Розвиток стартапу підтримав раунд фінансування серії A у 13,5 мільйонів доларів, що дозволило прискорити розробку нових AI-рішень.
Одним із важливих аспектів нової моделі є її доступність. Якщо ElevenLabs пропонує 500 хвилин AI-озвучки за 99 доларів, то Podcastle надає аналогічну послугу за 40 доларів. Крім того, компанія оновила функцію клонування голосу, зробивши процес значно швидшим. Раніше користувачам потрібно було зачитати 70 різних речень для створення копії голосу, а тепер достатньо лише кількох секунд запису.
Розширення функціоналу та плани Podcastle
Для покращення якості синтезованого голосу компанія використовує власну технологію Magic Dust AI, випущену минулого року. Незважаючи на загальний високий рівень, у тестах було помічено роботизовані нотки у відтворенні голосу, однак Podcastle запевняє, що ця функція поступово вдосконалюватиметься.
Podcastle також наголошує на унікальності свого підходу: окрім AI-синтезу мовлення, платформа об’єднує аудіо-, відео- та подкаст-інструменти на одній платформі. Це дозволяє користувачам отримати комплексне рішення для створення контенту, що може дати компанії перевагу над конкурентами.

