OpenAI продовжує розширювати можливості свого Realtime API, що зараз перебуває у бета-версії, додавши нові голоси для синтезу мовлення та значно знизивши витрати на кешування. Нові можливості надають більше інструментів для створення програмного забезпечення, що працює з голосовими командами в реальному часі, спрощуючи взаємодію з клієнтами.
Про це пише venturebeat.
П’ять нових голосів для Realtime API
Учасники бета-програми тепер можуть скористатися п’ятьма новими голосами, що значно розширюють можливості синтезу мовлення. Серед них три голоси з британським акцентом:
- Ash
- Verse
- Ballad
Вони були представлені OpenAI у публікації на X. У документації до API зазначається, що нова технологія дозволяє пропускати проміжний текстовий формат, що підвищує швидкість та природність звучання. Завдяки цьому, голоси стали більш виразними та простішими у використанні.
Технічні обмеження та виклики бета-версії
Поточна версія Realtime API не пропонує автентифікацію на стороні клієнта, що є одним із обмежень бета-версії. Крім того, компанія попереджає, що ускладнені умови мережі можуть впливати на стабільність роботи у реальному часі.
“Надійна доставка аудіо між клієнтом і сервером в умовах непередбачуваних мережевих параметрів є складним завданням”, – відзначає OpenAI.
Суперечливі етапи розвитку голосових технологій
OpenAI має досвід у сфері мовлення на базі ШІ, але цей шлях супроводжується дискусіями. У березні компанія випустила Voice Engine для клонування голосів, але обмежила доступ до неї для широкого кола користувачів.
У травні вони презентували нові можливості GPT-4o та Voice Mode, але вимушено призупинила один з голосів після претензії актриси Скарлетт Йоханссон про схожість з її власним голосом. А у вересні OpenAI запустила вдосконалений голосовий режим для платних абонентів у США.
Перетворення мовлення: можливості для бізнесу
Технологія перетворення мовлення у мовлення має величезний потенціал для бізнесу. Уявіть, що клієнт дзвонить до служби підтримки: система могла б миттєво розпізнати його запит та відповісти через голос ШІ з мінімальною затримкою. Така функціональність полегшила б обслуговування клієнтів, а також дозволила б генерувати голоси для різноманітних інтерактивних рішень.
Наприклад, деякі платформи, такі як Replica та ElevenLabs, вже пропонують інструменти для створення закадрових голосів.
Зниження витрат
Для Realtime API OpenAI запровадила нову структуру ціноутворення, що включає кешування. Раніше вартість складала 0,06 долара за хвилину введення аудіо та 0,24 долара за хвилину виходу. Однак завдяки оперативному кешуванню компанія знизила ціни — кешовані текстові введення подешевшали на 50%, а аудіовведення — на 80%.
На Dev Day OpenAI також оголосила про впровадження кешування підказок. Це дозволяє зберігати часті контексти та підказки, зменшуючи кількість оброблюваних маркерів та покращуючи швидкість роботи. Зниження вартості на вхідні дані дозволяє залучити більше розробників до використання API. До речі, OpenAI не єдина компанія, що використовує Prompt Caching: у серпні Anthropic запустив кешування для Claude 3.5 Sonnet.
Нові можливості Realtime API від OpenAI сприяють розширенню технологічних рішень для голосового синтезу та надають бізнесу потужний інструмент для взаємодії з користувачами.

