Вівторок, 14 Квітня, 2026
ГоловнаAIОновлення OpenAI розширює Realtime API
ГоловнаAIОновлення OpenAI розширює Realtime API

Оновлення OpenAI розширює Realtime API

-

OpenAI продовжує розширювати можливості свого Realtime API, що зараз перебуває у бета-версії, додавши нові голоси для синтезу мовлення та значно знизивши витрати на кешування. Нові можливості надають більше інструментів для створення програмного забезпечення, що працює з голосовими командами в реальному часі, спрощуючи взаємодію з клієнтами.

Про це пише venturebeat.

П’ять нових голосів для Realtime API

Учасники бета-програми тепер можуть скористатися п’ятьма новими голосами, що значно розширюють можливості синтезу мовлення. Серед них три голоси з британським акцентом:

  • Ash
  • Verse
  • Ballad

Вони були представлені OpenAI у публікації на X. У документації до API зазначається, що нова технологія дозволяє пропускати проміжний текстовий формат, що підвищує швидкість та природність звучання. Завдяки цьому, голоси стали більш виразними та простішими у використанні.

Технічні обмеження та виклики бета-версії

Поточна версія Realtime API не пропонує автентифікацію на стороні клієнта, що є одним із обмежень бета-версії. Крім того, компанія попереджає, що ускладнені умови мережі можуть впливати на стабільність роботи у реальному часі.

“Надійна доставка аудіо між клієнтом і сервером в умовах непередбачуваних мережевих параметрів є складним завданням”, – відзначає OpenAI.

Суперечливі етапи розвитку голосових технологій

OpenAI має досвід у сфері мовлення на базі ШІ, але цей шлях супроводжується дискусіями. У березні компанія випустила Voice Engine для клонування голосів, але обмежила доступ до неї для широкого кола користувачів.

У травні вони презентували нові можливості GPT-4o та Voice Mode, але вимушено призупинила один з голосів після претензії актриси Скарлетт Йоханссон про схожість з її власним голосом. А у вересні OpenAI запустила вдосконалений голосовий режим для платних абонентів у США.

Перетворення мовлення: можливості для бізнесу

Технологія перетворення мовлення у мовлення має величезний потенціал для бізнесу. Уявіть, що клієнт дзвонить до служби підтримки: система могла б миттєво розпізнати його запит та відповісти через голос ШІ з мінімальною затримкою. Така функціональність полегшила б обслуговування клієнтів, а також дозволила б генерувати голоси для різноманітних інтерактивних рішень.

Наприклад, деякі платформи, такі як Replica та ElevenLabs, вже пропонують інструменти для створення закадрових голосів.

Зниження витрат

Для Realtime API OpenAI запровадила нову структуру ціноутворення, що включає кешування. Раніше вартість складала 0,06 долара за хвилину введення аудіо та 0,24 долара за хвилину виходу. Однак завдяки оперативному кешуванню компанія знизила ціни — кешовані текстові введення подешевшали на 50%, а аудіовведення — на 80%.

На Dev Day OpenAI також оголосила про впровадження кешування підказок. Це дозволяє зберігати часті контексти та підказки, зменшуючи кількість оброблюваних маркерів та покращуючи швидкість роботи. Зниження вартості на вхідні дані дозволяє залучити більше розробників до використання API. До речі, OpenAI не єдина компанія, що використовує Prompt Caching: у серпні Anthropic запустив кешування для Claude 3.5 Sonnet.

Нові можливості Realtime API від OpenAI сприяють розширенню технологічних рішень для голосового синтезу та надають бізнесу потужний інструмент для взаємодії з користувачами.

Коваль Влад
Коваль Влад
Поки ми живемо своїм життям, штучний інтелект поступово охоплює все нові його аспекти. Вже не секрет, що кожний новий пристрій, кожна нова технічна розробка від космічної галузі до побутової техніки має ШІ. Сьогодні твій особистий ШІ лежить у кишені у вигляді смартфона, аналізуючі твої дії, пересування, форму тексту. Завтра він буде давати тобі поради, як краще діяти, пересуватися, писати. Післязавтра він буде здатний стати твоїм незамінним помічником у прийнятті рішень.

Схожі публікації

Вам сподобається

situs slot
slot dana
slot777
slot gacor hari ini