Google зробила черговий прорив у сфері доступності, презентувавши функцію виразних субтитрів Expressive Captions. Це вдосконалення системи Live Caption додає до субтитрів емоційний контекст та деталі, такі як тон, гучність голосу та навколишні звуки. Вперше ця технологія дозволяє передавати не лише зміст сказаного, але й те, як саме це було сказано.
Про це пише Google.
Субтитри, які з’явилися у 1970-х роках, спочатку створювалися для людей із порушеннями слуху, але сьогодні їх активно використовують ширші аудиторії. За даними досліджень, 70% представників покоління Z регулярно вмикають субтитри під час перегляду відео. Це пов’язано не лише із шумним оточенням, але й із бажанням краще розуміти зміст. Проте традиційні субтитри, навіть у сучасних застосунках, втрачають багато нюансів, таких як емоційний забарвлення чи атмосфера.
Що змінюють Expressive Captions
Нова функція дозволяє субтитрам виходити за межі звичайного тексту. Використовуючи штучний інтелект, Expressive Captions зчитують тональність голосу, визначають гучність, а також ідентифікують навколишні звуки, як-от оплески чи вигуки. Ці особливості дозволяють передати емоції, навіть коли звук вимкнено. Наприклад, у субтитрах схвильовані вигуки друзів, як «З ДНЕМ НАРОДЖЕННЯ!», будуть виділятися великими літерами, а додаткові шуми додадуть контексту.
Функція також розпізнає людські звуки, такі як сміх, зітхання чи навіть важке дихання, позначаючи їх у тексті. Такий підхід стає надзвичайно корисним для живого чи соціального контенту, де традиційні субтитри часто не можуть відобразити всієї атмосфери.
Технології у дії
Expressive Captions розроблені завдяки співпраці команд Android і Google DeepMind. Використовуючи передові моделі штучного інтелекту, ця функція аналізує не лише вимовлені слова, але й створює стилізовані субтитри, що враховують навіть найдрібніші деталі навколишнього звукового середовища. Завдяки цьому субтитри виглядають настільки ж «живими», як і сам звук.
Вбудована в операційну систему Android, ця функція працює на пристроях із версією Android 14 і вище.

Важливо, що Expressive Captions працюють у реальному часі, навіть без підключення до інтернету, що робить їх доступними за будь-яких умов, зокрема в режимі польоту.
Розширення можливостей і доступність
На першому етапі виразні субтитри будуть доступні англійською мовою в США. Їх можна використовувати для перегляду відео на соціальних платформах, у Google Photos чи навіть у відеоповідомленнях від друзів. Це один із багатьох способів, яким Google DeepMind впроваджує штучний інтелект для покращення користувацького досвіду.

Google наголошує, що ця функція є лише частиною ширшого підходу до створення технологій, орієнтованих на потреби людей. Виразні субтитри — це черговий крок на шляху до інклюзивності та забезпечення доступу до цифрового контенту для всіх, незалежно від обставин. У майбутньому компанія планує розширити функціонал і додати підтримку інших мов та регіонів, роблячи технології ще більш універсальними.

