Компанія Sesame, що спеціалізується на розробці штучного інтелекту, представила свою нову базову модель Maya. Це голосовий помічник, який відзначається вражаючою реалістичністю. Нейромережа, що працює на основі CSM-1B, має 1 мільярд параметрів і знаходиться під ліцензією Apache 2.0, що дозволяє її комерційне використання з певними обмеженнями.
Про це повідомляє Techcrunch.
Згідно з описом моделі на платформі Hugging Face, Maya використовує технологію RVQ (залишкове векторне квантування), що дозволяє кодувати аудіо у спеціальні токени. Ця методика вже застосовується в сучасних аудіо-ШІ, таких як SoundStream від Google та Encodec від Meta.
Аудіо-ШІ Sesame проти ChatGPT.
Відсутність реальних гарантій безпеки
Sesame не розкриває, на яких саме даних навчалася Maya, що викликає питання щодо етичності та безпеки її використання. В офіційній документації компанія лише закликає не використовувати ШІ для шахрайства, фейкових новин чи незаконної імітації голосу.
Попри це, тестування демоверсії на Hugging Face показало, що клонування голосу займає менше хвилини, після чого користувач може створювати будь-які аудіофайли. Це викликало занепокоєння серед експертів, адже інструмент може бути використаний для маніпуляцій, шахрайства та дезінформації.
За даними Consumer Reports, більшість сучасних голосових ШІ-систем не мають достатніх механізмів захисту, що робить їх привабливими для кіберзлочинців.
Як працює Maya та які її особливості
Модель CSM-1B базується на архітектурі Llama від Meta, поєднуючи її з аудіодекодером, який відтворює людський голос. Sesame стверджує, що хоча її можна адаптувати для різних голосів, специфічне налаштування під окремі тембри не проводилося.

Цікаво, що модель демонструє обмежену підтримку інших мов, крім англійської, що пояснюється випадковим потраплянням багатомовних даних у навчальну вибірку. Проте, як зазначають розробники, її продуктивність на неанглійських мовах залишається низькою.
Sesame готується до наступного технологічного прориву
Sesame вже стала відомою завдяки своїм технологічним проривам у сфері голосового ШІ. Її голосові агенти, такі як Miles, здатні дихати, змінювати тон голосу та навіть реагувати на переривання під час розмови—подібно до голосового режиму GPT-4 від OpenAI.
Окрім розробки голосових ШІ, компанія працює над прототипом розумних окулярів, які можна носити протягом усього дня. Вони будуть інтегровані з персоналізованими моделями ШІ, що відкриває нові можливості для майбутнього інтелектуальних асистентів.
Sesame вже отримала фінансування від Andreessen Horowitz, Spark Capital та Matrix Partners, хоча точну суму залучених інвестицій не розголошують.

