Hugging Face с партнером представили набір даних для ШІ

Некомерційна організація MLCommons у співпраці з платформою розробників штучного інтелекту Hugging Face представила масштабний набір даних для досліджень у сфері штучного інтелекту. Колекція під назвою Unsupervised People’s Speech містить понад мільйон годин аудіозаписів 89 мовами та є однією з найбільших у світі. Метою ініціативи є підтримка розвитку мовних технологій, зокрема вдосконалення обробки природної мови.

Про це повідомляє Techcrunch.

Організація зазначає, що цей проєкт допоможе розширити доступ до технологій комунікації, особливо для мов із низьким рівнем ресурсів. Дослідники очікують, що набір даних стане основою для покращення мовних моделей, точнішого розпізнавання акцентів і діалектів, а також нових застосувань у сфері синтезу мовлення.

Виклики та потенційні ризики використання

Попри значний потенціал, набір Unsupervised People’s Speech несе певні ризики для розробників і дослідників. Однією з головних проблем є можливі упередженості в даних. Більшість записів у наборі походять із Archive.org, відомого архіву цифрового контенту. Оскільки велика частина контенту цієї платформи створена англомовними користувачами зі США, у колекції домінує англійська мова з американським акцентом.

Це може вплинути на якість моделей розпізнавання мовлення та синтезу голосу, що використовують цей набір. Наприклад, такі системи можуть мати труднощі з обробкою англійської мови, якою говорять носії інших мов, або погано працювати з менш поширеними мовами. Без ретельного доопрацювання ШІ-моделі ризикують успадкувати ці обмеження, що негативно вплине на їхню ефективність.

Ще одним питанням, яке викликає занепокоєння, є використання голосових записів без прямої згоди людей, чиї голоси містяться в наборі даних. Хоча MLCommons стверджує, що всі записи взяті з суспільного надбання або опубліковані за ліцензіями Creative Commons, можливі помилки у ліцензуванні.

Дослідження Массачусетського технологічного інституту показало, що сотні публічних навчальних наборів даних для ШІ містять ліцензійні неточності. Деякі експерти, такі як Ед Ньютон-Рекс, керівник Fairly Trained, наголошують, що творці контенту не завжди мають можливість виключити свої матеріали з таких проєктів. Він зазначає, що навіть за наявності формальних механізмів відмови, вони часто є складними й неефективними.

MIT institute з висоти пташиного польоту. Фото: Google.

Висновки та перспективи

MLCommons планує регулярно оновлювати та вдосконалювати Unsupervised People’s Speech, щоб зменшити можливі проблеми. Однак розробникам, які використовуватимуть цей набір даних, слід бути обережними та враховувати його потенційні обмеження. Якість мовних технологій безпосередньо залежить від збалансованості даних, тому критично важливо уникати упередженості та етичних порушень у майбутніх розробках.

Ризик того, що голоси людей використовуватимуться без їхнього відома, особливо в комерційних додатках, залишається досить високим. Навіть якщо вони за ліцензіями Creative Commons.

Щоб уникнути цих проблем, організації, які працюють із набором даних, повинні запровадити чіткі механізми перевірки та контролю. Це включає незалежний аудит ліцензій, впровадження механізмів відмови для творців і розширення мовного охоплення шляхом залучення додаткових джерел даних. Такі кроки допоможуть зробити штучний інтелект справді інклюзивним і доступним для ширшого кола користувачів.

Таким чином, хоча Unsupervised People’s Speech є значним кроком уперед у розвитку мовних моделей, його успішне використання залежатиме від того, наскільки розробники врахують його обмеження та потенційні ризики. Без глибокого аналізу та вдосконалення даних навіть найпотужніші алгоритми можуть не досягти бажаних результатів, що вплине на якість штучного інтелекту в майбутньому.

На ринку з’явився один із найбільших наборів голосових даних для ШІ

Виклики та потенційні ризики використання

Висновки та перспективи

Схожі публікації

Вам сподобається

Редакція рекомендує

Цікаве про фінанси

Популярні позначки

Контакти

Соціальні мережі