Організація EleutherAI, яка активно працює у сфері розвитку штучного інтелекту, представила масштабний відкритий корпус текстів під назвою Common Pile v0.1. Цей набір обсягом 8 терабайт був зібраний у співпраці з провідними гравцями галузі. Зокрема стартапами Hugging Face і Poolside, а також академічними установами. Його мета — надати спільноті легальні та відкриті дані для навчання великих мовних моделей, що, на думку авторів, зможе змінити підходи до прозорості у ШІ.
Про це повідомляє Techcrunch.
Дані у Common Pile були ретельно відібрані, щоб уникнути юридичних ризиків і водночас забезпечити якісну основу для навчання сучасних моделей. На базі цього корпусу вже створено дві нові ШІ-системи:
- Comma v0.1-1T
- Comma v0.1-2T
За результатами внутрішніх тестів, вони демонструють продуктивність на рівні з моделями, які були навчені на закритих або спірних джерелах.
Протидія непрозорим практикам збору даних
Ініціатива EleutherAI стала реакцією на численні скандали у сфері ШІ, пов’язані з використанням неліцензованого контенту. OpenAI, Google, Meta та інші гіганти неодноразово стикалися з судовими позовами через те, що використовували для тренування своїх моделей матеріали, захищені авторським правом. До таких джерел належали книжки, статті, наукові журнали та інші публікації, які без згоди авторів перетворювалися на “сировину” для створення алгоритмів.
“Ці юридичні баталії лише зменшили відкритість у галузі, змусивши багато дослідників приховувати, які дані вони використовують“, – пряма мова виконавчої директорки EleutherAI Стелли Бідерман.
Це, у свою чергу, шкодить науковій комунікації та унеможливлює глибоке розуміння сильних і слабких сторін нових моделей.
Common Pile v0.1 було створено з дотриманням правових норм і за активної участі юристів, які спеціалізуються на авторському праві. Серед основних джерел понад 300 тисяч книг, що вже перейшли у суспільне надбання, оцифрованих Бібліотекою Конгресу США та Інтернет-архівом. Також до набору увійшли транскрипції аудіо, отримані за допомогою відкритої голосової моделі Whisper від OpenAI.
EleutherAI підкреслює, що цього масиву достатньо для створення конкурентоспроможних систем ШІ. Обидві моделі Comma мають по 7 мільярдів параметрів і, за твердженням розробників, демонструють вражаючі результати у завданнях на розуміння тексту, коду та навіть базової математики. Параметри, або ваги, є ключовими елементами, які визначають поведінку мовної моделі.
Виправлення минулих помилок і обіцянки майбутнього
Цей проєкт також є своєрідною спробою EleutherAI перегорнути сторінку. Раніше організація вже публікувала відкритий датасет The Pile, який, як згодом з’ясувалося, містив матеріали, що підпадали під авторське право. Це викликало хвилю критики та тиску з боку правовласників. Тепер EleutherAI прагне повністю змінити підхід і взяти на себе роль прикладу для галузі із чесними принципами, відкритістю та юридично чистим підходом до даних.
У своїй публікації Бідерман також зазначає, що твердження про необхідність неліцензованих текстів для досягнення високих результатів є перебільшеними. На її думку, розвиток відкритого контенту дозволяє не тільки зберігати етичність процесу, але й гарантувати довгострокову стабільність і незалежність досліджень у сфері ШІ. Відтепер організація обіцяє регулярно випускати нові відкриті датасети разом зі своїми партнерами.

