Квантування в штучному інтелекті — це процес зменшення кількості бітів, які використовуються для представлення інформації в моделях. Уявіть, що ви повідомляєте час, кажучи “опівдні”, замість точного “12:00:01.004”. Аналогічно, в ШІ моделі замінюють високоточні дані на менш точні, аби знизити обчислювальну складність. Це особливо важливо, оскільки сучасні моделі здійснюють мільйони обчислень.
Про це інформує Techcrunch.
Процес квантування охоплює такі компоненти, як параметри моделі — внутрішні змінні, які визначають її прогнози. Завдяки цьому можна скоротити ресурси, необхідні для роботи моделі, зберігаючи її ефективність. Однак ця технологія не позбавлена недоліків, і дослідження вказують на її значні обмеження.
Непередбачувані наслідки для великих моделей
Дослідження провідних університетів, таких як Гарвард та Стенфорд, показало, що великі моделі, які проходять тривале навчання на великих наборах даних, втрачають ефективність після квантування. У деяких випадках створення меншої моделі може виявитися кращим рішенням, ніж навчання великої з подальшим зменшенням точності.
«На мій погляд, ціною номер один для всіх у сфері штучного інтелекту є і залишатиметься логічний висновок, і наша робота показує, що один важливий спосіб її зменшення не працюватиме вічно», — розповідає Танішк Кумар, студент математики Гарвардського університету.
Ця проблема стає очевидною на прикладі моделі Llama 3 від Meta, яку квантування зробило менш ефективною, ніж інші подібні моделі. Дослідники зазначають, що звичні підходи масштабування, такі як навчання на величезних обсягах даних, можуть вичерпувати свою користь. Незважаючи на це, компанії продовжують використовувати великі моделі, очікуючи, що більше даних призведе до кращих результатів.
Альтернативні підходи до оптимізації моделей
Щоб уникнути деградації моделей після квантування, дослідники пропонують використовувати методи навчання з низькою точністю. Це передбачає використання меншої кількості бітів для представлення чисел під час навчання моделі. Наприклад, моделі зазвичай навчаються з 16-бітною точністю, а потім квантуються до 8-бітної.
Такі компанії, як Nvidia, впроваджують чіпи, що підтримують навіть 4-бітну точність, зокрема формат FP4, для зниження енергоспоживання в дата-центрах. Але надмірне зменшення точності може значно погіршити якість моделі, особливо якщо вона невелика.

Перспективи та майбутні виклики
Дослідження показують, що моделі ШІ мають обмежену здатність до компромісів у точності. Замість подальшого скорочення бітів експерти пропонують фокусуватися на відборі даних найвищої якості для навчання. Нові архітектури, орієнтовані на стабільне навчання з низькою точністю, можуть стати важливим кроком у цьому напрямку.
У підсумку, індустрія повинна визнати: скорочення витрат на обчислення неминуче впливатиме на якість моделей. Розробка нових підходів до оптимізації навчання та адаптації моделей стане вирішальним фактором для подальшого розвитку штучного інтелекту.

