Цього тижня технологічна індустрія може зосередити увагу на китайській лабораторії штучного інтелекту DeepSeek, але її внутрішній конкурент, Alibaba, не відстає. Нещодавно команда Alibaba Qwen презентувала нове сімейство ШІ-моделей Qwen2.5-VL. Вони здатні виконувати широкий спектр завдань, поєднуючи аналіз тексту та зображень.
Про це інформує Techcrunch.
Нові моделі Alibaba можуть працювати з файлами, розпізнавати текст на зображеннях, аналізувати відео та навіть керувати комп’ютером. Вони здатні витягувати дані зі сканованих документів, підраховувати об’єкти на зображеннях і «розуміти» багатогодинні відеоматеріали. Це робить їх схожими на модель, інтегровану в нещодавно запущений OpenAI оператор.
За результатами тестувань, проведених командою Alibaba Qwen, флагманська модель Qwen2.5-VL-72B випереджає GPT-4o від OpenAI, Claude 3.5 Sonnet від Anthropic і Gemini 2.0 Flash від Google у завданнях, пов’язаних із розумінням відео, математикою, аналізом документів та відповідями на складні запитання.
Ліцензія та обмеження моделі
Qwen2.5-VL доступний для тестування у застосунку Alibaba Qwen Chat та для завантаження на платформі розробників Hugging Face. Дві молодші версії, Qwen2.5-VL-3B і Qwen2.5-VL-7B, випущені під дозвільною ліцензією, тоді як використання флагманської моделі Qwen2.5-VL-72B вимагає спеціального дозволу від Alibaba для компаній із понад 100 мільйонами активних користувачів щомісяця.

Водночас, як і багато інших китайських ШІ-систем, Qwen2.5-VL має обмеження щодо тем, які може обговорювати. Наприклад, під час спроби дізнатися про «помилки Сі Цзіньпіна» користувач отримає повідомлення про помилку. Китайський інтернет-регулятор перевіряє всі ШІ-моделі, щоб вони відповідали офіційній ідеології та не порушували політичних норм.
ШІ, що керує програмами
Однією з найцікавіших функцій Qwen2.5-VL є можливість взаємодії з програмним забезпеченням на ПК та мобільних пристроях. Наприклад, у відео, опублікованому технічним керівником Hugging Face Філіпом Шмідом, ШІ запускає застосунок Booking.com на Android та бронює квитки на рейс із Чунціна до Пекіна.
Проте тестування на Linux показало, що можливості керування комп’ютером у моделі все ще обмежені — вона здебільшого переключає вкладки, не виконуючи складніших завдань. Результати тестування в OSWorld, який імітує реальне комп’ютерне середовище, свідчать про те, що модель має ще над чим працювати.
Раніше редакція сайту AI360 писала про те, що Hugging Face врегулювала судовий позов із корейським стартапом. Позов стосувався порушення патенту, пов’язаного з технологією «пакетування з ітераційним плануванням».

