Что это

UI-TARS — семейство моделей от ByteDance для автономного взаимодействия с графическими интерфейсами. По сути, ИИ-агент, который «видит» экран и может кликать, вводить текст и навигировать по приложениям как живой пользователь. Релизнули с открытыми весами на GitHub — редкая щедрость для такого рода технологий.

Почему это важно

Это китайский ответ на Operator от OpenAI и всю волну компьютерных агентов. Пока западные компании показывают демо, ByteDance выкатывает рабочие модели в опенсорс. Вторая версия уже подтянула multi-turn reinforcement learning — агент учится на собственных действиях в реальном времени.

Моя точка входа

Увидел в новостях про ИИ-агенты для управления браузером — ByteDance релизнули модели взаимодействия с GUI, написал в канале: «И Китай не спит. Движуха!»

Источники