Суть
Цикл одного шага: восприятие → рассуждение → действие → новый скриншот.
- Perception — скриншот попадает в контекст как изображение (для веба — плюс accessibility tree / DOM).
- Reasoning — «где я, что вижу, какой следующий шаг, не кликал ли уже сюда».
- Action — модель возвращает
click(x,y),type("…"),scroll,key("Enter"); система исполняет и делает новый скриншот.
Это не «OCR + скрипт»: одна сеть одновременно смотрит, думает и кликает.
Зачем это нужно
~60% корпоративного ПО — legacy без API (банкинг, госсектор, маркетплейсы, партнёрские кабинеты). Где UI часто меняется, детерминированные скрипты (Selenium/RPA) ломаются, а CUA адаптируется. Выбор режима: API (если есть и покрывает) → RPA (стабильный UI) → CUA (нестабильный UI / нет API, дороже по токенам).
Как работает (ландшафт 2026)
- Claude Computer Use (Anthropic, beta с окт 2024) — из коробки логирует действия/скриншоты.
- ChatGPT Operator → ChatGPT Agent + Atlas (OpenAI) — agent mode в чате + отдельное приложение, watch mode на чувствительных сайтах, встроенный детектор prompt injection.
- UI-TARS (ByteDance, Apache 2.0) — нативная GUI-модель (не обёртка над GPT), база Qwen-2-VL + RL по trajectories, 50B токенов на GUI-скриншотах, размеры 2B/7B/72B; self-host без зависимости от вендора.
- browser-use — Python-библиотека: Chromium через CDP, авто-экстракция DOM, маскирование sensitive-data, работает с любой LLM (Anthropic/Google/OpenAI/Ollama). На практике из ноутбука:
Agent(task=…, llm=…, browser_context=…, use_vision=True)— демо доставал цену Bitcoin с coinmarketcap. - Бенчмарк OSWorld-Verified (2026): Claude Opus 4.6 — 72.7% (впервые выше human baseline ~72%); UI-TARS-1.5 — 42.5%; Operator — 36.4% (см. Benchmarks Agents).
Безопасность
Топ-риски: prompt injection (прямой и индиректный, угроза №1), Confused Deputy (агент с правами пользователя выполняет команды атакующего из интернета), data exfiltration, деструктивные действия (rm -rf), approval fatigue (жмёшь OK не читая). Защита: изоляция (Firecracker microVM / gVisor / hardened-контейнер), proxy с whitelist доменов, отдельные креды вне песочницы, явные tiers риска, HITL на high-risk (платежи, башкоманды, auth) — см. Guardrails.
Пример
Шаг computer-use через browser-use: use_vision=True подаёт скриншот в контекст модели, agent.run() крутит цикл «восприятие → рассуждение → действие».
async def agent_loop(llm, browser_context, query, initial_url=None):
agent = Agent(
task=query,
llm=llm,
browser_context=browser_context,
use_vision=True, # скриншот страницы входит в контекст как изображение
initial_actions=[{"open_tab": {"url": initial_url}}] if initial_url else None,
)
result = await agent.run() # внутри: цикл скриншот -> рассуждение -> действие
return result.final_result() if result else None
Связано с
- AI Agent — CUA = агент, действующий в GUI вместо API
- Guardrails — изоляция/HITL критичны именно для CUA
- ReAct — цикл perceive→reason→act — это ReAct по скриншотам
- Benchmarks Agents — OSWorld как мера CUA
Открытые вопросы
- когда CUA окупается против поддержки RPA/Selenium (стоимость токенов vs хрупкость скриптов)
- надёжность индиректной anti-injection защиты на реальных сайтах