Computer Use

Computer Use (CUA, computer-use agent) — мультимодальная LLM, которая видит экран (скриншот) и управляет мышью и клавиатурой, как человек. Работает через универсальный интерфейс «экран + мышь + клавиатура» без API приложения. Решает автоматизацию legacy-софта и кабинетов без программного доступа.

Суть

Цикл одного шага: восприятие → рассуждение → действие → новый скриншот.

  1. Perception — скриншот попадает в контекст как изображение (для веба — плюс accessibility tree / DOM).
  2. Reasoning — «где я, что вижу, какой следующий шаг, не кликал ли уже сюда».
  3. Action — модель возвращает click(x,y), type("…"), scroll, key("Enter"); система исполняет и делает новый скриншот.

Это не «OCR + скрипт»: одна сеть одновременно смотрит, думает и кликает.

Зачем это нужно

~60% корпоративного ПО — legacy без API (банкинг, госсектор, маркетплейсы, партнёрские кабинеты). Где UI часто меняется, детерминированные скрипты (Selenium/RPA) ломаются, а CUA адаптируется. Выбор режима: API (если есть и покрывает) → RPA (стабильный UI) → CUA (нестабильный UI / нет API, дороже по токенам).

Как работает (ландшафт 2026)

  • Claude Computer Use (Anthropic, beta с окт 2024) — из коробки логирует действия/скриншоты.
  • ChatGPT Operator → ChatGPT Agent + Atlas (OpenAI) — agent mode в чате + отдельное приложение, watch mode на чувствительных сайтах, встроенный детектор prompt injection.
  • UI-TARS (ByteDance, Apache 2.0) — нативная GUI-модель (не обёртка над GPT), база Qwen-2-VL + RL по trajectories, 50B токенов на GUI-скриншотах, размеры 2B/7B/72B; self-host без зависимости от вендора.
  • browser-use — Python-библиотека: Chromium через CDP, авто-экстракция DOM, маскирование sensitive-data, работает с любой LLM (Anthropic/Google/OpenAI/Ollama). На практике из ноутбука: Agent(task=…, llm=…, browser_context=…, use_vision=True) — демо доставал цену Bitcoin с coinmarketcap.
  • Бенчмарк OSWorld-Verified (2026): Claude Opus 4.6 — 72.7% (впервые выше human baseline ~72%); UI-TARS-1.5 — 42.5%; Operator — 36.4% (см. Benchmarks Agents).

Безопасность

Топ-риски: prompt injection (прямой и индиректный, угроза №1), Confused Deputy (агент с правами пользователя выполняет команды атакующего из интернета), data exfiltration, деструктивные действия (rm -rf), approval fatigue (жмёшь OK не читая). Защита: изоляция (Firecracker microVM / gVisor / hardened-контейнер), proxy с whitelist доменов, отдельные креды вне песочницы, явные tiers риска, HITL на high-risk (платежи, башкоманды, auth) — см. Guardrails.

Пример

Шаг computer-use через browser-use: use_vision=True подаёт скриншот в контекст модели, agent.run() крутит цикл «восприятие → рассуждение → действие».

async def agent_loop(llm, browser_context, query, initial_url=None):
    agent = Agent(
        task=query,
        llm=llm,
        browser_context=browser_context,
        use_vision=True,                 # скриншот страницы входит в контекст как изображение
        initial_actions=[{"open_tab": {"url": initial_url}}] if initial_url else None,
    )
    result = await agent.run()           # внутри: цикл скриншот -> рассуждение -> действие
    return result.final_result() if result else None

Связано с

  • AI Agent — CUA = агент, действующий в GUI вместо API
  • Guardrails — изоляция/HITL критичны именно для CUA
  • ReAct — цикл perceive→reason→act — это ReAct по скриншотам
  • Benchmarks Agents — OSWorld как мера CUA

Открытые вопросы

  • когда CUA окупается против поддержки RPA/Selenium (стоимость токенов vs хрупкость скриптов)
  • надёжность индиректной anti-injection защиты на реальных сайтах