OpenAI lança Operator, um agente de IA que realiza tarefas de forma autônoma

Pontos principais:

A OpenAI lançou o Operator, um agente de IA que realiza tarefas de forma autônoma.
O Operator pode automatizar tarefas como reservas de viagens e compras online.
O agente usa um modelo CUA que combina visão e raciocínio para interagir com sites.
A OpenAI colabora com empresas para garantir que o Operator respeite os termos de serviço.
O Operator tem limitações e requer supervisão para tarefas sensíveis, como transações bancárias.

O CEO da OpenAI, Sam Altman, iniciou este ano afirmando em uma postagem de blog que 2025 seria grande para agentes de IA, ferramentas que podem automatizar tarefas e realizar ações em seu nome. Agora, estamos vendo a primeira tentativa real da OpenAI.

A OpenAI anunciou na quinta-feira que está lançando uma prévia de pesquisa do Operator, um agente de IA de propósito geral que pode assumir o controle de um navegador da web e realizar certas ações de forma independente. O Operator estará disponível primeiro para usuários dos EUA no plano de assinatura ChatGPT de US$ 200. A OpenAI planeja disponibilizar esse recurso para mais usuários em suas camadas Plus, Team e Enterprise eventualmente.

“[Operator] estará em outros países em breve”, disse o CEO da OpenAI, Sam Altman, durante uma transmissão ao vivo na quinta-feira. “A Europa, infelizmente, levará um tempo.”

Essa prévia de pesquisa inicial está disponível através do operator.chatgpt.com, mas a OpenAI afirma que deseja integrar o Operator em todos os seus clientes ChatGPT em breve.

O Operator promete automatizar tarefas como reservas de acomodações de viagem, reservas em restaurantes e compras online, de acordo com a OpenAI. Existem várias categorias de tarefas que os usuários podem escolher dentro da interface do Operator, incluindo compras, entrega, refeições e viagens, todas permitindo diferentes tipos de automação.

Quando os usuários do ChatGPT ativam o Operator, uma pequena janela aparecerá mostrando um navegador da web dedicado que o agente usa para concluir tarefas, junto com explicações de ações específicas que o agente está realizando. Os usuários ainda podem controlar sua tela enquanto o Operator está trabalhando, pois o Operator usa seu próprio navegador dedicado.

A OpenAI afirma que o Operator é alimentado por um modelo de Agente que Usa Computador (CUA), que combina as capacidades de visão do modelo GPT-4 da empresa com capacidades de raciocínio de seus modelos mais avançados. O CUA é treinado para interagir com a interface front-end de sites, o que significa que não precisa usar APIs voltadas para desenvolvedores para acessar diferentes serviços.

Em outras palavras, o CUA pode usar botões, navegar em menus e preencher formulários em uma página da web, muito parecido com um humano.

A OpenAI afirma que está colaborando com empresas como DoorDash, eBay, Instacart, Priceline, StubHub e Uber para garantir que o Operator respeite os termos de serviço dessas empresas.

“O modelo CUA é treinado para pedir confirmação do usuário antes de finalizar tarefas com efeitos externos, por exemplo, antes de enviar um pedido, enviar um e-mail, etc., para que o usuário possa verificar o trabalho do modelo antes que se torne permanente”, escreve a OpenAI em materiais fornecidos ao TechCrunch. “[Ele] já provou ser útil em uma variedade de casos, e pretendemos estender essa confiabilidade em uma gama mais ampla de tarefas.”

Mas a OpenAI adverte que o CUA não é perfeito. A empresa afirma que não espera que o CUA realize tarefas de forma confiável em todos os cenários ainda.

“Atualmente, o Operator não consegue lidar de forma confiável com muitas tarefas complexas ou especializadas”, acrescenta a OpenAI em um documento de suporte, “como criar apresentações de slides detalhadas, gerenciar sistemas de calendário intrincados ou interagir com interfaces da web altamente personalizadas ou não padronizadas.”

Por precaução, a OpenAI também exige supervisão para algumas tarefas, como transações bancárias, que o CUA e o Operator poderiam realizar principalmente por conta própria. Os usuários precisarão intervir para inserir informações de cartão de crédito, por exemplo. A OpenAI afirma que o Operator não coleta nem captura nenhum dado.

“Em sites particularmente sensíveis, como e-mail, o Operator requer supervisão ativa do usuário, garantindo que os usuários possam detectar e corrigir diretamente quaisquer erros potenciais que o modelo possa cometer”, afirma a OpenAI em seus materiais de suporte.

Isso limita a utilidade do Operator, com certeza, mas também garante que o agente não faça algo imprudente, como gastar o pagamento da sua hipoteca em cadeiras caras. A Google adotou uma abordagem semelhante com seu agente de IA Project Magi, que também não preenche informações como números de cartão de crédito.

Limitações

O Operator tem algumas limitações que valem a pena mencionar.

Existem limites de taxa, tanto diários quanto dependentes da tarefa. A OpenAI afirma que o Operator pode realizar várias tarefas ao mesmo tempo, mas que existem “limites dinâmicos” para isso. Também existe um limite de uso geral que é redefinido diariamente.

Neste estágio de lançamento, o Operator também se recusará a realizar tarefas diretamente por motivos de segurança, como enviar e-mails (apesar de o CUA ser capaz disso) e excluir eventos de calendário. A OpenAI afirma que isso mudará no futuro, mas não fornece um prazo.

O Operator também pode “travar” se encontrar uma interface particularmente complexa, um campo de senha ou uma verificação CAPTCHA. Ele pedirá ao usuário que assuma o controle quando isso ocorrer, afirma a OpenAI.

Um futuro agente

A OpenAI tem sido bastante lenta para desenvolver um agente de IA em comparação com os concorrentes (veja: agentes da Rabbit, Google e Anthropic), o que pode ter algo a ver com os riscos de segurança em torno da tecnologia.

Quando um sistema de IA pode realizar ações na web, isso abre a porta para casos de uso muito mais perigosos por parte de atores maliciosos. Você poderia automatizar agentes de IA para orquestrar golpes de phishing ou ataques DDoS, ou fazer com que eles comprem ingressos para um show antes de qualquer outra pessoa. Especialmente para uma ferramenta tão amplamente utilizada quanto o ChatGPT, é importante que a OpenAI tome medidas para evitar esses tipos de explorações.

A OpenAI parece achar que o Operator é seguro o suficiente para ser lançado em sua forma atual, pelo menos como uma prévia de pesquisa.

“O Operator emprega ferramentas que buscam limitar a suscetibilidade do modelo a prompts maliciosos, instruções ocultas e tentativas de phishing”, explica a OpenAI em seu site. “Um sistema de monitoramento pausa a execução se uma atividade suspeita for detectada, enquanto pipelines automatizados e revisados por humanos atualizam continuamente os mecanismos de segurança.”

O Operator é a tentativa mais ousada da OpenAI até agora de criar um agente de IA. Na semana passada, a OpenAI lançou Tasks, dando ao ChatGPT recursos simples de automação, como a capacidade de definir lembretes e agendar prompts para serem executados em um horário definido todos os dias.

Tasks deu aos usuários do ChatGPT algumas funcionalidades familiares, mas necessárias, para tornar o ChatGPT tão prático de usar quanto Siri ou Alexa. No entanto, o Operator exibe capacidades que a geração anterior de assistentes virtuais nunca poderia realizar.

Os agentes de IA têm sido apontados como a próxima grande novidade na IA após o ChatGPT: uma nova tecnologia que mudará a forma como as pessoas usam a internet e seus PCs. Em vez de apenas entregar e processar informações, os agentes podem, em teoria, realizar ações e realmente fazer coisas.

Com o lançamento da primeira tentativa concreta da OpenAI com agentes, logo ficará claro o quão realista é essa visão.

Fonte: TechCrunch