OpenAI franchit une nouvelle étape dans le domaine de l’intelligence artificielle avec le lancement d’Operator. C’est un agent capable d’utiliser un navigateur web pour exécuter des tâches à la place de l’utilisateur. Operator est actuellement en phase de recherche préliminaire. Il représente l’un des premiers agents d’OpenAI capables de travailler de manière autonome : l’utilisateur confie une tâche, et l’agent s’occupe du reste.Cette innovation ouvre des perspectives inédites en matière d’automatisation et d’interaction avec le web.


Comment fonctionne OpenAI Operator ?

Un nouveau modèle appelé Computer-Using Agent (CUA) propulse Operator. Ce modèle combine les capacités de vision de GPT-4o avec un raisonnement avancé par apprentissage par renforcement. CUA est spécifiquement entraîné pour interagir avec les interfaces utilisateur graphiques (GUI), c’est-à-dire les boutons, menus et champs de texte que l’on trouve sur un écran.


L’agent peut « voir » grâce à des captures d’écran et « interagir » en utilisant toutes les actions possibles avec une souris et un clavier. Cela lui permet d’agir sur le web sans avoir besoin d’intégrations API personnalisées. Grâce à cette capacité, il peut gérer une grande variété de tâches répétitives. Par exemple, il peut remplir des formulaires, commander des courses en ligne ou créer des mèmes. Si Operator rencontre des difficultés, il a la capacité de s’auto-corriger. Dans les cas où une intervention humaine est nécessaire, il peut également passer la main à l’utilisateur.


Les tâches qu’Operator peut accomplir

Les applications d’Operator sont nombreuses et variées. Parmi les exemples cités, on peut utiliser l’agent pour :


Operator est conçu pour simplifier l’expérience utilisateur en automatisant des tâches répétitives, permettant ainsi aux utilisateurs de gagner du temps. De plus, l’agent peut personnaliser les flux de travail grâce à des instructions spécifiques pour certains sites.


Un écosystème en pleine évolution

OpenAI ne compte pas s’arrêter là. L’entreprise travaille en partenariat avec des acteurs majeurs tels que DoorDash, Instacart et Uber. Ces collaborations visent à garantir qu’Operator soit en phase avec les besoins concrets du marché. En parallèle, l’objectif est de positionner Operator comme un élément clé de l’écosystème numérique. L’outil ambitionne à la fois de simplifier les tâches pour les utilisateurs et de créer de nouvelles opportunités pour les entreprises.


Par ailleurs, OpenAI explore les possibilités d’Operator pour rendre les services publics plus accessibles et efficaces. Cette initiative inclut une collaboration avec des organisations telles que la ville de Stockton. L’agent pourrait être utilisé pour simplifier des démarches administratives, notamment l’inscription à des services et programmes municipaux. À ce sujet, Jamil Niazi, directeur des technologies de l’information de la ville de Stockton, a souligné son potentiel pour faciliter ces processus.


Sécurité et confidentialité au cœur des préoccupations

La sécurité est une priorité absolue pour OpenAI. L’équipe a instauré plusieurs couches de sécurité afin de prévenir les abus. Ces dispositifs garantissent que l’utilisateur garde toujours le contrôle de ses données. Operator a été conçu pour solliciter l’intervention de l’utilisateur lorsqu’il s’agit de saisir des informations sensibles.


Cela inclut, par exemple, les identifiants de connexion ou les données de paiement. Dans ces situations, l’agent bascule en « mode de prise de contrôle ». Il ne collecte ni ne capture d’écran les informations saisies par l’utilisateur. De plus, Operator demande une approbation préalable avant de finaliser des actions importantes. Il est également conçu pour refuser certaines tâches sensibles grâce à son entraînement spécifique.


En termes de gestion des données, les utilisateurs ont la possibilité de désactiver l’option « Améliorer le modèle pour tout le monde » dans les paramètres de ChatGPT. Cela permet d’empêcher l’utilisation de leurs données Operator pour l’entraînement des modèles. Ils peuvent également supprimer toutes les données de navigation. En un seul clic, il est possible de se déconnecter de tous les sites.


OpenAI Operator : limitations et perspectives

Bien qu’Operator soit déjà capable de gérer une grande variété de tâches, il s’agit encore d’une version de recherche préliminaire. L’agent peut donc rencontrer des difficultés avec des interfaces complexes, telles que la création de diaporamas ou la gestion de calendriers. Les retours des utilisateurs joueront un rôle crucial dans l’amélioration de sa précision et de sa fiabilité.


OpenAI prévoit d’intégrer Operator dans l’API afin que les développeurs puissent créer leurs propres agents d’utilisation d’ordinateur. L’entreprise envisage d’améliorer la capacité d’Operator à gérer des flux de travail plus longs et plus complexes. Elle souhaite également rendre cet outil accessible à un plus grand nombre d’utilisateurs. Par ailleurs, l’intégration d’Operator à ChatGPT fait partie des projets à venir. Cette intégration sera envisagée lorsque la sécurité et l’utilisation à grande échelle de l’outil seront pleinement garanties.


En résumé, Operator marque une avancée significative dans le domaine de l’IA, avec un fort potentiel d’automatisation et de simplification de l’interaction avec le web. Bien qu’il soit encore en phase de développement, cet agent AI promet de transformer notre manière d’utiliser internet au quotidien.


Source et crédit photo : OpenAI