L’ère où l’intelligence artificielle se contentait d’analyser et de répondre est révolue. Aujourd’hui, une avancée majeure permet aux machines de franchir l’écran et d’agir concrètement dans l’environnement numérique de l’utilisateur. Google vient de dévoiler Gemini 2.5 Computer Use, un modèle spécialisé conçu pour alimenter des agents capables d’interagir directement avec les interfaces utilisateur (UI) graphiques, principalement dans les navigateurs web. Ce système repose sur les capacités de compréhension visuelle et de raisonnement de Gemini 2.5 Pro pour naviguer sur le web comme le ferait un humain.
Ce nouveau modèle Google donne à l’IA la capacité de cliquer, taper du texte, faire défiler une page ou remplir des formulaires, même sur des sites sans API structurée. Les développeurs peuvent désormais accéder à ces fonctionnalités, franchissant ainsi une étape majeure vers la création d’assistants numériques puissants et autonomes. Cette technologie renforce la fiabilité dans l’exécution de tâches complexes et intègre des garde-fous pour garantir la sécurité et la confiance des utilisateurs.
L’IA passe à l’action sur votre navigateur avec Gemini 2.5 Computer Use
Le modèle Gemini 2.5 Computer Use est conçu pour comprendre et interagir efficacement avec les navigateurs web. Il montre également un fort potentiel dans le contrôle d’interfaces mobiles. En revanche, il n’est pas encore destiné à agir directement sur les systèmes d’exploitation de bureau. Son fonctionnement repose sur un mécanisme ingénieux et itératif, appelé « boucle d’action ». Ainsi, il permet d’exécuter des tâches complexes de manière progressive et contrôlée.
Pour déterminer la prochaine étape, l’agent IA de Google reçoit plusieurs informations essentielles. Ces entrées incluent la requête de l’utilisateur, une capture d’écran de l’environnement actuel, et l’historique des actions récentes. Le modèle analyse ensuite ces données pour planifier le chemin à suivre. Il génère enfin une réponse, typiquement un appel de fonction qui représente l’action à exécuter (comme un clic de souris ou une saisie au clavier). Une fois l’action réalisée par le code côté client, une nouvelle capture d’écran est renvoyée au modèle, relançant ainsi le cycle jusqu’à ce que la tâche soit achevée.
Des performances qui redéfinissent les agents autonomes
Google revendique une supériorité notable de Gemini 2.5 Computer Use face aux systèmes concurrents sur plusieurs tests de référence pour le contrôle web et mobile. Le modèle surpasse notamment les alternatives d’OpenAI et d’Anthropic (Claude Sonnet 4 et 4.5). L’avantage principal réside dans une meilleure précision combinée à une latence réduite.
Ce nouveau modèle d’IA offre ainsi une qualité optimale pour le contrôle du navigateur, mesurée par les performances sur le harnais Browserbase pour Online-Mind2Web. Les résultats obtenus confirment que l’IA est désormais capable d’exécuter des tâches complexes avec un haut degré de fiabilité.
| Indicateur | Valeur | Contexte |
|---|---|---|
| Précision | > 70% | Tâches de contrôle d’interface web et mobile. |
| Latence | ~ 225 secondes | Temps moyen pour l’exécution d’une tâche. |
| Performance globale | Leader | Meilleure qualité pour le contrôle de navigateur avec la latence la plus faible. |
Sécurité et confiance : une approche conçue pour protéger l’utilisateur
La capacité de l’IA à interagir avec des systèmes informatiques soulève naturellement des préoccupations. Google a adopté une approche de « sécurité par conception » (safety by design), intégrant des mécanismes de protection directement au cœur du modèle. Le développement a été mené en partenariat avec des équipes de sécurité internes, alignées sur les Principes de l’IA de Google.
Ces précautions visent à répondre à trois catégories de risques majeurs inhérents aux agents IA qui contrôlent des ordinateurs :
- L’utilisation malveillante intentionnelle, comme les tentatives d’injection de prompt via des sites web adverses.
- Les modes de défaillance involontaires, où le modèle pourrait mal interpréter l’objectif de l’utilisateur ou la page web, entraînant une action incorrecte ou irréversible.
- La divulgation d’informations sensibles ou nuisibles, y compris la génération de contenu illégal ou discriminatoire.
Google fournit aux développeurs des contrôles de sécurité supplémentaires pour éviter les actions à haut risque. En plus, elle entraîne le modèle à demander une confirmation explicite de l’utilisateur avant d’exécuter toute action sensible. Ces actions incluent les transactions financières, l’accès à des données de santé ou l’envoi de communications au nom de l’utilisateur.
Gemini 2.5 Computer Use : vers une automatisation des tâches numérique intuitive
Les premiers déploiements de Gemini 2.5 Computer Use sont extrêmement encourageants. Les équipes internes de Google ont déjà mis le modèle en production pour des cas d’usage concrets. L’équipe de la plateforme de paiements, par exemple, utilise le modèle comme mécanisme de secours pour les tests d’interface utilisateur fragiles. Lorsque les scripts conventionnels échouent, le modèle évalue l’écran et détermine les actions nécessaires pour terminer le flux de travail. Cette mise en œuvre a permis de rétablir plus de 60 % des exécutions de tests qui demandaient auparavant plusieurs jours de correction manuelle.
Ce potentiel dépasse largement les tests logiciels. Les développeurs explorent déjà le modèle pour l’automatisation de flux de travail complexes et pour le développement d’assistants personnels. Ces assistants peuvent par exemple gérer l’organisation de notes virtuelles sur un tableau collaboratif. Ils peuvent aussi planifier des rendez-vous en remplissant des formulaires sur plusieurs sites distincts. Cette technologie marque l’arrivée d’une nouvelle génération d’outils digitaux où l’intelligence artificielle ne se contente plus de suggérer, mais d’accomplir les missions demandées avec une précision quasi humaine.
L’arrivée de ce modèle Gemini 2.5 Computer Use en préversion publique représente un tournant. L’utilisateur est désormais en mesure d’imaginer un futur où ses outils numériques seront capables d’agir concrètement pour simplifier son quotidien. La promesse est celle d’une interaction homme-machine plus fluide, réduisant la charge mentale des tâches répétitives ou fastidieuses en ligne.
Source et crédit photo : Google



Laisser un commentaire