Évaluation des agents IA : Strands Evals pour la préparation à la production

Une Expérience agit comme la suite de tests, orchestrant l'ensemble du processus d'évaluation. Elle rassemble plusieurs Cas et un ou plusieurs Évaluateurs configurés. Lors d'une exécution d'évaluation, l'Expérience prend chaque Cas, transmet son entrée à votre agent IA, collecte la réponse de l'agent et sa trace d'exécution, puis transmet ces résultats aux Évaluateurs assignés pour notation. Cette abstraction garantit que l'évaluation est systématique et reproductible sur un ensemble défini de scénarios.

Enfin, les Évaluateurs sont les juges de ce système. Ils examinent méticuleusement ce que votre agent a produit—sa sortie réelle et sa trajectoire opérationnelle—et les comparent à ce qui était attendu ou souhaité. Contrairement aux simples vérifications d'assertions, les évaluateurs de Strands Evals sont principalement basés sur les LLM. C'est une distinction critique ; en tirant parti des modèles linguistiques eux-mêmes pour agir comme juges, les évaluateurs peuvent rendre des jugements sophistiqués et nuancés sur des qualités telles que la pertinence, l'utilité, la cohérence et la fidélité—des attributs impossibles à évaluer avec précision par de simples comparaisons de chaînes de caractères. Cette capacité de jugement flexible mais rigoureuse est essentielle pour évaluer efficacement les agents IA pour la production.

La Fonction de Tâche : Pont entre l'Exécution de l'Agent et l'Évaluation

Pour intégrer votre agent IA au cadre Strands Evals, un composant crucial appelé la Fonction de Tâche est employé. Cette fonction appelable sert de pont, recevant un objet Case et renvoyant les résultats de l'exécution de ce cas spécifique via votre système d'agent. Cette interface est très flexible, supportant deux modèles d'évaluation fondamentalement différents : en ligne et hors ligne. Pour plus d'informations sur la préparation des agents IA au déploiement pratique, explorez Opérationnaliser l'IA Agentique Partie 1 : Guide du Responsable.

L'évaluation en ligne implique l'invocation de votre agent IA en temps réel pendant l'exécution de l'évaluation. La Fonction de Tâche crée dynamiquement une instance d'agent, envoie l'entrée du cas, capture la réponse en direct de l'agent et enregistre sa trace d'exécution. Ce modèle est inestimable pendant la phase de développement, fournissant un retour immédiat sur les changements, et est essentiel pour les pipelines d'intégration continue et de livraison (CI/CD) où le comportement de l'agent doit être vérifié avant le déploiement. Il garantit que la performance de l'agent est évaluée dans son état opérationnel réel.

from strands import Agent

def online_task(case):
    agent = Agent(tools=[search_tool, calculator_tool])
    result = agent(case.input)

    return {
        "output": str(result),
        "trajectory": agent.session
    }

Inversement, l'évaluation hors ligne opère avec des données historiques. Au lieu d'initialiser un agent en direct, la Fonction de Tâche récupère les traces d'interaction précédemment enregistrées à partir de sources telles que des journaux, des bases de données ou des systèmes d'observabilité. Elle analyse ensuite ces traces historiques pour les transformer au format attendu par les évaluateurs, permettant ainsi leur jugement. Cette approche est très efficace pour évaluer le trafic de production, effectuer des analyses de performance historiques, ou comparer différentes versions d'agents par rapport à un ensemble cohérent d'interactions utilisateur réelles sans encourir le coût computationnel de la réexécution de l'agent en direct. Elle est particulièrement utile pour l'analyse rétrospective et les évaluations de jeux de données à grande échelle.

def offline_task(case):
    trace = load_trace_from_database(case.session_id)
    session = session_mapper.map_to_session(trace)

    return {
        "output": extract_final_response(trace),
        "trajectory": session
    }

Que vous testiez un agent nouvellement implémenté ou que vous examiniez des mois de données de production, les mêmes évaluateurs puissants et l'infrastructure de rapport robuste au sein de Strands Evals sont applicables. La Fonction de Tâche abstraite la source de données, l'adaptant de manière transparente au système d'évaluation, fournissant ainsi des informations cohérentes et complètes sur les performances de l'agent. L'intégration d'une évaluation aussi robuste est essentielle pour les flux de travail de codage agentiques avancés, similaires à ceux abordés dans Codage Agentique Xcode.

Évaluer la Qualité de l'Agent avec les Évaluateurs Intégrés

Avec la Fonction de Tâche canalisant efficacement la sortie de l'agent vers le système d'évaluation, l'étape cruciale suivante consiste à déterminer quels aspects de la qualité de l'agent mesurer. Strands Evals est conçu pour offrir une évaluation complète, et à ce titre, il fournit une suite d'évaluateurs intégrés. Chacun d'entre eux est spécifiquement conçu pour cibler et évaluer différentes dimensions de la performance de l'agent IA et de la qualité de sa sortie.

Le cadre comprend que la qualité d'un agent est multifacette. Il ne suffit pas qu'un agent produise simplement du texte ; ce texte doit être utile, pertinent, cohérent et fidèle à son contexte ou à son matériel source. Les métriques traditionnelles ne parviennent souvent pas à capturer ces attributs subjectifs mais critiques. C'est précisément là que la puissance des évaluateurs basés sur les LLM, mentionnés précédemment, devient indispensable. En tirant parti des grands modèles linguistiques eux-mêmes pour agir comme juges, Strands Evals peut effectuer des évaluations qualitatives sophistiquées. Ces LLM peuvent analyser la réponse d'un agent pour son utilité globale pour l'utilisateur, son flux logique, son adhésion à des faits ou des instructions spécifiés, et sa capacité à maintenir la cohérence tout au long d'une conversation. Ce jugement intelligent et nuancé permet aux développeurs de dépasser la simple correspondance de mots-clés et de comprendre véritablement l'efficacité et la fiabilité de leurs agents IA dans des scénarios du monde réel.

Conclusion : Assurer la Préparation à la Production des Agents IA avec Strands Evals

Faire passer les agents IA de la conceptualisation à un déploiement en production fiable exige une stratégie d'évaluation sophistiquée qui transcende les limites des tests logiciels traditionnels. Strands Evals offre précisément cela : un cadre pratique et structuré qui reconnaît le non-déterminisme inhérent et la nature adaptative complexe des agents IA. En définissant clairement l'évaluation via les Cas, en l'orchestrant via les Expériences, et en appliquant des Évaluateurs nuancés — en particulier ceux alimentés par les LLM pour le jugement qualitatif — Strands Evals permet aux développeurs d'évaluer systématiquement les performances.

La polyvalence de sa Fonction de Tâche, supportant à la fois l'évaluation en ligne en temps réel pour un développement rapide et l'analyse hors ligne des données historiques, solidifie davantage son utilité tout au long du cycle de vie de l'agent. Cette approche complète garantit que les agents IA sont non seulement fonctionnels, mais aussi utiles, cohérents et robustes, offrant la confiance nécessaire à leur intégration réussie dans des environnements de production critiques. L'adoption de cadres comme Strands Evals est essentielle pour quiconque souhaite sérieusement construire, déployer et maintenir des agents IA de haute qualité, prêts pour la production, dans le paysage technologique en évolution rapide d'aujourd'hui.

Source originale

https://aws.amazon.com/blogs/machine-learning/evaluating-ai-agents-for-production-a-practical-guide-to-strands-evals/

Questions Fréquentes

What fundamental challenge do AI agents pose for traditional software testing methodologies?

AI agents, by their inherent nature, are flexible, adaptive, and highly context-aware, making their outputs non-deterministic. Unlike traditional software where the same input reliably yields the same expected output, AI agents generate natural language responses and make decisions that can vary even with identical inputs. This variability means that conventional assertion-based testing, which relies on precise, predictable outcomes, is inadequate. Agents' ability to use tools, retrieve information, and engage in multi-turn conversations further complicates evaluation, requiring a shift from simple keyword comparisons to nuanced, judgment-based assessments that can handle the fluidity and creativity of AI-driven interactions. This necessitates specialized frameworks like Strands Evals to systematically gauge quality dimensions beyond strict determinism.

How does Strands Evals address the non-deterministic nature of AI agent outputs?

Strands Evals tackles the non-deterministic challenge by introducing a framework centered on judgment-based evaluation, primarily leveraging large language models (LLMs) as evaluators. Instead of relying on strict assertion checks, LLM-based evaluators can make nuanced assessments of qualitative aspects such as helpfulness, coherence, relevance, and faithfulness of agent responses. The framework organizes evaluation into Cases (individual scenarios), Experiments (collections of cases and evaluators), and Evaluators (the judging mechanism), allowing for systematic yet flexible assessment. This approach moves beyond simple string comparisons to understand the subjective quality of agent interactions, ensuring that even varied but valid outputs are correctly recognized as successful.

Explain the core concepts of Strands Evals: Cases, Experiments, and Evaluators.

Strands Evals builds upon three foundational concepts to enable systematic AI agent evaluation. A **Case** serves as the atomic unit of testing, defining a single test scenario. It includes the user input (e.g., a query), optional expected outputs, anticipated tool usage sequences (trajectories), and relevant metadata. An **Experiment** functions as a test suite, bundling multiple Cases together with one or more Evaluators. It orchestrates the entire evaluation process, running the agent against each Case and applying the configured Evaluators. Finally, **Evaluators** act as the 'judges,' assessing the agent's actual output and trajectory against the expectations. Crucially, Strands Evals primarily uses LLM-based Evaluators to make qualitative judgments on attributes like helpfulness and coherence, which are difficult to quantify with traditional assertion methods, providing a flexible yet rigorous assessment.

What is the purpose of the Task Function in Strands Evals, and how do online and offline evaluation differ?

The Task Function in Strands Evals is a critical callable component that bridges your AI agent's execution environment with the evaluation system. Its purpose is to receive a Case (a test scenario) and return the agent's results (output and execution trace) in a format suitable for evaluation. This function enables two distinct patterns: **Online Evaluation** involves invoking your agent live during the evaluation run. Here, the Task Function creates an agent, feeds it the case input, and captures its real-time response and execution trace. This is ideal for development, testing immediate changes, or integrating into CI/CD pipelines. In contrast, **Offline Evaluation** works with historical data. The Task Function retrieves previously recorded agent traces from logs or databases, parsing them into the expected format. This is highly effective for analyzing production traffic, performing historical performance analysis, or comparing different agent versions against consistent real-world interactions, offering flexibility without requiring live agent invocation.

Why are LLM-based evaluators crucial for assessing AI agents effectively?

LLM-based evaluators are crucial because they overcome the limitations of traditional, assertion-based testing when assessing AI agents. Agents often produce natural language outputs and make context-dependent decisions, meaning there isn't always one single 'correct' answer that can be checked with a simple string comparison. LLM-based evaluators, leveraging their understanding of language and context, can make nuanced judgments about subjective qualities such as a response's helpfulness, coherence, relevance, or faithfulness to source material. They can discern whether an agent's varied but valid output still meets user goals or maintains context across multi-turn conversations. This capability is essential for systematically measuring the qualitative dimensions of agent performance that are vital for real-world utility and user satisfaction, ensuring agents are not only factually accurate but also user-friendly and effective.

Restez informé

Recevez les dernières actualités IA dans votre boîte mail.