Avaluació d'agents d'IA: Strands Evals per a la preparació per a la producció

Un Experiment actua com la suite de proves, orquestrant tot el procés d'avaluació. Reuneix múltiples Casos i un o més Avaluadors configurats. Durant una execució d'avaluació, l'Experiment pren cada Cas, alimenta la seva entrada al teu agent d'IA, recull la resposta de l'agent i la traça d'execució, i després passa aquests resultats als Avaluadors assignats per a la puntuació. Aquesta abstracció assegura que l'avaluació sigui sistemàtica i repetible en un conjunt definit d'escenaris.

Finalment, els Avaluadors són els jutges d'aquest sistema. Examinen meticulosament el que ha produït el teu agent —la seva sortida real i la seva trajectòria operativa— i ho comparen amb el que s'esperava o desitjava. A diferència de les simples comprovacions d'assertions, els avaluadors de Strands Evals són predominantment basats en LLM. Aquesta és una distinció crítica; aprofitant els models de llenguatge, els avaluadors poden fer judicis sofisticats i matisats sobre qualitats com la rellevància, la utilitat, la coherència i la fidelitat —atributs que són impossibles d'avaluar amb precisió amb simples comparacions de cadenes. Aquesta capacitat de judici flexible però rigorosa és fonamental per avaluar eficaçment els agents d'IA per a la producció.

La Funció de Tasca: Connectant l'execució de l'agent i l'avaluació

Per integrar el teu agent d'IA amb el marc Strands Evals, s'utilitza un component crucial conegut com la Funció de Tasca. Aquesta funció invocable serveix de pont, rebent un objecte Case i retornant els resultats de l'execució d'aquest cas específic a través del teu sistema d'agents. Aquesta interfície és altament flexible, admetent dos patrons d'avaluació fonamentalment diferents: en línia i fora de línia. Per obtenir més informació sobre com preparar agents d'IA per a una implementació pràctica, explora Operacionalització de la IA agentiva Part 1: Una guia per a les parts interessades.

L'avaluació en línia implica invocar el teu agent d'IA en temps real durant l'execució de l'avaluació. La Funció de Tasca crea dinàmicament una instància d'agent, envia l'entrada del cas, captura la resposta en viu de l'agent i registra la seva traça d'execució. Aquest patró és inestimable durant la fase de desenvolupament, proporcionant retroalimentació immediata sobre els canvis, i és essencial per a les pipelines d'integració i lliurament continu (CI/CD) on el comportament de l'agent ha de ser verificat abans de la implementació. Assegura que el rendiment de l'agent s'avalua en el seu estat operatiu real.

from strands import Agent

def online_task(case):
    agent = Agent(tools=[search_tool, calculator_tool])
    result = agent(case.input)

    return {
        "output": str(result),
        "trajectory": agent.session
    }

Per contra, l'avaluació fora de línia funciona amb dades històriques. En lloc d'iniciar un agent en viu, la Funció de Tasca recupera traces d'interacció enregistrades prèviament de fonts com ara registres, bases de dades o sistemes d'observabilitat. Després, analitza aquestes traces històriques al format esperat pels avaluadors, permetent el seu judici. Aquest enfocament és molt eficaç per avaluar el trànsit de producció, realitzar anàlisis de rendiment històric o comparar diferents versions d'agents amb un conjunt consistent d'interaccions d'usuaris reals sense incórrer en el cost computacional de tornar a executar l'agent en viu. És particularment útil per a l'anàlisi retrospectiva i les avaluacions de grans conjunts de dades.

def offline_task(case):
    trace = load_trace_from_database(case.session_id)
    session = session_mapper.map_to_session(trace)

    return {
        "output": extract_final_response(trace),
        "trajectory": session
    }

Independentment de si estàs provant un agent recentment implementat o analitzant mesos de dades de producció, els mateixos avaluadors potents i la infraestructura d'informes robusta dins de Strands Evals són aplicables. La Funció de Tasca abstraeix la font de dades, adaptant-la perfectament al sistema d'avaluació, proporcionant així informació coherent i completa sobre el rendiment de l'agent. La integració d'una avaluació tan robusta és clau per als fluxos de treball avançats de codificació agentiva, similars als discutits a Codificació agentiva d'Xcode.

Avaluació de la qualitat de l'agent amb avaluadors integrats

Amb la Funció de Tasca canalitzant eficaçment la sortida de l'agent al sistema d'avaluació, el següent pas crucial és determinar quins aspectes de la qualitat de l'agent cal mesurar. Strands Evals està dissenyat per oferir una avaluació completa, i com a tal, proporciona un conjunt d'avaluadors integrats. Cadascun d'ells està dissenyat específicament per objectivar i avaluar diferents dimensions del rendiment i la qualitat de la sortida d'un agent d'IA.

El marc entén que la qualitat de l'agent és multifacètica. No n'hi ha prou que un agent només produeixi text; aquest text ha de ser útil, rellevant, coherent i fidel al seu context o material font. Les mètriques tradicionals sovint no capturen aquests atributs subjectius però crítics. Aquí és precisament on el poder dels avaluadors basats en LLM, esmentats anteriorment, esdevé indispensable. Aprofitant els mateixos models de llenguatge grans per actuar com a jutges, Strands Evals pot realitzar avaluacions qualitatives sofisticades. Aquests LLM poden analitzar la resposta d'un agent per a la seva utilitat general per a l'usuari, el seu flux lògic, la seva adherència a fets o instruccions especificades i la seva capacitat de mantenir la coherència en una conversa. Aquest judici intel·ligent i matisat permet als desenvolupadors anar més enllà de la simple concordança de paraules clau i comprendre realment l'eficàcia i la fiabilitat dels seus agents d'IA en escenaris del món real.

Conclusió: Assegurant agents d'IA preparats per a la producció amb Strands Evals

Moure els agents d'IA de la conceptualització a la implementació fiable en producció exigeix una estratègia d'avaluació sofisticada que transcendeixi les limitacions de les proves de programari tradicionals. Strands Evals ofereix precisament això: un marc pràctic i estructurat que reconeix la no-determinació inherent i la complexa naturalesa adaptativa dels agents d'IA. En definir clarament l'avaluació mitjançant Casos, orquestrant-la a través d'Experiments, i aplicant Avaluadors matisats —especialment aquells impulsats per LLM per a un judici qualitatiu— Strands Evals permet als desenvolupadors avaluar sistemàticament el rendiment.

La versatilitat de la seva Funció de Tasca, que admet tant l'avaluació en línia en temps real per al desenvolupament ràpid com l'anàlisi fora de línia de dades històriques, solidifica encara més la seva utilitat en tot el cicle de vida de l'agent. Aquest enfocament integral garanteix que els agents d'IA no només siguin funcionals sinó també útils, coherents i robustos, proporcionant la confiança necessària per a la seva integració exitosa en entorns de producció crítics. L'adopció de marcs com Strands Evals és essencial per a qualsevol persona que es prengui seriosament la construcció, implementació i manteniment d'agents d'IA d'alta qualitat i preparats per a la producció en el panorama tecnològic actual, que evoluciona ràpidament.

Font original

https://aws.amazon.com/blogs/machine-learning/evaluating-ai-agents-for-production-a-practical-guide-to-strands-evals/

Preguntes freqüents

What fundamental challenge do AI agents pose for traditional software testing methodologies?

AI agents, by their inherent nature, are flexible, adaptive, and highly context-aware, making their outputs non-deterministic. Unlike traditional software where the same input reliably yields the same expected output, AI agents generate natural language responses and make decisions that can vary even with identical inputs. This variability means that conventional assertion-based testing, which relies on precise, predictable outcomes, is inadequate. Agents' ability to use tools, retrieve information, and engage in multi-turn conversations further complicates evaluation, requiring a shift from simple keyword comparisons to nuanced, judgment-based assessments that can handle the fluidity and creativity of AI-driven interactions. This necessitates specialized frameworks like Strands Evals to systematically gauge quality dimensions beyond strict determinism.

How does Strands Evals address the non-deterministic nature of AI agent outputs?

Strands Evals tackles the non-deterministic challenge by introducing a framework centered on judgment-based evaluation, primarily leveraging large language models (LLMs) as evaluators. Instead of relying on strict assertion checks, LLM-based evaluators can make nuanced assessments of qualitative aspects such as helpfulness, coherence, relevance, and faithfulness of agent responses. The framework organizes evaluation into Cases (individual scenarios), Experiments (collections of cases and evaluators), and Evaluators (the judging mechanism), allowing for systematic yet flexible assessment. This approach moves beyond simple string comparisons to understand the subjective quality of agent interactions, ensuring that even varied but valid outputs are correctly recognized as successful.

Explain the core concepts of Strands Evals: Cases, Experiments, and Evaluators.

Strands Evals builds upon three foundational concepts to enable systematic AI agent evaluation. A **Case** serves as the atomic unit of testing, defining a single test scenario. It includes the user input (e.g., a query), optional expected outputs, anticipated tool usage sequences (trajectories), and relevant metadata. An **Experiment** functions as a test suite, bundling multiple Cases together with one or more Evaluators. It orchestrates the entire evaluation process, running the agent against each Case and applying the configured Evaluators. Finally, **Evaluators** act as the 'judges,' assessing the agent's actual output and trajectory against the expectations. Crucially, Strands Evals primarily uses LLM-based Evaluators to make qualitative judgments on attributes like helpfulness and coherence, which are difficult to quantify with traditional assertion methods, providing a flexible yet rigorous assessment.

What is the purpose of the Task Function in Strands Evals, and how do online and offline evaluation differ?

The Task Function in Strands Evals is a critical callable component that bridges your AI agent's execution environment with the evaluation system. Its purpose is to receive a Case (a test scenario) and return the agent's results (output and execution trace) in a format suitable for evaluation. This function enables two distinct patterns: **Online Evaluation** involves invoking your agent live during the evaluation run. Here, the Task Function creates an agent, feeds it the case input, and captures its real-time response and execution trace. This is ideal for development, testing immediate changes, or integrating into CI/CD pipelines. In contrast, **Offline Evaluation** works with historical data. The Task Function retrieves previously recorded agent traces from logs or databases, parsing them into the expected format. This is highly effective for analyzing production traffic, performing historical performance analysis, or comparing different agent versions against consistent real-world interactions, offering flexibility without requiring live agent invocation.

Why are LLM-based evaluators crucial for assessing AI agents effectively?

LLM-based evaluators are crucial because they overcome the limitations of traditional, assertion-based testing when assessing AI agents. Agents often produce natural language outputs and make context-dependent decisions, meaning there isn't always one single 'correct' answer that can be checked with a simple string comparison. LLM-based evaluators, leveraging their understanding of language and context, can make nuanced judgments about subjective qualities such as a response's helpfulness, coherence, relevance, or faithfulness to source material. They can discern whether an agent's varied but valid output still meets user goals or maintains context across multi-turn conversations. This capability is essential for systematically measuring the qualitative dimensions of agent performance that are vital for real-world utility and user satisfaction, ensuring agents are not only factually accurate but also user-friendly and effective.

Manteniu-vos al dia

Rebeu les últimes notícies d'IA al correu.