AI ایجنٹ کی جانچ: پروڈکشن کی تیاری کے لیے Strands Evals

پیراڈائم شفٹ: پروڈکشن کے لیے AI ایجنٹوں کی جانچ

جیسے جیسے مصنوعی ذہانت کے ایجنٹ تجرباتی پروٹو ٹائپ سے پروڈکشن سسٹم میں اہم اجزاء کی طرف بڑھ رہے ہیں، ایک بنیادی چیلنج ابھرتا ہے: ہم ان کی کارکردگی کا قابل بھروسہ طریقے سے کیسے اندازہ لگاتے ہیں اور حقیقی دنیا کی تعیناتی کے لیے ان کی تیاری کو کیسے یقینی بناتے ہیں؟ روایتی سافٹ ویئر ٹیسٹنگ کے طریقے، جو حتمی ان پٹ سے حتمی آؤٹ پٹ حاصل کرنے کے مفروضے پر مبنی ہیں، AI ایجنٹوں کی متحرک، مطابقت پذیر، اور سیاق و سباق سے واقف نوعیت کے سامنے ناکام ہو جاتے ہیں۔ یہ جدید سسٹم قدرتی زبان پیدا کرنے، پیچیدہ فیصلے کرنے، اور یہاں تک کہ سیکھنے کے لیے ڈیزائن کیے گئے ہیں، جس کے نتیجے میں ایک جیسے ان پٹ سے بھی مختلف آؤٹ پٹ ملتے ہیں۔ یہ موروثی لچک، اگرچہ طاقتور ہے، منظم کوالٹی اشورنس کو ایک مشکل کام بنا دیتی ہے۔

ایک مضبوط اور مطابقت پذیر جانچ کے فریم ورک کی ضرورت بہت اہم ہے۔ اس کو تسلیم کرتے ہوئے، ڈویلپرز اور محققین خصوصی ٹولز کی طرف رجوع کر رہے ہیں جو AI ایجنٹوں کی غیر حتمی خصوصیات کو قبول کر سکیں اور پھر بھی سخت، دہرائے جانے والے جائزے فراہم کر سکیں۔ ایسا ہی ایک طاقتور حل Strands Evals ہے، جو AI ایجنٹوں کی منظم جانچ کو سہولت فراہم کرنے کے لیے ڈیزائن کیا گیا ایک منظم فریم ورک ہے، خاص طور پر وہ جو Strands Agents SDK کے ساتھ بنائے گئے ہیں۔ یہ جامع ٹولز فراہم کرتا ہے، بشمول خصوصی جانچ کار، کثیر موڑ کی نقل کرنے کی صلاحیتیں، اور تفصیلی رپورٹنگ، جو ٹیموں کو اپنے AI ایجنٹوں کو اعتماد کے ساتھ پروڈکشن میں منتقل کرنے کے قابل بناتی ہے۔

روایتی ٹیسٹنگ مطابقت پذیر AI ایجنٹوں کے لیے کیوں ناکافی ہے

AI ایجنٹوں کی جانچ میں بنیادی چیلنج ان کے ڈیزائن سے ہی پیدا ہوتا ہے۔ ایک عام API کے برعکس جو ایک درست ڈیٹا ڈھانچہ واپس کرتا ہے، ایک AI ایجنٹ کا استفسار کا جواب جیسے "ٹوکیو میں موسم کیسا ہے؟" جائز طور پر کافی مختلف ہو سکتا ہے۔ یہ سیلسیس یا فارن ہائیٹ میں درجہ حرارت کی اطلاع دے سکتا ہے، نمی اور ہوا شامل کر سکتا ہے، یا شاید صرف درجہ حرارت پر توجہ مرکوز کر سکتا ہے۔ یہ تمام تغیرات سیاق و سباق اور صارف کی ترجیح کے لحاظ سے درست اور مددگار سمجھے جا سکتے ہیں۔ روایتی تصدیق پر مبنی ٹیسٹنگ، جو پہلے سے طے شدہ آؤٹ پٹ سے قطعی مماثلت کا مطالبہ کرتی ہے، درست جوابات کی اس رینج کو محض شمار نہیں کر سکتی۔

محض ٹیکسٹ جنریشن سے ہٹ کر، AI ایجنٹ کارروائی کرنے کے لیے ڈیزائن کیے گئے ہیں۔ وہ بات چیت کے دوران اوزار استعمال کرتے ہیں، معلومات بازیافت کرتے ہیں، اور پیچیدہ فیصلے کرتے ہیں۔ صرف حتمی آؤٹ پٹ کا جائزہ لینے سے ایجنٹ کی اندرونی reasoning اور نفاذ کے راستے کے اہم پہلو غائب ہو جاتے ہیں۔ کیا صحیح ٹول استعمال کیا گیا تھا؟ کیا معلومات درست طریقے سے بازیافت کی گئی تھی؟ کیا ایجنٹ نے اپنے مقصد کو حاصل کرنے کے لیے ایک مناسب راستہ اختیار کیا؟ یہ وہ سوالات ہیں جن کا روایتی ٹیسٹنگ جواب دینے میں مشکلات کا شکار ہے۔

مزید برآں، ایجنٹ کے تعاملات اکثر گفتگو پر مبنی اور کثیر موڑ والے ہوتے ہیں۔ ایک ایجنٹ انفرادی استفسارات کو بے عیب طریقے سے ہینڈل کر سکتا ہے لیکن طویل مکالمے میں سیاق و سباق یا ہم آہنگی برقرار رکھنے میں ناکام ہو سکتا ہے۔ پہلے کے جوابات بعد والوں کو متاثر کرتے ہیں، جس سے پیچیدہ تعامل کے نمونے بنتے ہیں جنہیں واحد موڑ، الگ تھلگ ٹیسٹ کیپچر نہیں کر سکتے۔ ایک جواب حقائق کے لحاظ سے درست ہو سکتا ہے لیکن غیر مددگار، یا مددگار لیکن اپنے ماخذ کے لیے غیر وفادار۔ کوئی بھی ایک پیمانہ معیار کے ان کثیر جہتی ابعاد کو شامل نہیں کر سکتا۔ یہ خصوصیات جانچ کے ایسے نقطہ نظر کی ضرورت کو واضح کرتی ہیں جو سخت، میکانیکی جانچ کے بجائے فیصلے اور باریک بین سمجھ پر زور دیتا ہے۔ بڑے لسانی ماڈل (LLM) پر مبنی جانچ ایک مناسب حل کے طور پر ابھرتی ہے، جو مددگاری، ہم آہنگی، اور وفاداری جیسی معیاری خصوصیات کا اندازہ لگانے کی صلاحیت رکھتی ہے۔

Strands Evals کے بنیادی تصورات: Cases، Experiments، اور Evaluators

Strands Evals ایجنٹ کی جانچ کے لیے ایک منظم نقطہ نظر فراہم کرتا ہے جو سافٹ ویئر ڈویلپرز کے لیے واقف محسوس ہوتا ہے جبکہ AI کی منفرد ضروریات کے مطابق ہوتا ہے۔ یہ تین بنیادی تصورات متعارف کراتا ہے جو ہم آہنگی سے کام کرتے ہیں: Cases، Experiments، اور Evaluators۔ خدشات کی یہ علیحدگی لچکدار لیکن سخت ٹیسٹنگ کی اجازت دیتی ہے۔

تصور	تفصیل	مقصد اور کردار
Case	ایک واحد، ایٹمی ٹیسٹ منظرنامے کی نمائندگی کرتا ہے جس میں ان پٹ، اختیاری متوقع آؤٹ پٹ/ٹرائجیکٹری، اور میٹا ڈیٹا شامل ہوتا ہے۔	یہ تعریف کرتا ہے کہ کیا جانچنا ہے – ایک مخصوص صارف کا تعامل یا ایجنٹ کا مقصد۔
Experiment	متعدد Cases کو ایک یا زیادہ Evaluators کے ساتھ بنڈل کرتا ہے۔	یہ منظم کرتا ہے کہ کیسے جانچنا ہے، ایجنٹ کو کیسز کے خلاف چلاتا ہے اور فیصلہ لاگو کرتا ہے۔
Evaluator	ایجنٹ کے اصل آؤٹ پٹ/ٹرائجیکٹری کا توقعات کے خلاف جائزہ لیتا ہے، بنیادی طور پر LLMs کا استعمال کرتے ہوئے باریک بین تشخیص کے لیے۔	معیار کے ابعاد (مددگاری، ہم آہنگی) پر فیصلہ فراہم کرتا ہے جو میکانیکی جانچ کے خلاف مزاحمت کرتے ہیں۔

ایک Case جانچ کی ایٹمی یونٹ ہے، جو روایتی یونٹ ٹیسٹنگ میں ایک سنگل ٹیسٹ کیس کی طرح ہے۔ یہ ایک مخصوص منظرنامے کو کیپسول کرتا ہے جسے آپ کا ایجنٹ ہینڈل کرنا چاہتا ہے۔ اس میں ان پٹ شامل ہوتا ہے، جیسے صارف کا استفسار "پیرس میں موسم کیسا ہے؟"، اور اختیاری طور پر متوقع آؤٹ پٹ، ٹولز یا کارروائیوں کی ایک ترتیب (جسے ٹرائجیکٹری کہا جاتا ہے)، اور کوئی بھی متعلقہ میٹا ڈیٹا کی وضاحت کر سکتا ہے۔ ہر کیس ایک چھوٹا ٹیسٹ ہے، جو آپ کے ایجنٹ کے لیے ایک مخصوص صورتحال کی تفصیل دیتا ہے۔

from strands_evals import Case

case = Case(
    name="Weather Query",
    input="What is the weather like in Tokyo?",
    expected_output="Should include temperature and conditions",
    expected_trajectory=["weather_api"]
)

ایک Experiment ٹیسٹ سوٹ کے طور پر کام کرتا ہے، جو پورے جانچ کے عمل کو منظم کرتا ہے۔ یہ متعدد Cases اور ایک یا زیادہ کنفیگرڈ Evaluators کو اکٹھا کرتا ہے۔ جانچ کے دوران، Experiment ہر Case کو لیتا ہے، اس کا ان پٹ آپ کے AI ایجنٹ کو فراہم کرتا ہے، ایجنٹ کے جواب اور نفاذ کے ٹریس کو جمع کرتا ہے، اور پھر ان نتائج کو مقرر کردہ Evaluators کو اسکورنگ کے لیے منتقل کرتا ہے۔ یہ تجرید اس بات کو یقینی بناتی ہے کہ جانچ ایک متعین کردہ منظرناموں کے سیٹ میں منظم اور دہرائے جانے کے قابل ہے۔

آخر میں، Evaluators اس نظام میں جج ہیں۔ وہ احتیاط سے جانچتے ہیں کہ آپ کے ایجنٹ نے کیا پیدا کیا—اس کا اصل آؤٹ پٹ اور اس کا آپریشنل ٹرائجیکٹری—اور ان کا موازنہ اس سے کرتے ہیں جو متوقع یا مطلوب تھا۔ سادہ تصدیق کی جانچ کے برعکس، Strands Evals کے جانچ کار بنیادی طور پر LLM پر مبنی ہوتے ہیں۔ یہ ایک اہم فرق ہے؛ لسانی ماڈلز کا فائدہ اٹھا کر، جانچ کار مطابقت، مددگاری، ہم آہنگی، اور وفاداری جیسی خصوصیات پر جدید، باریک بین فیصلے کر سکتے ہیں—ایسی خصوصیات جن کا محض سٹرنگ موازنہ سے درست اندازہ لگانا ناممکن ہے۔ یہ لچکدار لیکن سخت فیصلے کی صلاحیت حقیقی دنیا کے منظرناموں میں ان کے AI ایجنٹوں کی تاثیر اور قابل بھروسہ کو مؤثر طریقے سے جانچنے کے لیے کلیدی ہے۔

ٹاسک فنکشن: ایجنٹ کے نفاذ اور جانچ کے درمیان پل

آپ کے AI ایجنٹ کو Strands Evals فریم ورک کے ساتھ مربوط کرنے کے لیے، ایک اہم جزو جسے Task Function کہا جاتا ہے استعمال کیا جاتا ہے۔ یہ کال ایبل فنکشن پل کا کام کرتا ہے، ایک Case آبجیکٹ وصول کرتا ہے اور آپ کے ایجنٹ سسٹم کے ذریعے اس مخصوص کیس کو چلانے کے نتائج واپس کرتا ہے۔ یہ انٹرفیس انتہائی لچکدار ہے، جو جانچ کے دو بنیادی طور پر مختلف پیٹرن کو سپورٹ کرتا ہے: آن لائن اور آف لائن۔ AI ایجنٹوں کو عملی تعیناتی کے لیے تیار کرنے کے بارے میں مزید بصیرت کے لیے، آپریشنلائزنگ ایجینٹک AI پارٹ 1: اسٹیک ہولڈر گائیڈ دریافت کریں۔

آن لائن جانچ میں جانچ کے دوران آپ کے AI ایجنٹ کو حقیقی وقت میں شامل کرنا شامل ہے۔ ٹاسک فنکشن متحرک طور پر ایک ایجنٹ انسٹنس بناتا ہے، کیس کا ان پٹ بھیجتا ہے، ایجنٹ کے براہ راست جواب کو کیپچر کرتا ہے، اور اس کے نفاذ کے ٹریس کو ریکارڈ کرتا ہے۔ یہ پیٹرن ترقی کے مرحلے کے دوران انمول ہے، تبدیلیوں پر فوری رائے فراہم کرتا ہے، اور مسلسل انضمام اور ڈیلیوری (CI/CD) پائپ لائنز کے لیے ضروری ہے جہاں تعیناتی سے پہلے ایجنٹ کے رویے کی تصدیق کرنے کی ضرورت ہوتی ہے۔ یہ یقینی بناتا ہے کہ ایجنٹ کی کارکردگی اس کی اصل آپریشنل حالت میں جانچی جاتی ہے۔

from strands import Agent

def online_task(case):
    agent = Agent(tools=[search_tool, calculator_tool])
    result = agent(case.input)

    return {
        "output": str(result),
        "trajectory": agent.session
    }

اس کے برعکس، آف لائن جانچ تاریخی ڈیٹا کے ساتھ کام کرتی ہے۔ براہ راست ایجنٹ شروع کرنے کے بجائے، ٹاسک فنکشن لاگز، ڈیٹا بیس، یا قابل مشاہدہ نظام جیسے ذرائع سے پہلے سے ریکارڈ شدہ تعامل کے ٹریس کو بازیافت کرتا ہے۔ پھر یہ ان تاریخی ٹریسز کو Evaluators کے متوقع فارمیٹ میں پارس کرتا ہے، جس سے ان کے فیصلے کو فعال کیا جاتا ہے۔ یہ نقطہ نظر پروڈکشن ٹریفک کا اندازہ لگانے، تاریخی کارکردگی کا تجزیہ کرنے، یا ایجنٹ کو براہ راست دوبارہ چلانے کی کمپیوٹیشنل لاگت برداشت کیے بغیر حقیقی صارف کے تعاملات کے ایک مستقل سیٹ کے خلاف مختلف ایجنٹ ورژن کا موازنہ کرنے کے لیے انتہائی مؤثر ہے۔ یہ retrospective تجزیہ اور بڑے پیمانے پر ڈیٹا سیٹ کی جانچ کے لیے خاص طور پر مفید ہے۔

def offline_task(case):
    trace = load_trace_from_database(case.session_id)
    session = session_mapper.map_to_session(trace)

    return {
        "output": extract_final_response(trace),
        "trajectory": session
    }

قطع نظر اس کے کہ آپ ایک نیا نافذ کردہ ایجنٹ ٹیسٹ کر رہے ہیں یا مہینوں کے پروڈکشن ڈیٹا کی چھان بین کر رہے ہیں، Strands Evals کے اندر وہی طاقتور جانچ کار اور مضبوط رپورٹنگ کا بنیادی ڈھانچہ قابل اطلاق ہے۔ ٹاسک فنکشن ڈیٹا سورس کو تجرید کرتا ہے، اسے جانچ کے نظام کے مطابق ہموار طریقے سے ڈھالتا ہے، اس طرح ایجنٹ کی کارکردگی میں مستقل اور جامع بصیرت فراہم کرتا ہے۔ ایسی مضبوط جانچ کو مربوط کرنا جدید ایجینٹک کوڈنگ ورک فلوز کے لیے کلیدی ہے، جیسا کہ ایکس کوڈ ایجینٹک کوڈنگ میں زیر بحث ہے۔

بلٹ ان جانچ کاروں کے ساتھ ایجنٹ کے معیار کا اندازہ لگانا

ٹاسک فنکشن ایجنٹ کے آؤٹ پٹ کو جانچ کے نظام تک مؤثر طریقے سے پہنچا رہا ہے، اگلا اہم قدم یہ تعین کرنا ہے کہ ایجنٹ کے معیار کے کن پہلوؤں کی پیمائش کی جائے۔ Strands Evals ایک جامع تشخیص پیش کرنے کے لیے ڈیزائن کیا گیا ہے، اور اسی طرح، یہ بلٹ ان جانچ کاروں کا ایک سویٹ فراہم کرتا ہے۔ ان میں سے ہر ایک خاص طور پر AI ایجنٹ کی کارکردگی اور آؤٹ پٹ کے معیار کے مختلف ابعاد کو نشانہ بنانے اور جانچنے کے لیے تیار کیا گیا ہے۔

فریم ورک سمجھتا ہے کہ ایجنٹ کا معیار کثیر جہتی ہے۔ یہ ایجنٹ کے لیے محض ٹیکسٹ پیدا کرنا کافی نہیں ہے؛ اس ٹیکسٹ کو مددگار، متعلقہ، ہم آہنگ، اور اس کے سیاق و سباق یا ماخذ مواد کے لیے وفادار ہونا چاہیے۔ روایتی میٹرکس اکثر ان موضوعی لیکن اہم خصوصیات کو کیپچر کرنے میں ناکام رہتے ہیں۔ یہ وہ جگہ ہے جہاں LLM پر مبنی جانچ کاروں کی طاقت، جس کا پہلے ذکر کیا گیا تھا، ناگزیر ہو جاتی ہے۔ لسانی ماڈلز کو خود ججوں کے طور پر کام کرنے کے لیے استعمال کرکے، Strands Evals نفیس معیاری تشخیص انجام دے سکتا ہے۔ یہ LLMs صارف کے لیے ایجنٹ کے جواب کی مجموعی افادیت، اس کے منطقی بہاؤ، مخصوص حقائق یا ہدایات پر اس کی پابندی، اور گفتگو میں مستقل مزاجی برقرار رکھنے کی اس کی صلاحیت کا تجزیہ کر سکتے ہیں۔ یہ ذہین، باریک بین فیصلہ ڈویلپرز کو سادہ مطلوبہ الفاظ کے مماثلت سے آگے بڑھنے اور حقیقی دنیا کے منظرناموں میں اپنے AI ایجنٹوں کی تاثیر اور قابل بھروسہ کو صحیح معنوں میں سمجھنے کی اجازت دیتا ہے۔

نتیجہ: Strands Evals کے ساتھ پروڈکشن کے لیے تیار AI ایجنٹوں کو یقینی بنانا

AI ایجنٹوں کو تصور سے قابل بھروسہ پروڈکشن تعیناتی تک لے جانے کے لیے ایک جدید جانچ کی حکمت عملی کی ضرورت ہوتی ہے جو روایتی سافٹ ویئر ٹیسٹنگ کی حدود سے تجاوز کرے۔ Strands Evals بالکل یہی پیش کرتا ہے: ایک عملی، منظم فریم ورک جو AI ایجنٹوں کی موروثی غیر حتمیت اور پیچیدہ مطابقت پذیر نوعیت کو تسلیم کرتا ہے۔ Cases کے ذریعے جانچ کی واضح تعریف کرکے، Experiments کے ذریعے اسے منظم کرکے، اور باریک بین Evaluators — خاص طور پر ان کو جو معیاری فیصلے کے لیے LLMs سے چلتے ہیں — کا اطلاق کرکے، Strands Evals ڈویلپرز کو کارکردگی کا منظم طریقے سے اندازہ لگانے کے قابل بناتا ہے۔

اس کی Task Function کی استعداد، جو تیز رفتار ترقی کے لیے حقیقی وقت کی آن لائن جانچ اور تاریخی ڈیٹا کے آف لائن تجزیہ دونوں کو سپورٹ کرتی ہے، ایجنٹ کی لائف سائیکل میں اس کی افادیت کو مزید مضبوط کرتی ہے۔ یہ جامع نقطہ نظر یقینی بناتا ہے کہ AI ایجنٹ نہ صرف فعال ہوں بلکہ مددگار، ہم آہنگ، اور مضبوط بھی ہوں، جو اہم پروڈکشن ماحول میں ان کی کامیاب انضمام کے لیے ضروری اعتماد فراہم کرتے ہیں۔ Strands Evals جیسے فریم ورک کو اپنانا آج کے تیزی سے بدلتے ہوئے تکنیکی منظرنامے میں اعلیٰ معیار کے، پروڈکشن کے لیے تیار AI ایجنٹوں کی تعمیر، تعیناتی، اور دیکھ بھال کے بارے میں سنجیدہ ہر کسی کے لیے ضروری ہے۔

اصل ماخذ

https://aws.amazon.com/blogs/machine-learning/evaluating-ai-agents-for-production-a-practical-guide-to-strands-evals/

اکثر پوچھے جانے والے سوالات

What fundamental challenge do AI agents pose for traditional software testing methodologies?

AI agents, by their inherent nature, are flexible, adaptive, and highly context-aware, making their outputs non-deterministic. Unlike traditional software where the same input reliably yields the same expected output, AI agents generate natural language responses and make decisions that can vary even with identical inputs. This variability means that conventional assertion-based testing, which relies on precise, predictable outcomes, is inadequate. Agents' ability to use tools, retrieve information, and engage in multi-turn conversations further complicates evaluation, requiring a shift from simple keyword comparisons to nuanced, judgment-based assessments that can handle the fluidity and creativity of AI-driven interactions. This necessitates specialized frameworks like Strands Evals to systematically gauge quality dimensions beyond strict determinism.

How does Strands Evals address the non-deterministic nature of AI agent outputs?

Strands Evals tackles the non-deterministic challenge by introducing a framework centered on judgment-based evaluation, primarily leveraging large language models (LLMs) as evaluators. Instead of relying on strict assertion checks, LLM-based evaluators can make nuanced assessments of qualitative aspects such as helpfulness, coherence, relevance, and faithfulness of agent responses. The framework organizes evaluation into Cases (individual scenarios), Experiments (collections of cases and evaluators), and Evaluators (the judging mechanism), allowing for systematic yet flexible assessment. This approach moves beyond simple string comparisons to understand the subjective quality of agent interactions, ensuring that even varied but valid outputs are correctly recognized as successful.

Explain the core concepts of Strands Evals: Cases, Experiments, and Evaluators.

Strands Evals builds upon three foundational concepts to enable systematic AI agent evaluation. A **Case** serves as the atomic unit of testing, defining a single test scenario. It includes the user input (e.g., a query), optional expected outputs, anticipated tool usage sequences (trajectories), and relevant metadata. An **Experiment** functions as a test suite, bundling multiple Cases together with one or more Evaluators. It orchestrates the entire evaluation process, running the agent against each Case and applying the configured Evaluators. Finally, **Evaluators** act as the 'judges,' assessing the agent's actual output and trajectory against the expectations. Crucially, Strands Evals primarily uses LLM-based Evaluators to make qualitative judgments on attributes like helpfulness and coherence, which are difficult to quantify with traditional assertion methods, providing a flexible yet rigorous assessment.

What is the purpose of the Task Function in Strands Evals, and how do online and offline evaluation differ?

The Task Function in Strands Evals is a critical callable component that bridges your AI agent's execution environment with the evaluation system. Its purpose is to receive a Case (a test scenario) and return the agent's results (output and execution trace) in a format suitable for evaluation. This function enables two distinct patterns: **Online Evaluation** involves invoking your agent live during the evaluation run. Here, the Task Function creates an agent, feeds it the case input, and captures its real-time response and execution trace. This is ideal for development, testing immediate changes, or integrating into CI/CD pipelines. In contrast, **Offline Evaluation** works with historical data. The Task Function retrieves previously recorded agent traces from logs or databases, parsing them into the expected format. This is highly effective for analyzing production traffic, performing historical performance analysis, or comparing different agent versions against consistent real-world interactions, offering flexibility without requiring live agent invocation.

Why are LLM-based evaluators crucial for assessing AI agents effectively?

LLM-based evaluators are crucial because they overcome the limitations of traditional, assertion-based testing when assessing AI agents. Agents often produce natural language outputs and make context-dependent decisions, meaning there isn't always one single 'correct' answer that can be checked with a simple string comparison. LLM-based evaluators, leveraging their understanding of language and context, can make nuanced judgments about subjective qualities such as a response's helpfulness, coherence, relevance, or faithfulness to source material. They can discern whether an agent's varied but valid output still meets user goals or maintains context across multi-turn conversations. This capability is essential for systematically measuring the qualitative dimensions of agent performance that are vital for real-world utility and user satisfaction, ensuring agents are not only factually accurate but also user-friendly and effective.

اپ ڈیٹ رہیں

تازہ ترین AI خبریں اپنے ان باکس میں حاصل کریں۔

شیئر کریں