SageMaker AI: சர்வர்லெஸ் தனிப்பயனாக்கலுடன் ஏஜென்டிக் கருவி அழைப்பை விரைவுபடுத்துதல்

ஏஜென்டிக் AI ஆனது தானியங்குப் பணிகள் பற்றிய நமது சிந்தனையில் ஒரு புரட்சியை ஏற்படுத்தியுள்ளது, இது அமைப்புகளுக்கு முடிவுகளை எடுக்கவும், சிறப்பு கருவிகள் மூலம் உலகத்துடன் தொடர்புகொள்ளவும் உதவுகிறது. இருப்பினும், உற்பத்திச் சூழலில் AI ஏஜென்ட்களின் உண்மையான பயன்பாடு, ஏஜென்டிக் கருவி அழைப்பு நம்பகத்தன்மையுடன் செயல்படும் திறனைப் பொறுத்தது. ஏஜென்ட்கள் தரவுத்தளங்களை எவ்வாறு வினவுகின்றன, சிக்கலான பணிப்பாய்வுகளைத் தூண்டுகின்றன, நிகழ்நேரத் தரவைப் பெறுகின்றன மற்றும் பயனரின் சார்பாக உறுதியாகச் செயல்படுகின்றன என்பது இதுதான். துரதிர்ஷ்டவசமாக, பரந்த அளவில் ஏற்றுக்கொள்வதற்கு ஒரு பொதுவான தடையாக இருப்பது, அடிப்படை பெரிய மொழி மாதிரிகள் (LLMs) கருவிகளைக் கற்பனை செய்யும் போக்கு, தவறான அளவுருக்களை அனுப்புவது அல்லது தெளிவுபடுத்தல் தேவைப்படும்போது செயல்களை முயற்சிப்பதாகும். இத்தகைய தோல்விகள் நம்பிக்கையை அரிக்கின்றன மற்றும் உற்பத்திப் பயன்பாட்டை கணிசமாகத் தடுக்கின்றன.

Amazon SageMaker AI இந்த முக்கியமான சவால்களைத் தீர்க்க முன்வந்துள்ளது. சர்வர்லெஸ் மாடல் தனிப்பயனாக்கம் வழங்குவதன் மூலம், டெவலப்பர்கள் வழக்கமான செயல்பாட்டுச் சுமை இல்லாமல் நம்பகமான ஏஜென்டிக் கருவி அழைப்பிற்காக LLM-களை சரிசெய்ய முடியும். இந்த கண்டுபிடிப்பிற்கு மையமாக இருப்பது சரிபார்க்கக்கூடிய வெகுமதிகளுடன் வலுவூட்டல் கற்றல் (RLVR) ஆகும், இது மாடல்களை தங்கள் சொந்த பதில்களை உருவாக்க மற்றும் சரிபார்க்கவும், வெற்றிகரமான கருவி தொடர்புகளுக்கு சாதகமாக செயல்படவும் அதிகாரம் அளிக்கும் ஒரு நுட்பமாகும். இந்த பதிவு SageMaker AI, RLVR ஐப் பயன்படுத்தி, ஏஜென்ட் நம்பகத்தன்மையை எவ்வாறு வியத்தகு முறையில் மேம்படுத்துகிறது என்பதை ஆராய்கிறது, சரிசெய்யப்பட்ட Qwen 2.5 7B Instruct மாடலுடன் காணப்படாத காட்சிகளில் கருவி அழைப்பு வெகுமதியில் 57% மேம்பாட்டை எடுத்துக்காட்டுகிறது.

ஏஜென்டிக் கருவி அழைப்பின் வாக்குறுதியும் ஆபத்துகளும்

கருவிகள் மூலம் வெளிப்புற அமைப்புகளுடன் AI ஏஜென்ட்கள் தொடர்புகொள்வது என்ற கருத்து மேம்பட்ட AI பயன்பாடுகளின் ஒரு மூலக்கல்லாகும். ஒரு விமானத்தை முன்பதிவு செய்யக்கூடிய, தரவுத்தளத்திலிருந்து ஆவணங்களை சுருக்கக்கூடிய அல்லது இயற்கை மொழித் தூண்டுதலின் அடிப்படையில் குறியீட்டைச் செயல்படுத்தக்கூடிய ஒரு ஏஜென்டை கற்பனை செய்து பாருங்கள். இந்த செயல்பாடுதான் ஏஜென்டிக் கருவி அழைப்பு செயல்படுத்துகிறது. இருப்பினும், நம்பகமான கருவி பயன்பாட்டிற்கான பாதை சவால்களால் நிறைந்துள்ளது.

அடிப்படை LLM-கள், மொழி உருவாக்கத்தில் சக்திவாய்ந்ததாக இருந்தாலும், துல்லியமான கருவி அழைப்பிற்குத் தேவையான நுணுக்கமான புரிதல் பெரும்பாலும் இல்லை. அவை இல்லாத ஒரு கருவியை ஊகிக்கலாம், தவறான அளவுரு மதிப்புகளுக்கு வழிவகுக்கும் பயனர் நோக்கத்தை தவறாகப் புரிந்துகொள்ளலாம் அல்லது முக்கியமான தகவல்கள் இல்லாதபோது அங்கீகரிக்கத் தவறலாம். இந்தத் தவறுகள் விரக்தி நிறைந்த பயனர் அனுபவங்களுக்கு வழிவகுக்கின்றன மற்றும் நிறுவன அளவிலான பயன்பாட்டை ஆபத்தானதாக மாற்றுகின்றன. AI ஏஜென்ட்களை திறம்பட செயல்படுத்துவதற்கு விரும்பும் நிறுவனங்களுக்கு, கணிக்கக்கூடிய மற்றும் நம்பகமான கருவி செயல்படுத்துதலை உறுதி செய்வது மிக முக்கியம். பங்குகளின் அளவு அதிகம், ஏனெனில் நம்பகமான ஏஜென்ட்கள் முன்னோடியில்லாத அளவில் தானியங்கு மற்றும் செயல்திறனைத் திறக்க முடியும், அதே சமயம் நம்பகத்தன்மையற்ற ஏஜென்ட்கள் விலையுயர்ந்த பிழைகள் மற்றும் பயனர் அதிருப்திக்கு வழிவகுக்கும். இதனால்தான் ஏஜென்டிக் பணிப்பாய்வுகளுக்கான நம்பகமான மாடல் மேம்படுத்துதல் அவசியம், SageMaker AI போன்ற தளங்கள் மூலம் இது எளிதாக்கப்படுகிறது.

சர்வர்லெஸ் மாடல் தனிப்பயனாக்கம்: SageMaker AI இன் நன்மை

LLM செயல்திறனை மேம்படுத்துவதற்கான பாரம்பரிய அணுகுமுறை பெரும்பாலும் குறிப்பிடத்தக்க உள்கட்டமைப்பு மேலாண்மையை உள்ளடக்கியது - GPU கொள்முதல் மற்றும் நினைவக ஒருங்கிணைப்பு முதல் சிக்கலான வெகுமதி உள்கட்டமைப்பு மற்றும் வலுவூட்டல் கற்றலுக்கான சரிபார்ப்புப் புள்ளி வரை. இந்த பணிகள் கணிசமான செயல்பாட்டுச் சுமையை அறிமுகப்படுத்துகின்றன, இது மதிப்புமிக்க டெவலப்பர் வளங்களை முதன்மை சிக்கலிலிருந்து திசை திருப்புகிறது: மாடல் நடத்தையை செம்மைப்படுத்துதல்.

Amazon SageMaker AI இன் சர்வர்லெஸ் மாடல் தனிப்பயனாக்கம் இந்த சுமையை நீக்குகிறது. டெவலப்பர்கள் ஒரு அடிப்படை மாடலைத் (எ.கா., Qwen, Llama, GPT-OSS) தேர்ந்தெடுக்கலாம், RLVR போன்ற ஒரு சரிசெய்தல் நுட்பத்தை உள்ளமைக்கலாம், தங்கள் தரவைச் சுட்டிக்காட்டலாம் மற்றும் ஒரு வெகுமதி செயல்பாட்டை வரையறுக்கலாம். SageMaker AI பின்னர் கணினி வளங்களை அளவிடுவது முதல் பயிற்சி கட்டங்கள் மற்றும் ஹைப்பர்பாராமீட்டர் சரிசெய்தல் வரை முழு பின்தள செயல்முறையையும் நிர்வகிக்கிறது. இந்த சுருக்கம் குழுக்கள் தரவுத்தொகுப்பு தரம் மற்றும் வெகுமதி செயல்பாட்டு வடிவமைப்பு ஆகியவற்றில் கவனம் செலுத்த அனுமதிக்கிறது, அவை மாடல் மேம்பாட்டின் உண்மையான உந்துசக்திகள். நிறுவனங்களுக்கு, இந்த சர்வர்லெஸ் அணுகுமுறை விரைவான மறுசெயல் சுழற்சிகள், குறைந்த செலவுகள் மற்றும் மேம்பட்ட LLM தனிப்பயனாக்கத்திற்கான குறைந்த தடையை அளிக்கிறது. சிக்கலான LLM-களை சரிசெய்தல் செயல்முறைகளை எளிதாக்குவதன் மூலம் அனைவருக்கும் AI ஐ அளவிட விரும்புவோருக்கு இது ஒரு கேம் சேஞ்சர்.

RLVR ஏன் ஏஜென்டிக் கருவி அழைப்பிற்குச் சிறப்பாக செயல்படுகிறது

ஒரு AI ஏஜென்டிற்கு கருவிகளை நம்பகத்தன்மையுடன் பயன்படுத்தக் கற்றுக்கொடுக்கும் போது, அனைத்து சரிசெய்தல் நுட்பங்களும் சமமாக இருப்பதில்லை. மேற்பார்வையிடப்பட்ட சரிசெய்தல் (SFT) ஒரு மாடல் காட்ட வேண்டிய ஒவ்வொரு சாத்தியமான நடத்தைக்கும் - ஒரு கருவியை அழைப்பது, தெளிவுபடுத்தல் கேட்பது அல்லது ஒரு கோரிக்கையை மறுப்பது - கவனமாக லேபிளிடப்பட்ட எடுத்துக்காட்டுகள் தேவை. SFT உடனான சவால் என்னவென்றால், இந்த தனித்துவமான நடத்தைகளுக்கு இடையில் முடிவெடுக்கும் செயல்முறையை பொதுமைப்படுத்த இது போராடுகிறது, பெரும்பாலும் பயிற்சியின் போது காணப்பட்ட வடிவங்களில் சிறப்பாக செயல்படும், ஆனால் புதிய காட்சிகளில் தடுமாறுகிறது.

சரிபார்க்கக்கூடிய வெகுமதிகளுடன் வலுவூட்டல் கற்றல் (RLVR) ஒரு மிகவும் மாறும் மற்றும் பயனுள்ள தீர்வை வழங்குகிறது. SFT போலல்லாமல், RLVR ஒரு பின்னூட்ட சுழற்சியில் செயல்படுகிறது:

சாத்தியமான பதில்களை உருவாக்குதல்: ஒவ்வொரு தூண்டுதலுக்கும், மாடல் பல (எ.கா., எட்டு) சாத்தியமான பதில்களை உருவாக்குகிறது.
வெகுமதி செயல்பாடு மதிப்பீடு: ஒரு முன் வரையறுக்கப்பட்ட வெகுமதி செயல்பாடு ஒவ்வொரு சாத்தியமான பதிலையும் புறநிலையாக மதிப்பெண் செய்கிறது, அதன் தரம், சரியான தன்மை மற்றும் விரும்பிய நடத்தைக்கு இணங்குதல் (எ.கா., அது சரியான அளவுருக்களுடன் சரியான கருவியை அழைத்ததா?) ஆகியவற்றைக் குறிக்கிறது.
கொள்கை புதுப்பிப்பு: Group Relative Policy Optimization (GRPO) ஐப் பயன்படுத்தி, மாடலின் கொள்கை புதுப்பிக்கப்படுகிறது, இது உருவாக்கப்பட்ட குழுவின் சராசரியை விட அதிக மதிப்பெண் பெற்ற பதில்களை வலுப்படுத்த உதவுகிறது. இந்த செயல்முறை படிப்படியாக மாடலை மிகவும் உகந்த நடத்தைக்கு வழிகாட்டுகிறது.

இந்த திரும்பத் திரும்பக் கற்றல் மாடலை ஒரு குறிப்பிட்ட செயலை எப்படி செய்ய வேண்டும் என்பதை மட்டுமல்லாமல், எப்போது செய்ய வேண்டும் என்பதையும் புரிந்துகொள்ள உதவுகிறது. ஒரு கருவி அழைப்பு பொருத்தமானது, தெளிவுபடுத்தல் தேவை அல்லது மறுப்பு சிறந்த செயல்பாடு போன்ற சூழ்நிலைகளுக்கு இடையில் வேறுபடுத்துவதற்கான நுணுக்கங்களை இது கற்றுக்கொள்கிறது. கருவி அழைப்பு இயற்கையாகவே சரிபார்க்கக்கூடிய ஒரு நோக்கத்தைக் கொண்டிருப்பதால் - மாடல் சரியான செயல்பாட்டை சரியான அளவுருக்களுடன் அழைத்ததா இல்லையா - இது RLVR வடிவத்துடன் விதிவிலக்காக நன்றாகப் பொருந்துகிறது, இது அதிக நம்பகத்தன்மை தேவைப்படும் AI ஏஜென்ட்களுக்கு ஏற்றதாக அமைகிறது. இந்த முறை துல்லியமான செயல் வடிவங்களை வலுப்படுத்துவதன் மூலம் தூண்டுதல் செருகலை எதிர்க்க ஏஜென்ட்களை வடிவமைக்கும் சவாலை திறம்பட எதிர்கொள்கிறது.

RLVR க்கான உயர்தர பயிற்சித் தரவைத் தயாரித்தல்

RLVR உடன் எந்தவொரு சரிசெய்தல் முயற்சியின் வெற்றியும், பயிற்சித் தரவின் தரம் மற்றும் விரிவான தன்மையைப் பொறுத்தது. ஏஜென்டிக் கருவி அழைப்பிற்கு, தரவுத்தொகுப்பு மாடலுக்கு சரியான API அழைப்புகளை விட அதிகமாகக் கற்பிக்க வேண்டும்; இது தேவையான ஏஜென்ட் நடத்தைகளின் முழு வரம்பையும் உள்ளடக்கியிருக்க வேண்டும்.

எங்கள் அணுகுமுறையானது, Amazon-இன் AI-இயங்கும் IDE ஆன Kiro ஐப் பயன்படுத்தி 1,500 செயற்கை பயிற்சி எடுத்துக்காட்டுகளை உருவாக்குவதை உள்ளடக்கியது. இந்த எடுத்துக்காட்டுகள் ஐந்து தனித்துவமான கருவி ஸ்கீமாக்களை உள்ளடக்கியது: get_weather_forecast, search_flights, translate_text, currency_convert, மற்றும் get_statistics. முக்கியமாக, சமநிலையான கற்றலை உறுதி செய்வதற்காக, தரவு மூன்று முதன்மை ஏஜென்ட் நடத்தைகளில் விநியோகிக்கப்பட்டது:

நடத்தை	விளக்கம்	சதவீதம்	கள உண்மை எடுத்துக்காட்டு
Execute	பயனர் தேவையான அனைத்து அளவுருக்களையும் வழங்குகிறார், மாடல் ஒரு கருவியை அழைக்க வேண்டும்.	60%	`[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]`
Clarify	பயனர் கோரிக்கையில் தேவையான அளவுருக்கள் இல்லை, மாடல் தெளிவுபடுத்தல் கேட்க வேண்டும்.	25%	`To provide you with the weather information, could you please specify the location?`
Refuse	கோரிக்கை தீங்கு விளைவிக்கும் அல்லது வரம்பிற்கு அப்பாற்பட்டது, மாடல் மரியாதையாக மறுக்க வேண்டும்.	15%	`I'm sorry, I cannot fulfill that request.`

ஒவ்வொரு பயிற்சி எடுத்துக்காட்டும் ஒரு JSONL வடிவமைப்பைப் பின்பற்றியது, இதில் ஒரு தூண்டுதல் (சிஸ்டம் அறிவுறுத்தல் மற்றும் பயனர் கோரிக்கை) மற்றும் reward_model புலத்தில் ஒரு ground_truth உள்ளது, அதை வெகுமதி செயல்பாடு மதிப்பெண் செய்கிறது. முறையான, சாதாரண மற்றும் சுருக்கமான சொற்றொடர்களை மாற்றுவது தரவுத்தொகுப்பின் நம்பகத்தன்மையை மேலும் மேம்படுத்தியது. செயற்கை தரவு ஒரு நடைமுறை ஆரம்பப் புள்ளியை வழங்கினாலும், தற்போதுள்ள ஏஜென்டிக் பணிப்பாய்வுகளைக் கொண்ட நிறுவனங்கள் உண்மையான பயனர் தூண்டுதல்கள் மற்றும் உற்பத்திப் பதிவுகளிலிருந்து கருவி அழைப்புகளைப் பயன்படுத்தி இன்னும் உயர்தர பயிற்சியைப் பெறலாம். இந்த தரவு தயாரிப்பு சிக்கலான ஏஜென்ட் நடத்தைகளுக்கான தூண்டுதல் பொறியியலில் ஒரு முக்கியமான படியாகும்.

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get weather for San Francisco"}
  ],
  "reward_model": {
    "ground_truth": "[{"name": "get_weather_forecast", "arguments": {"city": "San Francisco"}}]"
  }
}

{
  "prompt": [
    {"role": "system", "content": "You are a helpful assistant. When using tools, respond with: [...]"},
    {"role": "user", "content": "Get the weather"}
  ],
  "reward_model": {
    "ground_truth": "To provide you with the weather information, could you please specify the location?"
  }
}

SageMaker AI உடன் Qwen 2.5 7B Instruct ஐ சரிசெய்தல்

Amazon SageMaker AI Studio இல் Qwen 2.5 7B Instruct போன்ற ஒரு மாடலை சரிசெய்யும் செயல்முறை நெறிப்படுத்தப்பட்டு உள்ளுணர்வுடன் உள்ளது. தேவையான முன்னுரிமைகள் (AWS கணக்கு, IAM பங்கு, SageMaker AI டொமைன், S3 பக்கெட்) பூர்த்தி செய்யப்பட்ட பிறகு, பயனர்கள் SageMaker AI Studio இல் Models பகுதிக்கு செல்லலாம்.

அங்கிருந்து, Qwen 2.5 7B Instruct ஐத் தேர்ந்தெடுத்து, Customize with UI ஐத் தேர்ந்தெடுப்பது ஒரு பிரத்யேக உள்ளமைவுப் பக்கத்தைத் திறக்கும். இந்த இடைமுகம் இதற்காக அனுமதிக்கிறது:

நுட்பத் தேர்வு: கீழ்தோன்றல் பட்டியலில் இருந்து சரிபார்க்கக்கூடிய வெகுமதிகளுடன் வலுவூட்டல் கற்றல் (RLVR) ஐத் தெளிவாகத் தேர்ந்தெடுத்தல்.
தரவு உள்ளீடு: Amazon S3 பக்கெட்டில் சேமிக்கப்பட்ட தயாரிக்கப்பட்ட பயிற்சித் தரவைச் சுட்டிக்காட்டுதல்.
வெகுமதி செயல்பாடு: ground_truth க்கு எதிராக சாத்தியமான பதில்கள் எவ்வாறு மதிப்பிடப்படுகின்றன என்பதை வரையறுக்கும் அடுக்கு மதிப்பெண் வழிமுறையை உள்ளமைத்தல்.
ஹைப்பர்பாராமீட்டர் உள்ளமைவு: தொகுப்பு அளவு போன்ற அளவுருக்களை சரிசெய்தல், இருப்பினும் SageMaker AI பெரும்பாலும் உகந்த அமைப்புகளை தானாகவே கையாள்கிறது.

SageMaker AI Amazon Nova, GPT-OSS, Llama, Qwen, மற்றும் DeepSeek உள்ளிட்ட பல்வேறு மாடல் குடும்பங்களை ஆதரிக்கிறது, அத்துடன் மேற்பார்வையிடப்பட்ட சரிசெய்தல் (SFT), நேரடி விருப்பத்தேர்வு மேம்படுத்துதல் (DPO), RLVR மற்றும் AI பின்னூட்டத்திலிருந்து வலுவூட்டல் கற்றல் (RLAIF) போன்ற பல்வேறு நுட்பங்களையும் ஆதரிக்கிறது. ஒருங்கிணைந்த MLflow கண்காணிப்பு பயிற்சி மற்றும் சரிபார்ப்பு அளவீடுகளில் தெரிவுநிலையை வழங்குகிறது, செயல்திறன் கண்காணிப்பு மற்றும் மறுசெயல்பாட்டை எளிதாக்குகிறது. இந்த எளிதான பயன்பாடு அதிநவீன github-agentic-workflows ஐ உருவாக்கும் டெவலப்பர்களுக்கான மேம்பாட்டு வாழ்க்கைச் சுழற்சியை வியத்தகு முறையில் விரைவுபடுத்துகிறது.

மதிப்பீடு மற்றும் பயன்பாட்டு வெற்றி

எங்கள் சரிசெய்யப்பட்ட Qwen 2.5 7B Instruct மாடலின் செயல்திறன், முற்றிலும் காணப்படாத கருவிகள் உட்பட, ஒதுக்கி வைக்கப்பட்ட தரவுகளில் கடுமையாக மதிப்பீடு செய்யப்பட்டது - இது பொதுமைப்படுத்துவதற்கான ஒரு முக்கியமான சோதனையாகும். முடிவுகள் கட்டாயப்படுத்தின: சரிசெய்யப்பட்ட மாடல் அடிப்படை மாடலுடன் ஒப்பிடும்போது கருவி அழைப்பு வெகுமதியில் குறிப்பிடத்தக்க 57% மேம்பாட்டை அடைந்தது. பயிற்சியின் போது அது எதிர்கொள்ளாத காட்சிகளில் செயல்திறனில் இந்த குறிப்பிடத்தக்க முன்னேற்றம், கருவி தொடர்புக்கான வலிமையான முடிவெடுக்கும் திறன்களை மாடல்களுக்குக் கற்பிப்பதில் RLVR இன் சக்தியை அடிக்கோடிட்டுக் காட்டுகிறது.

இந்த மேம்படுத்தப்பட்ட நம்பகத்தன்மை உற்பத்திச் சூழல்களில் AI ஏஜென்ட்களை பயன்படுத்த அதிக நம்பிக்கை மற்றும் நம்பிக்கைக்கு நேரடியாக மொழிபெயர்க்கிறது. கருவி கற்பனைகள், தவறான அளவுருக்கள் மற்றும் பொருத்தமற்ற செயல்களின் நிகழ்வுகளைக் குறைப்பதன் மூலம், வணிகங்கள் AI ஏஜென்ட்களை மேலும் முக்கியமான மற்றும் உணர்திறன் பணிகளுக்குப் பயன்படுத்தலாம். SageMaker AI மாடல் பயன்பாடு மற்றும் உள்கட்டமைப்பு மேலாண்மை ஆகியவற்றின் சிக்கல்களைக் கையாளுகிறது, டெவலப்பர்கள் சரிசெய்தல் முதல் உற்பத்தி வரை தடையின்றி செல்லலாம், அவர்களின் ஏஜென்டிக் AI தீர்வுகளின் முழு திறனையும் உணர்ந்து கொள்ளலாம். இந்த திறன் ஏஜென்டிக் AI ஐ செயல்படுத்துவதற்கான பரந்த பார்வையுடன் இணைகிறது.

சுருக்கமாக, Amazon SageMaker AI இன் சர்வர்லெஸ் மாடல் தனிப்பயனாக்கம் மற்றும் RLVR இன் வலிமையான கற்றல் திறன்களின் கலவையானது மிகவும் நம்பகமான ஏஜென்டிக் கருவி அழைப்பு அமைப்புகளை உருவாக்குவதற்கான ஒரு சக்திவாய்ந்த வழியை வழங்குகிறது. இந்த புதுமையான அணுகுமுறை மேம்பாட்டை விரைவுபடுத்துகிறது, செயல்பாட்டுச் சுமையைக் குறைக்கிறது மற்றும் இறுதியில் முன்னோடியில்லாத துல்லியம் மற்றும் நம்பகத்தன்மையுடன் செயல்படும் AI ஏஜென்ட்களை வழங்குகிறது.

அசல் மூலம்

https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/

அடிக்கடி கேட்கப்படும் கேள்விகள்

What is agentic tool calling and why is it crucial for AI agents?

Agentic tool calling is the mechanism that empowers AI agents to perform real-world actions like querying databases, initiating workflows, fetching real-time information, and executing tasks on a user's behalf. It's crucial because it bridges the gap between language understanding and practical application, allowing AI agents to move beyond just generating text to actually interacting with external systems and data sources, thereby making them genuinely useful in production environments.

What are the common challenges AI agents face when performing tool calls?

AI agents frequently encounter challenges such as hallucinating tools that don't exist, passing incorrect parameters to valid tools, or attempting actions when they should instead seek clarification from the user. These failures lead to unreliable agent behavior, eroding user trust and posing significant hurdles to the successful deployment of AI agents in critical production systems, ultimately limiting their real-world utility.

How does Amazon SageMaker AI address the challenges of agentic tool calling?

Amazon SageMaker AI addresses these challenges through its serverless model customization capabilities, particularly using Reinforcement Learning with Verifiable Rewards (RLVR). This approach allows developers to fine-tune large language models (LLMs) to improve their tool-calling accuracy without managing complex infrastructure. SageMaker AI handles the operational overhead of GPU provisioning, memory management, and reward infrastructure, letting users focus on data, reward functions, and model behavior.

What is Reinforcement Learning with Verifiable Rewards (RLVR) and how does it work?

RLVR is a powerful fine-tuning technique where the model generates multiple candidate responses for a given prompt. A predefined reward function then evaluates these candidates, providing a signal about their quality and correctness. The model subsequently updates its internal policy to favor responses that received higher reward scores, using methods like Group Relative Policy Optimization (GRPO), thereby iteratively learning to produce more accurate and desired outputs for specific tasks like tool calling.

Why is RLVR considered more effective than Supervised Fine-Tuning (SFT) for tool calling tasks?

While SFT requires meticulously labeled examples for every desired behavior (e.g., calling a tool, clarifying, refusing), RLVR operates differently. SFT can struggle to generalize decision-making between these behaviors. RLVR, by contrast, allows the model to learn the optimal decision boundary by generating multiple candidates and receiving immediate feedback via a reward function, enabling it to better understand *when* to execute a tool call versus *when* to ask for more information or refuse a request.

How is training data prepared for RLVR in Amazon SageMaker AI for agentic tool calling?

Training data for RLVR in SageMaker AI is prepared as JSONL files, where each entry contains a prompt (system and user messages) and a `ground_truth` within a `reward_model` field. This `ground_truth` is what the reward function scores against. To ensure robust agent behavior, datasets are typically designed to cover three distinct scenarios: executing a tool call when all parameters are present, clarifying when information is missing, and refusing requests that are out of scope or harmful. Synthetic data generation tools like Kiro can be used for this purpose.

What agent behaviors are critical for building robust and reliable tool-calling AI agents?

Building robust tool-calling AI agents requires them to master three critical behaviors. First, they must `Execute` a tool call accurately when all necessary information is provided by the user. Second, they need to `Clarify` by asking follow-up questions when essential parameters are missing from a user's request. Third, they must `Refuse` gracefully when a request is out of scope, harmful, or cannot be fulfilled. Training models across these behaviors ensures comprehensive and trustworthy agent performance.

What prerequisites are needed to use serverless model customization in SageMaker AI?

To leverage serverless model customization in Amazon SageMaker AI, users must have an active AWS account, an AWS IAM role configured with the necessary permissions for SageMaker, a SageMaker AI domain providing Studio access for development, and an Amazon Simple Storage Service (Amazon S3) bucket to store training data and model outputs securely. These components ensure a secure and functional environment for fine-tuning models.

புதுப்பிப்புகளைப் பெறுங்கள்

சமீபத்திய AI செய்திகளை மின்னஞ்சலில் பெறுங்கள்.

பகிர்