What is the primary goal of the expanded strategic collaboration between AWS and NVIDIA?

The collaboration aims to accelerate the transition of AI solutions from experimental phases to full-scale production environments. This involves integrating new technologies and expanding existing capabilities across accelerated computing, interconnect technologies, model fine-tuning, and inference. The focus is on enabling customers to build and run AI solutions that are reliable, performant at scale, and compliant with enterprise security and regulatory requirements, ultimately driving meaningful business outcomes through production-ready AI systems.

What significant GPU infrastructure expansions are planned by AWS as part of this collaboration?

Starting in 2026, AWS plans to deploy over 1 million NVIDIA GPUs, including the next-generation Blackwell and Rubin architectures, across its global cloud regions. This massive expansion solidifies AWS's position as a leading provider of NVIDIA GPU-based instances, offering the broadest collection for diverse AI/ML workloads. This enhanced capacity is crucial for supporting the surging demand for AI compute, particularly for complex agentic AI systems that require extensive computational power.

How will the new Amazon EC2 instances with NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs benefit users?

AWS is the first major cloud provider to support the NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs on Amazon EC2 instances. These instances are highly versatile, suitable for a broad spectrum of workloads such as data analytics, conversational AI, content generation, recommender systems, video streaming, and advanced graphics rendering. Built on the AWS Nitro System, they offer enhanced resource efficiency, robust security, and stability, delivering superior performance for demanding AI and graphics applications.

How does the integration of NVIDIA NIXL with AWS EFA enhance Large Language Model (LLM) inference?

The integration of NVIDIA Inference Xfer Library (NIXL) with AWS Elastic Fabric Adapter (EFA) is designed to accelerate disaggregated LLM inference on Amazon EC2 across both NVIDIA GPUs and AWS Trainium instances. This is critical for managing the communication overhead in large models, enabling efficient overlap of communication and computation, minimizing latency, and maximizing GPU utilization. It facilitates high-throughput, low-latency KV-cache data movement and integrates natively with popular open-source frameworks like NVIDIA Dynamo, vLLM, and SGLang.

What improvements are being made to Apache Spark performance for data analytics?

AWS and NVIDIA's joint engineering efforts have resulted in a 3x faster performance for Apache Spark workloads. This is achieved by combining Amazon EMR on Amazon EKS with G7e instances, powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. This significant speedup allows data engineers and scientists to accelerate time-to-insight for critical tasks such as AI/ML feature engineering, complex ETL transformations, and real-time analytics, maintaining full compatibility with existing Spark applications.

What expanded NVIDIA Nemotron model support is coming to Amazon Bedrock?

Amazon Bedrock will soon support fine-tuning NVIDIA Nemotron models directly using Reinforcement Fine-Tuning (RFT). This capability allows developers to precisely align model behavior to specific domains like legal, healthcare, or finance without infrastructure overhead. Additionally, NVIDIA Nemotron 3 Super, a hybrid Mixture-of-Experts (MoE) model optimized for multi-agent workloads and extended reasoning, will also be available on Amazon Bedrock, providing fast, cost-efficient inference via a fully managed API for complex, multi-step AI tasks.

How does this collaboration address energy efficiency and sustainability in AI?

The collaboration acknowledges the growing importance of energy efficiency as AI workloads scale. Performance per watt is highlighted not just as a sustainability metric but as a competitive advantage. The article points to an NVIDIA GTC session where sustainability leaders, including Amazon CSO Kara Hurst, discuss how AI is transforming enterprise energy and infrastructure, emphasizing efforts towards more sustainable AI practices from data centers to broader enterprise AI applications.

AWS, NVIDIA מעמיקות את שיתוף הפעולה ב-AI להאצת הייצור מפיילוט לפרודקשן

AI משנה תעשיות בקצב חסר תקדים, אך הערך האמיתי טמון לא רק בניסויים, אלא בפריסה והפעלה מוצלחות של פתרונות AI בסביבות ייצור. זה דורש מערכות חזקות, ניתנות להרחבה, מאובטחות ותואמות המספקות תוצאות עסקיות מוחשיות. במענה לצורך קריטי זה, AWS ו-NVIDIA הודיעו על הרחבה משמעותית של שיתוף הפעולה האסטרטגי שלהן ב-NVIDIA GTC 2026, וחשפו אינטגרציות טכנולוגיות חדשות שנועדו לעמוד בדרישה הגוברת למחשוב AI ולהניע פתרונות AI לייצור בעולם האמיתי.

השותפות המעמיקה מתמקדת בהאצת כל היבט במחזור החיים של AI, מתשתית ועד לפריסת מודלים. אינטגרציות אלו מכסות תחומים קריטיים הכוללים מחשוב מואץ, טכנולוגיות קישוריות מתקדמות, וכוונון עדין והסקה של מודלים. ההכרזות העיקריות כוללות:

פריסה של יותר ממיליון יחידות GPU של NVIDIA ברחבי אזורי AWS החל משנת 2026.
תמיכה של Amazon EC2 ביחידות GPU מסוג NVIDIA RTX PRO 4500 Blackwell Server Edition, מה שהופך את AWS לספקית הענן הגדולה הראשונה המציעה זאת.
האצת קישוריות עבור הסקת מודלי שפה גדולים (LLM) מפורקת תוך שימוש ב-NVIDIA NIXL על גבי AWS Elastic Fabric Adapter (EFA).
ביצועים מהירים פי 3 באופן דרמטי עבור עומסי עבודה של Apache Spark באמצעות Amazon EMR ב-Amazon Elastic Kubernetes Service (Amazon EKS) עם מופעי Amazon EC2 G7e, המופעלים על ידי יחידות GPU מסוג NVIDIA RTX PRO 6000 Blackwell Server Edition.
תמיכה מורחבת במודלי NVIDIA Nemotron ב-Amazon Bedrock, כולל Reinforcement Fine-Tuning ומודל Nemotron 3 Super.

הגדלת תשתית AI עם כוח GPU משופר של NVIDIA

היסוד של AI מודרני טמון בתשתית מחשוב חזקה. החל משנת 2026, AWS מתחייבת התחייבות מונומנטלית לקידום AI על ידי הוספת למעלה ממיליון יחידות GPU של NVIDIA לאזורי הענן הגלובליים שלה. זה כולל ארכיטקטורות GPU מהדור הבא של Blackwell ו-Rubin, המבטיחות שלקוחות יקבלו גישה לחומרה המתקדמת ביותר הזמינה. AWS כבר מתהדרת באוסף הרחב ביותר בתעשייה של מופעים מבוססי GPU של NVIDIA, הנותנים מענה למגוון רחב של עומסי עבודה של AI/ML, והרחבה זו מחזקת עוד יותר את מנהיגותה.

שותפות ותיקה זו, הנמשכת למעלה מ-15 שנה, מתרחבת גם לתחומי תשתית קריטיים כמו רשתות Spectrum. המטרה היא לספק לארגונים, סטארט-אפים וחוקרים את התשתית החזקה הנדרשת לבנייה והרחבה של מערכות AI אג'נטיות מתקדמות – AI המסוגל לחשיבה, תכנון ופעולה אוטונומיים על פני זרימות עבודה מורכבות.

הצגת מופעי Amazon EC2 חדשים וחידושים בקישוריות

אחד משיאי שיתוף הפעולה הוא מופעי Amazon EC2 הקרובים, המואצים על ידי יחידות GPU מסוג NVIDIA RTX PRO 4500 Blackwell Server Edition. AWS גאה להיות ספקית הענן הגדולה הראשונה המכריזה על תמיכה ביחידות GPU חזקות אלו, מה שהופך אותן לנגישות למגוון רחב של משימות תובעניות. מופעים אלו מתאימים באופן אידיאלי לניתוח נתונים, AI שיחתי מתוחכם, יצירת תוכן דינמי, מערכות המלצה מתקדמות, הזרמת וידאו באיכות גבוהה ועומסי עבודה גרפיים מורכבים.

מופעי EC2 חדשים אלו ייבנו על גבי AWS Nitro System החזקה. מערכת Nitro, עם השילוב הייחודי שלה של חומרה ייעודית והייפרוויזר קל משקל, מספקת כמעט את כל משאבי המחשוב והזיכרון של חומרת המארח ישירות למופעים. עיצוב זה מבטיח ניצול משאבים וביצועים מעולים. חשוב מכך, החומרה, התוכנה והקושחה הייעודיות של מערכת Nitro מתוכננות לאכוף הגבלות מחמירות, תוך הגנה על עומסי עבודה ונתונים רגישים של AI מפני גישה בלתי מורשית, גם מתוך AWS. יכולתה לבצע עדכוני קושחה ואופטימיזציות בזמן פעולה משפרת עוד יותר את האבטחה והיציבות החיוניות לעומסי עבודה של AI, אנליטיקה וגרפיקה ברמת ייצור.

שיפור נוסף בביצועים, במיוחד עבור מודלי AI מסיביים, הוא האצת הקישוריות עבור הסקת LLM מפורקת. ככל שגודל המודלים ממשיך לגדול, תקשורת יתר בין יחידות GPU או מופעי AWS Trainium יכולה להפוך לצוואר בקבוק משמעותי. AWS הודיעה על תמיכה ב-NVIDIA Inference Xfer Library (NIXL) עם AWS Elastic Fabric Adapter (EFA), שנועדה להאיץ הסקת LLM מפורקת ב-Amazon EC2, המשתרעת על פני יחידות GPU של NVIDIA ו-AWS Trainium כאחד. אינטגרציה זו חיונית להרחבת עומסי עבודה מודרניים של AI, ומאפשרת חפיפה יעילה של תקשורת וחישוב, ממזערת השהיה, וממקסמת את ניצול ה-GPU. היא מאפשרת העברת נתוני מטמון KV עם תפוקה גבוהה והשהיה נמוכה בין צמתי מחשוב ומשאבי זיכרון מבוזרים. NIXL עם EFA משתלב באופן טבעי עם פריימוורקים פופולריים בקוד פתוח כמו NVIDIA Dynamo, vLLM ו-SGLang, ומספק השהיה משופרת בין טוקנים וניצול זיכרון יעיל יותר עבור מטמון KV.

האצת ניתוח נתונים עם Amazon EMR ויחידות GPU

מהנדסי נתונים ומדעני נתונים מתמודדים לעיתים קרובות עם צינורות עיבוד נתונים ארוכים שיכולים לעכב משמעותית איטרציה של מודלי AI/ML ויצירת בינה עסקית. שיתוף הפעולה בין AWS ו-NVIDIA מביא לשיפור פורץ דרך: ביצועים מהירים פי 3 עבור עומסי עבודה של Apache Spark. האצה זו מושגת על ידי מינוף Amazon EMR ב-Amazon EKS עם מופעי G7e, המופעלים על ידי יחידות GPU מסוג NVIDIA RTX PRO 6000 Blackwell Server Edition.

הישג ביצועים משמעותי זה הוא תוצאה ישירה של מאמצי הנדסה משותפים שהתמקדו באופטימיזציה של אנליטיקה מואצת GPU. עם Amazon EMR ומופעי G7e, ארגונים יכולים להפחית באופן דרמטי את הזמן הנדרש להנדסת פיצ'רים של AI/ML, טרנספורמציות ETL מורכבות וניתוח בזמן אמת בקנה מידה. לקוחות המריצים צינורות עיבוד נתונים בקנה מידה גדול יכולים להשיג זמן מהיר יותר עד תובנה תוך שמירה על תאימות מלאה ליישומי Spark הקיימים שלהם.

הרחבת תמיכה במודלי NVIDIA Nemotron ב-Amazon Bedrock

AWS ו-NVIDIA מרחיבות גם את שיתוף הפעולה שלהן במודלים בסיסיים, ומביאות מודלי NVIDIA Nemotron מתקדמים ל-Amazon Bedrock.

מפתחים יקבלו בקרוב את היכולת לבצע כוונון עדין למודלי NVIDIA Nemotron ישירות ב-Amazon Bedrock באמצעות Reinforcement Fine-Tuning (RFT). זהו מהפך עבור צוותים שצריכים להתאים את התנהגות המודל לתחומים ספציפיים, בין אם במשפטים, בריאות, פיננסים או תחומים מיוחדים אחרים. RFT מאפשר למשתמשים לעצב כיצד מודל חושב ומגיב, מעבר לרכישת ידע גרידא ליישור התנהגותי עדין. חשוב לציין, זה רץ באופן טבעי ב-Amazon Bedrock, ומבטל תקורה של תשתית – משתמשים מגדירים את המשימה, מספקים משוב, ו-Bedrock מנהלת את השאר.

יתר על כן, NVIDIA Nemotron 3 Super, מודל תמהיל מומחים (MoE) היברידי שנבנה לעומסי עבודה מרובי-סוכנים וחשיבה מורחבת, יגיע בקרוב גם ל-Amazon Bedrock. הוא תוכנן כדי לעזור לסוכני AI לשמור על דיוק על פני זרימות עבודה מורכבות ומרובות שלבים, Nemotron 3 Super יניע מגוון רחב של מקרי שימוש המשתרעים על פני פיננסים, אבטחת סייבר, קמעונאות ופיתוח תוכנה. הוא מבטיח הסקה מהירה וחסכונית באמצעות API מנוהל במלואו, מה שמפשט את הפריסה של סוכני AI מתוחכמים.

הנה סיכום ההכרזות העיקריות:

תכונה/אינטגרציה	תיאור	יתרון עיקרי	זמינות
פריסת GPU	למעלה ממיליון יחידות GPU של NVIDIA (ארכיטקטורות Blackwell, Rubin) ברחבי אזורי AWS.	קנה מידה חישובי ענק עבור כל עומסי העבודה של AI/ML, AI אג'נטי.	החל מ-2026
מופעי Amazon EC2	תמיכה ביחידות GPU מסוג NVIDIA RTX PRO 4500 Blackwell Server Edition ב-EC2.	תמיכה ראשונה של ספקית ענן גדולה עבור AI רב-תכליתי, גרפיקה, אנליטיקה.	בקרוב
הסקת LLM	NVIDIA NIXL על גבי AWS EFA להסקת LLM מפורקת מואצת על פני יחידות GPU ו-Trainiums.	השהיית תקשורת ממוזערת, ניצול GPU מקסימלי עבור LLMs.	הוכרז
ביצועי Apache Spark	עומסי עבודה מהירים פי 3 של Spark ב-Amazon EMR ב-EKS עם מופעי G7e (RTX PRO 6000).	זמן מואץ עד תובנה עבור ניתוח נתונים, הנדסת פיצ'רים.	הוכרז
כוונון עדין של Nemotron	Reinforcement Fine-Tuning (RFT) עבור מודלי Nemotron ישירות ב-Amazon Bedrock.	יישור התנהגות מודל ספציפי לתחום ללא תקורה של תשתית.	בקרוב
Nemotron 3 Super	מודל MoE היברידי לעומסי עבודה מרובי-סוכנים וחשיבה מורחבת ב-Amazon Bedrock.	הסקה מהירה וחסכונית עבור משימות AI מורכבות מרובות שלבים.	בקרוב

מחויבות ליעילות אנרגטית ו-AI בר קיימא

ככל שעומסי עבודה של AI ממשיכים לגדול באופן אקספוננציאלי, היעילות והקיימות של התשתית הבסיסית הופכות לחשובות ביותר. שיתוף הפעולה מדגיש גם מחויבות משותפת לשיפור היעילות האנרגטית. ביצועים לוואט אינם עוד רק מדד קיימות אלא יתרון תחרותי משמעותי בנוף ה-AI.

ב-NVIDIA GTC 2026, קארה הארסט (Kara Hurst), מנהלת הקיימות הראשית (CSO) של אמזון, הצטרפה למנהיגי קיימות אחרים כדי לדון כיצד AI משנה באופן מהותי את האנרגיה והתשתית הארגונית בקנה מידה. דיון זה מדגיש את ההתמקדות בפיתוח ופריסת פתרונות AI שהם לא רק חזקים אלא גם אחראיים סביבתית, ממרכזי נתונים הממוטבים כמשתתפים פעילים ברשת ועד ליישומי AI ארגוניים רחבים יותר. גישה חשיבתית קדימה זו מבטיחה שההתקדמות במחשוב AI מתיישרת עם יעדי הקיימות הגלובליים.

AWS, NVIDIA מעמיקות את שיתוף הפעולה ב-AI להאצת הייצור