What is the primary goal of the expanded strategic collaboration between AWS and NVIDIA?

The collaboration aims to accelerate the transition of AI solutions from experimental phases to full-scale production environments. This involves integrating new technologies and expanding existing capabilities across accelerated computing, interconnect technologies, model fine-tuning, and inference. The focus is on enabling customers to build and run AI solutions that are reliable, performant at scale, and compliant with enterprise security and regulatory requirements, ultimately driving meaningful business outcomes through production-ready AI systems.

What significant GPU infrastructure expansions are planned by AWS as part of this collaboration?

Starting in 2026, AWS plans to deploy over 1 million NVIDIA GPUs, including the next-generation Blackwell and Rubin architectures, across its global cloud regions. This massive expansion solidifies AWS's position as a leading provider of NVIDIA GPU-based instances, offering the broadest collection for diverse AI/ML workloads. This enhanced capacity is crucial for supporting the surging demand for AI compute, particularly for complex agentic AI systems that require extensive computational power.

How will the new Amazon EC2 instances with NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs benefit users?

AWS is the first major cloud provider to support the NVIDIA RTX PRO 4500 Blackwell Server Edition GPUs on Amazon EC2 instances. These instances are highly versatile, suitable for a broad spectrum of workloads such as data analytics, conversational AI, content generation, recommender systems, video streaming, and advanced graphics rendering. Built on the AWS Nitro System, they offer enhanced resource efficiency, robust security, and stability, delivering superior performance for demanding AI and graphics applications.

How does the integration of NVIDIA NIXL with AWS EFA enhance Large Language Model (LLM) inference?

The integration of NVIDIA Inference Xfer Library (NIXL) with AWS Elastic Fabric Adapter (EFA) is designed to accelerate disaggregated LLM inference on Amazon EC2 across both NVIDIA GPUs and AWS Trainium instances. This is critical for managing the communication overhead in large models, enabling efficient overlap of communication and computation, minimizing latency, and maximizing GPU utilization. It facilitates high-throughput, low-latency KV-cache data movement and integrates natively with popular open-source frameworks like NVIDIA Dynamo, vLLM, and SGLang.

What improvements are being made to Apache Spark performance for data analytics?

AWS and NVIDIA's joint engineering efforts have resulted in a 3x faster performance for Apache Spark workloads. This is achieved by combining Amazon EMR on Amazon EKS with G7e instances, powered by NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs. This significant speedup allows data engineers and scientists to accelerate time-to-insight for critical tasks such as AI/ML feature engineering, complex ETL transformations, and real-time analytics, maintaining full compatibility with existing Spark applications.

What expanded NVIDIA Nemotron model support is coming to Amazon Bedrock?

Amazon Bedrock will soon support fine-tuning NVIDIA Nemotron models directly using Reinforcement Fine-Tuning (RFT). This capability allows developers to precisely align model behavior to specific domains like legal, healthcare, or finance without infrastructure overhead. Additionally, NVIDIA Nemotron 3 Super, a hybrid Mixture-of-Experts (MoE) model optimized for multi-agent workloads and extended reasoning, will also be available on Amazon Bedrock, providing fast, cost-efficient inference via a fully managed API for complex, multi-step AI tasks.

How does this collaboration address energy efficiency and sustainability in AI?

The collaboration acknowledges the growing importance of energy efficiency as AI workloads scale. Performance per watt is highlighted not just as a sustainability metric but as a competitive advantage. The article points to an NVIDIA GTC session where sustainability leaders, including Amazon CSO Kara Hurst, discuss how AI is transforming enterprise energy and infrastructure, emphasizing efforts towards more sustainable AI practices from data centers to broader enterprise AI applications.

AWS, NVIDIA Thellojnë Bashkëpunimin në AI për të Përshpejtuar Prodhueshmërinë nga Piloti në Prodhueshmëri

AI po transformon industritë me një ritëm të paprecedentë, por vlera e vërtetë nuk qëndron vetëm në eksperimentim, por në vendosjen dhe funksionimin e suksesshëm të zgjidhjeve të AI-së në mjedise prodhimi. Kjo kërkon sisteme të fuqishme, të shkallëzueshme, të sigurta dhe në përputhje me rregulloret, të cilat sjellin rezultate të prekshme biznesi. Duke adresuar këtë nevojë kritike, AWS dhe NVIDIA njoftuan një zgjerim të rëndësishëm të bashkëpunimit të tyre strategjik në NVIDIA GTC 2026, duke zbuluar integrime të reja teknologjike të krijuara për të plotësuar kërkesën në rritje për llogaritjen e AI-së dhe për të çuar zgjidhjet e AI-së në prodhimin real.

Partneriteti i thelluar fokusohet në përshpejtimin e çdo aspekti të ciklit të jetës së AI-së, nga infrastruktura te vendosja e modelit. Këto integrime përfshijnë fusha thelbësore si llogaritja e përshpejtuar, teknologjitë e avancuara të ndërlidhjes dhe rregullimi i hollësishëm dhe inferenca e modelit. Njoftimet kryesore përfshijnë:

Vendosja e mbi 1 milion GPU-ve NVIDIA nëpër Rajonet e AWS duke filluar nga viti 2026.
Mbështetje e Amazon EC2 për GPU-të NVIDIA RTX PRO 4500 Blackwell Server Edition, duke e bërë AWS ofruesin e parë kryesor të cloud-it që e ofron këtë.
Përshpejtim i ndërlidhjes për inferencën e Modeleve të Mëdha Gjuhësore (LLM) të ndarë, duke shfrytëzuar NVIDIA NIXL në AWS Elastic Fabric Adapter (EFA).
Një performancë dramatike 3 herë më e shpejtë për ngarkesat e punës Apache Spark duke përdorur Amazon EMR në Amazon Elastic Kubernetes Service (Amazon EKS) me instanca Amazon EC2 G7e, të mundësuara nga GPU-të NVIDIA RTX PRO 6000 Blackwell Server Edition.
Mbështetje e zgjeruar e modelit NVIDIA Nemotron në Amazon Bedrock, duke përfshirë Rregullimin e Përforcuar (Reinforcement Fine-Tuning) dhe modelin Nemotron 3 Super.

Shkallëzimi i Infrastrukturës së AI me Fuqinë e Përmirësuar të GPU-së NVIDIA

Themeli i AI-së moderne qëndron në një infrastrukturë të fuqishme llogaritëse. Duke filluar nga viti 2026, AWS po merr një angazhim monumental ndaj avancimit të AI-së duke shtuar mbi 1 milion GPU NVIDIA në rajonet e saj globale të cloud-it. Kjo përfshin arkitekturat e gjeneratës së ardhshme Blackwell dhe Rubin të GPU-ve, duke siguruar që klientët të kenë qasje në harduerin më të avancuar të disponueshëm. AWS tashmë krenohet me koleksionin më të gjerë të instancave të bazuara në GPU NVIDIA në industri, duke plotësuar një gamë të larmishme ngarkesash pune AI/ML, dhe ky zgjerim forcon më tej udhëheqjen e saj.

Ky partneritet afatgjatë, që shtrihet në mbi 15 vjet, shtrihet gjithashtu në fusha thelbësore infrastrukturore si rrjetëzimi Spectrum. Qëllimi është t'u sigurojë ndërmarrjeve, startup-eve dhe studiuesve infrastrukturën e fortë të nevojshme për të ndërtuar dhe shkallëzuar sisteme të avancuara të AI Agjentike—AI e aftë për arsyetim autonom, planifikim dhe veprim nëpër flukse pune komplekse.

Prezantimi i Instancave të Reja Amazon EC2 dhe Inovacioneve të Ndërlidhjes

Një pikë kulmore e bashkëpunimit janë instancat e ardhshme Amazon EC2 të përshpejtuara nga GPU-të NVIDIA RTX PRO 4500 Blackwell Server Edition. AWS është krenare të jetë ofruesi i parë kryesor i cloud-it që njofton mbështetjen për këto GPU të fuqishme, duke i bërë ato të aksesueshme për një gamë të gjerë detyrash kërkuese. Këto instanca janë idealisht të përshtatshme për analitikën e të dhënave, AI-në e sofistikuar konversacionale, gjenerimin dinamik të përmbajtjes, sistemet e avancuara rekomanduese, transmetimin e videove me cilësi të lartë dhe ngarkesa pune grafike komplekse.

Këto instanca të reja EC2 do të ndërtohen mbi Sistemën e fortë AWS Nitro. Sistemi Nitro, me kombinimin e tij unik të harduerit të dedikuar dhe një hipervizori të lehtë, ofron pothuajse të gjitha burimet llogaritëse dhe të memories të harduerit host drejtpërdrejt te instancat. Ky dizajn siguron përdorim dhe performancë superiore të burimeve. Crucialisht, hardueri, softueri dhe firmueri i specializuar i Sistemës Nitro janë projektuar për të zbatuar kufizime strikte, duke mbrojtur ngarkesat e ndjeshme të punës të AI-së dhe të dhënat nga qasja e paautorizuar, madje edhe brenda AWS. Aftësia e tij për të kryer azhurnime dhe optimizime të firmuerit gjatë funksionimit rrit më tej sigurinë dhe stabilitetin thelbësor për ngarkesa pune të AI, analitike dhe grafike të nivelit të prodhimit.

Përshpejtimi i ndërlidhjeve për inferencën e ndarë të LLM-ve rrit më tej performancën, veçanërisht për modelet masive të AI-së. Ndërsa madhësitë e modeleve vazhdojnë të rriten, mbingarkesa e komunikimit midis GPU-ve ose instancave AWS Trainium mund të bëhet një pengesë e rëndësishme. AWS njoftoi mbështetjen për NVIDIA Inference Xfer Library (NIXL) me AWS Elastic Fabric Adapter (EFA), të projektuar për të përshpejtuar inferencën e ndarë të LLM-ve në Amazon EC2, duke përfshirë të dy GPU-të NVIDIA dhe AWS Trainium. Ky integrim është thelbësor për shkallëzimin e ngarkesave moderne të AI-së, duke mundësuar mbivendosjen efikase të komunikimit dhe llogaritjes, minimizimin e latencës dhe maksimizimin e përdorimit të GPU-së. Ai lehtëson lëvizjen e të dhënave KV-cache me kapacitet të lartë dhe latencë të ulët midis nyjeve llogaritëse dhe burimeve të memories të shpërndara. NIXL me EFA integrohet natyrshëm me kornizat popullore me burim të hapur si NVIDIA Dynamo, vLLM dhe SGLang, duke ofruar latencë të përmirësuar ndërmjet-token dhe përdorim më efikas të memories KV-cache.

Përshpejtimi i Analitikës së të Dhënave me Amazon EMR dhe GPU-të

Inxhinierët dhe shkencëtarët e të dhënave shpesh përballen me tubacione të gjata të përpunimit të të dhënave që mund të pengojnë ndjeshëm përsëritjen e modeleve AI/ML dhe gjenerimin e inteligjencës së biznesit. Bashkëpunimi AWS dhe NVIDIA ofron një përmirësim novator: performancë 3 herë më të shpejtë për ngarkesat e punës Apache Spark. Ky përshpejtim arrihet duke shfrytëzuar Amazon EMR në Amazon EKS me instanca G7e, të mundësuara nga GPU-të NVIDIA RTX PRO 6000 Blackwell Server Edition.

Kjo rritje thelbësore e performancës është një rezultat i drejtpërdrejtë i përpjekjeve të përbashkëta inxhinierike të fokusuara në optimizimin e analitikës të përshpejtuar nga GPU-ja. Me instancat Amazon EMR dhe G7e, organizatat mund të reduktojnë ndjeshëm kohën e nevojshme për inxhinierinë e veçorive të AI/ML, transformimet komplekse ETL dhe analitikën në kohë reale në shkallë. Klientët që ekzekutojnë tubacione të përpunimit të të dhënave në shkallë të gjerë mund të arrijnë kohë më të shpejtë drejt njohurive duke ruajtur përputhshmërinë e plotë me aplikacionet e tyre ekzistuese të Spark.

Zgjerimi i Mbështetjes së Modelit NVIDIA Nemotron në Amazon Bedrock

AWS dhe NVIDIA po zgjerojnë gjithashtu bashkëpunimin e tyre mbi modelet themelore, duke sjellë modelet e avancuara NVIDIA Nemotron në Amazon Bedrock.

Zhvilluesit së shpejti do të kenë aftësinë të rregullojnë hollësisht modelet NVIDIA Nemotron drejtpërdrejt në Amazon Bedrock duke përdorur Rregullimin e Përforcuar (RFT). Ky është një ndryshim thelbësor për ekipet që duhet të përshtatin sjelljen e modelit me fusha specifike, qoftë në fushën ligjore, shëndetësore, financiare ose fusha të tjera të specializuara. RFT u mundëson përdoruesve të formësojnë mënyrën se si një model arsyeton dhe përgjigjet, duke kaluar përtej thjesht përvetësimit të njohurive në një përshtatje të nuancuar të sjelljes. Crucialisht, kjo funksionon natyrshëm në Amazon Bedrock, duke eliminuar mbingarkesën e infrastrukturës – përdoruesit përcaktojnë detyrën, ofrojnë feedback, dhe Bedrock menaxhon pjesën tjetër.

Për më tepër, NVIDIA Nemotron 3 Super, një model hibrid Mixture-of-Experts (MoE) i ndërtuar për ngarkesa pune me shumë agjentë dhe arsyetim të zgjeruar, gjithashtu do të jetë së shpejti në Amazon Bedrock. I projektuar për të ndihmuar agjentët e AI-së të mbajnë saktësinë nëpër flukse pune komplekse, me shumë hapa, Nemotron 3 Super do të fuqizojë raste të ndryshme përdorimi që shtrihen në financë, siguri kibernetike, shitje me pakicë dhe zhvillim softueri. Ai premton inferencë të shpejtë dhe me kosto efektive përmes një API plotësisht të menaxhuar, duke thjeshtuar vendosjen e agjentëve të sofistikuar të AI-së.

Ja një përmbledhje e njoftimeve kryesore:

Veçori/Integrim	Përshkrim	Përfitimi Kryesor	Disponueshmëria
Vendosja e GPU-ve	Mbi 1 milion GPU NVIDIA (arkitektura Blackwell, Rubin) në të gjitha Rajonet e AWS.	Shkallë masive llogaritëse për të gjitha ngarkesat e punës AI/ML, AI agjentike.	Duke filluar nga viti 2026
Instancat Amazon EC2	Mbështetje për GPU-të NVIDIA RTX PRO 4500 Blackwell Server Edition në EC2.	Mbështetja e parë e madhe e ofruesit të cloud-it për AI të shkathët, grafika, analitikë.	Së shpejti
Inferenca e LLM	NVIDIA NIXL në AWS EFA për inferencë të përshpejtuar të ndarë të LLM-ve në GPU-të dhe Trainium-et.	Latencë minimale e komunikimit, përdorim maksimal i GPU-së për LLM-të.	E njoftuar
Performanca e Apache Spark	3 herë më shpejt ngarkesat e punës Spark në Amazon EMR në EKS me instancat G7e (RTX PRO 6000).	Kohë e përshpejtuar deri në njohuri për analitikën e të dhënave, inxhinierinë e veçorive.	E njoftuar
Rregullimi i hollësishëm i Nemotron	Rregullim i Përforcuar (RFT) për modelet Nemotron drejtpërdrejt në Amazon Bedrock.	Përshtatje e sjelljes së modelit specifik për fushën pa mbingarkesë infrastrukturore.	Së shpejti
Nemotron 3 Super	Modeli hibrid MoE për ngarkesa pune me shumë agjentë dhe arsyetim të zgjeruar në Amazon Bedrock.	Inferencë e shpejtë, me kosto efektive për detyra komplekse AI me shumë hapa.	Së shpejti

Angazhimi ndaj Efikasitetit Energjetik dhe AI-së së Qëndrueshme

Ndërsa ngarkesat e punës të AI-së vazhdojnë të rriten në mënyrë eksponenciale, efikasiteti dhe qëndrueshmëria e infrastrukturës themelore bëhen thelbësore. Bashkëpunimi gjithashtu thekson një angazhim të përbashkët për përmirësimin e efikasitetit energjetik. Performanca për vat nuk është më vetëm një metrikë qëndrueshmërie, por një avantazh i rëndësishëm konkurrues në peizazhin e AI-së.

Në NVIDIA GTC 2026, CSO-ja e Amazon, Kara Hurst, iu bashkua liderëve të tjerë të qëndrueshmërisë për të diskutuar se si AI po transformon thelbësisht energjinë dhe infrastrukturën e ndërmarrjeve në shkallë. Ky diskutim nënvizon fokusin në zhvillimin dhe vendosjen e zgjidhjeve të AI-së që nuk janë vetëm të fuqishme, por edhe të përgjegjshme ndaj mjedisit, nga qendrat e të dhënave të optimizuara si pjesëmarrëse aktive të rrjetit deri te aplikacionet më të gjera të AI-së korporative. Kjo qasje largpamëse siguron që avancimet në llogaritjen e AI-së të jenë në përputhje me qëllimet globale të qëndrueshmërisë.

AWS, NVIDIA Thellojnë Bashkëpunimin në AI për të Përshpejtuar Prodhueshmërinë