Muse Spark de Meta: Nova IA Multimodal per a la Superintel·ligència Personal

title: "Muse Spark de Meta: Nova IA Multimodal per a la Superintel·ligència Personal" slug: "introducing-muse-spark-msl" date: "2026-04-09" lang: "ca" source: "https://ai.meta.com/blog/introducing-muse-spark-msl/" category: "Models d'IA" keywords:

Meta AI
Muse Spark
IA Multimodal
Superintel·ligència Personal
Models d'IA
Recerca en IA
IA amb ús d'eines
Cadena de Pensament Visual
Orquestració Multi-agent
Aprenentatge per Reforç
Escalat d'IA
IA de Frontera meta_description: "Meta presenta Muse Spark, un model d'IA multimodal innovador amb raonament avançat, ús d'eines i orquestració multi-agent, obrint el camí cap a la superintel·ligència personal." image: "/images/articles/introducing-muse-spark-msl.png" image_alt: "Logotip de Muse Spark amb formes abstractes entrellaçades que representen les capacitats d'IA multimodal i el text 'Muse Spark'" quality_score: 94 content_score: 93 seo_score: 95 companies:
Meta schema_type: "NewsArticle" reading_time: 7 faq:
question: "Què és Muse Spark i què el fa únic?" answer: 'Muse Spark és el model inaugural de Meta de la família "Muse", desenvolupat per Meta Superintelligence Labs. Destaca com un model de raonament natiu multimodal, la qual cosa significa que integra i processa informació de diverses modalitats, com text i visió, de manera fluida. Les seves capacitats úniques inclouen una funcionalitat robusta d''ús d''eines', una 'cadena de pensament visual' per a la resolució de problemes complexos, i una sofisticada 'orquestració multi-agent' que li permet coordinar múltiples agents d''IA' per millorar el rendiment. Aquest model marca un pas significatiu en l''ambiciós viatge de Meta cap al desenvolupament de la superintel·ligència personal, amb l''objectiu d''entendre i interactuar amb els mons dels usuaris a un nivell profundament personal. La seva introducció significa un canvi fonamental en l''estratègia d''IA de Meta, construïda sobre una revisió des de zero dels seus esforços en 'IA'.'
question: "Quines són les capacitats principals de Muse Spark, particularment el 'mode Contemplació'?" answer: 'Muse Spark ofereix un rendiment competitiu en una àmplia gamma de dominis, incloent la percepció multimodal, tasques de raonament complexes, aplicacions relacionades amb la salut i fluxos de treball agèntics sofisticats. Una característica destacada és el seu 'mode Contemplació', que representa un salt significatiu en el raonament d''IA'. Aquest mode orquestra múltiples agents d''IA' per raonar en paral·lel, permetent a Muse Spark abordar problemes altament desafiants amb una major profunditat i precisió. Aquesta capacitat de processament paral·lel posiciona Muse Spark per competir amb els modes de raonament extrems que es troben en altres models de frontera, demostrat per les seves impressionants puntuacions del 58% a "Humanity’s Last Exam" i del 38% a "FrontierScience Research". Aquest mode permet una resolució de problemes més deliberada i exhaustiva, crucial per assolir funcions cognitives avançades.'
question: "Com aplica Muse Spark les seves capacitats multimodals en escenaris del món real?" answer: 'Muse Spark aprofita la seva integració multimodal nativa per crear aplicacions altament interactives i pràctiques. Per exemple, pot analitzar i interactuar dinàmicament amb informació visual per resoldre problemes d''electrodomèstics, oferint tutorials interactius amb ressaltats de caixes delimitadores i guies pas a pas. En l''àmbit de la salut, pot processar dades visuals d''aliments o rutines d''exercici per proporcionar informació personalitzada, com el contingut nutricional, l''activació muscular i fins i tot puntuacions de salut amb justificacions, curades en col·laboració amb professionals mèdics. Aquestes capacitats permeten a Muse Spark analitzar entorns immediats, donar suport al benestar i generar experiències interactives atractives com mini-jocs, fent la 'IA' més intuïtiva i útil en la vida diària.'
question: "Quines inversions estratègiques ha fet Meta per escalar Muse Spark i futurs models d'IA?" answer: 'Per donar suport a l''escalat continu de Muse Spark i els seus successors, Meta ha realitzat inversions estratègiques en tota la seva pila d''IA'. Això inclou una revisió exhaustiva de les seves metodologies de recerca, l''optimització de les pipelines d''entrenament de models i una millora significativa de la seva infraestructura, notablement a través del desenvolupament del centre de dades Hyperion. Un aspecte clau d''aquestes inversions és una reconstrucció completa de la pila de pre-entrenament, que ha portat a millores substancials en l''arquitectura del model, els algorismes d''optimització i les tècniques de curació de dades. Aquests avenços han augmentat dràsticament l''eficiència del desenvolupament d''IA' de Meta, permetent-los extreure majors capacitats de cada unitat de potència computacional i assegurar un escalat predictible i eficient cap a l''objectiu de la superintel·ligència personal.'
question: "Com ha aconseguit Meta una eficiència computacional significativa amb Muse Spark en comparació amb models anteriors?" answer: 'Meta ha aconseguit una notable eficiència computacional amb Muse Spark mitjançant una revisió rigorosa de la seva pila de pre-entrenament. En implementar millores en l''arquitectura del model, les estratègies d''optimització i la curació de dades, ara poden extreure significativament més capacitat de la mateixa quantitat de recursos computacionals. Les avaluacions han demostrat que Muse Spark pot assolir els mateixos nivells de rendiment amb una magnitud d''ordre inferior de còmput en comparació amb el model anterior de Meta, Llama 4 Maverick. Aquest guany d''eficiència no només és un testimoni de la seva enginyeria innovadora, sinó que també posiciona Muse Spark com un model altament competitiu en termes d''utilització de recursos davant d''altres models base líders. Aquest avenç és fonamental per accelerar el desenvolupament de models més grans i potents.'
question: "Explica el paper de l'Aprenentatge per Reforç (RL) en el desenvolupament de Muse Spark." answer: 'L''Aprenentatge per Reforç (RL) juga un paper crucial en l''amplificació de les capacitats de Muse Spark després del pre-entrenament. Malgrat la inestabilitat inherent sovint associada a l''RL a gran escala, la nova pila de Meta assegura guanys fluids i predictibles. L''RL millora sistemàticament la fiabilitat del model i la diversitat de raonament, com ho demostra el creixement log-lineal en les mètriques pass@1 i pass@16 en les dades d''entrenament. Crucialment, aquestes millores es generalitzen eficaçment a tasques no vistes, demostrant que els guanys de l''RL no són només memorització rutinària, sinó veritables millores de capacitat. Aquest escalat predictible del còmput de l''RL permet a Muse Spark millorar contínuament la seva capacitat per realitzar tasques complexes, assegurant que el model segueixi sent adaptable i tingui un bon rendiment més enllà del seu abast d''entrenament inicial.'
question: "Què és la 'compressió del pensament' i l''orquestració multi-agent' en el context del raonament en temps de prova de Muse Spark?" answer: 'En el raonament en temps de prova de Muse Spark, la 'compressió del pensament' es refereix a la capacitat del model de condensar el seu procés de raonament per resoldre problemes utilitzant significativament menys tokens, impulsada per 'penalitzacions de temps de pensament' durant l''entrenament d''RL'. Inicialment, el model podria 'pensar més temps' per millorar, però a mesura que augmenten les penalitzacions, aprèn a aconseguir resultats similars o millors de manera més concisa. Després d''aquesta fase de compressió, pot estendre les seves solucions per a un rendiment encara més fort. L''orquestració multi-agent' és una tècnica per escalar el raonament en temps de prova sense augmentar dràsticament la latència. En lloc d''un sol agent pensant més temps, múltiples agents paral·lels col·laboren per resoldre problemes complexos, permetent a Muse Spark aconseguir un rendiment superior amb temps de resposta comparables. Tots dos mètodes tenen com a objectiu maximitzar la intel·ligència per token i per unitat de temps, fent la 'IA' eficient i reactiva.'
question: "Com poden els usuaris accedir a Muse Spark, i quins són els plans futurs de Meta per a ell?" answer: 'Muse Spark ja està disponible avui per al públic general a través de meta.ai i l''aplicació Meta AI. A més, Meta està ampliant l''accés a usuaris seleccionats mitjançant una vista prèvia d''API privada, permetent als desenvolupadors i investigadors integrar i experimentar amb les seves capacitats avançades. Com a primer model de la família Muse, Muse Spark representa un pas inicial en l''ambiciosa escala de Meta cap a la consecució de la 'superintel·ligència personal'. Meta continua invertint fortament en el desenvolupament de models més grans i capaços, basant-se en la fundació de Spark, amb investigacions en curs centrades a abordar les llacunes de rendiment actuals en àrees com els sistemes agèntics de llarg abast i els fluxos de treball de codificació complexos. El 'mode Contemplació' també s''estendrà gradualment a tots els usuaris.'

Muse Spark de Meta: Un Salt Cap a la Superintel·ligència Personal

Avui marca un moment crucial en l'evolució de la intel·ligència artificial, ja que Meta presenta Muse Spark, el model inaugural de la seva ambiciosa família Muse, meticulosament dissenyat per Meta Superintelligence Labs. Muse Spark no és només un altre model d'IA; representa un canvi fonamental en la manera com la IA interactua i entén el món. Com a model de raonament natiu multimodal, integra i processa de manera fluida diversos tipus de dades —des de text fins a informació visual complexa— convertint-lo en una eina increïblement versàtil i potent.

Les capacitats clau de Muse Spark inclouen el seu sòlid suport per a l'ús d'eines, que li permet interactuar amb sistemes i entorns externs, i el seu innovador processament de cadena de pensament visual, que facilita una resolució de problemes més transparent i sofisticada. A més, la seva avançada orquestració multi-agent li permet coordinar múltiples agents d'IA per abordar tasques complexes de manera col·laborativa. Aquest llançament és el primer resultat tangible d'una revisió exhaustiva de l'estratègia d'IA de Meta, recolzada per significatives inversions estratègiques en tota la pila d'IA, des de la investigació fonamental i l'entrenament de models fins a infraestructures d'última generació com el centre de dades Hyperion. Muse Spark ja està disponible immediatament a través de meta.ai i l'aplicació Meta AI, amb una vista prèvia d'API privada oferta a usuaris seleccionats.

Desbloquejant el Raonament Avançat amb les Capacitats de Muse Spark

Muse Spark demostra un rendiment competitiu en un ampli espectre de tasques d'IA, que abasten la percepció multimodal, el raonament complex, les aplicacions de salut i els fluxos de treball agèntics sofisticats. Encara que Meta reconeix la inversió contínua en àrees amb llacunes de rendiment actuals, com els sistemes agèntics de llarg abast i els fluxos de treball de codificació complexos, els resultats inicials afirmen l'eficàcia de la seva nova pila d'escalat. La introducció del mode Contemplació eleva encara més la destresa de raonament de Muse Spark. Aquest mode innovador orquestra múltiples agents d'IA per raonar en paral·lel, una estratègia que augmenta significativament el rendiment en tasques desafiants.

El mode Contemplació ha assolit resultats notables, amb una puntuació del 58% en "Humanity’s Last Exam" i del 38% en "FrontierScience Research", posicionant Muse Spark per rivalitzar amb les capacitats de raonament extremes de models de frontera líders com Gemini Deep Think i GPT Pro. Aquesta aproximació de raonament paral·lel permet al model explorar múltiples vies de solució simultàniament, portant a resultats més robustos i precisos. El llançament gradual del mode Contemplació a meta.ai desbloquejarà progressivament aquestes capacitats avançades per als usuaris, oferint una visió del futur de la superintel·ligència personal.

Aplicacions al Món Real: Muse Spark en Acció

Muse Spark està dissenyat per portar la promesa de la superintel·ligència personal a la vida diària, entenent i assistint els usuaris de maneres altament personalitzades. Les seves capacitats avançades de raonament i multimodals desbloquegen una infinitat d'aplicacions pràctiques:

Interacció Multimodal

Construït des de zero per a la integració multimodal, Muse Spark destaca en el processament d'informació visual en diversos dominis i eines. Aconsegueix un rendiment sòlid en preguntes visuals de STEM, reconeixement d'entitats i localització. Aquestes fortaleses convergeixen per permetre experiències interactives que abans eren inaccessibles:

Aprenentatge Interactiu: Imagineu demanar a Muse Spark que transformi un diagrama complex en un minijoc divertit o que resolgui un problema amb un electrodomèstic. Pot identificar components, crear tutorials interactius i ressaltar àrees específiques amb anotacions dinàmiques mentre passeu el ratolí per sobre dels passos.
Exemple de Sol·licitud (Prompt): "Identifica els components clau de la màquina de cafè i el molinet, i crea un tutorial interactiu sobre com utilitzar aquesta màquina per fer un latte amb una senzilla pàgina web. Quan passi el ratolí per sobre dels passos, ressaltarà les caixes delimitadores dels components."

Informació de Salut Personalitzada

Una aplicació significativa de la superintel·ligència personal rau en empoderar els individus per entendre i gestionar millor la seva salut. Per garantir respostes factuals i completes, Meta va col·laborar amb més de 1.000 metges per curar dades d'entrenament especialitzades per a les capacitats de raonament de salut de Muse Spark. Això permet al model:

Explicar Informació de Salut: Generar pantalles interactives que desglossen i expliquen dades de salut, com el contingut nutricional de diversos aliments o els músculs activats durant exercicis específics.
Orientació Dietètica Personalitzada: Proporcionar consells dietètics personalitzats basats en perfils de salut individuals, fins i tot anotant visualment els aliments en una imatge amb recomanacions personalitzades i puntuacions de salut.
Exemple de Sol·licitud (Prompt): "Sóc pescatarià amb colesterol alt. Posa punts verds als aliments recomanats i punts vermells als no recomanats. No dupliquis els punts i assegura't que estiguin localitzats correctament. Quan passi el ratolí per sobre del punt, mostra una justificació personalitzada i una 'puntuació de salut' de 10, juntament amb calories i carbohidrats, proteïnes i greixos. Els números de la puntuació de salut han d'aparèixer just a sobre del punt sense passar el ratolí. La descripció que es mostra en passar el ratolí ha d'anar per sobre de tots els altres punts."
Retroalimentació de Fitness: Analitzar postures d'exercici, identificar grups musculars que s'estan estirant, avaluar la dificultat i proporcionar retroalimentació en temps real sobre la forma, fins i tot comparant el rendiment amb una parella.
Exemple de Sol·licitud (Prompt): "Per a ambdues imatges, mostra'm quins músculs s'estan estirant i la seva dificultat. Quan passi el ratolí per sobre del punt, explica'm més sobre el grup muscular i com corregir la meva forma. Vull millorar en ioga. Fes una comparació al costat del meu company/a, i puntua'ns a tots dos en una escala de l'1 al 10."

Eixos d'Escalat: El Motor del Creixement de Muse Spark

La recerca de Meta de la superintel·ligència personal depèn de l'escalat predictible i eficient dels seus models. El desenvolupament de Muse Spark ha proporcionat valuoses idees sobre tres eixos d'escalat crítics: pre-entrenament, aprenentatge per reforç i raonament en temps de prova.

Eficiència del Pre-entrenament

La fase de pre-entrenament és on Muse Spark estableix les seves capacitats fonamentals de comprensió multimodal, raonament i codificació. Durant els darrers nou mesos, Meta ha reconstruït completament la seva pila de pre-entrenament, incorporant millores substancials en l'arquitectura del model, les tècniques d'optimització i la curació de dades. Aquests avenços augmenten col·lectivament les capacitats derivades de cada unitat de còmput. Una avaluació rigorosa utilitzant lleis d'escalat en una sèrie de models més petits va revelar una eficiència pionera: Muse Spark pot aconseguir les mateixes capacitats amb més d'un ordre de magnitud menys de còmput que el seu predecessor, Llama 4 Maverick. Això fa que Muse Spark sigui significativament més eficient que els models base líders existents.

Mètrica	Llama 4 Maverick (Línia base)	Muse Spark (Eficiència de còmput)	Factor de Millora
Còmput per Capacitat	X FLOPs	< 0.1X FLOPs	> 10x
Equivalència de Rendiment	Línia base aconseguida	Línia base aconseguida	N/A

Guanys d'Aprenentatge per Reforç (RL)

Després del pre-entrenament, l'aprenentatge per reforç (RL) juga un paper crucial en l'amplificació de les capacitats de Muse Spark de manera escalable. Malgrat la inestabilitat inherent sovint associada a l'RL a gran escala, la nova pila de Meta ofereix guanys fluids i predictibles. Els gràfics que ho demostren mostren un creixement log-lineal en mètriques com pass@1 i pass@16 (almenys un intent reeixit de 16) en les dades d'entrenament, indicant millores en la fiabilitat del model sense comprometre la diversitat de raonament. Importantment, el creixement de la precisió en un conjunt d'avaluació no vist confirma que aquests guanys d'RL es generalitzen de manera predictible, el que significa que Muse Spark millora de manera fluida en tasques que no ha vist explícitament durant l'entrenament. Això assegura que les millores del model són robustes i àmpliament aplicables.

Optimització del Raonament en Temps de Prova

Per oferir intel·ligència de manera eficient a milers de milions d'usuaris, el raonament en temps de prova de Muse Spark ha de ser optimitzat. Meta utilitza dues estratègies clau:

Penalitzacions de Temps de Pensament i Compressió del Pensament: Durant l'entrenament d'RL, s'aplica una penalització per a temps de pensament més llargs, encoratjant el model a maximitzar la correcció mentre optimitza l'ús de tokens. En certes avaluacions, això condueix a una "transició de fase": després d'un període inicial en què el model millora pensant més temps, la penalització per longitud provoca la compressió del pensament. Muse Spark aprèn a condensar el seu raonament, resolent problemes amb significativament menys tokens. Després d'aquesta compressió, el model pot estendre les seves solucions de nou per assolir un rendiment encara més fort, demostrant una notable adaptabilitat en l'eficiència del raonament.
Orquestració Multi-Agent: Per augmentar el raonament en temps de prova sense un augment dràstic de la latència, Meta escala el nombre d'agents paral·lels que col·laboren. Mentre que l'escalat estàndard en temps de prova implica que un sol agent pensa més temps, l'enfocament multi-agent de Muse Spark permet un rendiment superior amb temps de resposta comparables. Aquesta capacitat de processament paral·lel és crucial per oferir un raonament complex a velocitats amigables per a l'usuari.

La Visió de Meta: El Camí Cap a la Superintel·ligència Personal

La introducció de Muse Spark representa un pas monumental en la visió a llarg termini de Meta de crear superintel·ligència personal. En refinar meticulosament cada capa de la seva pila d'IA —des de la investigació fonamental i la infraestructura fins a les tècniques d'entrenament avançades— Meta està construint un futur on la IA pugui comprendre i augmentar profundament les capacitats humanes. Muse Spark, amb el seu raonament multimodal, ús avançat d'eines i escalat eficient, estableix una base sòlida per a models futurs, encara més grans, que ens acostaran a un company d'IA veritablement personalitzat i intel·ligent. Aquest compromís amb una IA escalable i intel·ligent configurarà com interactuem amb la tecnologia i el nostre món en els anys vinents, acostant la possibilitat d'escalar la IA per a tothom a la realitat.

Font original

https://ai.meta.com/blog/introducing-muse-spark-msl/

Preguntes freqüents

What is Muse Spark and what makes it unique?

Muse Spark is Meta's inaugural model in the 'Muse' family, developed by Meta Superintelligence Labs. It stands out as a natively multimodal reasoning model, meaning it seamlessly integrates and processes information from various modalities like text and vision. Its unique capabilities include robust tool-use functionality, visual chain of thought for complex problem-solving, and sophisticated multi-agent orchestration, enabling it to coordinate multiple AI agents for enhanced performance. This model marks a significant step in Meta's ambitious journey towards developing personal superintelligence, aiming to understand and interact with users' worlds on a deeply personal level. Its introduction signifies a foundational shift in Meta's AI strategy, built on a ground-up overhaul of their AI efforts.

What are the core capabilities of Muse Spark, particularly 'Contemplating mode'?

Muse Spark offers competitive performance across a wide array of domains, including multimodal perception, complex reasoning tasks, health-related applications, and sophisticated agentic workflows. A standout feature is its 'Contemplating mode,' which represents a significant leap in AI reasoning. This mode orchestrates multiple AI agents to reason in parallel, allowing Muse Spark to tackle highly challenging problems with enhanced depth and accuracy. This parallel processing capability positions Muse Spark to compete with the extreme reasoning modes found in other frontier models, demonstrated by its impressive scores of 58% on 'Humanity’s Last Exam' and 38% on 'FrontierScience Research.' This mode allows for more deliberate and thorough problem-solving, crucial for achieving advanced cognitive functions.

How does Muse Spark apply its multimodal capabilities in real-world scenarios?

Muse Spark leverages its native multimodal integration to create highly interactive and practical applications. For instance, it can dynamically analyze and interact with visual information to troubleshoot home appliances, offering interactive tutorials with bounding box highlights and step-by-step guidance. In the realm of health, it can process visual data of food items or exercise routines to provide personalized insights, such as nutritional content, muscle activation, and even health scores with justifications, curated in collaboration with medical professionals. These capabilities enable Muse Spark to analyze immediate environments, support wellness, and generate engaging interactive experiences like mini-games, making AI more intuitive and helpful in daily life.

What strategic investments has Meta made to scale Muse Spark and future AI models?

To support the continued scaling of Muse Spark and its successors, Meta has undertaken strategic investments across its entire AI stack. This includes a comprehensive overhaul of its research methodologies, optimizing model training pipelines, and significantly upgrading its infrastructure, notably through the development of the Hyperion data center. A key aspect of these investments is a complete rebuild of the pretraining stack, which has led to substantial improvements in model architecture, optimization algorithms, and data curation techniques. These advancements have dramatically increased the efficiency of Meta's AI development, allowing them to extract greater capabilities from every unit of computational power and ensure predictable, efficient scaling towards the goal of personal superintelligence.

How has Meta achieved significant compute efficiency with Muse Spark compared to previous models?

Meta has achieved remarkable compute efficiency with Muse Spark through a rigorous overhaul of its pretraining stack. By implementing improvements in model architecture, optimization strategies, and data curation, they can now extract significantly more capability from the same amount of computational resources. Evaluations have shown that Muse Spark can reach the same performance levels with over an order of magnitude less compute compared to Meta's previous model, Llama 4 Maverick. This efficiency gain is not only a testament to their innovative engineering but also positions Muse Spark as a highly competitive model in terms of resource utilization against other leading base models. This breakthrough is critical for accelerating the development of larger, more powerful models.

Explain the role of Reinforcement Learning (RL) in Muse Spark's development.

Reinforcement Learning (RL) plays a crucial role in amplifying Muse Spark's capabilities post-pretraining. Despite the inherent instability often associated with large-scale RL, Meta's new stack ensures smooth and predictable gains. RL systematically improves the model's reliability and reasoning diversity, as evidenced by log-linear growth in pass@1 and pass@16 metrics on training data. Crucially, these improvements generalize effectively to unseen tasks, demonstrating that the gains from RL are not merely rote memorization but true capability enhancements. This predictable scaling of RL compute allows Muse Spark to continuously improve its ability to perform complex tasks, ensuring the model remains adaptable and performs well beyond its initial training scope.

What is 'thought compression' and 'multi-agent orchestration' in the context of Muse Spark's test-time reasoning?

In Muse Spark's test-time reasoning, 'thought compression' refers to the model's ability to condense its reasoning process to solve problems using significantly fewer tokens, driven by 'thinking time penalties' during RL training. Initially, the model might 'think longer' to improve, but as penalties increase, it learns to achieve similar or better results more concisely. After this compression phase, it can then extend its solutions for even stronger performance. 'Multi-agent orchestration' is a technique to scale test-time reasoning without drastically increasing latency. Instead of a single agent thinking longer, multiple parallel agents collaborate to solve complex problems, allowing Muse Spark to achieve superior performance with comparable response times. Both methods aim to maximize intelligence per token and per unit of time, making the AI efficient and responsive.

How can users access Muse Spark, and what are Meta's future plans for it?

Muse Spark is available today to the general public via [meta.ai](https://meta.ai/) and the Meta AI app. Additionally, Meta is extending access to select users through a private API preview, allowing developers and researchers to integrate and experiment with its advanced capabilities. As the first model in the Muse family, Muse Spark represents an initial step on Meta's ambitious scaling ladder towards achieving 'personal superintelligence.' Meta continues to invest heavily in developing larger, more capable models building upon Spark's foundation, with ongoing research focused on addressing current performance gaps in areas like long-horizon agentic systems and complex coding workflows. The 'Contemplating mode' will also be rolling out gradually to all users.

Manteniu-vos al dia

Rebeu les últimes notícies d'IA al correu.