Code Velocity
Mga Modelo ng AI

Muse Spark ng Meta: Bagong Multimodal AI para sa Personal na Superintelligence

·7 min basahin·Meta·Orihinal na pinagmulan
I-share
Logo ng Muse Spark na may magkakaugnay na abstract na hugis na kumakatawan sa mga kakayahan ng multimodal AI at ang tekstong 'Muse Spark'

Muse Spark ng Meta: Isang Malaking Hakbang Tungo sa Personal na Superintelligence

Ngayon ay nagmamarka ng isang mahalagang sandali sa ebolusyon ng artificial intelligence habang ipinapakilala ng Meta ang Muse Spark, ang unang modelo mula sa ambisyosong pamilya ng Muse, na masusing binuo ng Meta Superintelligence Labs. Ang Muse Spark ay hindi lamang isa pang modelo ng AI; ito ay kumakatawan sa isang pundasyong pagbabago sa kung paano nakikipag-ugnayan at nauunawaan ng AI ang mundo. Bilang isang natively multimodal reasoning model, walang putol itong nagsasama at nagpoproseso ng iba't ibang uri ng data—mula sa teksto hanggang sa kumplikadong biswal na impormasyon—na ginagawa itong isang napakatalino at makapangyarihang tool.

Mahalaga sa mga kakayahan ng Muse Spark ang matatag nitong suporta para sa paggamit ng tool, na nagbibigay-daan dito upang makipag-ugnayan sa mga panlabas na sistema at kapaligiran, at ang makabago nitong biswal na "chain of thought" processing, na nagpapahintulot sa mas transparent at sopistikadong paglutas ng problema. Bukod pa rito, ang advanced nitong multi-agent orchestration ay nagbibigay-kapangyarihan dito na makipag-ugnayan sa maraming AI agent upang magkasamang harapin ang mga kumplikadong gawain. Ang paglabas na ito ang unang nakikitang resulta ng isang komprehensibong pagbabago ng diskarte ng Meta sa AI, na sinusuportahan ng malalaking estratehikong pamumuhunan sa buong AI stack, mula sa pangunahing pananaliksik at pagsasanay ng modelo hanggang sa cutting-edge na imprastraktura tulad ng Hyperion data center. Agad na magagamit ang Muse Spark sa pamamagitan ng meta.ai at ng Meta AI app, na may pribadong API preview na inaalok sa piling mga user.

Pagbubukas ng Advanced na Pagdadahilan Gamit ang mga Kakayahan ng Muse Spark

Nagpapakita ang Muse Spark ng mapagkumpitensyang pagganap sa malawak na spectrum ng mga gawain ng AI, kabilang ang multimodal perception, masalimuot na pagdadahilan, mga aplikasyon sa kalusugan, at sopistikadong agentic workflows. Bagaman kinikilala ng Meta ang patuloy na pamumuhunan sa mga lugar na may kasalukuyang performance gaps, tulad ng "long-horizon agentic systems" at kumplikadong coding workflows, pinagtitibay ng mga paunang resulta ang pagiging epektibo ng kanilang bagong scaling stack. Ang pagpapakilala ng Contemplating mode ay lalo pang nagpapataas sa husay ng pagdadahilan ng Muse Spark. Ang makabagong mode na ito ay nag-o-orchestrate ng maraming AI agent upang magdahilan nang sabay-sabay, isang estratehiya na makabuluhang nagpapataas ng pagganap sa mga mapaghamong gawain.

Nakakamit ng Contemplating mode ang kapansin-pansing resulta, na may markang 58% sa "Humanity’s Last Exam" at 38% sa "FrontierScience Research," na nagpoposisyon sa Muse Spark na makipagkumpitensya sa matinding kakayahan sa pagdadahilan ng mga nangungunang frontier model tulad ng Gemini Deep Think at GPT Pro. Ang diskarte na ito sa parallel reasoning ay nagpapahintulot sa modelo na galugarin ang maraming paraan para sa mga solusyon nang sabay-sabay, na nagreresulta sa mas matatag at tumpak na mga kinalabasan. Ang unti-unting paglulunsad ng Contemplating mode sa meta.ai ay unti-unting magbubukas ng mga advanced na kakayahang ito para sa mga user, na nagbibigay ng sulyap sa hinaharap ng personal na superintelligence.

Tunay na mga Aplikasyon sa Mundo: Muse Spark sa Aksyon

Ang Muse Spark ay idinisenyo upang dalhin ang pangako ng personal na superintelligence sa pang-araw-araw na buhay, pag-unawa at pagtulong sa mga user sa mga lubhang personalized na paraan. Ang mga advanced na kakayahan nito sa pagdadahilan at multimodal ay nagbubukas ng maraming praktikal na aplikasyon:

Interaksyon ng Multimodal

Binuo mula sa simula para sa multimodal integration, ang Muse Spark ay mahusay sa pagpoproseso ng biswal na impormasyon sa iba't ibang domain at tool. Nakakamit nito ang matibay na pagganap sa mga visual na tanong sa STEM, pagkilala ng entity, at lokalisasyon. Nagtatagpo ang mga lakas na ito upang paganahin ang mga interactive na karanasan na dati ay hindi maabot:

  • Interaktibong Pagkatuto: Isipin na humingi sa Muse Spark na gawing isang nakakatuwang minigame ang isang kumplikadong diagram o mag-troubleshoot ng isang kagamitan sa bahay. Maaari nitong matukoy ang mga bahagi, lumikha ng mga interactive na tutorial, at i-highlight ang mga partikular na lugar na may dynamic na anotasyon habang nagho-hover ka sa mga hakbang.
  • Halimbawa ng Prompt: "Identify the key components of the coffee machine and grinder, and create an interactive tutorial of using this machine to make a latte with a simple webpage. When I hover on the steps, it will highlight bounding boxes of the components."

Personalized na Pananaw sa Kalusugan

Isang mahalagang aplikasyon ng personal na superintelligence ay ang pagbibigay-kapangyarihan sa mga indibidwal na mas maunawaan at pamahalaan ang kanilang kalusugan. Upang matiyak ang makatotohanan at komprehensibong mga tugon, nakipagtulungan ang Meta sa mahigit 1,000 doktor upang mag-curate ng espesyal na data ng pagsasanay para sa mga kakayahan sa pagdadahilan sa kalusugan ng Muse Spark. Ito ay nagpapahintulot sa modelo na:

  • Ipaliwanag ang Impormasyon sa Kalusugan: Bumuo ng mga interactive na display na naghihiwa-hiwalay at nagpapaliwanag ng data sa kalusugan, tulad ng nutritional content ng iba't ibang pagkain o ang mga kalamnan na aktibo sa panahon ng partikular na ehersisyo.
  • Personalized na Gabay sa Diyeta: Magbigay ng iniangkop na payo sa diyeta batay sa mga indibidwal na profile sa kalusugan, kahit na biswal na i-annotate ang mga item ng pagkain sa isang imahe na may personalized na mga rekomendasyon at "health scores."
  • Halimbawa ng Prompt: "I am pescatarian with high cholesterol. Put green dots on recommended food and red dots on not recommended food. Don’t duplicate dots and make sure the dots are localized properly. When hovering over the dot, show personalized justification and 'health score' out of 10, along with calories and carbs, protein, and fat. Health score numbers should appear right above the dot without hovering. The description that shows when hovering should go above all other dots."
  • Feedback sa Fitness: Suriin ang mga postura sa ehersisyo, tukuyin ang mga grupo ng kalamnan na iniinat, suriin ang kahirapan, at magbigay ng real-time na feedback sa porma, kahit na ikumpara ang pagganap sa isang kasama.
  • Halimbawa ng Prompt: "For both images, show me which muscles are being stretched and its difficulty. When hovering over the dot, tell me more about the muscle group with how to fix my form. I want to get better at yoga. Make a side by side with my partner, and rate both of us on a scale of 1 to 10."

Mga Sukat ng Pag-scale: Ang Makina sa Likod ng Paglago ng Muse Spark

Ang pagtugis ng Meta sa personal na superintelligence ay nakasalalay sa mahuhulaan at mahusay na pag-scale ng mga modelo nito. Ang pagbuo ng Muse Spark ay nagbigay ng napakahalagang pananaw sa tatlong kritikal na sukat ng pag-scale: pretraining, reinforcement learning, at test-time reasoning.

Kahusayan sa Pretraining

Ang yugto ng pretraining ay kung saan itinatatag ng Muse Spark ang pangunahing multimodal na pag-unawa, pagdadahilan, at mga kakayahan sa pag-coding. Sa nakalipas na siyam na buwan, ganap na muling binuo ng Meta ang pretraining stack nito, na nagsasama ng malalaking pagpapabuti sa arkitektura ng modelo, mga teknik sa pag-optimize, at data curation. Ang mga pagsulong na ito ay sama-samang nagpapataas ng mga kakayahan na nakuha mula sa bawat yunit ng compute. Ang masusing pagsusuri gamit ang scaling laws sa isang serye ng mas maliliit na modelo ay nagbunyag ng isang pambihirang kahusayan: Maaaring makamit ng Muse Spark ang parehong mga kakayahan na may higit sa isang order ng magnitude na mas kaunting compute kaysa sa nauna nito, ang Llama 4 Maverick. Ginagawa nitong mas mahusay ang Muse Spark kaysa sa mga kasalukuyang nangungunang base model.

MetrikLlama 4 Maverick (Basehan)Muse Spark (Compute Efficiency)Faktor ng Pagpapabuti
Compute para sa KakayahanX FLOPs< 0.1X FLOPs> 10x
Katumbas na PagganapNakamit ang BasehanNakamit ang BasehanHindi Naaangkop

Mga Pakinabang ng Reinforcement Learning (RL)

Pagkatapos ng pretraining, ang reinforcement learning ay gumaganap ng mahalagang papel sa pagpapalakas ng mga kakayahan ng Muse Spark sa isang scalable na paraan. Sa kabila ng likas na kawalang-tatag na madalas na nauugnay sa malakihang RL, naghahatid ang bagong stack ng Meta ng maayos at mahuhulaan na mga pakinabang. Ipinapakita ng mga plot na nagpapakita nito ang "log-linear growth" sa mga metrikong tulad ng pass@1 at pass@16 (hindi bababa sa isang matagumpay na pagtatangka mula sa 16) sa data ng pagsasanay, na nagpapahiwatig ng mga pagpapabuti sa pagiging maaasahan ng modelo nang hindi nakompromiso ang pagkakaiba-iba ng pagdadahilan. Mahalaga, kinukumpirma ng paglago ng katumpakan sa isang "held-out evaluation set" na ang mga pakinabang na ito ng RL ay pangkalahatan nang mahuhulaan, na nangangahulugang ang Muse Spark ay patuloy na bumubuti sa mga gawain na hindi nito tahasang nakita sa panahon ng pagsasanay. Tinitiyak nito na ang mga pagpapahusay ng modelo ay matatag at malawak na naaangkop.

Pag-optimize ng Test-Time Reasoning

Upang maihatid ang intelligence nang mahusay sa bilyun-bilyong user, ang test-time reasoning ng Muse Spark ay dapat i-optimize. Gumagamit ang Meta ng dalawang pangunahing estratehiya:

  • Mga Penalidad sa Oras ng Pag-iisip at Pag-compress ng Pag-iisip: Sa panahon ng pagsasanay ng RL, ang isang penalty ay inilalapat para sa mas mahabang oras ng pag-iisip, na naghihikayat sa modelo na i-maximize ang kawastuhan habang ini-optimize ang paggamit ng token. Sa ilang mga pagsusuri, nagdudulot ito ng "phase transition": pagkatapos ng paunang panahon kung saan bumubuti ang modelo sa pamamagitan ng mas matagal na pag-iisip, ang penalty sa haba ay nagtutulak ng thought compression. Natututo ang Muse Spark na i-condense ang pagdadahilan nito, na nilulutas ang mga problema na may makabuluhang mas kaunting mga token. Pagkatapos ng yugto ng compression na ito, maaari nitong palawigin muli ang mga solusyon nito upang makamit ang mas malakas na pagganap, na nagpapakita ng kapansin-pansing kakayahang umangkop sa kahusayan ng pagdadahilan.
  • Orkestrasyon ng Multi-Agent: Upang madagdagan ang test-time reasoning nang walang matinding pagtaas sa latency, ini-scale ng Meta ang bilang ng mga parallel agent na nagtutulungan. Habang ang karaniwang test-time scaling ay nagsasangkot ng isang ahente lamang na mas matagal mag-isip, ang diskarte ng Muse Spark sa multi-agent ay nagpapahintulot ng mas mahusay na pagganap na may maihahambing na "response times." Ang kakayahang ito sa parallel processing ay mahalaga para sa paghahatid ng kumplikadong pagdadahilan sa mga bilis na user-friendly.

Bisyon ng Meta: Ang Daan Patungo sa Personal na Superintelligence

Ang pagpapakilala ng Muse Spark ay kumakatawan sa isang napakalaking hakbang sa pangmatagalang bisyon ng Meta ng paglikha ng personal na superintelligence. Sa pamamagitan ng masusing pagpino sa bawat layer ng AI stack nito—mula sa pangunahing pananaliksik at imprastraktura hanggang sa mga advanced na teknik ng pagsasanay—binubuo ng Meta ang isang hinaharap kung saan ang AI ay maaaring lubos na maunawaan at palakasin ang mga kakayahan ng tao. Ang Muse Spark, sa mga kakayahan nitong multimodal reasoning, advanced na paggamit ng tool, at mahusay na scaling, ay naglalatag ng matibay na pundasyon para sa hinaharap, mas malalaking modelo na magdadala sa atin ng mas malapit sa isang tunay na personalized at intelligent na AI companion. Ang pangakong ito sa scalable at intelligent na AI ang humuhubog sa kung paano tayo nakikipag-ugnayan sa teknolohiya at sa ating mundo sa mga darating na taon, na naglalapit sa potensyal ng pag-scale ng AI para sa lahat sa katotohanan.

Mga Karaniwang Tanong

What is Muse Spark and what makes it unique?
Muse Spark is Meta's inaugural model in the 'Muse' family, developed by Meta Superintelligence Labs. It stands out as a natively multimodal reasoning model, meaning it seamlessly integrates and processes information from various modalities like text and vision. Its unique capabilities include robust tool-use functionality, visual chain of thought for complex problem-solving, and sophisticated multi-agent orchestration, enabling it to coordinate multiple AI agents for enhanced performance. This model marks a significant step in Meta's ambitious journey towards developing personal superintelligence, aiming to understand and interact with users' worlds on a deeply personal level. Its introduction signifies a foundational shift in Meta's AI strategy, built on a ground-up overhaul of their AI efforts.
What are the core capabilities of Muse Spark, particularly 'Contemplating mode'?
Muse Spark offers competitive performance across a wide array of domains, including multimodal perception, complex reasoning tasks, health-related applications, and sophisticated agentic workflows. A standout feature is its 'Contemplating mode,' which represents a significant leap in AI reasoning. This mode orchestrates multiple AI agents to reason in parallel, allowing Muse Spark to tackle highly challenging problems with enhanced depth and accuracy. This parallel processing capability positions Muse Spark to compete with the extreme reasoning modes found in other frontier models, demonstrated by its impressive scores of 58% on 'Humanity’s Last Exam' and 38% on 'FrontierScience Research.' This mode allows for more deliberate and thorough problem-solving, crucial for achieving advanced cognitive functions.
How does Muse Spark apply its multimodal capabilities in real-world scenarios?
Muse Spark leverages its native multimodal integration to create highly interactive and practical applications. For instance, it can dynamically analyze and interact with visual information to troubleshoot home appliances, offering interactive tutorials with bounding box highlights and step-by-step guidance. In the realm of health, it can process visual data of food items or exercise routines to provide personalized insights, such as nutritional content, muscle activation, and even health scores with justifications, curated in collaboration with medical professionals. These capabilities enable Muse Spark to analyze immediate environments, support wellness, and generate engaging interactive experiences like mini-games, making AI more intuitive and helpful in daily life.
What strategic investments has Meta made to scale Muse Spark and future AI models?
To support the continued scaling of Muse Spark and its successors, Meta has undertaken strategic investments across its entire AI stack. This includes a comprehensive overhaul of its research methodologies, optimizing model training pipelines, and significantly upgrading its infrastructure, notably through the development of the Hyperion data center. A key aspect of these investments is a complete rebuild of the pretraining stack, which has led to substantial improvements in model architecture, optimization algorithms, and data curation techniques. These advancements have dramatically increased the efficiency of Meta's AI development, allowing them to extract greater capabilities from every unit of computational power and ensure predictable, efficient scaling towards the goal of personal superintelligence.
How has Meta achieved significant compute efficiency with Muse Spark compared to previous models?
Meta has achieved remarkable compute efficiency with Muse Spark through a rigorous overhaul of its pretraining stack. By implementing improvements in model architecture, optimization strategies, and data curation, they can now extract significantly more capability from the same amount of computational resources. Evaluations have shown that Muse Spark can reach the same performance levels with over an order of magnitude less compute compared to Meta's previous model, Llama 4 Maverick. This efficiency gain is not only a testament to their innovative engineering but also positions Muse Spark as a highly competitive model in terms of resource utilization against other leading base models. This breakthrough is critical for accelerating the development of larger, more powerful models.
Explain the role of Reinforcement Learning (RL) in Muse Spark's development.
Reinforcement Learning (RL) plays a crucial role in amplifying Muse Spark's capabilities post-pretraining. Despite the inherent instability often associated with large-scale RL, Meta's new stack ensures smooth and predictable gains. RL systematically improves the model's reliability and reasoning diversity, as evidenced by log-linear growth in pass@1 and pass@16 metrics on training data. Crucially, these improvements generalize effectively to unseen tasks, demonstrating that the gains from RL are not merely rote memorization but true capability enhancements. This predictable scaling of RL compute allows Muse Spark to continuously improve its ability to perform complex tasks, ensuring the model remains adaptable and performs well beyond its initial training scope.
What is 'thought compression' and 'multi-agent orchestration' in the context of Muse Spark's test-time reasoning?
In Muse Spark's test-time reasoning, 'thought compression' refers to the model's ability to condense its reasoning process to solve problems using significantly fewer tokens, driven by 'thinking time penalties' during RL training. Initially, the model might 'think longer' to improve, but as penalties increase, it learns to achieve similar or better results more concisely. After this compression phase, it can then extend its solutions for even stronger performance. 'Multi-agent orchestration' is a technique to scale test-time reasoning without drastically increasing latency. Instead of a single agent thinking longer, multiple parallel agents collaborate to solve complex problems, allowing Muse Spark to achieve superior performance with comparable response times. Both methods aim to maximize intelligence per token and per unit of time, making the AI efficient and responsive.
How can users access Muse Spark, and what are Meta's future plans for it?
Muse Spark is available today to the general public via [meta.ai](https://meta.ai/) and the Meta AI app. Additionally, Meta is extending access to select users through a private API preview, allowing developers and researchers to integrate and experiment with its advanced capabilities. As the first model in the Muse family, Muse Spark represents an initial step on Meta's ambitious scaling ladder towards achieving 'personal superintelligence.' Meta continues to invest heavily in developing larger, more capable models building upon Spark's foundation, with ongoing research focused on addressing current performance gaps in areas like long-horizon agentic systems and complex coding workflows. The 'Contemplating mode' will also be rolling out gradually to all users.

Manatiling Updated

Kunin ang pinakabagong AI news sa iyong inbox.

I-share