Meta 'Muse Spark': naujas daugiamodis DI asmeniniam superintelektui

Meta 'Muse Spark': žingsnis link asmeninio superintelekto

Šiandien žymi esminį momentą dirbtinio intelekto evoliucijoje, kai Meta pristato Muse Spark, pirmąjį modelį iš ambicingosios Muse šeimos, kruopščiai sukurtą Meta Superintelligence Labs. Muse Spark yra ne tik dar vienas DI modelis; jis reiškia esminį pokytį, kaip DI sąveikauja su pasauliu ir jį supranta. Kaip iš prigimties daugiamodis samprotavimo modelis, jis sklandžiai integruoja ir apdoroja įvairius duomenų tipus – nuo teksto iki sudėtingos vizualinės informacijos – todėl tai yra nepaprastai universalus ir galingas įrankis.

Pagrindinės Muse Spark galimybės apima patikimą įrankių naudojimo palaikymą, leidžiantį jam sąveikauti su išorinėmis sistemomis ir aplinkomis, ir novatorišką vizualinės minčių grandinės apdorojimą, kuris leidžia skaidriau ir sudėtingiau spręsti problemas. Be to, pažangus daugelio agentų orkestravimas suteikia jam galimybę koordinuoti kelis DI agentus, kad būtų galima bendradarbiaujant atlikti sudėtingas užduotis. Šis išleidimas yra pirmasis apčiuopiamas visiško Meta DI strategijos pertvarkymo rezultatas, paremtas reikšmingomis strateginėmis investicijomis visoje DI sistemoje, nuo fundamentalių tyrimų ir modelių mokymo iki pažangiausios infrastruktūros, tokios kaip Hyperion duomenų centras. Muse Spark yra iš karto prieinamas per meta.ai ir Meta AI programėlę, o atrinktiems vartotojams siūloma privati API peržiūra.

Pažangaus samprotavimo atskleidimas su Muse Spark galimybėmis

Muse Spark demonstruoja konkurencingą našumą plačiame DI užduočių spektre, apimančiame daugiamodį suvokimą, sudėtingą samprotavimą, sveikatos programas ir sudėtingus agentinius darbo procesus. Nors Meta pripažįsta nuolatines investicijas į sritis su dabartinėmis našumo spragomis, tokiomis kaip ilgalaikės agentinės sistemos ir sudėtingi kodavimo darbo procesai, pradiniai rezultatai patvirtina jų naujos mastelio keitimo sistemos efektyvumą. 'Apmąstymo režimo' įdiegimas dar labiau padidina Muse Spark samprotavimo gebėjimus. Šis novatoriškas režimas orkestruoja kelis DI agentus, kad šie samprotautų lygiagrečiai, o tai žymiai padidina našumą atliekant sudėtingas užduotis.

'Apmąstymo režimas' pasiekė puikių rezultatų, surinkdamas 58% "Paskutinio žmonijos egzamino" ir 38% "Pažangiosios mokslo tyrimų" testuose, todėl Muse Spark gali konkuruoti su ekstremaliais samprotavimo gebėjimais pirmaujančiuose pažangiausiuose modeliuose, tokiuose kaip Gemini Deep Think ir GPT Pro. Šis lygiagretus samprotavimo metodas leidžia modeliui vienu metu ieškoti kelių sprendimo būdų, o tai lemia patikimesnius ir tikslesnius rezultatus. Palaipsnis 'Apmąstymo režimo' diegimas meta.ai palaipsniui atvers šias pažangias galimybes vartotojams, suteikdamas galimybę pažvelgti į asmeninio superintelekto ateitį.

Realūs pritaikymai: Muse Spark veiksmo metu

Muse Spark yra sukurtas tam, kad asmeninio superintelekto pažadas taptų kasdienio gyvenimo dalimi, suprastų ir padėtų vartotojams labai asmenišku būdu. Jo pažangūs samprotavimo ir daugiamodės galimybės atveria daugybę praktinių pritaikymų:

Daugiamodė sąveika

Sukurtas nuo pat pagrindų daugiamodžiai integracijai, Muse Spark puikiai apdoroja vizualinę informaciją įvairiose srityse ir su įrankiais. Jis pasiekia puikų našumą vizualiniuose STEM klausimuose, subjektų atpažinime ir lokalizavime. Šios stipriosios pusės susilieja, kad būtų galima sukurti interaktyvias patirtis, kurios anksčiau buvo nepasiekiamos:

Interaktyvus mokymasis: Įsivaizduokite, kad prašote Muse Spark sudėtingą diagramą paversti smagiu mini žaidimu arba diagnozuoti namų prietaiso gedimą. Jis gali identifikuoti komponentus, kurti interaktyvias pamokas ir pažymėti konkrečias sritis dinaminėmis anotacijomis, kai judate per žingsnius.
Pavyzdinis raginimas: "Identify the key components of the coffee machine and grinder, and create an interactive tutorial of using this machine to make a latte with a simple webpage. When I hover on the steps, it will highlight bounding boxes of the components." (Nurodykite pagrindinius kavos aparato ir malūnėlio komponentus ir sukurkite interaktyvią pamoką, kaip naudoti šį aparatą late gaminimui, naudodami paprastą tinklalapį. Kai užvesiu pelę ant žingsnių, bus paryškinti komponentų apribojimo rėmeliai.)

Asmeninės sveikatos įžvalgos

Reikšmingas asmeninio superintelekto pritaikymas yra suteikti žmonėms galimybę geriau suprasti ir valdyti savo sveikatą. Siekdama užtikrinti faktinius ir išsamius atsakymus, Meta bendradarbiavo su daugiau nei 1 000 gydytojų, kad sugrupuotų specializuotus mokymo duomenis Muse Spark sveikatos samprotavimo galimybėms. Tai leidžia modeliui:

Paaiškinti sveikatos informaciją: Generuoti interaktyvius ekranus, kurie išskaido ir paaiškina sveikatos duomenis, tokius kaip įvairių maisto produktų maistinė vertė ar raumenys, aktyvuojami atliekant konkrečius pratimus.
Asmeninės mitybos rekomendacijos: Pateikti individualizuotus mitybos patarimus, pagrįstus individualiais sveikatos profiliais, netgi vizualiai anotuojant maisto produktus paveikslėlyje su personalizuotomis rekomendacijomis ir sveikatos balais.
Pavyzdinis raginimas: "I am pescatarian with high cholesterol. Put green dots on recommended food and red dots on not recommended food. Don’t duplicate dots and make sure the dots are localized properly. When hovering over the dot, show personalized justification and 'health score' out of 10, along with calories and carbs, protein, and fat. Health score numbers should appear right above the dot without hovering. The description that shows when hovering should go above all other dots." (Aš esu pesketarė, turinti aukštą cholesterolio lygį. Uždėkite žalius taškus ant rekomenduojamo maisto ir raudonus taškus ant nerekomenduojamo maisto. Nedubliuokite taškų ir įsitikinkite, kad taškai yra tinkamai lokalizuoti. Užvedus pelę ant taško, parodykite personalizuotą pagrindimą ir 'sveikatos balą' iš 10, kartu su kalorijomis ir angliavandeniais, baltymais ir riebalais. Sveikatos balo skaičiai turėtų atsirasti tiesiai virš taško neužvedus pelės. Aprašymas, kuris rodomas užvedus pelę, turėtų būti virš visų kitų taškų.)
Fizinių pratimų atsiliepimai: Analizuoti pratimų pozas, nustatyti tempiamas raumenų grupes, įvertinti sunkumą ir teikti grįžtamąjį ryšį realiuoju laiku apie formą, netgi lyginant našumą su partneriu.
Pavyzdinis raginimas: "For both images, show me which muscles are being stretched and its difficulty. When hovering over the dot, tell me more about the muscle group with how to fix my form. I want to get better at yoga. Make a side by side with my partner, and rate both of us on a scale of 1 to 10." (Abiem paveikslėliams parodykite, kurie raumenys yra tempiami ir koks yra jų sunkumas. Užvedus pelę ant taško, papasakokite daugiau apie raumenų grupę ir kaip pataisyti mano formą. Noriu geriau praktikuoti jogą. Padarykite palyginimą šalia su mano partneriu ir įvertinkite mus abu skalėje nuo 1 iki 10.)

Mastelio keitimo ašys: Muse Spark augimo variklis

Meta siekis sukurti asmeninį superintelektą priklauso nuo numatomo ir efektyvaus jos modelių mastelio keitimo. Muse Spark kūrimas suteikė neįkainojamų įžvalgų apie tris kritines mastelio keitimo ašis: pirminį mokymą, mokymą su pastiprinimu ir samprotavimą testavimo metu.

Pirminio mokymo efektyvumas

Pirminio mokymo etape Muse Spark sukuria savo pagrindines daugiamodžio supratimo, samprotavimo ir kodavimo galimybes. Per pastaruosius devynis mėnesius Meta visiškai pertvarkė savo pirminio mokymo sistemą, įtraukdama esminius modelio architektūros, optimizavimo metodų ir duomenų kuravimo patobulinimus. Šie patobulinimai kartu padidina galimybes, gaunamas iš kiekvieno skaičiavimo galios vieneto. Kruopštus vertinimas, naudojant mastelio keitimo dėsnius, atliktas su eile mažesnių modelių, atskleidė novatorišką efektyvumą: Muse Spark gali pasiekti tas pačias galimybes, sunaudodamas daugiau nei dešimt kartų mažiau skaičiavimo galios nei jo pirmtakas, Llama 4 Maverick. Tai daro Muse Spark žymiai efektyvesniu nei esami pirmaujantys baziniai modeliai.

Metrika	Llama 4 Maverick (bazinė versija)	Muse Spark (skaičiavimo efektyvumas)	Pagerinimo koeficientas
Skaičiavimo galia galimybėms	X FLOPs	< 0.1X FLOPs	> 10x
Našumo ekvivalentumas	Pasiekta bazinė versija	Pasiekta bazinė versija	N/A

Mokymo su pastiprinimu (RL) nauda

Po pirminio mokymo, mokymasis su pastiprinimu atlieka lemiamą vaidmenį didinant Muse Spark galimybes keičiamo mastelio būdu. Nepaisant būdingo nestabilumo, dažnai siejamo su didelio masto RL, nauja Meta sistema užtikrina sklandų ir numatomą naudą. Diagramos, demonstruojančios tai, rodo log-linijinį augimą pagal metrikas, tokias kaip pass@1 ir pass@16 (bent vienas sėkmingas bandymas iš 16) mokymo duomenyse, nurodant modelio patikimumo pagerėjimą, nepakenkiant samprotavimo įvairovei. Svarbu, kad tikslumo augimas atskirtame vertinimo rinkinyje patvirtina, jog šis RL nauda apibendrinama numatomai, o tai reiškia, kad Muse Spark sklandžiai tobulėja atliekant užduotis, kurių jis aiškiai nematė mokymo metu. Tai užtikrina, kad modelio patobulinimai yra patikimi ir plačiai pritaikomi.

Samprotavimo testavimo metu optimizavimas

Siekiant efektyviai teikti intelektą milijardams vartotojų, Muse Spark samprotavimas testavimo metu turi būti optimizuotas. Meta naudoja dvi pagrindines strategijas:

Mąstymo laiko baudos ir minčių suspaudimas: RL mokymo metu taikoma bauda už ilgesnį mąstymo laiką, skatinant modelį maksimaliai padidinti teisingumą, optimizuojant žetonų naudojimą. Atliekant tam tikrus vertinimus, tai veda prie 'fazinio perėjimo': po pradinio periodo, kai modelis tobulėja mąstydamas ilgiau, ilgio bauda skatina 'minčių suspaudimą'. Muse Spark išmoksta sutrumpinti savo samprotavimą, spręsdamas problemas su žymiai mažiau žetonų. Po šios suspaudimo fazės modelis gali vėl išplėsti savo sprendimus, kad pasiektų dar didesnį našumą, demonstruodamas nepaprastą prisitaikomumą samprotavimo efektyvume.
Daugelio agentų orkestravimas: Siekiant padidinti samprotavimą testavimo metu drastiškai nedidinant vėlavimo, Meta padidina lygiagrečių agentų, kurie bendradarbiauja, skaičių. Nors standartinis mastelio keitimas testavimo metu apima vieno agento ilgesnį mąstymą, Muse Spark daugelio agentų metodas leidžia pasiekti geresnį našumą su panašiu atsako laiku. Ši lygiagretaus apdorojimo galimybė yra labai svarbi norint teikti sudėtingą samprotavimą vartotojams patogiu greičiu.

Meta vizija: kelias į asmeninį superintelektą

Muse Spark pristatymas yra monumentalus žingsnis Meta ilgalaikėje vizijoje sukurti asmeninį superintelektą. Kruopščiai tobulindama kiekvieną savo DI sistemos lygmenį – nuo fundamentalių tyrimų ir infrastruktūros iki pažangių mokymo metodų – Meta kuria ateitį, kurioje DI galės giliai suprasti ir sustiprinti žmogaus galimybes. Muse Spark, su savo daugiamodžiu samprotavimu, pažangiu įrankių naudojimu ir efektyviu mastelio keitimu, sukuria tvirtą pagrindą būsimiems, dar didesniems modeliams, kurie priartins mus prie tikrai personalizuoto ir išmanaus DI kompaniono. Šis įsipareigojimas keičiamo mastelio ir išmaniam DI formuos tai, kaip mes sąveikausime su technologijomis ir savo pasauliu ateinančiais metais, priartindamas DI mastelio keitimo visiems potencialą prie realybės.

Originalus šaltinis

https://ai.meta.com/blog/introducing-muse-spark-msl/

Dažniausiai užduodami klausimai

What is Muse Spark and what makes it unique?

Muse Spark is Meta's inaugural model in the 'Muse' family, developed by Meta Superintelligence Labs. It stands out as a natively multimodal reasoning model, meaning it seamlessly integrates and processes information from various modalities like text and vision. Its unique capabilities include robust tool-use functionality, visual chain of thought for complex problem-solving, and sophisticated multi-agent orchestration, enabling it to coordinate multiple AI agents for enhanced performance. This model marks a significant step in Meta's ambitious journey towards developing personal superintelligence, aiming to understand and interact with users' worlds on a deeply personal level. Its introduction signifies a foundational shift in Meta's AI strategy, built on a ground-up overhaul of their AI efforts.

What are the core capabilities of Muse Spark, particularly 'Contemplating mode'?

Muse Spark offers competitive performance across a wide array of domains, including multimodal perception, complex reasoning tasks, health-related applications, and sophisticated agentic workflows. A standout feature is its 'Contemplating mode,' which represents a significant leap in AI reasoning. This mode orchestrates multiple AI agents to reason in parallel, allowing Muse Spark to tackle highly challenging problems with enhanced depth and accuracy. This parallel processing capability positions Muse Spark to compete with the extreme reasoning modes found in other frontier models, demonstrated by its impressive scores of 58% on 'Humanity’s Last Exam' and 38% on 'FrontierScience Research.' This mode allows for more deliberate and thorough problem-solving, crucial for achieving advanced cognitive functions.

How does Muse Spark apply its multimodal capabilities in real-world scenarios?

Muse Spark leverages its native multimodal integration to create highly interactive and practical applications. For instance, it can dynamically analyze and interact with visual information to troubleshoot home appliances, offering interactive tutorials with bounding box highlights and step-by-step guidance. In the realm of health, it can process visual data of food items or exercise routines to provide personalized insights, such as nutritional content, muscle activation, and even health scores with justifications, curated in collaboration with medical professionals. These capabilities enable Muse Spark to analyze immediate environments, support wellness, and generate engaging interactive experiences like mini-games, making AI more intuitive and helpful in daily life.

What strategic investments has Meta made to scale Muse Spark and future AI models?

To support the continued scaling of Muse Spark and its successors, Meta has undertaken strategic investments across its entire AI stack. This includes a comprehensive overhaul of its research methodologies, optimizing model training pipelines, and significantly upgrading its infrastructure, notably through the development of the Hyperion data center. A key aspect of these investments is a complete rebuild of the pretraining stack, which has led to substantial improvements in model architecture, optimization algorithms, and data curation techniques. These advancements have dramatically increased the efficiency of Meta's AI development, allowing them to extract greater capabilities from every unit of computational power and ensure predictable, efficient scaling towards the goal of personal superintelligence.

How has Meta achieved significant compute efficiency with Muse Spark compared to previous models?

Meta has achieved remarkable compute efficiency with Muse Spark through a rigorous overhaul of its pretraining stack. By implementing improvements in model architecture, optimization strategies, and data curation, they can now extract significantly more capability from the same amount of computational resources. Evaluations have shown that Muse Spark can reach the same performance levels with over an order of magnitude less compute compared to Meta's previous model, Llama 4 Maverick. This efficiency gain is not only a testament to their innovative engineering but also positions Muse Spark as a highly competitive model in terms of resource utilization against other leading base models. This breakthrough is critical for accelerating the development of larger, more powerful models.

Explain the role of Reinforcement Learning (RL) in Muse Spark's development.

Reinforcement Learning (RL) plays a crucial role in amplifying Muse Spark's capabilities post-pretraining. Despite the inherent instability often associated with large-scale RL, Meta's new stack ensures smooth and predictable gains. RL systematically improves the model's reliability and reasoning diversity, as evidenced by log-linear growth in pass@1 and pass@16 metrics on training data. Crucially, these improvements generalize effectively to unseen tasks, demonstrating that the gains from RL are not merely rote memorization but true capability enhancements. This predictable scaling of RL compute allows Muse Spark to continuously improve its ability to perform complex tasks, ensuring the model remains adaptable and performs well beyond its initial training scope.

What is 'thought compression' and 'multi-agent orchestration' in the context of Muse Spark's test-time reasoning?

In Muse Spark's test-time reasoning, 'thought compression' refers to the model's ability to condense its reasoning process to solve problems using significantly fewer tokens, driven by 'thinking time penalties' during RL training. Initially, the model might 'think longer' to improve, but as penalties increase, it learns to achieve similar or better results more concisely. After this compression phase, it can then extend its solutions for even stronger performance. 'Multi-agent orchestration' is a technique to scale test-time reasoning without drastically increasing latency. Instead of a single agent thinking longer, multiple parallel agents collaborate to solve complex problems, allowing Muse Spark to achieve superior performance with comparable response times. Both methods aim to maximize intelligence per token and per unit of time, making the AI efficient and responsive.

How can users access Muse Spark, and what are Meta's future plans for it?

Muse Spark is available today to the general public via [meta.ai](https://meta.ai/) and the Meta AI app. Additionally, Meta is extending access to select users through a private API preview, allowing developers and researchers to integrate and experiment with its advanced capabilities. As the first model in the Muse family, Muse Spark represents an initial step on Meta's ambitious scaling ladder towards achieving 'personal superintelligence.' Meta continues to invest heavily in developing larger, more capable models building upon Spark's foundation, with ongoing research focused on addressing current performance gaps in areas like long-horizon agentic systems and complex coding workflows. The 'Contemplating mode' will also be rolling out gradually to all users.

Būkite informuoti

Gaukite naujausias AI naujienas el. paštu.

Dalintis