Muse Spark від Meta: Новий мультимодальний ШІ для персонального суперінтелекту

Muse Spark від Meta: Крок до персонального суперінтелекту

Сьогодні відзначається ключовий момент в еволюції штучного інтелекту, оскільки Meta представляє Muse Spark — першу модель зі своєї амбітної родини Muse, ретельно розроблену Meta Superintelligence Labs. Muse Spark — це не просто ще одна модель ШІ; вона являє собою фундаментальний зсув у тому, як ШІ взаємодіє зі світом і розуміє його. Як нативно мультимодальна модель міркування, вона бездоганно інтегрує та обробляє різноманітні типи даних — від тексту до складної візуальної інформації — що робить її неймовірно універсальним та потужним інструментом.

Ключовими можливостями Muse Spark є надійна підтримка використання інструментів, що дозволяє йому взаємодіяти із зовнішніми системами та середовищами, а також його інноваційна обробка візуального ланцюга міркувань, яка забезпечує більш прозоре та складне вирішення проблем. Крім того, його розширена багатоагентна оркестровка дозволяє координувати декілька агентів ШІ для спільного виконання складних завдань. Цей випуск є першим відчутним результатом всеосяжної перебудови стратегії ШІ Meta, підкріпленої значними стратегічними інвестиціями в усьому стеку ШІ, від фундаментальних досліджень та навчання моделей до передової інфраструктури, такої як центр обробки даних Hyperion. Muse Spark негайно доступний через meta.ai та додаток Meta AI, а приватний попередній перегляд API пропонується вибраним користувачам.

Розкриття розширених міркувань з можливостями Muse Spark

Muse Spark демонструє конкурентоспроможну продуктивність у широкому спектрі завдань ШІ, що охоплюють мультимодальне сприйняття, складні міркування, медичні застосування та складні агентні робочі процеси. Хоча Meta визнає поточні інвестиції в сфери з існуючими прогалинами в продуктивності, такі як довгострокові агентні системи та складні робочі процеси кодування, початкові результати підтверджують ефективність їхнього нового стека масштабування. Введення режиму роздумів (Contemplating mode) додатково підвищує здібності Muse Spark до міркувань. Цей інноваційний режим оркеструє кількох агентів ШІ для паралельного міркування, що є стратегією, яка значно підвищує продуктивність у складних завданнях.

Режим роздумів досяг чудових результатів, набравши 58% на 'Останньому іспиті людства' та 38% у 'Дослідженні передової науки', що дозволяє Muse Spark конкурувати з екстремальними можливостями міркувань провідних передових моделей, таких як Gemini Deep Think та GPT Pro. Цей підхід паралельного міркування дозволяє моделі одночасно досліджувати кілька шляхів для вирішення, що призводить до більш надійних та точних результатів. Поступове впровадження режиму роздумів у meta.ai поступово розблокує ці розширені можливості для користувачів, пропонуючи погляд на майбутнє персонального суперінтелекту.

Реальні застосування: Muse Spark у дії

Muse Spark розроблений, щоб втілити обіцянку персонального суперінтелекту в повсякденне життя, розуміючи та допомагаючи користувачам високоперсоналізованими способами. Його розширені можливості міркування та мультимодальності відкривають безліч практичних застосувань:

Мультимодальна взаємодія

Створений з нуля для мультимодальної інтеграції, Muse Spark відмінно справляється з обробкою візуальної інформації в різних сферах і за допомогою різних інструментів. Він демонструє високу продуктивність у візуальних STEM-задачах, розпізнаванні об'єктів та локалізації. Ці сильні сторони зливаються, щоб забезпечити інтерактивні можливості, які раніше були недосяжними:

Інтерактивне навчання: Уявіть, що ви просите Muse Spark перетворити складну діаграму на веселу міні-гру або усунути несправність побутової техніки. Він може ідентифікувати компоненти, створювати інтерактивні навчальні посібники та виділяти певні області динамічними анотаціями, коли ви наводите курсор на кроки.
Приклад запиту: "Визначте ключові компоненти кавомашини та кавомолки і створіть інтерактивний посібник з використання цієї машини для приготування лате за допомогою простої веб-сторінки. Коли я наводжу курсор на кроки, він виділятиме обмежувальні рамки компонентів."

Персоналізовані медичні висновки

Важливе застосування персонального суперінтелекту полягає в наданні людям можливості краще розуміти та керувати своїм здоров'ям. Щоб забезпечити фактичні та вичерпні відповіді, Meta співпрацювала з понад 1000 лікарями для кураторства спеціалізованих навчальних даних для можливостей Muse Spark щодо медичних міркувань. Це дозволяє моделі:

Пояснювати медичну інформацію: Генерувати інтерактивні дисплеї, які розбивають та пояснюють дані про здоров'я, такі як вміст поживних речовин у різних продуктах або м'язи, активовані під час певних вправ.
Персоналізовані рекомендації щодо харчування: Надавати індивідуальні поради щодо харчування на основі індивідуальних профілів здоров'я, навіть візуально анотуючи продукти харчування на зображенні персоналізованими рекомендаціями та оцінками здоров'я.
Приклад запиту: "Я пескетаріанець з високим рівнем холестерину. Поставте зелені крапки на рекомендованих продуктах і червоні крапки на нерекомендованих. Не дублюйте крапки і переконайтеся, що крапки розташовані правильно. При наведенні курсору на крапку показуйте персоналізоване обґрунтування та 'оцінку здоров'я' з 10, разом з калоріями, вуглеводами, білками та жирами. Числа оцінки здоров'я повинні з'являтися прямо над крапкою без наведення курсору. Опис, який з'являється при наведенні курсору, повинен бути над усіма іншими крапками."
Відгуки щодо фітнесу: Аналізувати пози під час вправ, ідентифікувати розтягнуті групи м'язів, оцінювати складність та надавати зворотний зв'язок щодо форми в реальному часі, навіть порівнюючи продуктивність з партнером.
Приклад запиту: "Для обох зображень покажіть мені, які м'язи розтягуються, та їх складність. При наведенні курсору на крапку розкажіть мені більше про групу м'язів та про те, як виправити мою форму. Я хочу краще займатися йогою. Зробіть порівняння поруч із моїм партнером і оцініть нас обох за шкалою від 1 до 10."

Осі масштабування: Рушій зростання Muse Spark

Прагнення Meta до персонального суперінтелекту залежить від передбачуваного та ефективного масштабування її моделей. Розробка Muse Spark надала безцінні відомості про три критичні осі масштабування: попереднє навчання, навчання з підкріпленням та міркування під час тестування.

Ефективність попереднього навчання

Фаза попереднього навчання — це місце, де Muse Spark формує своє фундаментальне мультимодальне розуміння, міркування та здібності до кодування. Протягом останніх дев'яти місяців Meta повністю перебудувала свій стек попереднього навчання, впровадивши значні покращення в архітектурі моделі, техніках оптимізації та кураторстві даних. Ці досягнення колективно підвищують можливості, отримані від кожної одиниці обчислень. Ретельна оцінка за допомогою законів масштабування на серії менших моделей виявила новаторську ефективність: Muse Spark може досягти тих же можливостей, використовуючи на порядок менше обчислювальної потужності, ніж його попередник, Llama 4 Maverick. Це робить Muse Spark значно ефективнішим, ніж існуючі провідні базові моделі.

Метрика	Llama 4 Maverick (Базова)	Muse Spark (Обчислювальна ефективність)	Коефіцієнт покращення
Обчислення для можливостей	X FLOPs	< 0.1X FLOPs	> 10x
Еквівалентність продуктивності	Досягнута базова	Досягнута базова	N/A

Переваги навчання з підкріпленням (RL)

Після попереднього навчання, навчання з підкріпленням відіграє вирішальну роль у масштабованому посиленні можливостей Muse Spark. Незважаючи на властиву нестабільність, яка часто асоціюється з великомасштабним RL, новий стек Meta забезпечує плавні, передбачувані переваги. Графіки, що демонструють це, показують логарифмічно-лінійний ріст таких метрик, як pass@1 та pass@16 (щонайменше одна успішна спроба з 16) на тренувальних даних, що вказує на покращення надійності моделі без шкоди для різноманітності міркувань. Важливо, що зростання точності на відкладеному наборі оцінки підтверджує, що ці переваги RL передбачувано узагальнюються, тобто Muse Spark плавно покращується у завданнях, яких він явно не бачив під час навчання. Це гарантує, що покращення моделі є надійними та широко застосовними.

Оптимізація міркувань під час тестування

Щоб ефективно доставляти інтелект мільярдам користувачів, міркування Muse Spark під час тестування мають бути оптимізовані. Meta застосовує дві ключові стратегії:

Штрафи за час обмірковування та стиснення думки: Під час навчання RL застосовується штраф за довший час обмірковування, що спонукає модель максимізувати правильність, оптимізуючи при цьому використання токенів. На певних оцінках це призводить до 'фазового переходу': після початкового періоду, коли модель покращується, обмірковуючи довше, штраф за довжину викликає стиснення думки. Muse Spark вчиться ущільнювати свої міркування, вирішуючи проблеми значно меншою кількістю токенів. Після цього стиснення модель може знову розширити свої рішення для досягнення ще кращої продуктивності, демонструючи чудову адаптивність в ефективності міркувань.
Багатоагентна оркестровка: Щоб збільшити міркування під час тестування без різкого збільшення затримки, Meta масштабує кількість паралельних агентів, які співпрацюють. Хоча стандартне масштабування під час тестування передбачає, що один агент обмірковує довше, багатоагентний підхід Muse Spark дозволяє досягти чудової продуктивності з порівнянним часом відгуку. Ця можливість паралельної обробки є вирішальною для надання складних міркувань зі зручною для користувача швидкістю.

Бачення Meta: Шлях до персонального суперінтелекту

Представлення Muse Spark є монументальним кроком у довгостроковому баченні Meta щодо створення персонального суперінтелекту. Шляхом ретельного вдосконалення кожного шару свого стека ШІ — від фундаментальних досліджень та інфраструктури до передових методів навчання — Meta будує майбутнє, де ШІ зможе глибоко розуміти та розширювати людські можливості. Muse Spark, з його мультимодальними міркуваннями, розширеним використанням інструментів та ефективним масштабуванням, закладає міцну основу для майбутніх, ще більших моделей, які наблизять нас до справді персоналізованого та інтелектуального ШІ-компаньйона. Ця прихильність до масштабованого та інтелектуального ШІ формуватиме те, як ми взаємодіємо з технологіями та нашим світом на довгі роки, наближаючи потенціал масштабування ШІ для всіх до реальності.

Першоджерело

https://ai.meta.com/blog/introducing-muse-spark-msl/

Поширені запитання

What is Muse Spark and what makes it unique?

Muse Spark is Meta's inaugural model in the 'Muse' family, developed by Meta Superintelligence Labs. It stands out as a natively multimodal reasoning model, meaning it seamlessly integrates and processes information from various modalities like text and vision. Its unique capabilities include robust tool-use functionality, visual chain of thought for complex problem-solving, and sophisticated multi-agent orchestration, enabling it to coordinate multiple AI agents for enhanced performance. This model marks a significant step in Meta's ambitious journey towards developing personal superintelligence, aiming to understand and interact with users' worlds on a deeply personal level. Its introduction signifies a foundational shift in Meta's AI strategy, built on a ground-up overhaul of their AI efforts.

What are the core capabilities of Muse Spark, particularly 'Contemplating mode'?

Muse Spark offers competitive performance across a wide array of domains, including multimodal perception, complex reasoning tasks, health-related applications, and sophisticated agentic workflows. A standout feature is its 'Contemplating mode,' which represents a significant leap in AI reasoning. This mode orchestrates multiple AI agents to reason in parallel, allowing Muse Spark to tackle highly challenging problems with enhanced depth and accuracy. This parallel processing capability positions Muse Spark to compete with the extreme reasoning modes found in other frontier models, demonstrated by its impressive scores of 58% on 'Humanity’s Last Exam' and 38% on 'FrontierScience Research.' This mode allows for more deliberate and thorough problem-solving, crucial for achieving advanced cognitive functions.

How does Muse Spark apply its multimodal capabilities in real-world scenarios?

Muse Spark leverages its native multimodal integration to create highly interactive and practical applications. For instance, it can dynamically analyze and interact with visual information to troubleshoot home appliances, offering interactive tutorials with bounding box highlights and step-by-step guidance. In the realm of health, it can process visual data of food items or exercise routines to provide personalized insights, such as nutritional content, muscle activation, and even health scores with justifications, curated in collaboration with medical professionals. These capabilities enable Muse Spark to analyze immediate environments, support wellness, and generate engaging interactive experiences like mini-games, making AI more intuitive and helpful in daily life.

What strategic investments has Meta made to scale Muse Spark and future AI models?

To support the continued scaling of Muse Spark and its successors, Meta has undertaken strategic investments across its entire AI stack. This includes a comprehensive overhaul of its research methodologies, optimizing model training pipelines, and significantly upgrading its infrastructure, notably through the development of the Hyperion data center. A key aspect of these investments is a complete rebuild of the pretraining stack, which has led to substantial improvements in model architecture, optimization algorithms, and data curation techniques. These advancements have dramatically increased the efficiency of Meta's AI development, allowing them to extract greater capabilities from every unit of computational power and ensure predictable, efficient scaling towards the goal of personal superintelligence.

How has Meta achieved significant compute efficiency with Muse Spark compared to previous models?

Meta has achieved remarkable compute efficiency with Muse Spark through a rigorous overhaul of its pretraining stack. By implementing improvements in model architecture, optimization strategies, and data curation, they can now extract significantly more capability from the same amount of computational resources. Evaluations have shown that Muse Spark can reach the same performance levels with over an order of magnitude less compute compared to Meta's previous model, Llama 4 Maverick. This efficiency gain is not only a testament to their innovative engineering but also positions Muse Spark as a highly competitive model in terms of resource utilization against other leading base models. This breakthrough is critical for accelerating the development of larger, more powerful models.

Explain the role of Reinforcement Learning (RL) in Muse Spark's development.

Reinforcement Learning (RL) plays a crucial role in amplifying Muse Spark's capabilities post-pretraining. Despite the inherent instability often associated with large-scale RL, Meta's new stack ensures smooth and predictable gains. RL systematically improves the model's reliability and reasoning diversity, as evidenced by log-linear growth in pass@1 and pass@16 metrics on training data. Crucially, these improvements generalize effectively to unseen tasks, demonstrating that the gains from RL are not merely rote memorization but true capability enhancements. This predictable scaling of RL compute allows Muse Spark to continuously improve its ability to perform complex tasks, ensuring the model remains adaptable and performs well beyond its initial training scope.

What is 'thought compression' and 'multi-agent orchestration' in the context of Muse Spark's test-time reasoning?

In Muse Spark's test-time reasoning, 'thought compression' refers to the model's ability to condense its reasoning process to solve problems using significantly fewer tokens, driven by 'thinking time penalties' during RL training. Initially, the model might 'think longer' to improve, but as penalties increase, it learns to achieve similar or better results more concisely. After this compression phase, it can then extend its solutions for even stronger performance. 'Multi-agent orchestration' is a technique to scale test-time reasoning without drastically increasing latency. Instead of a single agent thinking longer, multiple parallel agents collaborate to solve complex problems, allowing Muse Spark to achieve superior performance with comparable response times. Both methods aim to maximize intelligence per token and per unit of time, making the AI efficient and responsive.

How can users access Muse Spark, and what are Meta's future plans for it?

Muse Spark is available today to the general public via [meta.ai](https://meta.ai/) and the Meta AI app. Additionally, Meta is extending access to select users through a private API preview, allowing developers and researchers to integrate and experiment with its advanced capabilities. As the first model in the Muse family, Muse Spark represents an initial step on Meta's ambitious scaling ladder towards achieving 'personal superintelligence.' Meta continues to invest heavily in developing larger, more capable models building upon Spark's foundation, with ongoing research focused on addressing current performance gaps in areas like long-horizon agentic systems and complex coding workflows. The 'Contemplating mode' will also be rolling out gradually to all users.

Будьте в курсі

Отримуйте найсвіжіші новини ШІ на пошту.

Поділитися