Molmo-72B — это передовая модель видения и языка с открытыми весами (VLM), которая расширяет границы многомодального AI, являясь мощной альтернативой проприетарным системам. В этой статье мы рассмотрим, что делает Molmo-72B выдающейся в своей области, сосредоточив внимание на её данных, архитектуре и ключевых инновациях, которые делают её ведущим игроком в разработке открытого AI.
Molmo-72B является частью семейства многомодальных моделей Molmo, разработанных для понимания как текста, так и изображений. Это модель с открытыми весами, что означает, что её код и обучающие данные доступны публично, что способствует инновациям и сотрудничеству в AI сообществе. В отличие от многих моделей, которые зависят от проприетарных систем, Molmo-72B создана с нуля, используя уникальный набор данных под названием PixMo, который включает в себя высококачественные, плотные описания изображений, собранные через устные описания людей.
Ключевая инновация Molmo-72B заключается в её стратегии сбора данных. Вместо того чтобы полагаться на синтетические данные, созданные другими моделями, Molmo-72B использует реальные описания изображений, аннотированные людьми. Аннотаторы подробно описывают изображения, используя речь в течение 60-90 секунд, что приводит к более полным описаниям по сравнению с традиционными текстовыми аннотациями. Этот подход гарантирует, что Molmo-72B не просто дистиллированная версия других проприетарных моделей, а надежная, независимо обученная система.
Архитектура Molmo-72B следует простой, но эффективной конструкции. Она сочетает в себе кодировщик видения и языковую модель, соединенные через слой «коннектор», который позволяет модели генерировать описания на основе изображений. Кодировщик видения, компонент известный как модель ViT-L/14 336px CLIP, преобразует изображения в токены видения, в то время как языковая модель переводит эти токены в связный текст. Molmo-72B обучается с использованием тщательно настроенного конвейера, который максимизирует производительность этой архитектуры.
Molmo-72B достигла впечатляющих эталонных показателей производительности, превосходя другие модели с открытым исходным кодом и даже некоторые проприетарные системы. Она была протестирована на различных задачах понимания изображений, включая распознавание объектов, понимание сцен и визуальные вопросы и ответы. Способность модели генерировать точные и детализированные описания, в сочетании с её возможностями нулевого выстрела, делает её универсальным инструментом для широкого спектра приложений.
Molmo-72B представляет собой значительный шаг вперед в области AI, особенно для тех, кто заинтересован в решениях с открытым исходным кодом. Публикуя веса и данные модели, Molmo-72B позволяет исследователям, разработчикам и компаниям строить на её успехах, не полагаясь на закрытые, проприетарные системы. Эта открытость способствует прозрачности, сотрудничеству и дальнейшим достижениям в области многомодального AI.
Поскольку разработчики Molmo-72B планируют выпускать больше наборов данных и продолжать совершенствовать модель, мы можем ожидать ещё больше улучшений в её производительности и применимости. Потенциал Molmo-72B для интеграции в практические приложения, от продвинутого распознавания изображений до обработки естественного языка, огромен, и её влияние на AI сообщество только начинает разворачиваться.