Динамическая модель научилась генерировать реалистичные движения человека

0 0

В будущем метод дополнения данных и модель генерации движений человека, разработанные этой группой исследователей, могут быть использованы для создания и редактирования широкого спектра контента с участием людей или гуманоидных персонажей.

Исследуя окружающую среду, общаясь с другими людьми и самовыражаясь, люди могут совершать широкий спектр движений. Способность реалистично воспроизводить эти движения, применяя их к персонажам-людям и гуманоидам, может быть очень полезна при разработке видеоигр и создании анимации, контента, который можно просматривать с помощью гарнитур виртуальной реальности (VR), а также обучающих видео для профессионалов.

Исследователи из Института искусственного интеллекта (ИИ) Пекинского университета и Государственной ключевой лаборатории общего ИИ недавно представили новые модели, которые могут упростить создание реалистичных движений для персонажей или аватаров. Работа опубликована на сервере препринтов arXiv. Предложенный ими подход к созданию человеческих движений, описанный в статье, представленной на CVPR 2025, основан на методе расширения данных под названием MotionCutMix и диффузионной модели под названием MotionReFit.

Как исследователи, изучающие пересечение искусственного интеллекта и компьютерного зрения, мы были очарованы недавними достижениями в области преобразования текста в движение — системами, которые могут создавать движения человека на основе текстовых описаний

Исинь Чжу, старший автор статьи в комментарии для научного издания Tech Xplore

Эксперт заметил, что в ходе научной работы ученые заметили критический пробел в технологическом ландшафте. В то время как создание движений с нуля значительно продвинулось вперёд, возможности редактирования существующих движений оставались сильно ограниченными". Художники, разработчики видеоигр и аниматоры обычно не создают новый контент с нуля, а черпают вдохновение в предыдущих работах, дорабатывая и корректируя их до тех пор, пока не достигнут желаемого результата. Однако большинство существующих систем искусственного интеллекта и машинного обучения не предназначены для поддержки такого творческого процесса, основанного на редактировании и вдохновении.

Ранее разработанные системы, которые пытались редактировать движения, сталкивались со значительными ограничениями, а именно: им требовались обширные предварительно собранные наборы данных, состоящие из исходных движений, отредактированных движений и соответствующих инструкций. Этих данных крайне мало, и их создание обходится дорого. Это делало их негибкими, способными обрабатывать только конкретные сценарии редактирования, которым они были обучены.

Нэн Цзян, соавтор статьи

Ключевой целью недавнего исследования, проведённого Чжу и его коллегами, было создание новой системы, которая могла бы редактировать все движения человека на основе письменных инструкций, предоставленных пользователями, без необходимости вводить данные о конкретной задаче или частях тела. Они хотели, чтобы эта система поддерживала как изменения в конкретных частях тела (пространственное редактирование), так и адаптацию движений с течением времени (то есть временное редактирование), хорошо обобщая различные сценарии даже при обучении на ограниченных аннотированных данных.

MotionCutMix, подход к машинному обучению, который мы разработали, — это простая, но эффективная методика обучения, которая помогает системам ИИ научиться редактировать 3D-движения человека на основе текстовых инструкций", — объяснил Хонджи Ли, соавтор статьи. Подобно тому, как шеф-повара могут создавать множество разных блюд, смешивая и подбирая ингредиенты, MotionCutMix создаёт разнообразные примеры для обучения, комбинируя части тела из разных последовательностей движений.

Подход к обучению, разработанный исследователями, позволяет выбирать определённые части тела (например, руки, ноги, туловище персонажа и т. д.) в последовательности движений и комбинировать их с частями, присутствующими в другой последовательности. Вместо резкого перехода от движений одной части тела к движениям другой MotionCutMix постепенно сглаживает границы между ними, обеспечивая более плавные движения.

Например, при объединении движения руки из одного упражнения с движением туловища из другого происходит плавная интерполяция в области плеч. Для каждого комбинированного движения создаётся новый учебный пример, состоящий из исходного движения, отредактированной версии этого движения и текстовой инструкции, описывающей изменения.

Нэн Цзян, соавтор статьи

Большинство ранее представленных подходов к созданию движений человека обучались на фиксированных наборах данных, как правило, содержащих аннотированные видео с людьми, двигающимися по-разному. В отличие от них, MotionCutMix может генерировать новые обучающие примеры на лету, что позволяет обучаться на больших библиотеках данных о движениях, которые не нужно аннотировать вручную. Это преимущество, учитывая, что большая часть контента, доступного в интернете, не имеет аннотаций и, следовательно, не может быть использована с помощью других существующих подходов. Примечательно, что новая система, разработанная исследователями, позволяет редактировать как движения, которые выполняет конкретная часть тела (т. е. семантические элементы), так и то, как она это делает (т. е. стилистические элементы).

Для достижения хороших результатов MotionCutMix требует гораздо меньше размеченных примеров, потенциально создавая миллионы вариантов обучения на основе небольшого набора размеченных примеров. Обучаясь на различных комбинациях частей тела и движений, модель учится обрабатывать более широкий спектр запросов на редактирование. Несмотря на создание более сложных примеров для обучения, это не значительно замедляет процесс обучения. Мягкое маскирование и координация частей тела создают более плавные и естественные движения без резких переходов или нереалистичных поз.

Исинь Чжу, старший автор 

В дополнение к подходу MotionCutMix для увеличения объёма обучающих данных Чжу и его коллеги разработали модель генерации и редактирования движений под названием MotionReFit. В то время как MotionCutMix можно использовать для создания разнообразных обучающих примеров, MotionReFit — это авторегрессионная диффузионная модель, которая обрабатывает эти примеры и учится генерировать и изменять движения человека.

В отличие от других моделей генерации движений человека, MotionReFit позволяет пользователям точно изменять последовательности движений человека, просто описывая изменения, которые они хотели бы внести. Насколько известно команде, их система является первой, которая может обрабатывать как пространственные, так и временные изменения без дополнительных входных данных и пользовательских спецификаций.

По сути, MotionReFit состоит из авторегрессионной условной диффузионной модели, которая обрабатывает движение сегмент за сегментом, руководствуясь исходным движением и текстовыми инструкциями.

Зие Юань, соавтор статьи

СПециалист указал, что данная конструкция преодолевает ключевые ограничения предыдущих подходов, поскольку она работает с произвольными входными сигналами и текстовыми инструкциями высокого уровня, не требуя явного указания частей тела. При этом она сохраняет естественную координацию между частями тела, внося существенные изменения в движение, а также обеспечивая плавные переходы как в пространстве (между изменёнными и неизменёнными частями тела), так и во времени (между кадрами).

Дополнительно исследователи протестировали предложенную ими систему в ходе серии испытаний и обнаружили, что качество движений человека улучшалось по мере увеличения объёма данных, получаемых с помощью метода MotionCutMix. Это подтвердило их предположение о том, что обучение модели MotionReFit на более широком спектре комбинаций движений приводит к лучшему обобщению различных движений и сценариев. Кроме того, Чжу и его коллеги объединили свою технологию расширения данных с базовой моделью под названием TMED. Примечательно, что они обнаружили, что MotionCutMix значительно повышает производительность этой модели, что позволяет предположить, что его можно использовать для ускорения обучения других архитектур, помимо MotionReFit.

Несмотря на использование более сложных примеров для обучения, сходимость обучения сохраняется даже при высоких коэффициентах MotionCutMix. Все варианты сходятся в пределах 800 тысяч шагов, что указывает на то, что эта техника не требует значительных вычислительных ресурсов. Эти результаты в совокупности демонстрируют, что MotionCutMix решает фундаментальную проблему редактирования движений — ограниченную доступность аннотированных триплетов — за счёт использования существующих данных о движениях для создания практически неограниченного количества вариантов обучения с помощью интеллектуальных композиционных методов".

В будущем метод дополнения данных и модель генерации движений человека, разработанные этой группой исследователей, могут быть использованы для создания и редактирования широкого спектра контента с участием людей или гуманоидных персонажей. Это может оказаться особенно ценным инструментом для аниматоров, разработчиков видеоигр и других создателей видеоконтента.

"Редактирование движения позволяет аниматорам быстро вносить изменения в движения персонажей, не начиная с нуля. Разработчики игр могут генерировать обширные вариации движений на основе ограниченных собранных данных, создавая разнообразное поведение NPC и анимацию игроков. Взаимодействие человека и робота можно улучшить, позволив роботам корректировать свои движения на основе обратной связи на естественном языке. Производственные среды могут точно настраивать модели движений роботов без перепрограммирования.

Исинь Чжу, старший автор

Система, созданная Чжу и его коллегами, использует текстовый интерфейс, поэтому она также доступна для пользователей-непрофессионалов, у которых нет опыта в создании игр или анимации. В будущем её можно будет адаптировать для использования в исследованиях в области робототехники, например, в качестве инструмента для улучшения движений роботов-гуманоидов.

Разработка передовых методов представления движений, которые лучше улавливают зависимости в более длинных последовательностях, будет иметь решающее значение для обработки сложных временных паттернов.

Нэн Цзян, соавтор статьи

Ученый заметил, что это может включать специализированные механизмы внимания для отслеживания последовательности действий и иерархические модели, которые понимают как микродвижения, так и паттерны на макроуровне". В рамках следующих исследований учёные планируют расширить возможности своей системы, например, позволив ей использовать загруженные изображения в качестве визуальных ориентиров и вносить изменения на основе демонстраций, предоставленных пользователями. Они также хотели бы расширить возможности редактирования движений с учётом ограничений окружающей среды и контекста, в котором они выполняются.

Ученые: при высоком кровяном давлении нужно есть бананы и брокколи.

Фото и видео:  Nan Jiang, Hongjie Li, Ziye Yuan, Zimo He, Yixin Chen, Tengyu Liu, Yixin Zhu, Siyuan Huang, Dynamic Motion Blending for Versatile Motion Editing, arXiv (2025)

Теги:
Категории: , , ,

Обсуждение ( 0 ) Посмотреть все

Новые комментарии