SteadyDancer 완전 분석: 첫 프레임을 지키는 인간 이미지 애니메이션의 새로운 패러다임

들어가며: 왜 이 논문이 중요한가

"사진 한 장으로 춤추는 영상을 만들어주세요."

이 요청이 2024년까지만 해도 SF 영화에서나 볼 법한 일이었습니다. 하지만 Stable Diffusion, DALL-E, Midjourney의 등장 이후 생성 AI는 폭발적으로 발전했고, 이제는 정지 이미지를 움직이게 하는 것이 현실이 되었습니다.

그런데 문제가 있습니다. 기존 방법들은 "내가 준 이미지"를 제대로 지키지 못합니다. 입력으로 넣은 사람 사진이 영상이 되면서 얼굴이 바뀌거나, 옷이 달라지거나, 심지어 완전히 다른 사람처럼 보이기도 합니다.

SteadyDancer는 이 문제를 정면으로 해결합니다. "첫 프레임 보존(First-Frame Preservation)"이라는 개념을 도입하여, 입력 이미지가 영상의 첫 프레임으로 그대로 사용되도록 보장합니다.

이 글에서는 SteadyDancer의 기술적 혁신을 깊이 분석하고, 왜 기존 방법들이 실패했는지, 그리고 SteadyDancer가 어떻게 이 문제를 해결했는지 상세히 살펴보겠습니다.

1. 배경: 인간 이미지 애니메이션의 역사와 도전

1.1 이미지 애니메이션이란?

이미지 애니메이션(Image Animation)은 정지된 이미지를 입력받아 움직이는 영상을 생성하는 기술입니다. 특히 인간 이미지 애니메이션(Human Image Animation)은 사람 사진을 입력받아 그 사람이 특정 동작을 하는 영상을 만드는 것을 목표로 합니다.

1.2 기술 발전의 역사

초기: GAN 기반 워핑 (2019-2021)

초기 연구들은 GAN(Generative Adversarial Network)과 이미지 워핑(warping) 기법을 결합했습니다.

대표 연구:

First Order Motion Model (FOMM, NeurIPS 2019): 키포인트 기반 모션 추정
Liquid Warping GAN (ICCV 2019): 3D body mesh를 활용한 워핑
MRAA (CVPR 2021): 관절 기반 모션 표현

한계점:

큰 동작에서 왜곡 발생
배경과 인물 분리 어려움
해상도 제한 (보통 256x256)

중기: Diffusion 기반 방법 (2022-2023)

Diffusion 모델의 등장으로 생성 품질이 크게 향상되었습니다.

대표 연구:

DisCo (CVPR 2023): 최초의 diffusion 기반 휴먼 애니메이션
Animate Anyone (2023): ReferenceNet 도입으로 identity 보존 개선
MagicAnimate (2023): 시간적 일관성 모듈 추가
CHAMP (2024): 3D 가이던스 활용

한계점:

UNet 기반의 확장성 한계
긴 영상 생성 시 품질 저하
여전한 identity drift 문제

현재: DiT 기반 방법 (2024-2025)

OpenAI Sora의 등장으로 DiT(Diffusion Transformer) 아키텍처가 주목받기 시작했습니다.

대표 연구:

Wan 2.1: 강력한 기본 I2V 모델
RealisDance-DiT: DiT 기반 댄스 생성
HyperMotion: 하이퍼네트워크 기반 제어
SteadyDancer (본 논문): I2V 기반 첫 프레임 보존

1.3 왜 인간 이미지 애니메이션이 어려운가?

인간 이미지 애니메이션은 다음과 같은 본질적 어려움이 있습니다:

1) Identity 보존

생성된 영상에서 원본 이미지의 인물이 동일인으로 보여야 함
얼굴, 체형, 피부톤, 의상 등 모든 특성 유지 필요

2) 동작의 정확성

구동 포즈 시퀀스를 정확히 따라야 함
세밀한 손가락 움직임부터 전신 동작까지

3) 시간적 일관성

프레임 간 깜빡임(flickering) 없어야 함
의상, 배경 등이 일관되게 유지되어야 함

4) 물리적 타당성

옷이 자연스럽게 움직여야 함
머리카락, 액세서리 등의 동역학 표현

2. 문제 정의: 왜 기존 방법들은 실패하는가

2.1 Reference-to-Video (R2V) 패러다임의 지배

현재까지 대부분의 인간 이미지 애니메이션 방법은 Reference-to-Video (R2V) 패러다임을 따릅니다.

R2V의 작동 방식:

R2V 방식의 대표 모델:

Animate Anyone
MagicAnimate
CHAMP
HumanVid
RealisDance

2.2 R2V의 근본적 문제: 시공간 오정렬

R2V 방식은 "참조 이미지의 특성을 추출하여 새로운 영상을 생성"합니다. 이 과정에서 참조 이미지가 첫 프레임으로 직접 사용되지 않습니다.

이것이 왜 문제인가? 실제 사용 환경에서는 두 가지 유형의 오정렬이 발생합니다:

2.2.1 공간적 오정렬 (Spatial Misalignment)

참조 이미지의 인물과 구동 포즈의 신체 구조가 다른 경우:

발생 원인:

참조 이미지와 구동 비디오의 촬영 시점(앵글) 차이
체형 차이 (마른 체형 vs 건장한 체형)
의상 차이 (짧은 소매 vs 긴 소매)

2.2.2 시간적 오정렬 (Temporal Misalignment) - "Start Gap"

참조 이미지의 포즈와 포즈 시퀀스의 첫 번째 포즈가 다른 경우:

실제 사례:

사용자가 정면 사진을 입력했는데, 구동 비디오가 옆모습으로 시작
양손을 내린 사진인데, 구동 비디오가 손을 들고 시작
서있는 사진인데, 구동 비디오가 앉아있는 포즈로 시작

2.3 왜 기존 벤치마크는 이 문제를 못 잡는가?

기존 벤치마크(TikTok, RealisDance)의 치명적 설계 결함:

결과적으로:

기존 벤치마크에서는 R2V 방식들이 좋은 성능을 보임
하지만 실제 사용 환경(다른 소스의 이미지-비디오)에서는 실패
벤치마크 성능 ≠ 실제 성능 의 괴리 발생

🎬 X-Dance 벤치마크 데모

Below are demo videos from the official SteadyDancer project page:

🎬 RealisDance 벤치마크 데모

Below are demo videos from the official SteadyDancer project page:

2.4 R2V의 "이중 실패" (Dual Failure)

시공간 오정렬이 존재할 때 R2V 방식은 두 가지 목표 모두 실패합니다:

1) Identity 보존 실패:

참조 이미지와 다른 외형 생성
얼굴이 다르게 보임
의상, 체형 변화

2) 동작 제어 실패:

구동 포즈를 정확히 따르지 못함
시작 부분에서 어색한 점프
중간에 포즈 이탈

3. SteadyDancer의 핵심 아이디어: 패러다임의 전환

3.1 Image-to-Video (I2V) 패러다임으로의 전환

SteadyDancer의 핵심 통찰:

"첫 프레임 보존을 '희망'이 아닌 '보장'으로 만들어야 한다."

이를 위해 R2V 대신 I2V(Image-to-Video) 패러다임을 채택합니다.

I2V의 작동 방식:

3.2 R2V vs I2V 비교

3.3 I2V의 도전: 포즈 제어 추가의 어려움

I2V는 첫 프레임 보존을 보장하지만, 포즈 제어를 어떻게 추가하느냐가 새로운 문제입니다.

순진한 접근법:

# 방법 1: 단순 덧셈
z_t = ChannelConcat(ẑ_t, m, z_c + z_p)

# 방법 2: 어댑터 기반
z_t = ChannelConcat(ẑ_t, m, z_c)
z_t = z_t + Adapter(z_p)

문제점:

덧셈: 정적인 외형 정보(z_c)와 동적인 포즈 정보(z_p)가 혼합되어 둘 다 손실
어댑터: 파라미터 수가 많고, 기존 모델의 지식을 손상시킬 수 있음

3.4 SteadyDancer의 세 가지 핵심 혁신

SteadyDancer는 이 문제를 세 가지 기술로 해결합니다:

4. 기술 상세 (1): Condition-Reconciliation Mechanism

4.1 문제: 두 조건의 충돌

I2V 모델에 포즈 제어를 추가할 때, 두 가지 조건이 충돌합니다:

1) 외형 조건 (Appearance Condition) - z_c:

참조 이미지에서 추출
정적인 정보: 얼굴, 의상, 배경
"어떻게 보여야 하는지"

2) 포즈 조건 (Pose Condition) - z_p:

구동 포즈 시퀀스에서 추출
동적인 정보: 신체 위치, 관절 각도
"어떻게 움직여야 하는지"

4.2 해결책: 세 수준의 조화

SteadyDancer는 세 가지 수준에서 조건을 조화시킵니다:

4.2.1 조건 융합 (Condition Fusion) 수준

기존 방식 (덧셈):

z_input = ChannelConcat(ẑ_t, m, z_c + z_p)

두 신호가 섞여서 구분 불가
정보 손실 발생

SteadyDancer (채널 연결):

z_input = ChannelConcat(ẑ_t, m, z_c, z_p)

각 조건이 독립적인 채널로 유지
모델이 스스로 조합 방법 학습

4.2.2 조건 주입 (Condition Injection) 수준

기존 방식 (어댑터):

별도의 어댑터 네트워크 추가
파라미터 수 증가 (수십~수백 M)
기존 모델 지식 손상 가능

SteadyDancer (LoRA):

Low-Rank Adaptation 사용
최소한의 파라미터 추가 (~수 M)
기존 모델 지식 보존

4.2.3 조건 증강 (Condition Augmentation) 수준

목적: 첫 프레임과 포즈 조건 사이의 연결 강화

방법:

시간적 연결: 첫 프레임의 포즈 잠재 벡터를 포즈 시퀀스에 추가
CLIP 특성 증강: 첫 프레임의 포즈 특성을 CLIP 임베딩에 포함

# 시간적 연결
z_p_augmented = TemporalConcat(z_p_first_frame, z_p_sequence)

# CLIP 특성 증강
clip_features = Concat(clip_image, clip_pose_first_frame)

4.3 전체 아키텍처

5. 기술 상세 (2): Synergistic Pose Modulation Modules

5.1 문제: 단순한 조건 융합으로는 부족

조건 조화 메커니즘만으로는 시공간 오정렬 문제를 완전히 해결할 수 없습니다.

왜?

포즈 특성(z_p)이 참조 이미지의 특성 공간과 호환되지 않을 수 있음
신체 구조 차이로 인한 적응 필요
프레임 간 동작의 연속성 보장 필요

5.2 세 가지 협력적 모듈

SteadyDancer는 세 개의 전문화된 모듈을 설계하여 이 문제를 해결합니다:

5.3 SSAR: Spatial Structure Adaptive Refiner

역할: 공간적 구조 불일치 해결

문제 상황:

참조 이미지: 팔 길이 60cm
구동 포즈: 팔 길이 70cm 기준으로 추출
결과: 포즈를 그대로 적용하면 팔이 늘어나거나 어색해짐

해결 방법: 동적 합성곱 (Dynamic Convolution)

동적 합성곱의 장점:

고정된 변환이 아닌, 입력에 따른 적응적 변환
다양한 체형 차이를 유연하게 처리
학습 가능한 변환으로 최적화

5.4 TMCM: Temporal Motion Coherence Module

역할: 시간적 동작 불연속 해결

문제 상황:

프레임 1: 오른팔 30도 올림
프레임 2: 오른팔 45도 올림
프레임 3: 오른팔 90도 올림 (급격한 변화!)
결과: 움직임이 끊기거나 점프하는 듯한 느낌

해결 방법: 깊이별 시공간 합성곱 (Depthwise Spatio-Temporal Convolution)

Depthwise Convolution을 사용하는 이유:

채널별 독립적 처리로 효율적
공간/시간 특성을 분리하여 학습
파라미터 수 최소화

5.5 FAAU: Frame-wise Attention Alignment Unit

역할: 프레임별 정밀 정렬

문제 상황:

SSAR과 TMCM으로 전처리된 포즈가 있음
하지만 생성 과정(denoising)의 현재 상태와 정렬 필요
각 프레임마다 다른 정도의 정렬이 필요할 수 있음

해결 방법: 교차 어텐션 (Cross-Attention)

5.6 세 모듈의 시너지

세 모듈이 협력하여 각기 다른 수준의 문제를 해결합니다:

6. 기술 상세 (3): Staged Decoupled-Objective Training

6.1 문제: 동시 최적화의 어려움

여러 목표를 동시에 최적화하면 문제가 발생합니다:

최적화해야 할 목표:

동작 충실도 (Motion Fidelity): 포즈를 정확히 따라야 함
시각적 품질 (Visual Quality): 기본 모델의 생성 품질 유지
시간적 일관성 (Temporal Coherence): 프레임 간 깜빡임 없음
동작 연속성 (Motion Continuity): Start Gap 처리

6.2 해결책: 단계적 분리 훈련

SteadyDancer는 세 단계로 훈련을 나눕니다:

6.3 Stage 1: Action Supervision (액션 감독)

목적: 포즈 제어 능력 빠르게 확보

기간: 12,000 스텝

방법:

표준 diffusion loss 사용
LoRA만 미세조정 (기존 가중치 동결)
포즈 조건 → 동작 생성 매핑 학습

# Stage 1 Loss
L_action = E[||v_θ(z_t, t, c, p) - v_target||²]

# 여기서:
# v_θ: 모델의 예측
# z_t: 노이즈가 추가된 잠재 벡터
# t: 타임스텝
# c: 이미지 조건
# p: 포즈 조건
# v_target: 목표 velocity

결과:

기본적인 포즈 따라하기 가능
하지만 시각적 품질이 기본 모델보다 떨어질 수 있음

6.4 Stage 2: Condition-Decoupled Distillation (조건-분리 증류)

목적: 기본 모델의 시각적 품질 유지

기간: 2,000 스텝

문제: 일반적인 증류 방식의 학습 붕괴

수식:

# Velocity 분해
v_θ = v_uncond + v_cond

# Stage 2 Loss
L_distill = L_uncond + L_cond

# 무조건부 성분: Teacher 증류
L_uncond = E[||v_uncond - v_teacher_uncond||²]

# 조건부 성분: 기존 감독 유지
L_cond = E[||v_cond - (v_target - v_teacher_uncond)||²]

핵심 통찰:

무조건부 성분만 Teacher로부터 증류
조건부 성분(포즈 제어)은 기존 방식으로 학습
두 목표가 서로 간섭하지 않음

6.5 Stage 3: Motion Discontinuity Mitigation (동작 불연속 완화)

목적: Start Gap 문제 해결

기간: 500 스텝

문제: 참조 이미지 포즈와 첫 포즈의 불연속

해결책: 포즈 시뮬레이션 (Pose Simulation)

6.6 훈련 효율성

SteadyDancer의 훈련 효율:

왜 이렇게 효율적인가?

LoRA 기반: 전체 모델이 아닌 일부만 훈련
단계적 학습: 각 단계에서 집중된 최적화
강력한 기본 모델 활용: Wan 2.1의 사전 지식 최대 활용
효율적인 데이터 활용: 적은 데이터로 핵심 능력 학습

7. 실험 결과 분석: 정량적 비교

7.1 비교 대상 모델

UNet 기반 (이전 세대):

Animate Anyone (2023)
MagicAnimate (2023)
CHAMP (2024)
HumanVid (2024)

DiT 기반 (현재 세대):

RealisDance-DiT (2024)
Wan-Animate (2024)
UniAnimate-DiT (2024)
HyperMotion (2024)

7.2 TikTok 데이터셋 결과

설정:

같은 비디오에서 참조 이미지와 포즈 추출
저수준 지표: SSIM, PSNR, LPIPS, FID, FVD

분석:

SteadyDancer가 모든 지표에서 최고 성능
특히 FVD(Fréchet Video Distance)에서 큰 개선
UNet → DiT 전환으로 인한 전반적 성능 향상 확인

7.3 RealisDance-Val 결과

설정:

Vbench-I2V 고수준 지표 사용
Subject Consistency, Background Consistency, Motion Smoothness 등

주요 발견:

Subject Consistency: Identity 보존에서 최고 (97.34)
Motion Smoothness: 99.02로 거의 완벽한 부드러움
FVD: 326.49로 2위 대비 16% 개선

7.4 왜 이런 결과가 나오는가?

8. X-Dance 벤치마크: 진짜 실력을 테스트하다

8.1 기존 벤치마크의 한계

TikTok, RealisDance 등 기존 벤치마크의 치명적 문제:

8.2 X-Dance 벤치마크 설계

SteadyDancer는 진짜 어려운 상황을 테스트하는 X-Dance 벤치마크를 제안합니다:

핵심 설계 원칙: Different-Source

참조 이미지와 구동 비디오가 다른 소스에서 옴
실제 사용 환경을 반영

8.3 X-Dance 결과: R2V의 "치명적 이중 실패"

8.4 X-Dance가 보여주는 시사점

기존 벤치마크의 맹점: 실제 어려운 상황을 테스트하지 않음
R2V의 근본적 한계: 시공간 오정렬에 대응 불가
I2V의 강점: 첫 프레임 보존으로 Identity 문제 해결
SteadyDancer의 가치: 실제 사용 환경에서 작동하는 솔루션

9. Ablation Study: 각 모듈의 기여도

9.1 조건-조화 메커니즘 Ablation

실험 설정:

조건 융합 방식 비교 (덧셈 vs 연결)
조건 주입 방식 비교 (어댑터 vs LoRA)
조건 증강 유무 비교

9.2 포즈 조절 모듈 Ablation

각 모듈의 개별 기여도:

9.3 훈련 파이프라인 Ablation

각 단계의 필요성:

9.4 Stage 3 포즈 시뮬레이션 상세 분석

불연속성 완화 효과:

10. 한계점과 향후 연구 방향

10.1 현재 한계점

10.1.1 스타일화 이미지의 도메인 갭

잠재적 해결책:

스타일화 이미지 포함 훈련 데이터 확대
도메인 적응(Domain Adaptation) 기법 적용
스타일 보존 손실 함수 추가

10.1.2 극단적 동작 불연속

잠재적 해결책:

Stage 3 훈련 확대
중간 포즈 생성 (Intermediate Pose Generation)
물리 기반 제약 추가

10.1.3 포즈 추정 오류 누적

잠재적 해결책:

포즈 추정기 개선 또는 앙상블
오류 내성(Error Tolerance) 메커니즘 추가
자기 보정(Self-Correction) 학습

10.2 계산 비용

10.3 향후 연구 방향

실시간 추론: 추론 속도 개선을 위한 모델 경량화
스타일 다양성: 다양한 아트 스타일 지원
긴 영상 생성: 현재 5초 제한 확장
다중 인물: 여러 사람의 동시 애니메이션
3D 일관성: 다양한 시점에서의 일관된 생성

11. 실습: SteadyDancer 사용하기

11.1 환경 설정

# 1. Conda 환경 생성
conda create -n steadydancer python=3.10
conda activate steadydancer

# 2. PyTorch 설치 (CUDA 12.1 기준)
pip install torch==2.5.1 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

# 3. 기본 의존성 설치
pip install -r requirements.txt

# 4. Flash Attention 설치
pip install flash-attn --no-build-isolation

# 5. xformers 설치
pip install xformers

# 6. 포즈 추출용 라이브러리
pip install mmpose mmdet mmengine

# 7. 비디오 처리 라이브러리
pip install moviepy decord

11.2 모델 다운로드

# HuggingFace에서 모델 다운로드
# 방법 1: huggingface-cli 사용
pip install huggingface_hub
huggingface-cli download MCG-NJU/SteadyDancer-14B --local-dir ./models/steadydancer

# 방법 2: Git LFS 사용
git lfs install
git clone https://huggingface.co/MCG-NJU/SteadyDancer-14B ./models/steadydancer

11.3 포즈 추출 및 정렬

# Step 1: 구동 비디오에서 포즈 추출
python preprocess/extract_pose.py \
    --video driving_video.mp4 \
    --output_dir preprocess/output/poses/

# Step 2: 참조 이미지와 포즈 정렬
# 긍정 조건 (정상 정렬)
python preprocess/pose_align.py \
    --image reference_image.jpg \
    --pose_dir preprocess/output/poses/ \
    --output_dir preprocess/output/aligned_pos/

# 부정 조건 (증강 정렬 - 선택사항)
python preprocess/pose_align_withdiffaug.py \
    --image reference_image.jpg \
    --pose_dir preprocess/output/poses/ \
    --output_dir preprocess/output/aligned_neg/

11.4 애니메이션 생성

# 기본 생성 (단일 GPU)
python generate_dancer.py \
    --task i2v-14B \
    --size 1024*576 \
    --prompt "A person dancing gracefully with smooth movements" \
    --image reference_image.jpg \
    --cond_pos_folder preprocess/output/aligned_pos/ \
    --output_dir outputs/

# 다중 GPU 생성 (FSDP + xDiT USP)
torchrun --nproc_per_node=4 generate_dancer.py \
    --task i2v-14B \
    --size 1024*576 \
    --prompt "A person dancing gracefully with smooth movements" \
    --image reference_image.jpg \
    --cond_pos_folder preprocess/output/aligned_pos/ \
    --output_dir outputs/ \
    --use_fsdp

11.5 주요 파라미터 설명

11.6 팁과 모범 사례

11.7 ComfyUI 통합

SteadyDancer는 ComfyUI에서도 사용 가능합니다:

# ComfyUI-WanVideoWrapper 설치
cd ComfyUI/custom_nodes
git clone https://github.com/xxx/ComfyUI-WanVideoWrapper
cd ComfyUI-WanVideoWrapper
pip install -r requirements.txt

# 모델 파일을 ComfyUI 모델 폴더로 복사
cp -r /path/to/SteadyDancer-14B ComfyUI/models/steadydancer/

12. 결론 및 시사점

12.1 SteadyDancer의 핵심 기여

12.2 실용적 시사점

영상 제작자를 위한 시사점:

고품질 인간 애니메이션이 더 접근 가능해짐
참조 이미지 선택의 자유도 증가
VFX 파이프라인에 통합 가능

연구자를 위한 시사점:

I2V 패러다임의 효과성 입증
조건 충돌 문제의 해결책 제시
단계적 훈련의 유효성 확인

산업계를 위한 시사점:

적은 훈련 비용으로 SOTA 달성 가능
실제 사용 환경에서 작동하는 솔루션
상용화 가능한 품질 수준

12.3 남은 과제

실시간 처리: 현재 추론 속도로는 실시간 응용 어려움
스타일 일반화: 다양한 아트 스타일로의 확장
긴 영상: 5초 이상의 긴 영상 생성
다중 인물: 여러 사람의 동시 애니메이션
인터랙티브 제어: 실시간 포즈 입력 지원

12.4 마무리

SteadyDancer는 인간 이미지 애니메이션 분야에서 패러다임 전환을 제시합니다. "첫 프레임을 지킨다"는 단순해 보이는 목표가 실제로는 매우 어려운 문제였고, 이를 해결하기 위해 I2V 패러다임 채택, 조건 조화 메커니즘, 협력적 포즈 모듈, 단계적 훈련이라는 체계적인 접근이 필요했습니다.

특히 주목할 점은 훈련 효율성입니다. 기존 방법들의 1/10 이하의 데이터와 훈련 비용으로 SOTA를 달성했다는 것은, 올바른 설계가 무차별적인 스케일링보다 효과적일 수 있음을 보여줍니다.

X-Dance 벤치마크를 통해 "기존 벤치마크가 실제 어려움을 반영하지 못한다"는 중요한 문제를 제기한 것도 의미 있습니다. 연구 커뮤니티가 더 현실적인 평가 기준으로 나아가는 데 기여할 것으로 기대됩니다.

참고 문헌

[논문] Zhang et al., "SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation", arXiv:2511.19320, 2025
[GitHub] https://github.com/MCG-NJU/SteadyDancer
[프로젝트 페이지] https://mcg-nju.github.io/steadydancer-web/
[HuggingFace 모델] https://huggingface.co/MCG-NJU/SteadyDancer-14B
[X-Dance 데이터셋] https://huggingface.co/datasets/MCG-NJU/X-Dance

부록 A: 용어 정리

부록 B: 관련 연구

B.1 GAN 기반 방법

FOMM (First Order Motion Model): 키포인트 기반 모션 추정의 선구자
Liquid Warping GAN: 3D body mesh 활용
MRAA: 관절 기반 모션 표현

B.2 UNet Diffusion 기반 방법

DisCo: 최초의 diffusion 기반 휴먼 애니메이션
Animate Anyone: ReferenceNet 도입
MagicAnimate: 시간적 일관성 모듈
CHAMP: 3D 가이던스 활용

B.3 DiT 기반 방법

Wan 2.1: 강력한 기본 I2V 모델
RealisDance-DiT: DiT 기반 댄스 생성
HyperMotion: 하이퍼네트워크 기반 제어
SteadyDancer: I2V 기반 첫 프레임 보존 (본 논문)

부록 C: 하드웨어 요구사항

부록 D: 자주 묻는 질문 (FAQ)

Q: 실시간 생성이 가능한가요?
A: 현재는 불가능합니다. 5초 영상 생성에 수 분이 소요됩니다. 향후 모델 경량화 연구가 필요합니다.

Q: 애니메이션 캐릭터에도 작동하나요?
A: 제한적으로 작동합니다. 실사 위주로 훈련되어 스타일화 이미지에서는 성능이 저하될 수 있습니다.

Q: 여러 사람을 동시에 애니메이션할 수 있나요?
A: 현재 버전에서는 단일 인물만 지원합니다. 다중 인물 지원은 향후 연구 과제입니다.

Q: 훈련 없이 바로 사용할 수 있나요?
A: 네, 사전 훈련된 모델이 제공됩니다. 추론만으로 사용 가능합니다.

Q: 상업적 사용이 가능한가요?
A: Apache-2.0 라이선스로 제공되어 상업적 사용이 가능합니다. 단, 기반 모델(Wan 2.1)의 라이선스도 확인이 필요합니다.

들어가며: 왜 이 논문이 중요한가

"사진 한 장으로 춤추는 영상을 만들어주세요."

1. 배경: 인간 이미지 애니메이션의 역사와 도전

1.1 이미지 애니메이션이란?

1.2 기술 발전의 역사

초기: GAN 기반 워핑 (2019-2021)

초기 연구들은 GAN(Generative Adversarial Network)과 이미지 워핑(warping) 기법을 결합했습니다.

대표 연구:

First Order Motion Model (FOMM, NeurIPS 2019): 키포인트 기반 모션 추정
Liquid Warping GAN (ICCV 2019): 3D body mesh를 활용한 워핑
MRAA (CVPR 2021): 관절 기반 모션 표현

한계점:

큰 동작에서 왜곡 발생
배경과 인물 분리 어려움
해상도 제한 (보통 256x256)

중기: Diffusion 기반 방법 (2022-2023)

Diffusion 모델의 등장으로 생성 품질이 크게 향상되었습니다.

대표 연구:

DisCo (CVPR 2023): 최초의 diffusion 기반 휴먼 애니메이션
Animate Anyone (2023): ReferenceNet 도입으로 identity 보존 개선
MagicAnimate (2023): 시간적 일관성 모듈 추가
CHAMP (2024): 3D 가이던스 활용

한계점:

UNet 기반의 확장성 한계
긴 영상 생성 시 품질 저하
여전한 identity drift 문제

현재: DiT 기반 방법 (2024-2025)

OpenAI Sora의 등장으로 DiT(Diffusion Transformer) 아키텍처가 주목받기 시작했습니다.

대표 연구:

Wan 2.1: 강력한 기본 I2V 모델
RealisDance-DiT: DiT 기반 댄스 생성
HyperMotion: 하이퍼네트워크 기반 제어
SteadyDancer (본 논문): I2V 기반 첫 프레임 보존

1.3 왜 인간 이미지 애니메이션이 어려운가?

인간 이미지 애니메이션은 다음과 같은 본질적 어려움이 있습니다:

1) Identity 보존

생성된 영상에서 원본 이미지의 인물이 동일인으로 보여야 함
얼굴, 체형, 피부톤, 의상 등 모든 특성 유지 필요

2) 동작의 정확성

구동 포즈 시퀀스를 정확히 따라야 함
세밀한 손가락 움직임부터 전신 동작까지

3) 시간적 일관성

프레임 간 깜빡임(flickering) 없어야 함
의상, 배경 등이 일관되게 유지되어야 함

4) 물리적 타당성

옷이 자연스럽게 움직여야 함
머리카락, 액세서리 등의 동역학 표현

2. 문제 정의: 왜 기존 방법들은 실패하는가

2.1 Reference-to-Video (R2V) 패러다임의 지배

현재까지 대부분의 인간 이미지 애니메이션 방법은 Reference-to-Video (R2V) 패러다임을 따릅니다.

R2V의 작동 방식:

R2V 방식의 대표 모델:

Animate Anyone
MagicAnimate
CHAMP
HumanVid
RealisDance

2.2 R2V의 근본적 문제: 시공간 오정렬

R2V 방식은 "참조 이미지의 특성을 추출하여 새로운 영상을 생성"합니다. 이 과정에서 참조 이미지가 첫 프레임으로 직접 사용되지 않습니다.

이것이 왜 문제인가? 실제 사용 환경에서는 두 가지 유형의 오정렬이 발생합니다:

2.2.1 공간적 오정렬 (Spatial Misalignment)

참조 이미지의 인물과 구동 포즈의 신체 구조가 다른 경우:

발생 원인:

참조 이미지와 구동 비디오의 촬영 시점(앵글) 차이
체형 차이 (마른 체형 vs 건장한 체형)
의상 차이 (짧은 소매 vs 긴 소매)

2.2.2 시간적 오정렬 (Temporal Misalignment) - "Start Gap"

참조 이미지의 포즈와 포즈 시퀀스의 첫 번째 포즈가 다른 경우:

실제 사례:

사용자가 정면 사진을 입력했는데, 구동 비디오가 옆모습으로 시작
양손을 내린 사진인데, 구동 비디오가 손을 들고 시작
서있는 사진인데, 구동 비디오가 앉아있는 포즈로 시작

2.3 왜 기존 벤치마크는 이 문제를 못 잡는가?

기존 벤치마크(TikTok, RealisDance)의 치명적 설계 결함:

결과적으로:

기존 벤치마크에서는 R2V 방식들이 좋은 성능을 보임
하지만 실제 사용 환경(다른 소스의 이미지-비디오)에서는 실패
벤치마크 성능 ≠ 실제 성능 의 괴리 발생

🎬 X-Dance 벤치마크 데모

Below are demo videos from the official SteadyDancer project page:

🎬 RealisDance 벤치마크 데모

Below are demo videos from the official SteadyDancer project page:

2.4 R2V의 "이중 실패" (Dual Failure)

시공간 오정렬이 존재할 때 R2V 방식은 두 가지 목표 모두 실패합니다:

1) Identity 보존 실패:

참조 이미지와 다른 외형 생성
얼굴이 다르게 보임
의상, 체형 변화

2) 동작 제어 실패:

구동 포즈를 정확히 따르지 못함
시작 부분에서 어색한 점프
중간에 포즈 이탈

3. SteadyDancer의 핵심 아이디어: 패러다임의 전환

3.1 Image-to-Video (I2V) 패러다임으로의 전환

SteadyDancer의 핵심 통찰:

"첫 프레임 보존을 '희망'이 아닌 '보장'으로 만들어야 한다."

이를 위해 R2V 대신 I2V(Image-to-Video) 패러다임을 채택합니다.

I2V의 작동 방식:

3.2 R2V vs I2V 비교

3.3 I2V의 도전: 포즈 제어 추가의 어려움

I2V는 첫 프레임 보존을 보장하지만, 포즈 제어를 어떻게 추가하느냐가 새로운 문제입니다.

순진한 접근법:

# 방법 1: 단순 덧셈
z_t = ChannelConcat(ẑ_t, m, z_c + z_p)

# 방법 2: 어댑터 기반
z_t = ChannelConcat(ẑ_t, m, z_c)
z_t = z_t + Adapter(z_p)

문제점:

덧셈: 정적인 외형 정보(z_c)와 동적인 포즈 정보(z_p)가 혼합되어 둘 다 손실
어댑터: 파라미터 수가 많고, 기존 모델의 지식을 손상시킬 수 있음

3.4 SteadyDancer의 세 가지 핵심 혁신

SteadyDancer는 이 문제를 세 가지 기술로 해결합니다:

4. 기술 상세 (1): Condition-Reconciliation Mechanism

4.1 문제: 두 조건의 충돌

I2V 모델에 포즈 제어를 추가할 때, 두 가지 조건이 충돌합니다:

1) 외형 조건 (Appearance Condition) - z_c:

참조 이미지에서 추출
정적인 정보: 얼굴, 의상, 배경
"어떻게 보여야 하는지"

2) 포즈 조건 (Pose Condition) - z_p:

구동 포즈 시퀀스에서 추출
동적인 정보: 신체 위치, 관절 각도
"어떻게 움직여야 하는지"

4.2 해결책: 세 수준의 조화

SteadyDancer는 세 가지 수준에서 조건을 조화시킵니다:

4.2.1 조건 융합 (Condition Fusion) 수준

기존 방식 (덧셈):

z_input = ChannelConcat(ẑ_t, m, z_c + z_p)

두 신호가 섞여서 구분 불가
정보 손실 발생

SteadyDancer (채널 연결):

z_input = ChannelConcat(ẑ_t, m, z_c, z_p)

각 조건이 독립적인 채널로 유지
모델이 스스로 조합 방법 학습

4.2.2 조건 주입 (Condition Injection) 수준

기존 방식 (어댑터):

별도의 어댑터 네트워크 추가
파라미터 수 증가 (수십~수백 M)
기존 모델 지식 손상 가능

SteadyDancer (LoRA):

Low-Rank Adaptation 사용
최소한의 파라미터 추가 (~수 M)
기존 모델 지식 보존

4.2.3 조건 증강 (Condition Augmentation) 수준

목적: 첫 프레임과 포즈 조건 사이의 연결 강화

방법:

시간적 연결: 첫 프레임의 포즈 잠재 벡터를 포즈 시퀀스에 추가
CLIP 특성 증강: 첫 프레임의 포즈 특성을 CLIP 임베딩에 포함

# 시간적 연결
z_p_augmented = TemporalConcat(z_p_first_frame, z_p_sequence)

# CLIP 특성 증강
clip_features = Concat(clip_image, clip_pose_first_frame)

4.3 전체 아키텍처

5. 기술 상세 (2): Synergistic Pose Modulation Modules

5.1 문제: 단순한 조건 융합으로는 부족

조건 조화 메커니즘만으로는 시공간 오정렬 문제를 완전히 해결할 수 없습니다.

왜?

포즈 특성(z_p)이 참조 이미지의 특성 공간과 호환되지 않을 수 있음
신체 구조 차이로 인한 적응 필요
프레임 간 동작의 연속성 보장 필요

5.2 세 가지 협력적 모듈

SteadyDancer는 세 개의 전문화된 모듈을 설계하여 이 문제를 해결합니다:

5.3 SSAR: Spatial Structure Adaptive Refiner

역할: 공간적 구조 불일치 해결

문제 상황:

참조 이미지: 팔 길이 60cm
구동 포즈: 팔 길이 70cm 기준으로 추출
결과: 포즈를 그대로 적용하면 팔이 늘어나거나 어색해짐

해결 방법: 동적 합성곱 (Dynamic Convolution)

동적 합성곱의 장점:

고정된 변환이 아닌, 입력에 따른 적응적 변환
다양한 체형 차이를 유연하게 처리
학습 가능한 변환으로 최적화

5.4 TMCM: Temporal Motion Coherence Module

역할: 시간적 동작 불연속 해결

문제 상황:

프레임 1: 오른팔 30도 올림
프레임 2: 오른팔 45도 올림
프레임 3: 오른팔 90도 올림 (급격한 변화!)
결과: 움직임이 끊기거나 점프하는 듯한 느낌

해결 방법: 깊이별 시공간 합성곱 (Depthwise Spatio-Temporal Convolution)

Depthwise Convolution을 사용하는 이유:

채널별 독립적 처리로 효율적
공간/시간 특성을 분리하여 학습
파라미터 수 최소화

5.5 FAAU: Frame-wise Attention Alignment Unit

역할: 프레임별 정밀 정렬

문제 상황:

SSAR과 TMCM으로 전처리된 포즈가 있음
하지만 생성 과정(denoising)의 현재 상태와 정렬 필요
각 프레임마다 다른 정도의 정렬이 필요할 수 있음

해결 방법: 교차 어텐션 (Cross-Attention)

5.6 세 모듈의 시너지

세 모듈이 협력하여 각기 다른 수준의 문제를 해결합니다:

6. 기술 상세 (3): Staged Decoupled-Objective Training

6.1 문제: 동시 최적화의 어려움

여러 목표를 동시에 최적화하면 문제가 발생합니다:

최적화해야 할 목표:

동작 충실도 (Motion Fidelity): 포즈를 정확히 따라야 함
시각적 품질 (Visual Quality): 기본 모델의 생성 품질 유지
시간적 일관성 (Temporal Coherence): 프레임 간 깜빡임 없음
동작 연속성 (Motion Continuity): Start Gap 처리

6.2 해결책: 단계적 분리 훈련

SteadyDancer는 세 단계로 훈련을 나눕니다:

6.3 Stage 1: Action Supervision (액션 감독)

목적: 포즈 제어 능력 빠르게 확보

기간: 12,000 스텝

방법:

표준 diffusion loss 사용
LoRA만 미세조정 (기존 가중치 동결)
포즈 조건 → 동작 생성 매핑 학습

# Stage 1 Loss
L_action = E[||v_θ(z_t, t, c, p) - v_target||²]

# 여기서:
# v_θ: 모델의 예측
# z_t: 노이즈가 추가된 잠재 벡터
# t: 타임스텝
# c: 이미지 조건
# p: 포즈 조건
# v_target: 목표 velocity

결과:

기본적인 포즈 따라하기 가능
하지만 시각적 품질이 기본 모델보다 떨어질 수 있음

6.4 Stage 2: Condition-Decoupled Distillation (조건-분리 증류)

목적: 기본 모델의 시각적 품질 유지

기간: 2,000 스텝

문제: 일반적인 증류 방식의 학습 붕괴

수식:

# Velocity 분해
v_θ = v_uncond + v_cond

# Stage 2 Loss
L_distill = L_uncond + L_cond

# 무조건부 성분: Teacher 증류
L_uncond = E[||v_uncond - v_teacher_uncond||²]

# 조건부 성분: 기존 감독 유지
L_cond = E[||v_cond - (v_target - v_teacher_uncond)||²]

핵심 통찰:

무조건부 성분만 Teacher로부터 증류
조건부 성분(포즈 제어)은 기존 방식으로 학습
두 목표가 서로 간섭하지 않음

6.5 Stage 3: Motion Discontinuity Mitigation (동작 불연속 완화)

목적: Start Gap 문제 해결

기간: 500 스텝

문제: 참조 이미지 포즈와 첫 포즈의 불연속

해결책: 포즈 시뮬레이션 (Pose Simulation)

6.6 훈련 효율성

SteadyDancer의 훈련 효율:

왜 이렇게 효율적인가?

LoRA 기반: 전체 모델이 아닌 일부만 훈련
단계적 학습: 각 단계에서 집중된 최적화
강력한 기본 모델 활용: Wan 2.1의 사전 지식 최대 활용
효율적인 데이터 활용: 적은 데이터로 핵심 능력 학습

7. 실험 결과 분석: 정량적 비교

7.1 비교 대상 모델

UNet 기반 (이전 세대):

Animate Anyone (2023)
MagicAnimate (2023)
CHAMP (2024)
HumanVid (2024)

DiT 기반 (현재 세대):

RealisDance-DiT (2024)
Wan-Animate (2024)
UniAnimate-DiT (2024)
HyperMotion (2024)

7.2 TikTok 데이터셋 결과

설정:

같은 비디오에서 참조 이미지와 포즈 추출
저수준 지표: SSIM, PSNR, LPIPS, FID, FVD

분석:

SteadyDancer가 모든 지표에서 최고 성능
특히 FVD(Fréchet Video Distance)에서 큰 개선
UNet → DiT 전환으로 인한 전반적 성능 향상 확인

7.3 RealisDance-Val 결과

설정:

Vbench-I2V 고수준 지표 사용
Subject Consistency, Background Consistency, Motion Smoothness 등

주요 발견:

Subject Consistency: Identity 보존에서 최고 (97.34)
Motion Smoothness: 99.02로 거의 완벽한 부드러움
FVD: 326.49로 2위 대비 16% 개선

7.4 왜 이런 결과가 나오는가?

8. X-Dance 벤치마크: 진짜 실력을 테스트하다

8.1 기존 벤치마크의 한계

TikTok, RealisDance 등 기존 벤치마크의 치명적 문제:

8.2 X-Dance 벤치마크 설계

SteadyDancer는 진짜 어려운 상황을 테스트하는 X-Dance 벤치마크를 제안합니다:

핵심 설계 원칙: Different-Source

참조 이미지와 구동 비디오가 다른 소스에서 옴
실제 사용 환경을 반영

8.3 X-Dance 결과: R2V의 "치명적 이중 실패"

8.4 X-Dance가 보여주는 시사점

기존 벤치마크의 맹점: 실제 어려운 상황을 테스트하지 않음
R2V의 근본적 한계: 시공간 오정렬에 대응 불가
I2V의 강점: 첫 프레임 보존으로 Identity 문제 해결
SteadyDancer의 가치: 실제 사용 환경에서 작동하는 솔루션

9. Ablation Study: 각 모듈의 기여도

9.1 조건-조화 메커니즘 Ablation

실험 설정:

조건 융합 방식 비교 (덧셈 vs 연결)
조건 주입 방식 비교 (어댑터 vs LoRA)
조건 증강 유무 비교

9.2 포즈 조절 모듈 Ablation

각 모듈의 개별 기여도:

9.3 훈련 파이프라인 Ablation

각 단계의 필요성:

9.4 Stage 3 포즈 시뮬레이션 상세 분석

불연속성 완화 효과:

10. 한계점과 향후 연구 방향

10.1 현재 한계점

10.1.1 스타일화 이미지의 도메인 갭

잠재적 해결책:

스타일화 이미지 포함 훈련 데이터 확대
도메인 적응(Domain Adaptation) 기법 적용
스타일 보존 손실 함수 추가

10.1.2 극단적 동작 불연속

잠재적 해결책:

Stage 3 훈련 확대
중간 포즈 생성 (Intermediate Pose Generation)
물리 기반 제약 추가

10.1.3 포즈 추정 오류 누적

잠재적 해결책:

포즈 추정기 개선 또는 앙상블
오류 내성(Error Tolerance) 메커니즘 추가
자기 보정(Self-Correction) 학습

10.2 계산 비용

10.3 향후 연구 방향

실시간 추론: 추론 속도 개선을 위한 모델 경량화
스타일 다양성: 다양한 아트 스타일 지원
긴 영상 생성: 현재 5초 제한 확장
다중 인물: 여러 사람의 동시 애니메이션
3D 일관성: 다양한 시점에서의 일관된 생성

11. 실습: SteadyDancer 사용하기

11.1 환경 설정

# 1. Conda 환경 생성
conda create -n steadydancer python=3.10
conda activate steadydancer

# 2. PyTorch 설치 (CUDA 12.1 기준)
pip install torch==2.5.1 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

# 3. 기본 의존성 설치
pip install -r requirements.txt

# 4. Flash Attention 설치
pip install flash-attn --no-build-isolation

# 5. xformers 설치
pip install xformers

# 6. 포즈 추출용 라이브러리
pip install mmpose mmdet mmengine

# 7. 비디오 처리 라이브러리
pip install moviepy decord

11.2 모델 다운로드

# HuggingFace에서 모델 다운로드
# 방법 1: huggingface-cli 사용
pip install huggingface_hub
huggingface-cli download MCG-NJU/SteadyDancer-14B --local-dir ./models/steadydancer

# 방법 2: Git LFS 사용
git lfs install
git clone https://huggingface.co/MCG-NJU/SteadyDancer-14B ./models/steadydancer

11.3 포즈 추출 및 정렬

# Step 1: 구동 비디오에서 포즈 추출
python preprocess/extract_pose.py \
    --video driving_video.mp4 \
    --output_dir preprocess/output/poses/

# Step 2: 참조 이미지와 포즈 정렬
# 긍정 조건 (정상 정렬)
python preprocess/pose_align.py \
    --image reference_image.jpg \
    --pose_dir preprocess/output/poses/ \
    --output_dir preprocess/output/aligned_pos/

# 부정 조건 (증강 정렬 - 선택사항)
python preprocess/pose_align_withdiffaug.py \
    --image reference_image.jpg \
    --pose_dir preprocess/output/poses/ \
    --output_dir preprocess/output/aligned_neg/

11.4 애니메이션 생성

# 기본 생성 (단일 GPU)
python generate_dancer.py \
    --task i2v-14B \
    --size 1024*576 \
    --prompt "A person dancing gracefully with smooth movements" \
    --image reference_image.jpg \
    --cond_pos_folder preprocess/output/aligned_pos/ \
    --output_dir outputs/

# 다중 GPU 생성 (FSDP + xDiT USP)
torchrun --nproc_per_node=4 generate_dancer.py \
    --task i2v-14B \
    --size 1024*576 \
    --prompt "A person dancing gracefully with smooth movements" \
    --image reference_image.jpg \
    --cond_pos_folder preprocess/output/aligned_pos/ \
    --output_dir outputs/ \
    --use_fsdp

11.5 주요 파라미터 설명

11.6 팁과 모범 사례

11.7 ComfyUI 통합

SteadyDancer는 ComfyUI에서도 사용 가능합니다:

# ComfyUI-WanVideoWrapper 설치
cd ComfyUI/custom_nodes
git clone https://github.com/xxx/ComfyUI-WanVideoWrapper
cd ComfyUI-WanVideoWrapper
pip install -r requirements.txt

# 모델 파일을 ComfyUI 모델 폴더로 복사
cp -r /path/to/SteadyDancer-14B ComfyUI/models/steadydancer/

12. 결론 및 시사점

12.1 SteadyDancer의 핵심 기여

12.2 실용적 시사점

영상 제작자를 위한 시사점:

고품질 인간 애니메이션이 더 접근 가능해짐
참조 이미지 선택의 자유도 증가
VFX 파이프라인에 통합 가능

연구자를 위한 시사점:

I2V 패러다임의 효과성 입증
조건 충돌 문제의 해결책 제시
단계적 훈련의 유효성 확인

산업계를 위한 시사점:

적은 훈련 비용으로 SOTA 달성 가능
실제 사용 환경에서 작동하는 솔루션
상용화 가능한 품질 수준

12.3 남은 과제

실시간 처리: 현재 추론 속도로는 실시간 응용 어려움
스타일 일반화: 다양한 아트 스타일로의 확장
긴 영상: 5초 이상의 긴 영상 생성
다중 인물: 여러 사람의 동시 애니메이션
인터랙티브 제어: 실시간 포즈 입력 지원

12.4 마무리

참고 문헌

[논문] Zhang et al., "SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation", arXiv:2511.19320, 2025
[GitHub] https://github.com/MCG-NJU/SteadyDancer
[프로젝트 페이지] https://mcg-nju.github.io/steadydancer-web/
[HuggingFace 모델] https://huggingface.co/MCG-NJU/SteadyDancer-14B
[X-Dance 데이터셋] https://huggingface.co/datasets/MCG-NJU/X-Dance

부록 A: 용어 정리

부록 B: 관련 연구

B.1 GAN 기반 방법

FOMM (First Order Motion Model): 키포인트 기반 모션 추정의 선구자
Liquid Warping GAN: 3D body mesh 활용
MRAA: 관절 기반 모션 표현

B.2 UNet Diffusion 기반 방법

DisCo: 최초의 diffusion 기반 휴먼 애니메이션
Animate Anyone: ReferenceNet 도입
MagicAnimate: 시간적 일관성 모듈
CHAMP: 3D 가이던스 활용

B.3 DiT 기반 방법

Wan 2.1: 강력한 기본 I2V 모델
RealisDance-DiT: DiT 기반 댄스 생성
HyperMotion: 하이퍼네트워크 기반 제어
SteadyDancer: I2V 기반 첫 프레임 보존 (본 논문)

부록 C: 하드웨어 요구사항

부록 D: 자주 묻는 질문 (FAQ)

Q: 실시간 생성이 가능한가요?
A: 현재는 불가능합니다. 5초 영상 생성에 수 분이 소요됩니다. 향후 모델 경량화 연구가 필요합니다.

Q: 애니메이션 캐릭터에도 작동하나요?
A: 제한적으로 작동합니다. 실사 위주로 훈련되어 스타일화 이미지에서는 성능이 저하될 수 있습니다.

Q: 여러 사람을 동시에 애니메이션할 수 있나요?
A: 현재 버전에서는 단일 인물만 지원합니다. 다중 인물 지원은 향후 연구 과제입니다.

Q: 훈련 없이 바로 사용할 수 있나요?
A: 네, 사전 훈련된 모델이 제공됩니다. 추론만으로 사용 가능합니다.

Q: 상업적 사용이 가능한가요?
A: Apache-2.0 라이선스로 제공되어 상업적 사용이 가능합니다. 단, 기반 모델(Wan 2.1)의 라이선스도 확인이 필요합니다.