[HUGGINGFACE]score: 0.48

MMDiff Extracts Multi-Modal Outputs from Frozen Diffusion Transformers

June 14, 2026

MMDiff adds lightweight decoder heads to a frozen diffusion transformer to jointly generate images and dense perceptual outputs like semantic segmentation, using multi-timestep feature fusion along the denoising trajectory. Multi-timestep fusion with spatially varying aggregation weights improves segmentation by up to 28.7% mIoU over single-timestep extraction.

HOW THIS AFFECTS YOU

●

builderFreezing the base diffusion model and adding task-specific heads is a low-cost path to multi-modal outputs if you already have a diffusion transformer in your pipeline.

●

researcherThe finding that perceptual information is temporally distributed across the denoising trajectory is a concrete architectural insight with implications for how diffusion model internals are used.

read original ↗huggingface.co

← back to feed