欢迎来到上海交通大学智能媒体组（MediaX@SJTU）

MediaX 隶属于上海交通大学未来媒体网络协同创新中心，专注于计算机视觉、机器学习与生成式智能媒体交叉领域的前沿研究。我们致力于推动多模态媒体（2D/3D/4D）在生成、修复与增强、重建与压缩、以及质量评价等方向的发展。我们的使命是构建能够理解、建模和操控复杂人类中心视觉内容的智能系统，以实现高质量、高效率的下一代智能媒体内容生产。

🎯 研究方向

媒体感知与质量评价
构建面向UGC、PGC和AIGC内容的多维度智能质量评价体系。（F-Bench、FineVQ等）

视频修复与生成
高质量视频增强、可控生成与编辑，支持4K/8K分辨率。（MoA-VR、StoryGen、Dr2等）

3D/4D重建与生成
基于3D高斯建模与生成式AI，实现沉浸式动态场景的高效表示与压缩。（4DGCPro、4DGC、VARFVV等）

智能媒体创作平台
构建协同、多智能体驱动的自动化与交互式媒体生产系统。(央视4K/8K超高清媒体智能增强制作平台)

📢 加入我们

我们长期欢迎 博士研究生、硕士研究生、本科科研助理 加入团队。
如果你对智能媒体与生成式AI充满热情，欢迎将 个人简历与成绩单 发送至： mediax@sjtu.edu.cn

联系我们 GitHub 微信

News

🔥 News:

[2026/2] Two papers are accepted to CVPR

[2026/1] One paper is accepted to ICLR

[2025/12] Cover Paper in IEEE JSTSP

[2025/12] IEEE VCIP Best Paper Award

[2025/12] Runner-up, SIGGRAPH Asia 2025 Volumetric Video Challenge (Compression Track)

[2025/11] One paper is accepted to TCSVT

[2025/10] One paper is accepted to TPAMI

[2025/10] One paper is accepted to JSTSP

[2025/9] First Prize, Intelligent Restoration and Enhancement Track, 4th Broadcast and Online Audio-Visual Artificial Intelligence Application Innovation Competition

[2025/9] Two papers are accepted to NeurIPS 2025

[2025/9] MediaX团队超高清AI修复技术助力抗战胜利80周年晚会

[2025/8] Second Place, ICCV 2025 MIPI Challenge – Detailed Image Quality Assessment

[2025/7] Second Place, ICCV 2025 VQualA Challenge – GenAI-Bench AIGC Video Quality Assessment

[2025/7] Two papers are accepted to ACM MM 2025

[2025/6] Two papers are accepted to ICCV 2025

[2025/5] One paper is accepted to ICML 2025

[2025/3] Two papers are accepted to ICME 2025

[2025/2] Two papers are accepted to CVPR 2025

[2025/2] NTIRE 2025 XGC Quality Assessment Challenge Organizer

[2025/1] One paper is accepted to JSAC 2025

[2024/12] One paper is accepted to AAAI 2025

[2024/7] One paper is accepted to TCSVT 2024

[2024/7] One paper is accepted to ACM MM 2024

[2024/6] One paper is accepted to ICIP 2024

Publications

[CVPR'2026] Agentic Retoucher for Text-To-Image Generation

Shaocheng Shen, Jianfeng Liang, Chunlei Cai, Cong Geng, Huiyu Duan, Xiaoyun Zhang, Qiang Hu, Guangtao Zhai

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026.

[Paper] [Code]

[CVPR'2026] One-Step Diffusion Transformer for Controllable Real-World Image Super-Resolution

Yushun Fang, Yuxiang Chen, Shibo Yin, Qiang Hu, Jiangchao Yao, Ya Zhang, Xiaoyun Zhang, Yanfeng Wang

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026.

[Paper] [Code]

[ICLR'2026] LaTo: Landmark-tokenized Diffusion Transformer for Fine-grained Human Face Editing

Zhenghao Zhang, Ziying Zhang, Junchao Liao, Xiangyu Meng, Qiang Hu, Siyu Zhu, Xiaoyun Zhang, Long Qin, Weizhi Wang

International Conference on Learning Representations (ICLR), 2026.

[Paper] [Code]

[VCIP'2025] AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views (Best Paper Award).

Yijie Gao, Houqiang Zhong, Tianchi Zhu, Zhengxue Cheng, Qiang Hu, Li Song

IEEE Visual Communications and Image Processing (VCIP) 2025.

[Paper] [Code]

[JSTSP'2025] MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration

Lu Liu, Chunlei Cai, Shaocheng Shen, Jianfeng Liang, Weimin Ouyang, Tianxiao Ye, Jian Mao, Huiyu Duan, Jiangchao Yao, Xiaoyun Zhang, Qiang Hu, Guangtao Zhai

IEEE Journal of Selected Topics in Signal Processing (JSTSP), 2025.

[Paper]

[NeurIPS'2025] 4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming

Zihan Zheng, Zhenlong Wu, Houqiang Zhong, Yuan Tian, Ning Cao, Lan Xu, Jiangchao Yao, Xiaoyun Zhang, Qiang Hu, Wenjun Zhang

The Thirty-Ninth Annual Conference on Neural Information Processing Systems (NeurIPS), 2025.

[Paper]

[ICCV'2025] F-Bench: Rethinking Human Preference Evaluation Metrics for Benchmarking Face Generation, Customization, and Restoration

Lu Liu, Huiyu Duan, Qiang Hu, Liu Yang, Chunlei Cai, Tianxiao Ye, Huayu Liu, Xiaoyun Zhang, Guangtao Zhai

IEEE/CVF International Conference on Computer Vision (ICCV), 2025.

[Paper]

[CVPR'2025]4DGC: Rate-Aware 4D Gaussian Compression for Efficient Streamable Free-Viewpoint Video

Qiang Hu, Zihan Zheng, Houqiang Zhong, Sihua Fu, Li Song, Xiaoyun Zhang, Guangtao Zhai, Yanfeng Wang.

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025.

[Paper] [Code]

[CVPR'2025] FineVQ: Fine-Grained User Generated Content Video Quality Assessment

Huiyu Duan, Qiang Hu, Wang Jiarui, Liu Yang, Zitong Xu, Lu Liu, Xiongkuo Min, Chunlei Cai, Tianxiao Ye, Xiaoyun Zhang, Guangtao Zhai

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025.

[Paper] [Code]

[JSAC'2025]VARFVV: View-Adaptive Real-Time Interactive Free-View Video Streaming with Edge Computing

Qiang Hu, Qihan He, Houqiang Zhong, GuoLu, Xiaoyun Zhang,Guangtao Zhai,Yanfeng Wang

IEEE Journal on Selected Areas in Communications (JSAC), 2025.

[Paper] [Code]

[AAAI'2025] VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression

Qiang Hu,Houqiang Zhong,Zihan Zheng,Xiaoyun Zhang,Zhengxue Cheng,Li Song,Guangtao Zhai,Yanfeng Wang

The Association for the Advancement of Artificial Intelligence (AAAI), 2025.

[Paper]

[MM'2024] HPC: Hierarchical Progressive Coding Framework for Volumetric Video

Zihan Zheng, Houqiang Zhong, Qiang Hu, Xiaoyun Zhang, Li Song, Ya Zhang, Yanfeng Wang

Proceedings of the ACM International Conference on Multimedia(MM), 2024.

[Paper]

[CVPR'2024] Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models

Chang Liu, Haoning Wu, Yujie Zhong, Xiaoyun Zhang, Yanfeng Wang, Weidi Xie

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024.

[Paper] [Code]

欢迎来到上海交通大学智能媒体组 （MediaX@SJTU）

🎯 研究方向

📢 加入我们

🔥 News:

Publications

[CVPR'2026] Agentic Retoucher for Text-To-Image Generation

[CVPR'2026] One-Step Diffusion Transformer for Controllable Real-World Image Super-Resolution

[ICLR'2026] LaTo: Landmark-tokenized Diffusion Transformer for Fine-grained Human Face Editing

[VCIP'2025] AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views (Best Paper Award).

[JSTSP'2025] MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration

[NeurIPS'2025] 4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming

[ICCV'2025] F-Bench: Rethinking Human Preference Evaluation Metrics for Benchmarking Face Generation, Customization, and Restoration

[CVPR'2025]4DGC: Rate-Aware 4D Gaussian Compression for Efficient Streamable Free-Viewpoint Video

[CVPR'2025] FineVQ: Fine-Grained User Generated Content Video Quality Assessment

[JSAC'2025]VARFVV: View-Adaptive Real-Time Interactive Free-View Video Streaming with Edge Computing

[AAAI'2025] VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression

[MM'2024] HPC: Hierarchical Progressive Coding Framework for Volumetric Video

[CVPR'2024] Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models

欢迎来到上海交通大学智能媒体组（MediaX@SJTU）