唐胜--中国科学院计算技术研究所

唐胜研究员

研究方向：

所属部门：前瞻研究实验室

导师类别：博导计算机应用技术

联系方式：ts@ict.ac.cn

个人网页：http://people.ucas.ac.cn/~shengtang

简历：

2006年3月博士毕业于中国科学院计算技术研究所（简称计算所）后留所工作，2008年3月起先后任副研究员和研究员、硕士生导师和博士生导师，中国计算机学会和中国图像图形学会多媒体专委会委员、国家重点研发计划项目专家。带领团队长期从事多媒体内容分析与理解、计算机视觉与机器学习、人工智能内容生成与伪造检测研究；作为项目负责人主持多项国家级科研项目；发表多媒体、计算机视觉、机器学习、人工智能领域的国际顶级会议（ICCV、CVPR、ECCV、ACM Multimedia、ICML、NeurIPS、AAAI、IJCAI、MICCAI）和国际顶级期刊（T-PAMI、TIP、TMM）论文40余篇，谷歌学术引用超6000余次，研发的多项图像视频分析、检索与识别、伪造检测系统已经在获得大规模应用。主持了2014年全国首届特定音视频检索识别挑战赛视频评测；带领团队在美国NIST举办的视频检索国际评测TRECVID 2008和国际著名的ImageNet大规模视觉识别挑战赛(ILSVRC 2016)中取得优异成绩，并应邀做大会报告；在CCF A类国际顶级会议ICCV 2019长尾实例分割挑战赛、ACM Multimedia 2021多模态商品识别挑战赛夺冠。荣获国家自然科学二等奖1项、北京市科学技术一等奖3项、中国计算机学会科学技术一等奖1项、中国电子学会科学技术一等奖2项。

主要论著：

截止2026年5月，作为导师，指导博士生9名，硕士生29名。发表的代表论文如下：

期刊文章(CCF A类期刊11篇，CCF B类期刊5篇，*表示通讯作者)：

[1] Haipeng Fang, Sheng Tang*, Zhihao Sun, Ziyao Huang, Juan Cao, Fan Tang, Yongdong Zhang. “MoAnimate: Bridging the Motion-Oriented Latent Representation Gaps in Human Video Animation”, IEEE Transactions on Circuits and Systems for Video Technology. 36(4): 5453-5466, April 2026. (CCF B类国际期刊)

[2] Ziyao Huang, Fan Tang, Yong Zhang, Juan Cao, Chengyu Li, Sheng Tang, Jintao Li, Tong-Yee Lee: Identity-Preserving，Face Swapping via Dual Surrogate Generative Models. ACM Trans. Graph. 43(5): 161:1-19, 2024.(CCF A类期刊)

[3] Linghui Li, Yongdong Zhang, Sheng Tang, Lingxi Xie, Xiaoyong Li, Qi Tian; “Adaptive Spatial Location With Balanced Loss for Video Captioning”; IEEE Transactions on Circuits and Systems for Video Technology, 32(1): 17-30, 2022. (CCF B类国际期刊)

[4] Lixi Deng, Jingjing Chen, Chong-Wah Ngo, Qianru Sun, Sheng Tang, Yongdong Zhang, Tat-Seng Chua; “Mixed Dish Recognition With Contextual Relation and Domain Alignment”; IEEE Transactions on Multimedia, 24: 2034-2045,2022. (CCF A类多媒体国际顶刊))

[5] Tianyi Wu, Sheng Tang*, Rui Zhang, Guodong Guo; “Consensus Feature Network for Scene Parsing”；IEEE Transactions on Multimedia, 24: 3208-3217, 2022. (CCF A类多媒体国际顶刊))

[6] Tianyi Wu, Sheng Tang*, Rui Zhang, Juan Cao, Yongdong Zhang; “CGNet: A Light-Weight Context Guided Network for Semantic Segmentation”; IEEE Transactions on Image Processing, 30: 1169-1179, 2021(CCF A类图像处理国际顶级期刊, 高被引论文)

[7] Rui Zhang, Sheng Tang*, Yongdong Zhang*, Jintao Li, Shuicheng Yan, "Perspective-adaptive Convolutions for Scene Parsing", IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI), 42(4): 909 – 924, April, 2020. (CCF A类著名国际顶级期刊)

[8] Yu Li, Sheng Tang*, Rui Zhang, Yongdong Zhang, Jintao Li, Shuicheng Yan, “Asymmetric GAN for Unpaired Image-to-image Translation”, IEEE Transactions on Image Processing, 28(12):5881-5896, December, 2019. (CCF A类图像处理国际顶级期刊)

[9] Yu Li, Sheng Tang*, Min Lin, Yongdong Zhang, Jintao Li, Shuicheng Yan, "Implicit Negative Sub-categorization and Sink Diversion for Object Detection", IEEE Transactions on Image Processing, 27(4):1561-1574, April, 2018.(CCF A类图像处理国际顶级期刊)

[10] Linghui Li, Sheng Tang*, Lixi Deng, Yongdong Zhang and Qi Tian; “GLA: Global-local Attention for Image Description”, IEEE Transactions on Multimedia, 20(3): 726-737, March, 2018. (CCF A类多媒体国际顶刊))

[11] Sheng Tang, Yu Li, Lixi Deng, Yong-Dong Zhang; “Object Localization Based on Proposal Fusion”, IEEE Transactions on Multimedia, 19(9):2105-2116, September 2017. (CCF A类多媒体国际顶刊))

[12] YongDong Zhang, Yu Wang, Sheng Tang*, Steven C. H. Hoi, JinTao Li; “FSpH: Fitted Spectral Hashing Exploring Entropy Maximizing Criterion for Efficient Retrieval”, Computer Vision and Image Understanding (CVIU), Computer Vision and Image Understanding (CVIU), 124: 3-11, 2014. (CCF B类国际著名期刊)

[13] Wu Liu, Yongdong Zhang, Sheng Tang, Jinhui Tang, Richang Hong and Jintao Li; "Accurate Estimation of Human Body Orientation From RGB-D Sensors," IEEE Transactions on Cybernetics, vol.43, no.5, pp.1442-1452, Oct. 2013. (CCF B类国际期刊)

[14] Sheng Tang, Yan-Tao Zheng, Yu Wang and Tat-Seng Chua, “Sparse Ensemble Learning for Concept Detection”, IEEE Transactions on Multimedia, 14(1):43-54, Feb. 2012. (CCF A类多媒体国际顶刊))

[15] Hongtao Xie, Ke Gao, Yongdong Zhang, Sheng Tang, Jintao Li, and Yizhi Liu; “Efficient Feature Detection and Effective Post-Verification for Large Scale Near-Duplicate Image Search”, IEEE Transactions on Multimedia, 13(6):1319-1332, Dec. 2011. (CCF A类多媒体国际顶刊)

[16] Yan Song, Yan-Tao Zheng, Sheng Tang, Xiangdong Zhou, Yongdong Zhang, Shouxun Lin, and Tat-Seng Chua; “Localized Multiple Kernel Learning for Realistic Human Action Recognition in Videos”, IEEE Transactions on Circuits and Systems for Video Technology, 21(9):1193-1202, Sept.2011. (CCF B类国际期刊)

会议文章(国际顶级会议长文24篇，其中CCF A类会议17篇，CCF B类会议7篇)：

[17] Jiaan Wang, Sirui Liu, Yu Li, Kaiyuan Yang, Juan Cao, Sheng Tang; “Fleet: Few Shots Lead Effective AI-generated Images Detection”, Proceedings of the International Conference on Machine Learning (ICML 2026), Seoul, South Korea, July 6–11, 2026. (CCF A类机器学习国际顶级会议长文)

[18] Ruize Zhang, Yu Li, Zhang Wan, Juan Cao, Jie Zhang, Sheng Tang; “You Don’t Protect if You Don’t Expect: Breaking the Key Assumption behind CLIP’s Test-Time Defenses”, Proceedings of the International Conference on Machine Learning (ICML 2026), Seoul, South Korea, July 6-11, 2026. (CCF A类机器学习国际顶级会议长文)

[19] Zhang Wan, Yu Li, Tianze Huang, Haochen Li, Juan Cao, Sheng Tang; “Video-SVD: Efficient Video Diffusion via Orthogonal Basis Composition”, Proceedings of the 43rd International Conference on Machine Learning (ICML 2026), Seoul, South Korea, July 6–11, 2026. (CCF A类机器学习国际顶级会议长文)

[20] Haipeng Fang, Yu Li, Fan Tang, Yixing Lu, Juan Cao, Sheng Tang; “ResCa: Residual Caching for Diffusion Transformers Acceleration”, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026), Denver, Colorado, United States, June 3–7, 2026. (CCF A类计算机视觉国际顶级会议长文)

[21] Chenming Zhou, Jiaan Wang, Yu Li, Lei Li, Juan Cao, Sheng Tang, "Beyond Semantic Features: Pixel-level Mapping for Generalized AI-Generated Image Detection", The 40th AAAI Conference on Artificial Intelligence (AAAI 2026), Singapore, January 29-31, 2026. (CCF A类国际顶级会议长文)

[22] Haipeng Fang, Sheng Tang, Juan Cao, Enshuo Zhang, Fan Tang, Tong-yee Lee; “Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration”, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2025), Music City Center, Nashville, Tennessee, United States, June 11-15, 2025. (CCF A类计算机视觉国际顶级会议长文)

[23] Ruize Zhang, Sheng Tang*, Juan Cao; “Self-Supervised Adversarial Training via Diverse Augmented Queries and Self-Supervised Double Perturbation”. In NeurIPS, 2024. (CCF A类机器学习顶级会议，通讯作者)

[24] Zhang Wan, Sheng Tang*, Jiawei Wei, Ruize Zhang, Jun Cao; “DragEntity: Trajectory Guided Video Generation using Entity and Positional Relationships”. In Proc. ACM Multimedia, 2024: 108-116. ( CCF A类多媒体顶级会议, Oral, 接收率3.97%，通讯作者)

[25] Tianyun Yang, Danding Wang, Fan Tang, Xinying Zhao, Juan Cao, Sheng Tang, Progressive Open Space Expansion for Open-Set Model Attribution. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2023), pp. 15856-15865, Vancouver, BC, Canada, June 17-24, 2023. (CCF A类计算机视觉国际顶级会议长文)

[26] Zijie Yang, Lingxi Xie, Xinyue Huo, Sheng Tang*, Qi Tian, Yongdong Zhang; “Finding the Host from the Lesion by Iteratively Mining the Registration Graph”; ACM Multimedia 2022: 5913-5922( CCF A类多媒体顶级会议长文)

[27] Yu Li, Tao Wang, Bingyi Kang, Sheng Tang*, Chunfeng Wang, Jintao Li, Jiashi Feng; “Overcoming Classiﬁer Imbalance for Long-tail Object Detection with Balanced Group Softmax”; IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2020), Seattle, Washington, USA. June 16-18, 2020. (CCF A类计算机视觉国际顶级会议长文, Oral)

[28] Junbin Xiao, Xindi Shang, Xun Yang, Sheng Tang, Tat-seng Chua; “Visual Relation Grounding in Videos”; 16th European Conference on Computer Vision (ECCV'20), 23-28 August 2020. (CCF B类计算机视觉国际顶级会议长文, Spotlight)

[29] Tao Wang, Yu Li, Bingyi Kang, Junnan Li, Jun Hao Liew, Sheng Tang, Steven Hoi, Jiashi Feng; “The Devil is in Classification: A Simple Framework for Long-tail Instance Segmentation”; 16th European Conference on Computer Vision (ECCV'20) : 728-744, 23-28 August 2020. (CCF B类计算机视觉国际顶级会议长文)

[30] Rui Zhang, Sheng Tang*, YongDong Zhang, Jintao Li, Shuicheng Yan; “Scale-adaptive Convolutions for Scene Parsing”, The 2017 IEEE International Conference on Computer Vision (ICCV) 2017, Pages: 2050-2058, Venice, Italy, October 22-29, 2017. (CCF A类计算机视觉国际顶级会议长文)

[31] Bin Wang, Guojun Qi, Sheng Tang*, Tianzhu Zhang, Yunchao Wei, Linghui Li, Yongdong Zhang; “Boundary Perception Guidance: A Scribble-Supervised Semantic Segmentation Approach”, The 28th International Joint Conference on Artificial Intelligence (IJCAI 2019), Pages: 3663-3669, August 10-16, 2019, Macao, China (CCF B类人工智能国际顶级会议长文).

[32] Rui Zhang, Sheng Tang*, Luoqi Liu, Yongdong Zhang, Jintao Li, Shuicheng Yan; “High Resolution Feature Recovering for Accelerating Urban Scene Parsing”, The 27th International Joint Conference on Artificial Intelligence (IJCAI 2018), Pages: 1156-1162, Stockholm, Sweden, July 13-19, 2018(CCF B类人工智能国际顶级会议长文)

[33] Rui Zhang, Sheng Tang*, Min Lin, Jintao Li, Shuicheng Yan; “Global-residual and Local-boundary Refinement Networks for Rectifying Scene Parsing Predictions”, The 26th International Joint Conference on Artificial Intelligence (IJCAI 2017),Pages:3427-3433,Melbourne, Australia, August 19-25, 2017(CCF B类人工智能国际顶级会议长文)

[34] Yuchen Guo, Guiguang Ding, Jungong Han, Sheng Tang; “Zero-shot Learning with Attribute Selection”, The 32th AAAI Conference on Artificial Intelligence (AAAI 2018), February 2-7, 2018, New Orleans, USA. (CCF A类人工智能国际顶级会议长文)

[35] Xiaohan Ding, Guiguang Ding, Jungong Han, Sheng Tang; “Auto-balanced Filter Pruning for Efficient Convolutional Neural Networks”, The 32th AAAI Conference on Artificial Intelligence (AAAI 2018), February 2 - 7, 2018, New Orleans, USA. (CCF A类人工智能国际顶级会议长文)

[36] Linghui Li, Sheng Tang*, Lixi Deng, Yongdong Zhang, Qi Tian; “Image Caption with Global-Local Attention”, The 31th AAAI Conference on Artificial Intelligence (AAAI 2017), Pages: 4133-4139, San Francisco, California USA, February 4–9, 2017 (CCF A类人工智能国际顶级会议长文)

[37] Lixi Deng, Jingjing Chen, Qianru Sun, Xiangnan He, Sheng Tang, Zhaoyan Ming, Yongdong Zhang, Tat Seng Chua; “Mixed-dish Recognition with Contextual Relation Network”, ACM Multimedia 2019, Pages: 112-120, Nice, France, 21-25 October, 2019. (CCF A类多媒体国际顶级会议长文)

[38] Rui Zhang, Sheng Tang*, Yu Li, Junbo Guo, Yongdong Zhang, Jintao Li, Shuicheng Yan; “Style Separation and Synthesis via Generative Adversarial Networks”, ACM Multimedia 2018, Pages: 183-191, Oct.22-26, 2018, Seoul, Korea. (CCF A类多媒体国际顶级会议长文).

[39] Lixi Deng, Sheng Tang*, Huazhu Fu, Bin Wang, Yongdong Zhang; “Spatiotemporal Breast Mass Detection Network (MD-Net) in 4D DCE-MRI Images”, International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2019), LNCS 11767, Pages: 271-279, Oct. 13-17, 2019, Shenzhen, China. (CCF B类医疗影像处理国际顶级会议长文)

[40] Bin Wang, Guo-Jun Qi, Sheng Tang*, Liheng Zhang, Lixi Deng, Yongdong Zhang; “Automated Pulmonary Nodule Detection: High Sensitivity with Few Candidates”, International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2018), LNCS 11071, Pages:759–767, September 16-20, 2018, Granada, Spain. (CCF B类医疗影像处理国际顶级会议长文)

第一发明人授权专利13项：

[1] 唐胜;王志浩;曹娟；基于三维信息重建不一致的人脸深度伪造检测方法，CN202311211903.X，授权公告日：2026年3月10日

[2] 唐胜;万大千;曹娟;李锦涛，人物丑化图像识别和模型训练方法与装置, CN202110854800.X，授权公告日：2024年3月12日

[3] 唐胜;李瑜;李锦涛;曹娟;张勇东，一种长尾目标检测方法与系统，CN202010508103.4，授权公告日：2022年12月6日

[4] 唐胜;伍天意;李锦涛;张勇东，基于一致性特征的场景分割方法和系统，CN201910604601.6，授权公告日：2022年1月21日

[5] 唐胜;王斌;张勇东，一种基于涂鸦的弱监督语义分割方法与系统，CN201910588880.1，授权公告日：2021年9月7日

[6] 唐胜;伍天意;李锦涛，基于上下文信息指导的场景分割方法和系统，CN201811309249.5，授权公告日：2021年4月27日

[7] 唐胜;伍天意;李锦涛，基于克罗内克卷积的场景分割方法和系统，CN201811309245.7，授权公告日：2021年4月6日

[8] 唐胜;张蕊;李锦涛，基于特征图恢复的场景分割方法和系统，CN201810664250.3，授权公告日：2020年12月11日

[9] 唐胜;张蕊;李锦涛，融合全局信息的场景分割修正方法与系统，CN201710650525.3，授权公告日：2020年9月11日

[10] 唐胜;张蕊;李锦涛，融合局部信息的场景分割修正方法与系统，CN201710650541.2，授权公告日：2020年6月26日

[11] 唐胜;肖俊斌;李锦涛，一种基于目标检测的视觉目标检索方法与系统，CN201710574741.4，授权公告日：2020年6月5日

[12] 唐胜;李灵慧;张勇东;李锦涛，一种生成描述图像内容的自然语言的方法与系统，CN201711265210.3，授权公告日：2020年1月21日

[13] 唐胜;张勇东;李锦涛;徐作新，字典学习、视觉词袋特征提取方法及检索系统，CN201410287639.2，授权公告日：2017年6月30日

科研项目：

主要科研项目如下：

1、计算所创新课题，多任务伪造检测大模型的混合专家软硬协同推理优化技术研究 (E561090)，2025-06至2027-05，100万元，参与

2、中国科学院，自监督视频深伪检测关键技术研究(E141020)，2021-05至2023-12，80万元，主持

3、计算所创新重点课题，软硬跨层优化的互联网视频深伪检测系统研发 (E161020)，2021-06至2023-05，500万元，子课题负责人

4、国家自然科学基金面上项目，基于稀疏表示和深度学习的大规模目标检测(61572472)，78.4万，2016-01至2019-12，项目负责人。

5、国家自然科学基金面上项目，基于跨域迁移学习的网络视频检索技术研究(61173054)，57万元，2012-01至2015-12，项目负责人。

6、国家自然科学基金面上项目，融合显式和隐含语义概念的视频检索技术研究(60873165)，30万，2009-01至2011-12，项目负责人。

7、北京市自然科学基金面上项目，基于稀疏表示的大规模移动视觉搜索技术研究(4152050)，18万，2015-01至2017-12，项目负责人。

获奖及荣誉：

科研获奖：

1、2019年国家自然科学奖二等奖，获奖项目为“互联网视频流的高通量计算理论与方法”。

2、 2020年北京市科技进步奖一等奖，获奖项目为“开放环境下数字伪造内容检测关键技术与服务平台建设”。

3、2018年中国电子学会科学技术奖（自然科学类）一等奖，获奖项目为“互联网视频的高效流式计算理论与方法”。

4、2017年中国电子学会科学技术奖（技术发明类）一等奖，获奖项目为“视觉大数据检索与智能分析关键技术及应用”。

5、2014年北京市科学技术奖一等奖，获奖项目为“大规模网络视频处理与内容分析关键技术及应用”。

6、2012年首届中国计算机学会科学技术奖，获奖项目为“大规模网络视频内容分析关键技术及应用”。

7、2006年北京市科学技术奖一等奖，获奖项目为“面向体育训练的三维人体运动模拟与视频分析系统”。

国际获奖：

1、2026年人工智能国际顶级会议杰出资深程序委员会委员奖：AAAI 2026 Outstanding Senior Program Committee Award (Top 2%)

2、2021年多媒体国际顶级会议ACM Multimedia 2021多模态商品识别挑战赛，冠军。

3、2019年计算机视觉国际顶级会议ICCV 2019大规模长尾实例分割挑战赛，冠军。

4、2016年国际ImageNet大规模视觉识别挑战赛(ILSVRC)，获视频目标检测和语义分割任务全球第三。

唐胜 研究员

简 历：

主要论著：

科研项目：

获奖及荣誉：

唐胜研究员

简历：