公文范文

面向无约束场景下的图象/视频深度理解

2022-08-22 18:28:01公文范文

近年来，深度学习算法和技术已经在学术界与工业界的众多领域取得了诸多突破性进展。在计算机视觉领域，深度

近年来，深度学习算法和技术已经在学术界与工业界的众多领域取得了诸多突破性进展。在计算机视觉领域，深度学习算法和技术在很多基准数据集都极大改善并提升了人物图像理解的性能。然而，在涉及视频监控、安防、电子商务、群体行为分析等现实场景时，图象/视频理解的性能还是不尽如人意。有关问题还需不断做出改进与完善，寻求更优解决方案。

本团队围绕“面向无约束场景下的图象/视频深度理解”进行研究，逐渐形成了清晰的研究思路和完整的研究体系，并在多视角/跨年龄人脸建模与复杂多人场景细粒度语义理解等关键科学问题和实际应用领域取得了较大技术突破，相关研究成果在北京2022年冬奥会中进行了创新、转化和应用，助力科技冬奥。

人脸建模与复杂场景理解研究的突破与创新

围绕“无约束人物图像深度理解”，团队在多视角/跨年龄人脸建模与复杂多人场景细粒度语义理解等关键科学问题和实际应用领域取得了较大技术突破，在识别层、解析层、应用层均取得了一定创新。

在识别层，团队重点解决了3个难题：

第一，针对多视角人脸建模与人脸样本姿态均衡化，提出了首个三维驱动双代理生成对抗网络架构，开创性地融合来自数据分布的先验知识与人脸的域知识，精确恢复出将三维人脸投影至二维图像空间过程中所丢失的固有信息。

第二，针对人脸正面化与姿态鲁棒表征学习，提出了首个双路径跨域对抗网络架构，开创性地融合无监督跨域对抗训练与一个基于动态卷积孪生判别器的“元学习”策略来恢复高保真度的正面人脸图像并保持固有身份信息。

第三，針对人脸年轻化/老龄化隐式建模与年龄鲁棒表征学习，提出了首个解耦表征学习与跨年龄人脸图像生成网络架构，首次避免了以往方法对成对训练数据与测试样本真实年龄标签的需求，可实现连续的人脸年轻化/老龄化，生成的跨年龄人脸图像兼具优异的真实度与身份保持特性。

在解析层，团队主要解决了3个难题：

第一，针对无约束条件下多人场景建模与多粒度多层次语义理解，提出了首个深度嵌套式对抗学习网络架构，首次有效解决了实际复杂场景下多人交互、姿态各异与严重遮挡等难题，将实例级细粒度人物解析的准确率提升了18.9%，推理速度提升了10倍。此外，还构建了一个新的大规模基准数据集，进一步推动无约束场景下人物图像理解的研究进展。

第二，针对无约束条件下小样本学习与泛化推理，提出了首个在线增量式学习网络架构，大幅降低了图像采集/清洗/标注工作开销，助推人工智能走向“小数据大智能”，同时，引入一个群体-个体排斥与吸引损失函数，能够有效解决多人交互、姿态各异与严重遮挡等条件下的人物图像理解问题。

第三，针对无约束条件下解析结果与人物身体结构一致性，提出了首个空间图关系学习网络架构，开创性地采用基于图的生成对抗网络对细粒度多人解析进行建模，确保解析推理结果与人物身体结构相一致，极大提升了结果可解释性、合理性、准确性。此外，还构建了一个新的基准数据集，助推人物图像理解的研究进展。

在应用层，针对实际场景中耦合的多种潜在挑战，进一步提出了可行与有效的解决方案，包括网络架构设计与全局优化、鲁棒表征学习、小样本学习与泛化推理、人眼视线方向估计、去遮挡、属性分析、多任务学习机理、跨数据集混合训练策略等，开创性地从整体和全局角度迭代优化、演进升级了无约束人物图像智能理解分析的精度、泛化/迁移性和可解释性。

成果创新与转化——助力冬奥

面对北京2022年冬奥会，时间紧、任务重，难度高、挑战多，团队加班加点，按里程碑节点倒排计划，集智攻关，致力于用科技创新服务并赋能冬奥，实现作为科技工作者的价值。团队的研究成果针对冬奥会的创新、转化和应用主要围绕以下两个方面。

一是复杂环境下的低慢小目标智能感知与监管，主要采用特种光电设备，基于AI+视觉的多尺度目标检测跟踪识别技术，实现对冬奥会赛区及场馆安全防范区域内黑飞（非经授权）无人机的预警探测、监视取证，并辅助反制系统进行管控和处置。团队针对红外无人机目标尺度多变、对比度较低、易受背景干扰等难题，提出了一种新型的跟踪器算法模型框架，充分挖掘红外视频序列中的时空信息和目标运动特征，设计了局部跟踪和全局检测的自适应动态目标搜索机制，当目标状态可靠时采用局部跟踪，利用视频时空连续性，有效抑制背景干扰;当目标状态不可靠时（发生完全遮挡、从视野消失等）采用全局检测，结合目标运动特征锁定候选区域，提高目标再捕获概率。

二是花样滑冰AI辅助评分，即根据花样滑冰评委和运动员使用需求、场景应用需求打造AI+3D动作捕捉解决方案。花样滑冰比赛不仅规则复杂，而且评分难度较高。评委需在高速运动且变化繁复的动作中依据动作的类型、难度系数、完成情况、标准程度等给出精准的技术分，用AI技术来辅助评分难度也可见一斑。团队采用高清高速摄像机，融合人体姿态估计、目标跟踪算法、ReID算法、视频动作识别等技术实现3D动作捕捉，可以克服高度、光线等复杂因素，捕捉运动员的细微动作，通过回放和分解动作，帮助裁判对动作细节进行判别。此外，该技术还可以在赛前为运动员提供定制方案，辅助运动员训练。

研用结合，助推智能视觉感知成果应用落地

这次在冬奥会的应用实例是一次非常重要的砺炼，整个团队都获益匪浅。研用结合，科学研究就是要从实践中来到实践中去。除了服务冬奥会，团队也在推进研究成果的转化和多方面应用场景探索，助推相关研究开展和应用落地。

一是复杂环境下基于多光谱多模视频目标融合感知，旨在充分利用多光谱多模数据的优势互补特性，实现复杂环境下的目标融合感知。团队分别依托CCFA类国际会议、计算机视觉领域顶级会议CVPR 2020、ICCV 2021组织了第一届、第二届无人机目标跟踪研讨会和竞赛，并即将依托ECCV 2022组织第三届学术旗舰，助推相关领域前沿技术的发展和进步。08E62C2A-6DE9-4404-B157-458B3935F4F6

二是无约束人物图像/视频深度理解，旨在针对非配合条件下的实际安防、对抗场景及应用，实现以人为中心的智能视觉感知与理解。团队在GitHub开源了无约束人脸识别（face.evoLVe）和细粒度多人解析（Multi-Human-Parsing）的部分数据、算法代码及预训练模型以促进相关学术研究和应用落地，分别已被同行star 2800/560余次，fork 680/100余次，其中，face.evoLVe已被百度飞桨（PaddlePaddle）平台官方正式引入。

作者简介

赵健军事科学院助理研究员，主要研究领域为人工智能、模式识别、计算机视觉。入选第六届中国科协和北京市科协青年人才托举工程，担任VALSE SAC、CCF-CV/CSIG-BVD委员、CSIG/BSIG青工委委员、BSIG第七届理事会理事、PaddlePaddle开发者技术专家、PRL/Electronics特刊客座編辑、中国人工智能大赛专家委员会委员、CICAI"21评奖委员会委员、ACM MM"21分论坛主席。担任T-PAMI、NeurIPS（NeurIPS"18前30%最佳审稿人）、CVPR等本领域主流国际期刊/会议受邀审稿人。

目前，共主持/参与科技委项目3项（序1/3/5），主持国自然青年科学基金项目1项。近5年已受理国家专利5项（序1），发表高水平学术论文50余篇，单篇影响因子最高16.389。曾作为第一作者获得PREMIA"19 Lee Hwee Kuan奖、ACM MM"18最佳学生论文奖，并多次获得顶级会议国际竞赛全球冠军。

编辑后记：科技报国志

赵健说：“作为一名青年科技工作者，最重要的是把自己的研究方向、研究领域同国家、国防建设和发展的重大需求相结合，以国家关于新一代人工智能的发展规划为牵引和方向，以努力做0到1的原创突破为目标和己任，守正创新、求真务实，踏踏实实解决好每个问题、做好每个课题、走好人生的每一步，坚持做‘顶天立地式的科研。同时，也照顾好家庭，家人的陪伴、支持和鼓励永远是前进路上不可或缺的原动力。”

2016年，赵健受中国留学基金委和国防科技大学公派，赴新加坡国立大学攻读博士学位，师从冯佳时教授和新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow颜水成教授，他说：“在新加坡求学期间最大的收获是遇到了改变我人生的恩师，他们言传身教、悉心栽培，一点点引导我对一些有意思的领域和问题产生浓厚的兴趣，带我入门、走进学术的殿堂，教会我如何做真正有价值的科学研究，掌握必备的技能，开阔眼界和思维。此外，也很庆幸遇到了很多优秀的同学和朋友，见贤思齐，跟优秀的人在一起会让一个人更加优秀。我的导师和同学们，我们彼此都结下了很深的情谊，并且一直都保持着联系，我想这也是我一生的宝贵财富。”2019年他提前获得博士学位，选择回国参加工作。

“世界著名科学家、两弹一星功勋奖章获得者钱学森钱老一直是我的偶像，他当初在美国学成后参加工作，声名大噪，事业发展一路顺遂，但当得知祖国需要，便毅然决然放弃优厚待遇，克服万难，选择回国参加建设，为祖国和人民奉献了自己宝贵的一生，对我国火箭、导弹和航天事业作出了开创性贡献。现在各方面条件都好了，我们的国家正在实现中华民族伟大复兴的道路上奋力前行，这就更加需要我们这一批新一代知识分子积极投身建设祖国的时代洪流，以国家利益为己任，有灵魂、有本事、有血性、有品德，坚持真理、坚守理想，践行初心、担当使命，用自己的所学所知所想为国家和国防建设作一点力所能及的贡献，做一个真正对祖国有用的人。”赵健如是说。08E62C2A-6DE9-4404-B157-458B3935F4F6

猜你喜欢人脸建模图像物理建模在教与学实践中的应用数理化解题研究·综合版(2021年11期)2021-12-22在经历中发现在探究中建模小学教学研究(2021年5期)2021-09-29玻璃窗上的人脸奥秘(2021年5期)2021-06-15思维建模在连续型随机变量中的应用课程教育研究(2021年27期)2021-04-13求距求值方程建模初中生世界·九年级(2020年2期)2020-04-10A、B两点漂流记初中生世界·九年级(2018年12期)2018-12-22智力考场：有趣的图片测试小雪花·初中高分作文(2017年9期)2018-05-21“领家系”可爱脸VS“高冷系”美人脸米娜·女性大世界(2016年8期)2016-08-17名人语录的极简图像表达读者(2015年9期)2015-05-04长得象人脸的十种动物奇闻怪事(2014年5期)2014-05-13

推荐访问:图象深度场景

枫林范文网

公文范文

面向无约束场景下的图象/视频深度理解

新时代如何加强国有企业基层党建工作

与水“核”谐，守护核电生命线

相关文章