文章主题:电信AI公司, 人工智能, 顶级会议, 顶级竞赛

666AI工具大全,助力做AI时代先行者!

2023年电信AI公司顶会论文及竞赛分享

在近些年,我国电信业巨头中国电信对于人工智能技术的研发投入不断加大。2023年11月28日,中国电信数字智能科技分公司经过一番变革,最终成功更名为中电信人工智能科技有限公司(简称“电信AI公司”)。在同年,电信AI公司在21项国际及国内顶级AI竞赛中脱颖而出,并成功申请了100多项专利,同时,他们在CVPR、ACM MM、ICCV等顶级会议和期刊上发表了30余篇论文,这都充分展示了我国国资企业在人工智能技术领域的初步布局和成果。

作为我国电信领域的一家专业从事人工智能业务的公司,电信AI公司以其科技实力、创新能力以及平台搭建能力,致力于深度发掘和应用人工智能的核心技术,前沿技术的探索,以及产业空间的扩展。公司的目标是发展成为一家百亿美元的人工智能服务提供商。在过去的两年中,电信AI公司已经成功研发出了一系列创新的应用成果,包括星河AI算法仓赋能平台、星云AI四级算力平台和星辰通用基础大模型等。目前,公司共有员工800人,平均年龄仅为31岁,其中80%的人是研发人员,70%的员工来自我国的互联网大型企业和AI领域的头部公司。为了加快大模型时代的研发进程,公司现有的A100等效算力的训练卡有2500张,专职的数据标注人员有300人。同时,公司还与上海人工智能实验室、西安交通大学、北京邮电大学、智源研究院等科研机构合作,面向我国电信的6000万视联网用户和数亿用户场景,共同致力于打造国际一流的人工智能技术和应用。

在接下来的内容里,我们将对电信AI公司在2023年的重大科研成果进行深入的回顾与分享。本篇文章主要聚焦于AI研发中心CV算法团队在ICCV 2023上,成功斩获Temporal Action Localisation赛道冠军的技术突破。ICCV作为全球计算机视觉领域三大顶级会议之一,每两年举行一次,其权威性和影响力在业界无以伦比。下面,我们将详细介绍该团队在这场竞赛中所采用的算法策略与解决方案。

在2023年的ICCV会议上,来自我国的研究团队在感知测试挑战中的 temporal action localization 领域取得了显著的成果,荣获了冠军。他们通过深入研究和创新性的算法设计,成功地解决了该领域的难题。这一突破性成果不仅展示了我国在计算机视觉领域的强大实力,也为相关技术的进一步发展奠定了基础。

电信AI公司在2023年顶级AI竞赛中脱颖而出,实现技术突破

【赛事概览与团队背景】

DeepMind启动了ICCV 2023年的首次感知测试挑战,目的是为了探究模型在视频、音频以及文本三个领域的性能表现。本次竞赛共包括四个技能类别、四种推理类型以及六个计算任务,从而全方位地衡量多模态感知模型的实力。特别是Temporal Action Localisation这个赛道的核心任务,即对未剪辑的视频内容进行深度分析和精确的动作定位,这项技术对于自动驾驶系统、视频监控分析等多个应用场景具有极其重要的价值。

一个由电信AI公司交通算法方向的成员组成的CTCV团队,积极参与了此次竞赛。电信AI公司长期致力于计算机视觉技术的研发,积累了丰富的实践经验和技术突破。这些技术成果已经在诸如城市管理、交通安全等多个领域得到广泛应用,为大量用户提供持续的服务。

1引言

TAL(时序动作定位)在视频中仍然是一个具有挑战性的问题,尤其是在对运动进行定位和分类的过程中。

近期TAL技术取得了显著的进步。例如,TadTR和ReAct采用类似于DETR的基于Transformer的解码器进行动作识别,将动作实例构建为一个可学习的集合。TallFormer则利用基于Transformer的编码器来提取视频特征。

虽然以上方法在时序动作定位方面已经实现了较好的效果,但在视频感知能力方面还存在局限性。想要更好地定位动作实例,可靠的视频特征表达是关键所在。团队首先采用VideoMAE-v2框架,加入adapter+linear层,训练具有两种不同主干网络的动作类别预测模型,并用模型分类层的前一层,进行TAL任务的特征提取。接下来,利用改进的ActionFormer框架训练TAL任务,并修改WBF方法适配TAL任务。最终,CTCV团队的方法在评测集上实现了0.50的mAP,排名第一,领先第二名的团队3个百分点,比Google DeepMind提供的baseline高出34个百分点。

2 竞赛解决方案

电信AI公司在2023年顶级AI竞赛中脱颖而出,实现技术突破

图1 算法概览

2.1 数据增强

电信AI公司在2023年顶级AI竞赛中脱颖而出,实现技术突破

在 Temporal Action Localisation赛道中,CTCV团队使用的数据集是未经修剪的用于动作定位的视频,具有高分辨率,并包含多个动作实例的特点。通过分析数据集,发现训练集相较于验证集缺少了三个类别的标签,为保证模型验证的充分性以及竞赛的要求,团队采集了少量的视频数据,并加入训练数据集中,以丰富训练样本。同时为简化标注,每个视频预设只包含一个动作。

图2 自主采集的视频样例

2.2 动作识别与特征提取

近年来,大规模数据进行训练的基础模型喷涌而出,通过zero-shot recognition、linear probe、prompt finetune、fine-tuning等手段,将基础模型较强的泛化能力应用到多种下游任务中,有效地推动了AI领域多个方面的进步。

TAL赛道中的动作定位和识别十分具有挑战性,例如‘假装将某物撕成碎片’与‘将某物撕成碎片’动作极为相似,这无疑给特征层面带来了更大的挑战。因此直接借助现有预训练模型提取特征,效果不理想。

因此,该团队通过解析JSON标注文件,将TAL数据集转换为动作识别数据集。然后以Vit-B和Vit-L为主干网络,在VideoMAE-v2网络后增加adapter层及用于分类的linear层,训练同数据域下的动作分类器,并将动作分类模型去掉linear层,用于视频特征的提取。VitB模型的特征维度为768,而ViTL模型的特征维度为1024。同时concat这两种特征时,新生成一个维度为1792的特征,该特征作为训练时序动作定位模型的备选。训练初期,团队也使用了音频特征,但实验结果发现mAP指标有所下降。因此,在随后的实验中没有考虑音频特征。

2.3 时序动作定位

Actionformer是一个为时序动作定位设计的anchor-free模型,它集成了多尺度特征和时间维度的局部自注意力。本次竞赛,CTCV团队使用Actionformer作为动作定位的baseline模型,以预测动作发生的边界(起止时间)及类别。

CTCV团队将动作边界回归和动作分类任务进行统一。相比基线训练架构,首先编码视频特征到多尺度的Transformer中。然后在模型的回归和分类的head分支引入feature pyramid layer,增强网络特征表达,head分支在每个time step会产生一个action candidate。同时通过将head的数量增加到32,引入fpn1D结构,进一步提升了模型的定位与识别能力。

2.4 WBF for 1-D

Weighted Boxes Fusion(WBF)是一种新型的加权检测框融合方法,该方法利用所有检测框的置信度来构造最终的预测框,并在图像目标检测中取得了较好的效果,与NMS和soft-NMS方法不同,它们会丢弃某些预测,WBF利用所有提出的边界框的置信度分数来构造平均盒子。这种方法极大地提高了结合预测矩形的准确性。

受WBF在物体检测应用的启发,CTCV团队将动作的一维边界框类比为一维线段,并对WBF方法进行了修改,以适用于TAL任务,如图3所示。实验结果表明了该方法的有效性。

电信AI公司在2023年顶级AI竞赛中脱颖而出,实现技术突破

图3 改进的1维WBF 示意图

3 实验结果

3.1 评估指标

本次挑战赛使用的评估指标是mAP。它是通过计算不同动作类别和IoU阈值的平均精确度来确定的。CTCV团队以0.1的增量评估IoU阈值,范围从0.1到0.5。

3.2 实验细节

为获得多样化的模型,CTCV团队先对训练数据集进行80%的重复采样5次,并分别采用Vit-B、Vit-L以及concat的特征,完成模型训练,得到了15个多样化的模型。最后将这些模型的评估结果分别输入WBF模块,并为每个模型结果分配了相同的融合权重。

3.3 实验结果

表1展示了不同特征的性能对比。第1行和第2行分别展示了使用ViT-B和ViT-L特征特征的结果。第3行是ViT-B和ViT-L特征级联的结果。

在实验过程中,CTCV团队发现级联特征的mAP略低于ViT-L,但仍优于ViT-B。尽管如此,基于各种方法在验证集上的表现,将不同特征在评测集的预测结果借助WBF进行融合,最终提交到系统的mAP为0.50。

4 结论

本次竞赛中,CTCV团队通过数据收集增强相对验证集中缺失类别的训练数据。借助VideoMAE-v2框架加入adapter层训练视频特征提取器,并利用改进的ActionFormer框架训练TAL任务,同时修改了WBF方法以便有效地融合测试结果。最终,CTCV团队在评测集上实现了0.50的mAP,排名第一。电信AI公司一直秉持着“技术从业务中来,到业务中去”的路线,将竞赛视为检验和提升技术能力的重要平台,通过参与竞赛,不断优化和完善技术方案,为客户提供更高质量的服务,同时也为团队提供了宝贵的学习和成长机会。返回搜狐,查看更多

责任编辑:

电信AI公司在2023年顶级AI竞赛中脱颖而出,实现技术突破

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!