干货!最新综述带你全面了解ChatGPT,AIGC和扩散模型
2022年,ChatGPT的成功发布引起了全球科技圈的轰动,而它的成熟应用也成为了AIGC时代到来的标志。目前,AIGC已经以超乎人们预期的速度迅速催生了全新的科技系统与产业格局。2023年4月20日,AI TIME举办的大模型专场三活动邀请了韩国庆熙大学助理教授张超宁和他的合作学生,来自韩国科学技术院的博士生张晨爽、韩国科学技术院硕士生张梦纯、北京理工大学博士生郑胜、韩国庆熙大学博士生乔羽。五位嘉宾分享了多篇与ChatGPT,AIGC和扩散模型相关的综述论文,从不同的角度介绍了生成式AI的最新进展,展望了生成式AI面临的机遇和挑战。 张超宁 Generative AI 张老师首先介绍了自己的个人学习和工作经历,然后给大家分析了人工智能前沿领域等面临的难题与挑战,并展示了自己目前已有的一些研究工作和成果,最后重点阐述了自己对下一步研究方向——Segment Anything Model的研究思路和创新观点,并热情邀请对计算机视觉、机器学习等领域有兴趣的研究者在后期进行更加深入的交流与合作。 Segment Anything项目是一个用于图像分割的新任务、模型和数据集,研究者旨在通过引入三个相互关联的组件来构建分割的基础模型:即时分割任务、支持数据注释并通过即时工程将零样本传输到一系列任务的分割模型。SAM目前解决了视觉领域模型泛化性弱的问题,并且在边缘检测方面的性能较好,张老师提到,后期将从SAM模型的扩展性以及数据的高效性两个角度开展与其他模型的交叉应用研究。 张晨爽 Text-to-image Diffusion Models in Generative AI: A Survey Diffusion Model最早在图像领域因为其强大的图像生成能力而获得了巨大的关注。其中,文本-图像的扩散生成模型是一项令人印象深刻的工作。这篇综述主要从背景、创始工作、应用场景三个方面介绍了扩散模型是如何应用到文本-图像生成之中的。 张晨爽首先介绍了文本-图像任务的具体定义和历史上经典的里程碑式的研究工作,其中重点介绍了DALL-E模型的理论思想以及扩散模型的工作原理及其相较于Autoregressive models在解决实际问题上的优势;其次详细分析了扩散模型应用在文本-图像的4项经典工作,共可以分为两大类——Frameworks in pixel space、Frameworks in latent space;然后梳理了在最新工作中最主要的4类改进方向:模型结构、用于空间控制的草图、用于概念控制的文本转变、超分布的检索方法。最后介绍了文本-图像任务在实际生活中的应用,主要有:视觉艺术生成、视频生成、3D对象生成、文字引导图像编辑等。 在第二篇音频扩散模型的工作中,张晨爽着重介绍了研究者重点关注的两大任务——Text To Speech、Speech Enhancement。其中重点分析了Text To Speech的发展阶段和Speech Enhancement在研究过程中的需要解决的两大任务:语音增强、提高语音的超分辨率。 张梦纯 A Survey on Graph Diffusion Models: Generative AI in...