黄学东领衔,微软Azure认知服务研究团队重磅发布,视觉,语言,语音,多模态预训练模型i,Code,在5项多模态视频理解任务以及GLUENLP任务上树立了业界新标杆!编译丨OGAI人类的智能涉及多个模态,我们整合视觉、语言和声音信号,从而形成对世界全面的认识,然而,目前大多数的预训练方法仅针对一到两种模态设计,在本文中,我们提出了一种...。
更新时间:2024-12-03 22:12:47