微软研究院推出通用多模式基础模型“BEIT-3”可在视觉和视觉语言任务上实现最先进的迁移性能

该团队提出了一个尖端的共享 Multiway Transformers 网络作为其架构的主干。该网络已经对大量的单模态和多模态数据进行了预训练,使其能够对各种模态进行编码。Multiway Transformer 块使用一个前馈网络池来表示各种模态和一个共享的自我注意模块,该模块学习对齐各种模态并为多模态活动提供深度融合。

【安防在线 www.anfang.cn】机器学习社区最近将注意力转移到语言、视觉和多模式预训练的融合上。这背后的主要目的是创建通用基础模型,可以处理多种模式并轻松定制各种下游任务。微软研究团队最近在论文 Image as a Foreign Language: BEiT 中介绍了 BEiT-3(BERT Pretraining of Image Transformers),这是一种用于视觉和视觉语言任务的通用最先进的多模态基础模型所有视觉和视觉语言任务的预训练。该模型从三个方面改进了收敛技术:主干设计、预训练工作和模型扩展,使其能够实现最先进的性能。

该团队提出了一个尖端的共享 Multiway Transformers 网络作为其架构的主干。该网络已经对大量的单模态和多模态数据进行了预训练,使其能够对各种模态进行编码。Multiway Transformer 块使用一个前馈网络池来表示各种模态和一个共享的自我注意模块,该模块学习对齐各种模态并为多模态活动提供深度融合。在这个通用框架下,BEiT-3 统一了图像、文本和图像-文本对(也称为“平行句子”)的蒙面“语言”建模。该团队在 BEiT-3 预训练过程中对单模态和多模态数据使用单一掩码数据建模。隐藏文本或图像补丁以训练模型预测隐藏的标记。他们使用 2100 万个图像-文本对和 1500 万张照片作为多模式数据,这些数据是从几个开放数据库中获取的。单模态数据由一个 160GB 的文本语料库和来自 ImageNet-21K 的 1400 万张图片组成。

研究人员在视觉问答 (VQA)、视觉推理、图像字幕和语义分割等知名公共基准测试中使用了 BEiT-3,作为他们实证研究的一部分。根据这些实验评估,BEiT-3 在目标检测、语义分割、图片分类、视觉推理、视觉问答、图像字幕和跨模态等语言模型相关任务上取得了最先进的性能恢复。BEIT-3 的核心概念是图像可以被视为外语,允许研究人员快速统一地对图像、文本和图像-文本对进行蒙版“语言”建模。该团队还通过展示 Multiway Transformers 代表各种视觉和视觉语言任务的能力,将 Multiway Transformers 置于新的视野中,使它们成为通用建模的有吸引力的选择。该团队认为 BEIT-3 是扩展多模式基础模型的良好途径,因为它简单高效。为了促进跨语言和跨模式迁移,研究人员正在努力预训练多语言 BEIT-3 并添加其他模式如音频。微软研究人员提出的 BEiT-3 提案为有效扩展多模式基础模型同时推进此类模型的开发提供了一条新的、有希望的途径。

微软研究院推出通用多模式基础模型“BEIT-3”可在视觉和视觉语言任务上实现最先进的迁移性能

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 狄耐克顺利通过CMMI-5全球软件领域最高级别认证

    狄耐克坚持从过程、技术、产品、方法和标准等多个维度,通过持续完善管理过程体系,实现过程的精细化控制,为公司获得CMMI更高级别认证做足准备,为公司的可持续发展夯实根基。

    2026年1月5日
  • 千方科技助力交通新型基础设施建设

    近日,北京千方科技股份有限公司(简称千方科技)正式发布新一代城市交通基础设施“鲲巢・双智路口”,以智能网联与智慧城市协同建设、协同发展思路为核心理念,实现路口智能化建设,既能解决当下实际问题,又能应对智能驾驶时代来临后的交互需求及未来不断涌现的新需求。

    2026年1月5日 资讯
  • 2027 年全球视频监控市场将达 760 亿美元

    全球视频监控市场预计将从 2022 年的 487 亿美元增长到 2027 年的 764 亿美元,预产期内复合年增长率为9.4%。在推动市场增长的因素中包括摄像头功能的增加、智能技术的成熟、定制与集成更加便捷等,使得用户升级监控系统的意愿度更加的高。

    2026年1月5日
  • 用好人工智能构建新产业生态

    日前,科技部等六部门联合发布《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》,围绕重大应用和产业化问题,对人工智能场景创新工作展开部署,开辟其与实体经济深度融合的新路径。这一深度融合,已成为引领生产方式变革和经济高质量发展的重要战略抓手。

    2026年1月5日
  • 在亦庄,你能窥见未来交通的模样

    目前,在位于亦庄的北京市高级别自动驾驶示范区,常态化开展测试和商业化服务的各类高级别自动驾驶车辆近400辆。8月,示范区宣布建设面积扩大,其覆盖范围将从现在的60平方公里扩展到500平方公里。在亦庄,自动驾驶的路更宽了。

    2026年1月5日
  • 浙江交通数字化改革与智慧高速建设

    2021年,交通运输部发布了《数字交通“十四五”发展规划》,而浙江省委省政府把交通数字化改革作为当前最重要工作,浙江将通过数字化改革担当起共同富裕的重大政治责任。数字化改革是牵一发动全身的改革,是用数字化手段,数字化思维,数字化认知推动交通领域的制度重塑、流程再造和系统重构。

    2026年1月5日