Multimodal_Survey

发表于2025-11-16|更新于2026-03-01|AI多模态

|浏览量:

不同模态进行对齐:CLIP、VLMo
大语言模型能力会更重要:Frozen、FLamingo、BLIP-2
MLP即可完成对齐:LLaVA、MiniGPT-4
视觉编码器很重要:Deepseek-VL、Qwen2.5-VL

文章作者: Hongwei Zhao

文章链接: https://geeks-z.github.io/Blog/2025/11/16/AI/12.%E5%A4%9A%E6%A8%A1%E6%80%81/00.Multimodal_Survey/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog！

相关推荐

多模态超详细解读 (七)：BLIP-2：节约多模态训练成本：冻结预训练好的视觉语言模型参数Author: 科技猛兽 Date: 2023-06-25 Link: https://zhuanlan.zhihu.com/p/628375255 本系列已授权极市平台，未经允许不得二次转载，如有需要请私信作者。专栏目录科技猛兽：多模态大模型超详细解读 (目录)672 赞同 · 44 评论文章本文目录 1 BLIP-2：节约多模态训练成本：冻结预训练好的视觉语言模型参数 (ICML 2023)(来自 Salesforce，ALBEF，BLIP 作者团队)1.1 背景和动机1.2 BLIP-2...

论文地址：https://arxiv.org/pdf/2103.00020.pdf 代码地址：https://github.com/OpenAI/CLIP 官方解读博客：https://openai.com/research/clip 2021年见证了vision transformer的大爆发，随着谷歌提出ViT之后，一大批的vision transformer的工作席卷计算机视觉任务。除了vision transformer，另外一个对计算机视觉影响比较大的工作就是Open AI在2021年1月份发布的https://openai.com/blog/dall-e/和https://o...

摘要BLIP 是一种多模态 Transformer 模型，主要针对以往的视觉语言训练 (Vision-Language Pre-training, VLP) 框架的两个常见问题：大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色，很少有可以兼顾的模型。大多数现有的预训练模型为了提高性能，使用从网络收集的嘈杂图像-文本对扩展数据集。这样虽然提高了性能，但是很明显这个带噪声的监督信号肯定不是最优的。 BLIP 这种新的 VLP 框架可以灵活地在视觉理解任务上和生成任务上面迁移，这是针对第一个问题的贡献。至于第二个问题，BLIP 提出了一种高效率利用噪声网络数据的方...

概述PyTorchImageModels，简称 timm，是一个巨大的 PyTorch 代码集合，包括了一系列： image models layers utilities optimizers schedulers data-loaders / augmentations training / validation scripts 旨在将各种 SOTA 模型整合在一起，并具有复现 ImageNet 训练结果的能力。虽然模型架构是 timm 的重点，但它还包括许多数据增强 (data augmentations)、正则化技术 (regularization tec...

Distributed Data Parallel，DDP使用不过通过 DP 进行分布式多卡训练的方式容易造成负载不均衡，有可能第一块 GPU 显存占用更多，因为输出默认都会被 gather 到第一块 GPU 上。为此 Pytorch 也提供了torch.nn.parallel.DistributedDataParallel（DDP）方法来解决这个问题。针对每个 GPU，启动一个进程，然后这些进程在最开始的时候会保持一致（模型的初始化参数也一致，每个进程拥有自己的优化器），同时在更新模型的时候，梯度传播也是完全一致的，这样就可以保证任何一个 GPU 上面的模型参数就是完全一致的，所...

Kimi全文翻译 :arrow_down:0. 摘要在本文中，我们介绍了一种受子空间启发的低秩适应（LoRA）方法，该方法计算效率高，易于实现，并且可以轻松应用于大型语言、多模态和扩散模型。最初，我们将 LoRA 的权重等价地分解为两个子空间，并发现简单地混合它们可以增强性能。为了研究这种现象，我们通过细粒度的子空间视角重新审视它，表明这种修改等同于使用固定混合器融合子空间。为了更加灵活，我们与原始 LoRA 权重一起学习混合器，并称之为子空间混合 LoRA（MoSLoRA）。MoSLoRA 在不同模态的任务上一致性地优于 LoRA，包括常识推理、视觉指令调整和主题驱动的文本到图像生成，...