不同模态进行对齐:CLIP、VLMo
大语言模型能力会更重要:Frozen、FLamingo、BLIP-2
MLP即可完成对齐:LLaVA、MiniGPT-4
视觉编码器很重要:Deepseek-VL、Qwen2.5-VL