Hongwei Zhao's Blog

发表于2025-11-16|AIGPU

TODOhttps://mp.weixin.qq.com/s/9MqBP6OVlS_uq-VVuKc2cg Tensor Core 算力计算Tensor Core 是 NVIDIA GPU 从 Volta 架构开始引入的一种特殊计算单元，专门用于加速矩阵乘法和累积运算，从而大大加速模型的训练和推理速度。与 CUDA Core 不同，CUDA Core 在一个时钟周期只能完成 1 次浮点乘加操作，而 Tensor Core 可以在一个时钟周期完成 1 组浮点乘加操作，比如一个小型矩阵的乘加操作 $D = A ∗ B + C$。 GPU 的计算能力可以使用 FLOPS 表示，...

GPU显存

发表于2025-11-16|AIGPU

显存大小和带宽NVIDIA GPU 显存有两种类型，GDDR和HBM，每种也有不同的型号。针对显存我们通常会关注两个指标：显存大小和显存带宽。HBM显存通常可以提供更高的显存带宽，但是价格也更贵，通常在训练卡上会使用，比如 H100、A100等，而GDDR显存通常性价比更高，在推理 GPU 或游戏GPU更常见，比如T4、RTX4090等。 Reference GPU 关键指标汇总：算力、显存、通信

GPU通信

发表于2025-11-16|AIGPU

TODO https://mp.weixin.qq.com/s/KbYKAnZYQfLB2VkKQPhCVQ 在计算机的世界里，总线就是这样一条高速公路，它连接着CPU（中央处理器，相当于城市的中心）、内存、硬盘和其他外围设备。总线是计算机硬件之间的高速公路总线由三部分组成：数据总线、地址总线和控制总线。数据总线: 这是数据传输的通道，就像高速公路上的车道，数据（车辆）通过这些车道在设备之间移动。数据总线的宽度（比如32位或64位）决定了一次可以传输多少数据。地址总线: 这相当于高速公路的出口指示牌，告诉数据应该去往哪个地址（设备）。地址总线的宽度决定了计算机可以访问的内存地址数...

GPU和显存分析

发表于2025-11-16|AIGPU

科普帖：深度学习中GPU和显存分析 0 预备知识nvidia-smi是Nvidia显卡命令行管理套件，基于NVML库，旨在管理和监控Nvidia GPU设备。这是nvidia-smi命令的输出，其中最重要的两个指标：显存占用 GPU利用率显存占用和GPU利用率是两个不一样的东西，显卡是由GPU计算单元和显存等组成的，显存和GPU的关系有点类似于内存和CPU的关系。这里推荐一个好用的小工具：gpustat,直接pip install gpustat即可安装，gpustat基于nvidia-smi，可以提供更美观简洁的展示，结合watch命令，可以动态实时监控GPU的使用情...

内存与显存_CPU与GPU_GPU与CUDA

发表于2025-11-16|AIGPU

内存与显存、CPU与GPU、GPU与CUDA 内存与显存内存内存(Memory)也被称为内存储器，其作用是用于暂时存放CPU中的运算数据，以及与硬盘等外部存储器交换的数据。只要计算机在运行中，CPU就会把需要运算的数据调到内存中进行运算，当运算完成后CPU再将结果传送出来，内存的运行也决定了计算机的稳定运行。内存一般采用半导体存储单元，包括随机存储器，只读存储器，以及高速缓存。随机存储器（Random Access Memory，RAM）既可以从中读取数据，也可以写入数据。当机器电源关闭时，存于其中的数据就会丢失。通常购买或升级的内存条就是用作电脑的内存，内存条（SIMM）就...

执行脚本

发表于2025-11-16|AIGPU

nohup 执行脚本：nohup ./train.sh > ./res/.out 2>&1 & 脚本配置：编辑train.sh 12#!/bin/bashpython main.py --config ./exps/simplecil.json 标准错误和标准输出分开在两个文件中1nohup your_command > stdout.log 2> stderr.log & your_command：要运行的命令。 > stdout.log：将标准输出重定向到 stdout.log 文件。 2> stderr.log：将...

英伟达AI芯片科普

发表于2025-11-16|AIGPU

1.英伟达 GPU 架构演进史第一代 AI 加速卡叫 Volta ，是英伟达第一次为 AI 运算专门设计的张量运算（Tensor Core）架构。第二代张量计算架构叫图灵（Turing），代表显卡 T4。第三代张量运算架构安培（Ampere），终于来到我们比较熟悉的 A100 系列显卡了。在芯片工艺升级的加持下，单卡 SM 翻倍到了 108 个，SM 内的核心数和 V100 相同，但是通过计算单元电路升级，核心每一个周期可以完成 256 个浮点数乘累加，是老架构的两倍。加入了更符合当时深度学习需要的 8 位浮点（FP8）运算模式，一个 16 位浮点核心可以当作 2 个 8 位浮点核...

A Systematic Review on Long-Tailed Learning

发表于2025-11-16|AILongTailed

https://arxiv.org/abs/2408.00483 Kimi :arrow_down:问题阐述背景：长尾数据是一类特殊的多类别不平衡数据，其特点是尾部类别（少数类别）数量众多，但每个类别的样本量相对较少。这类数据在现实世界中非常普遍，例如在自然语言处理、计算机视觉等领域。长尾数据的存在给机器学习模型的训练带来了挑战，因为模型往往在多数类别上表现良好，而在少数类别上识别性能较差。研究问题的重要性：长尾学习（Long-Tailed Learning, LTL）的目标是在保持对多数类别识别准确率的同时，显著提高对少数类别的识别准确率。这对于提升模型在现实世界应用中的鲁棒性和...

Multimodal_Survey

发表于2025-11-16|AI多模态

不同模态进行对齐:CLIP、VLMo大语言模型能力会更重要:Frozen、FLamingo、BLIP-2MLP即可完成对齐:LLaVA、MiniGPT-4视觉编码器很重要:Deepseek-VL、Qwen2.5-VL

CLIP解读

发表于2025-11-16|AI多模态

论文地址：https://arxiv.org/pdf/2103.00020.pdf 代码地址：https://github.com/OpenAI/CLIP 官方解读博客：https://openai.com/research/clip 2021年见证了vision transformer的大爆发，随着谷歌提出ViT之后，一大批的vision transformer的工作席卷计算机视觉任务。除了vision transformer，另外一个对计算机视觉影响比较大的工作就是Open AI在2021年1月份发布的https://openai.com/blog/dall-e/和https://o...

BLIP

发表于2025-11-16|AI多模态

摘要BLIP 是一种多模态 Transformer 模型，主要针对以往的视觉语言训练 (Vision-Language Pre-training, VLP) 框架的两个常见问题：大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色，很少有可以兼顾的模型。大多数现有的预训练模型为了提高性能，使用从网络收集的嘈杂图像-文本对扩展数据集。这样虽然提高了性能，但是很明显这个带噪声的监督信号肯定不是最优的。 BLIP 这种新的 VLP 框架可以灵活地在视觉理解任务上和生成任务上面迁移，这是针对第一个问题的贡献。至于第二个问题，BLIP 提出了一种高效率利用噪声网络数据的方...

BLIP-2

发表于2025-11-16|AI多模态

多模态超详细解读 (七)：BLIP-2：节约多模态训练成本：冻结预训练好的视觉语言模型参数Author: 科技猛兽 Date: 2023-06-25 Link: https://zhuanlan.zhihu.com/p/628375255 本系列已授权极市平台，未经允许不得二次转载，如有需要请私信作者。专栏目录科技猛兽：多模态大模型超详细解读 (目录)672 赞同 · 44 评论文章本文目录 1 BLIP-2：节约多模态训练成本：冻结预训练好的视觉语言模型参数 (ICML 2023)(来自 Salesforce，ALBEF，BLIP 作者团队)1.1 背景和动机1.2 BLIP-2...