NVIDIA Nsight 工具集是面向 CUDA 应用程序的专业级性能分析平台,其 Profiling 模块通过采集 GPU 硬件计数器、内存访问模式及内核执行时序等数据,为深度学习框架的优化提供量化依据。
尽管 Deepspeed 在单机运行时可以直接使用 Nsight 进行分析,但是在多机运行时存在问题,本文讲解:
- 如何跨机进行 profile
- 如何有选择的进行 profile
本论文是来自 Apple 的 Jiarui Lu 2024 年 8 月挂在 Arxiv 上的工作。
通过引入了对话交互、状态依赖等实际场景的输入,建立了更贴近于真实场景的 LLM Tool Use 的 Benchmark。本文引入了三部分更真实的要点,通过 LLM 模拟用户进行跟真实的测试:
- Stateful 有状态:Agent 需要对世界的状态进行感知
- Conversational 可对话:Agent 能成功把自然语言理解成正确的任务
- Interactive 可交互:用户、Agent和Tool在完成一个任务的过程中会进行多轮对话
Entry:Zotero link URL link Github link
本论文是来自微软的 Chaoyun Zhang 等人在3月11日挂在 Arxiv 上的工作。
本文主要总结了 API Agents 和 GUI Agents 的现状,对比了其优势,提出未来的 Hybrid Agents,最终给出了对于不同场景应该使用什么 Agent 的建议。
Entry:Zotero link URL link
本文主要记录在实验室的 Manjaro 主机上的 i3wm 即工作环境的配置,以及o双显示器的完整工作流内容.
主要内容涵盖:
- 显卡支持
- 显示器布局
- OpenVPN 自动连接
本论文是Anjo Vahldiek-Oberwagner, Eslam Elnikety, Nuno O. Duarte, Michael Sammler, Peter Druschel, Deepak Garg发表在28th USENIX Security Symposium (USENIX Security 19) 2019上的工作。
对于这篇论文,我们主要关注其如何防止不可信组件使用 WRPKRU 指令进行提权,进而危害可信组件或者敏感数据。
Entry:Zotero link URL link
本论文是 Zixuan Chen, Xuandong Liu, Minglin Li, Yinfan Hu, Hao Mei, Huifeng Xing, Hao Wang, Wanxin Shi, Sen Liu, Yang Xu 发表在 ICNL’ 2024上的工作。
本文发现基于参数服务器的 INA 方法在数学建模中缺乏增量部署能力,影响了数据中心的设计和升级。为此,提出了 Rina,首次在 Ring-Allreduce 架构中引入 INA 能力(每个 INA Switch 可以代替其 rack 下的所有 worker 加入环中,做到每加入一个 INA Switch 都能减少环长度),具备出色的增量部署能力,缓解了长依赖链问题。
Entry:Zotero link URL link
本论文是 Google 发表在Proceedings of the 50th Annual International Symposium on Computer Architecture ISCA ‘23 2023上的Industry Section工作。
Google 在 ASIC (Application Specific Integrated Circuit, 专用集成芯片) 上的工作始于 2015 年第一代 TPU (Tensor Processing Unit), 在2017、2018、2021年分别推出了 v2, v3, v4 版本,核心数量从 64 个以 4 倍增长的速度达到 4096 个,此后在 2023 年推出 TPU v5e/v5p,2024年推出 TPU v6,具备 1836 TOPS1,但是还是低于英伟达 H100 的 3026 TOPS (高于 A100 的 624 TOPS2),尽管算力具备差距,其基于 Palomar OCS (Optical Communcation Switch, 光交换机) 的网络提高了计算集群的性能。
TPU v4 是谷歌首次引入 OCS 优化通信,并提出 Sparse Core 优化稀疏计算的版本,下面将重点介绍这两方面。
Entry:Zotero link URL link
NCCL (音 “Nickel”) 是一个独立的库,包含用于 GPU 的标准通信例程。它已针对使用 PCIe、NVLink、NVswitch 以及使用 InfiniBand Verbs 或 TCP/IP 套接字的平台进行了优化,以实现高带宽。NCCL 支持单个节点或跨多个节点安装的任意数量的 GPU,并且可以在单进程或多进程(例如 MPI)应用程序中使用。
2017 年百度将 HPC 领域的 Ring AllReduce 算法引入机器学习领域,支持 GPU 的告诉通信。本文主要分析 NCCL 的 Reduce-Scatter/All-Gather 的算法逻辑。
随着大语言模型的快速发展,分布式训练成为训练大规模模型的关键技术。Megatron-LM 和 DeepSpeed 是当前最流行的两种框架,它们结合使用可以大幅提升训练效率,降低显存占用。
本文将介绍如何利用 Megatron-DeepSpeed 训练一个 3.45亿参数(345M)的 GPT-2 模型,重点讲解数据预处理和训练的关键步骤。
本论文是Guanhua Wang, Heyang Qin, Sam Ade Jacobs, Connor Holmes, Samyam Rajbhandari, Olatunji Ruwase, Feng Yan, Lei Yang, Yuxiong He发表在 ICML'24上的工作。
本工作主要通过量化和分级通信,分别优化了训练中 ZeRO3 中的三种不同集合通信过程,使跨节点通信的总量从 3M 降低到 0.75M.
Entry:Zotero link URL link