2025 年 4 月随笔

2025-04-06

我发现各种没有特别安排的假期会是一个很好的自我反思、回顾的窗口，这个清明假期就是如此。

没有太过迫近正在 lead 的 paper/project deadline，也没有出游的计划，于是乎，想着写一下最近的一些想法，作为未来验证的坐标点。

Reasoning Models 的崛起

25 年 1 月 2 号在 blog 里我写到:

在有明确的 reward 定义（verifiable reward such as Code / Math)，MCTS rollout 向 better answer 逼近，RL 来提升 model 利用 token computation 的效率

随后 R1 的发布印证了这一点，，说明 sense 还是没差太多，能跟上版本的节奏（x

过去三个月，LLM领域依旧在紧锣密鼓地迭代。两个感知力比较强的突破是：Gemini 2.5 Pro的多模态理解能力达到了”wow moment”的水平（虽然因入口较深而限制了用户体验的广度）；另外一个就是 4o 的 image generation，被吉卜力刷屏的背后也是其效果达到破圈的 level。开源届的进展倒是比想象中慢，Qwen 和 LLaMa 4 估计在憋大招，但越憋期待越高，期待越高越容易 miss，所以很难找到一个好的发布的节奏；Mistral 应该也还有货，只是这家的风格神神叨叨的也不知道什么时候就掏出来个大宝贝 :) **

毫无意外地，各大模型都在收敛到 reasoning model这一范式。证据包括：大多数API模型默认开启thinking模式、GPT-4.5可能是最后一个非reasoning model、甚至我们Reka也推出了reka-flash-thinking供大家使用。学术界同样涌现出大量 GRPO/Reasoning 分析研究，我们也赶时髦搞了 R1-V。这种统一我认为有两个主要原因：

（1）思维链对用户体验有显著增益。用户能够部分观察到模型的思考路径（虽不一定100%忠实），从而增强对输出结果的信任；

（2）推理/算力成本正持续下降（加上软件栈的优化还有进一步下降空间），水平扩展（增加token数量）是最便捷的计算扩展方式。

因此，reasoning model是现在乃至未来的必然发展方向。

推理模型的下一步演进

那么，推理模型的下一阶段发展方向在哪里？我有两个思路：

通用场景的Reward as a Service: Reward Service + Simulation

Code/Math领域有明确定义的验证器（尽管实现并不简单）以及很好的 interpreter。这两个领域确实是创造数据经济价值的高效路径，也能提供良好的泛化效果。但现实中存在大量长尾且无法通过规则验证的领域，这些领域虽然单独看价值有限，但总体经济价值远超Code+Math。因此，为这些细分领域设计有效的reward机制变得极为重要：

专家经验抽象为API：传统人工标注本质上是最耗费人力的reward service，但这不可持续。我们需要蒸馏人类专家经验并与现有LLM协作，然而这方面的工作流仍缺乏成熟框架。
安全的RL探索环境：有了reward service API后，如何为LLM提供playground让模型在模拟场景中进行RL探索和调整？真实环境的成本过高——例如，web browsing agent以当前rollout数量可能构成对网站的DDoS攻击。一种方案是利用CC dump进行模拟HTML渲染，使模型能无负担地”浏览”大量网页并获得即时反馈。但模拟环境的保真度（如CC只包含静态内容）会对结果产生重大影响。

多模态推理模型

这实际上是前一类细分领域的模态增强版。我坚信，纯文本交互/RL能完成大多数任务，但缺乏视觉输入会使整个交互链路受到极大限制。例如，手机操作可以通过底层API调用实现，也可以通过GUI实现。前者可能在某些情况下效果更好，但需要大量接口适配和权限获取；而GUI方案虽然速度较慢，但遵循”人能做到的AI也应能做到”的原则，适用范围更广。

因此，如何让多模态模型具备推理和RL能力将是一个极具潜力的研究方向。当前的Vision-R1类工作主要集中在视觉数学题上，但这并非问题的本质。在我看来，视觉推理模型最关键的是跨模态信息的聚合与推理能力。如果视觉数学题可以被文本形式无损表达（如AlphaGeometry所做的），那么问题仍会退化为文本域的推理。

我们需要更贴近实际应用的场景，如Visual Search或Video Temporal任务。当然，这一切的前提是需要更强大的基础模型，而Gemini-2.5-Pro似乎已达到实用水平。

虽然我们尚未见到纯文本领域的天花板，但应该不远了。

Pre-training 终结了吗？Agent 还有前途吗？

关于这两个方向，我有以下观点：

预训练不仅没有结束，反而正在迎来新阶段。Ilya提到的”撞墙”确实与预训练数据耗尽有关，但我们还有合成数据这一选择，而且不仅限于从大模型中重写的数据。R1风格的方法可以利用可验证reward生成大量合成数据，我相信这将为Web-scale数据带来全新的信息增量，使基础模型能力在今年内有一次类似GPT-3.5到GPT-4级别的飞跃。这批新数据必然比原来更长，这也为模型架构创新提供了空间，linear/mixed attention可能是一个有前景的解决方案。
现在所有基于 workflow 的 agents 都会被基模的成长吃掉，价值的窗口很短。这些脚手架本质上是在教LLM如何完成任务，类似十年前我们在深度学习中加入attention的做法，是一种人为归纳偏置，终将面临”苦涩教训”（The bitter lesson）。我唯一比较看好的是 RL-based Agents，即 DeepResearch 这样的东西，这是一种既定路线的扩展，但如我前面所说，还是需要有好的 infra + simulation + reward 协同发展，应该会是一个逐渐扩散的过程。

Miscs

VL-RewardBench 和 Video-MME 都获得了 CVPR 25 Highlights (~ Top 3%)，恭喜自己！
坚持锻炼 +（尽可能）清淡饮食 1 个月，瘦了 3 KG，感觉非常好！继续坚持！

展开全文 >>

Bye Bye 2024, Hi Hi 2025

2025-01-02

弹指一挥间，2024 已经在身后，2025 正在向我们走来。这一年的感触还蛮多的，分享给大家。

LLM: 2024，也许是 AGI 的起点

2024 年的 LLM 圈可以说是好戏频出，以至于梳理起来都可能有点费劲。国内整体上感受是 Qwen 和 DeepSeek 基本打出品牌效应，逐渐比肩 LLaMA 甚至有取而代之的趋势，为各位大佬好朋友们点赞！也看到像 zhipu 和面壁等清华系公司在商业化领域频频出手，但真的会有很好的 ROI 吗？让我们拭目以待。也有很多后起之秀和逐渐掉队的公司，就不展开谈了哈哈。

国外圈子基本上就是御三家，OAI 手里总是给人很多牌的样子，但营销多了总是难免 miss 期待; G 家整体感觉还是有实力，Gemini-2-flash-exp 体感还是挺厉害的，测了在我们 VL-RewardBench 直接干到第一；Anthropic 的 Claude 3.5 一直是我的 PoE 首选，似乎 coding 也是一骑绝尘，但不知道能不能坚持到 next round 的军备竞赛，只能说看情况了。

技术路线来看，o1 的 test-time scaling 印证了之前的一个大的 intuition，即算力(tokens x depth x pre-training data) = 智能，在 depth 和 pre-train 都 fixed 的情况下找到合适的 scaling tokens （CoT、Self-consistency）是很自然的解。挑战所在我想应该也很直接，就像 Anthropic 创始人们说的，一开始是想直接上 RLHF 的，结果发现基模型不太行，所以得 scale up 再做。一个推论就是 RLHF 能够提供高效迭代的前提是 base model 找到 oracle 解的 recall 达到一定指标。

因此 o1 的做法我的猜测是靠找人标数据（看样子是 speech 转写出来的，要知道 whisper 也是 oai 搞的嘿嘿）后 SFT 确保能够有发散思考的能力，接上类似我们 Math-shepherd 的框架，在有明确的 reward 定义（verifiable reward such as Code / Math)，MCTS rollout 向 better answer 逼近，RL 来提升 model 利用 token computation 的效率，最后就能够得到 oai 放出来的那张美妙图片。

如果这个猜测成立，那么其实我们可以很快地把这个 framework 搬到任何一个（i) 能够收一定量数据（感觉 10K level ？）（(i) 有明确 verifiable reward 的场景。第一点很好做到，不反人类的情况下，只要商业意义足够大那么即使单条贵点也不成问题；第二点不简单，把 reward 泛化到不同场景，且要确保 proxy-reward 不会带来 hacking 等问题，还是很值得探索和研究的。

但总之，这条链路目前来在足够给力的计算资源和 infra 大爷们加持下，应该能够把大部分的 daily tasks 跑通，那也就意味着 AGI 的那一天（my definition of AGI: 能够在 75% 的任务上达到人类水平而不是一个任务100分做到75分，这种没意义）即将到来。桌面 agent (PC Agent）和 mobile agent 应该是确定性很强（但商业场景似乎还差验证？）已成共识，具身智能似乎也随着 OpenVLA/ Pi0 等拉开了大幕，那么 auto drive 行不行呢？我能做的不多，期待 AGI 来解放我的那一天。*

自媒体与科研

今年应该是转战 X 和小红书积极营业的一年，X 的粉丝达到了 1.3K，小红书接近 6K，印象里半年前说过 xhs 的商业价值，年底一看算上卖的小文档收入来到了 5K，也算是个小小红包。自媒体时代，你的号就是你的名片，有些时候搞不出大 paper 攒攒粉丝也是个不错的思路。一方面可以作为宣传阵地多多 PR 工作放大声量，另外一方面也有更新的需求反过来push自己进行一些输出（我的笔记真是自己写的 lol）。不过整体来看今年技术类写作因小红书平台限制趋向碎片化，考虑 25 年在 X 上用英文进行一些长篇的写作试试水，毕竟开了一年 1K+ 的蓝标会员，不好好利用还挺肉疼的。

科研方面自己的几个 paper 运气不错都中了，从 22 年的 M3IT，23 年的 VLFeedback， 24 年的 Multimodal ArXiv 以及 VL-RewardBench 算是给多模态 SFT、DPO 以及下一步的 reward model 的研究立了几个靶子和台子让大伙把玩。给每个 paper 都做了 webpage，现在看起来还挺项目像样的，准备开题就来个 alignment for LMMs，多么高大上啊（逃

但这么一圈走下来，我整体的感受是和 Cambrian-1 一致，现在的 LLM 太强以至于测指标的时候，很容易忽略了很多 vision perception 的局限性。这一点大家目前都是当做不知道，处在一个盯着 MMMU 和 DocVQA 拿起 SigLIP 就往里冲的状态。这样做不太对，VL-RewardBench 就发现其实大部分问题还是来自于 vision encoder，LLaVA 做不对的 4o 和 gemini 也不见得就能对了，怎么解耦好两个模态的学习并且有一个比较 real 的 benchmark 应该是很值得探索的。另外就是 gen & understanding unification，也难说真就能 1+1 > 2，目前看到的工作似乎都是互拉后腿。至于 hallucination 和 multimodal o1，在我看来其实都是 LLM-side 的问题（当然我们最新的 Temporal Reasoning 也是这么个事儿），属于别真把自己蒙在鼓里就行。应用侧比较看好的还是 GUI Agent，想象空间很大也很 fancy，但如何落地捏？期待大佬们的答案。

生活

生活方面今年收益很大的就是在上海生活的这段时间，进一步夯实感情的基础，也带来了心宽体胖的负面效果，需要新的一年强化锻炼了。

旅行今年应该是去了趟泰国开会，蛮好玩的也很便宜，在曼谷实现了一定程度的 711 自由和马杀鸡自由。芭提雅的海也是一绝，叠加性价比超高的水上项目，妥妥的爽到。年底和静静去了趟日本关西赏枫+购物，这次吸收了很多23年毕业旅行的经验，该预约的预约，并且重心放到京都上。会把永观堂+南禅寺的枯山水推荐给所有想要赏枫的朋友们，另外就是 shopping 还是得跟着女生一起，男生们的话就是便利店买点烧鸟回去打牌咯。另外感受蛮深的还是日本这波似乎真的走出来了，相比国内的餐饮略显萧条（出门吃饭基本不排大队了？），日本几个商圈都可以说是摩肩接踵了。

国内方面就是靠着参加舍友们婚礼的机会去到了陕西和福建，以及蹭人才论坛回了趟杭州和北京，西安变化挺大的，安康给人的感受也挺巴适，祝愿新婚的朋友们都能够早日进入下一个阶段；参加了几个人才论坛给我的感受是有些门在你读研的那一刻就已经关上了，再想要打开，要付出额外的巨大的努力，这种情况下我的选择就是不强求，可能就是命运给的指示吧，随缘。

今年的微信读书上显示只有 9 本看完的书，猛然发现今年似乎大部分的阅读靠着是纸质书完成。现在有点意识到纸书的好处，跳读很方便，也不再追求逐字逐句。要推荐的话马亲王的《食南之徒》应该还是有一席之地，剩下的会推荐《超越百岁》帮助建立更好的健康观（要高质量的生命体验而不是医疗手术，鱼油+坚果唯二有效的营养素）以及《以利为利》更明白这波房地产阵痛背后的根源所在。电影的话应该会是《好东西》。

理财方面搂了一眼和兄弟们的策略，24 年应该是 3.2%，被大 A 暴打。真要归因只能说最后一天吃了一计闷棍以及轮动有太多自己的 prior 尝试了一些奇怪的东西（不守纪律）。但好在跑了两年都是正收益并且流动性不错，作为解闷和感知市场水温的方式还是值得的。至于大头的资产配置，只能说相信海的那边风景更好了。

2025

新的一年，有这么些期待吧:

构建更大的个人品牌，希望能够跳出 paper 的评价体系有所成就，增强 visibility；
营业自媒体，目标 X 到 2K，xhs 破 w，会更加积极主动的破圈 + share thoughts，并且尝试新的转化；
到更多的地方看看，纸上得来终觉浅，还得亲身感受；
学业和情感都要应该要 probation talk 一下（x
保持身心健康，为下一波浪潮做好准备！

祝所有朋友们新年一切顺利~

展开全文 >>

我们与 GPT-4V 的距离

2024-03-09

在 ChatGPT 引爆 AI 圈之后，很多人预言 2024 年将会是多模态的元年。的确，我们在 23 年的最后一季度见证了 GPT-4V 的发布，前不久Google 家的 Gemini 和 Anthropic 的 Claude 3 也同样支持多模态（Multimodal to Text），并且 Gemini 1.5 中能够从两小时的视频中准确“捞针”出其中一帧包含的画面。国内这方面的工作以 Qwen-VL 为代表，也同样取得了非常不错的效果。我们最近也在大视觉语言模型（LMM）做了一些尝试，发布了 Reka Flash，能够接受图片、音频和视频的输入，在 MMMU 上也靠着相对较小的基础语言模型（21B）也排名能够排名靠前（截至 2024 年 3 月 9 日，这各领域变化太快了谁知道明天会是什么样呢哈哈），且 vibe test 下来感觉还行）。

MMMU Results

但是我们真的距离 GPT-4V 很近了吗？ The Dawn of LMMs 展现了很多目前无法被 benchmark 分数所涵盖的能力，似乎还在提醒着我们，前面的路还很长。这篇 blog，我将尝试结合自己的经历和公开的资料，分享一下对未来视觉语言模型发展的一些想法。

Why LMMs?

为什么大家都会预测视觉语言模型会在 2024 年爆发？我觉得原因主要有两点：

视觉的基础模型众多 + 数据充足：CV 的自监督学习随着 BERT 开始就已经有一系列工作，CLIP、MAE 、DINO 等能够很好地编码图片，很好地起到了 visual tokenizer 的效果。此外，应对上下文的限制，QFormer、Perceiever 也已经被广泛地验证了其有效性。除了纯文本以外，图文对也是少数我们能够轻易获取到的大量的数据（e.g，Laion5B）， image captioning 本质也是一种 next token prediction。
应用场景广泛：这个也很直接，日常生活中大多数数据的呈现方式就是，图片 + 文本 -> 文本的范式能够极大扩充模型处理任务的范围。另外，随着大语言模型发展催生出的一系列 Agent 研究，在浏览网页的时候会依赖 html 作为输入。如果能够直接让 Agent 看到屏幕，输出对应的操作坐标，更加简洁优雅。进一步地，Deepmind 的 RT 2 也验证了视觉语言模型能够很快地迁移到诸如 robotic 场景，在 embodied 环境中发挥重要的作用。

这两个条件可谓是大视觉语言模型发展的天时和地利，我们也同样可以用这一条路径来进一步验压缩即智能这一想法，看看这一框架是否能够在具备了更丰富模态信息后，背后世界模型的学习速率是否会进一步加快。关于这一点，之前我们的一个工作 VEC 就发现即使基于纯文本 NTP 训练的 LLMs 也能够学习到视觉世界的一些基础概念，但更 embodied 的一些知识则很难（或者以相当低的速率）被学习到，需要借助视觉语言模型来辅助学习。

模型架构

目前主流的 LMM 架构基本上是以大语言模型 LLM 为核心骨架，然后将图片视觉信息整合到 LLM 的预测过程中，因而这个框架里一般有以下几个组件：

基座语言模型：负责处理多模态的 embedding，并且执行预测推理的功能。一般选择能够获取到的最强、大小最合适的语言模型即可；
视觉编码器：负责将图片信息编码成一组向量，常用的选择是 CLIP-style 的各个模型（e.g., CLIP-ViT-L/14），最新也有工作表明，CLIP 得到的图片表示缺少细粒度的信息，可以通过和另外的视觉编码器结合来提升在 grounding 等任务上的性能。
模态桥接（Modality Bridge）：负责将视觉编码器得到的图片表示进行变换映射到新的空间方便 LLM 进行处理。这里的做法有一些不同的方案：
- Image as Word Embedding：一种经典的尝试是将视觉编码器得到的图片向量通过简单的 MLP 映射到对应的 word embedding 维度，随后就可以将图片作为多个 word embeddings 进行统一的处理。这一方面的局限是视觉编码器的分辨率往往是固定且比较小的(224 和 336)。而在很多场景下这样的分辨率完全不够用（OCR 识别、Agent浏览等），可以通过 post-training 来提升图片的分辨率也可以 bypass 掉 image encoder（没有了预训练分辨率的限制），直接将图片切成小块，随后映射到 word embedding 空间，Fuyu-8B 就是这样一个思路，在高分辨率的场景下展现出了非常出色的性能。分辨率提升带来的图片向量数量平方级增长带来的计算开销，可以通过利用 QFormer 或者是 Perceiver 来映射到固定数量来解决。
- Cross Attention to Visual Embedding: Deepmind 最早搞的 Flamingo 就是通过在 LLM 中引入额外的 Gated Cross-Attention Layer，来在文本生成的过程中整合视觉端的信息：

这种方案对区分不同模态有着更加强的先验，但后续看到的一些开源实现和改进，都很难超越前一种方案。如果训练量足够大，那么在前一种方案中 LLM 也能够自适应地学习到这种先验，因而我个人觉得这个方案或许在 2 年前是有道理，但在今天 scaling law 的暴力美学下，可能更少先验，更多数据会是朴实且有效的方案。

GPT-4V 是什么架构？ 虽然 tech report 里啥也没说，但是我们从 GPT-4V 的收费计算的方式以及 API Doc，可能可以猜测一下背后视觉模块的方案。收费模式分两种：

Low Resolution：这种模式下图片会被算作 85 input token 进行收费；
High Resolution: 图片首先在保持长宽比会被缩放 2K x 2K 的方块内（花费 85 个 token）然后图片的短边将会被缩放到 768px，并且计算缩放后的图片需要多少个 512 x 512 的 grid 来覆盖。

官方给出的示例:

A 2048 x 4096 image in detail: high mode costs 1105 tokens
1. We scale down the image to 1024 x 2048 to fit within the 2048 square.
2. The shortest side is 1024, so we further scale down to 768 x 1536.
3. 6 512px tiles are needed, so the final token cost is 170 * 6 + 85 = 1105.

由此我们可以看到，一个 512 x 512 的 image tile 被 170 个 token 所表示。假设背后也是 VIT，那我们可以推测：

如果使用 QFormer 对输出的 visual token 做降采样，那原先的 visual tokens 在 300 - 1000 左右（参考 Qwen-VL 的 report，1024 个 patch 被压缩到 256 个的效果相对最好），则意味着 VIT 的 patch size 最大可能是 28，最小可能是 16 的样子；
如果没有使用 QFormer 进行压缩，那么以为着 512 x 512 的图片可能被用了一个 40 的 patch size $\sqrt{170} = 13 \approx 512 / 40$ 。如果是用了这样的 patch size，那么我们可以进一步推测 low resolution 原始的图片可能会被统一放缩到 384 x 384 ，因此我们可以用差不多 85 个 token 来表示每个图片。

最近开源的 LLaVA-Next 也采用了类似的方案，并且在一种 benchmark 上都取得了出色的性能，侧面验证了这种方法的有效性。还有一种是 adaptive 的搜索式的方案 V*，根据需要来切分图片里的小块重新交给模型，类似起到 re-attention 的效果，在小物体的检测问题上面有很大的潜力。总的来说，这些方案都是为了解决输入图片分辨率不够的问题。

数据

数据一直是这波大语言模型发展的重中之重，从训练和测评的角度，目前我个人的感受是：

LMM 依旧能够通过构建高质量的训练数据获取性能跃迁的阶段；
LMM 测评基准有了不少进展，但是依旧无法比较全面的 cover 多模态的能力。多模态下的 language modeling loss 也许依旧是一个金指标。

训练数据

我们大致的可以将训练分成两个阶段：Modality Alignment Training 和 Supervised fine tuning（SFT），前者为了图片映射到 LLM 的语义空间，而后者则是激发模型的能力来做各种下游任务。

Alignment Dataset：这块早先大家会用开源的 Laion400M 和 Laion5B 进行对齐训练，但实际情况可能是这些数据集中的 image-text pair 都过于 noisy，对于学习模态的 alignment 效率并不高。一种解决思路是对 alignment数据集进行更加细粒度的表述，进而能够帮助模型更好地学习图片中物体的相关位置等关系，和LLM原先的知识挂上钩。ShareGPT4V 就是一个很好的尝试，验证了利用 GPT-4V 重新标注 image captions，就能够带来明显的提升。除了 ShareGPT4V 以外，CapsFusion 也展现了用更丰富的 caption 带来的提升。

SFT Dataset：

学术界开源的比较好的训练数据目前主要是 LLaVA 系列，其利用 bounding box 等辅助信息将图片文本化后，利用 ChatGPT/GPT-4 来生成了大量的 pseudo multimodal pair (detailed captioning, reasoning and conversation)。这个范式非常有效，也是为什么 LLaVA 系列一出来效果很惊艳的原因。但他依旧存在着一些问题：

既然是 pseudo multimodal，那必然会引发 hallucination 问题（因为 ChatGPT 并没有真正的 see the image）。这一点也是目前大家关注的重点。解决的方案有 LLaVA-RLHF ，通过额外引入一个 Factual reward model 来提升 hallucination； Volcano 则是用 self-feedback 来 revise 输出。或者更直接一点，我们用早先人工标注的数据做一下统一格式，在保真度方面就会有很大的提升，这方面我们做了 M3IT 来方便大家重新利用之前的数据集来做 SFT 。
任务的覆盖面不够广，在重要的 OCR、Chart 场景下能力都有所欠缺。这点我们对比 Qwen、LLaVA 1.5 以及 LLaVA-Next 的性能就能看出来，使用了更多更丰富的多模态数据集，基本上都能对下游如 MMMU、MathVista 等测评数据集有所提升。

通过这些研究我们可以猜测，GPT-4V 背后一定是大量的数据工程，具体地可能体现在：

Alignment 端：相比于开源模型利用 CLIP 等作为 vision encoder，OpenAI 应该采用了强化版的 CLIP 模型（毕竟现在的 CLIP 还都是他们 2021 年的成果）。之前的 CLIP 不够好的很大原因就在于图片和文本的信息量不对等，caption 大多是简单的几个词来描述物体，而图片中则有丰富的颜色、位置等时空信息。不妨可以想象一下，我们用现在的 GPT-4V 标注整个 web images（~ 10B level ?），提升文本端的丰富度并对 hallucination 做控制。在此数据集基础上我们训练一个 vision encoder，再迭代地更新 GPT-4V，相信会有一个明显的提升；
SFT 端：我认为在足够好的对齐 + 在基模型足够强大这两个条件下，可能只需要足够多样的（质量 >> 数量）的 prompting 数据就能够在现在的 VQA、Captioning benchmark 上表现出色。因为客观来说，现在的测评数据集也都集中在这两个任务形式上，因此少量的 prompt 就能够泛化到下游的数据集上。

测评基准

目前关注 LMM 测评的工作有很多，大致归类一下：

综合性 Benchmark：融合了各种多模态任务，综合地评估 LMM 各个方面的能力，主要形式是 VQA，给定问题和图片让模型回答 Yes/No 或者是给出选项，代表的工作有 MME 还有 MM-Vet。这里有一些有意思的事情是 MME 采用 Yes/No parsing 来评估，而 MM-Vet 则会采用 ChatGPT 打分的方式评估，前者其实对 GPT-4V 喜欢给出带理由的回答的模型并不友好，模型可能回答正确但没有被正确解析；而后者则容易倾向于 prefer ChatGPT style 的模型，偏好使用了接近数据的模型。
特定领域的 Benchmark：hallucination 是多模态更容易体现出来的一个问题，造成的潜在后果也挺大，这方面测评的benchmark 像 POPE 和 MMHal。但是 POPE 有个问题这个数据集依赖于 COCO 的 tag，就我个人的经验而言，那个 tag 的准确率并不高，POPE 上的分数因而会收到一定程度的影响。此外，大家认为 math reasoning 可能是比较有挑战性的任务，因此像 MMMU 和 MathVista 的关注度都比较高，目前 GPT-4V 也距离人类还是有很大差距。这块我们最近的一个工作是意识到 ArXiv 上的很多 paper 天然也是多模态的，并且涵盖了丰富的学科内容，因而我们构建了一个 Multimodal ArXiv，提供 captioning 和 QA (GPT-4V generated）的数据集，能够很有效地提升模型数学推理的能力。

这些基准上的分数依旧很难比较全面的反应模型的能力，模型会做题不代表这个模型可用性高。能够给用户体验让用户有 wow 感觉的模型，才可能说真的是看到了 GPT-4V 的尾巴，而目前能做到这点的模型，还不多。

Future Directions

总体来看，我认为我们和 GPT4-V 的差距在于(i) 基模型的指令跟随和理解能力；(ii) 模态对齐的训练质量和数量，以及 (iii)多样的 SFT 数据的构建。

其中 (i) 是国内很多公司和研究组努力的方向，相信在大伙的努力下我们会有一个强大的基模型，现在有的 Qwen 、Deepseek、Skywork 等系列模型都很有机会。(ii) 目前开源出来数据集的量级还不够大，而这件事情的投入（re-annotating the image world）应该也是巨大。但值得注意的是，DALLE 3 和 Sora 也是用了类似的方案来对 image/video的描述进行细节化，因而进一步提升了生成图片和视频的质量。做这件事情的意义可能对于我们去建模一个高分辨率的世界模型是有重大意义的。(iii) 这件事情或许可以交给学术界来搞，定义和标注有意义的多模态任务，进而整合到 SFT 过程中即可。

除去这些看似比较 boring 的搞数据以外，还有什么值得探索的方向呢，这边我也分析一些我个人比较感兴趣的问题（~~带货环节~~）：

LMM Hallucination 形成的原因？在文本领域的 Hallucination 的原因大家也都还在广泛地讨论中，那引入一个额外模态之后，hallucination 的来源会更多了吗？是数据还是模型架构带来的问题？如果我们能够更清晰的看到模型内部的一些信号，或许会对理解这些问题更有帮助。
LMM 的安全性：ChatGPT 出来之后就有很多 Red Teaming 和 Jailbreaking的尝试，那 GPT-4V 会不会也有这种安全性上的 concern 呢？Red Teaming VLM 提供了一个很好的 benchmark 来做这方面的探索；此外，ImgTrojan 也发现之前 NLP 广泛存在的后门攻击同样适用于 LMM，并且会成为更为隐蔽的特洛伊木马来规避掉 safe alignment。这里后续的研究又可以进行攻击、防御、消除的探索。
RLHF/DPO for LMM：前面提到的 alignment 和 sft 更多地还是依赖于人类标注的数据，当人类无法给出 ground-truth 的标注的时候，我们就需要构建一个 reward model 来告诉我们哪些回复是更合适的。RLHF 和 DPO 已经在大语言模型上被验证了有效性，但当存在额外的模态的时候，如何定义哪个回复是更好的（例如会有更多样的偏见），如何更好地协调一致的 reward label 的标注等等都会带来新的问题和挑战。我们的 VLFeedback 提供了一个很直给的方案，让 GPT-4V 来标注不同的方面，并且也验证了这个框架的有效性。但最近我们也发现 DPO 在不同基模型上的效果还不太一样，依旧存在很多细节的问题，值得进一步的分析。

总的来说，LMM 在无论是学术界还是工业界，都依旧大有可为。

希望能和这一领域的研究者们一起，接近 GPT-4V，超越 OpenAI！

展开全文 >>

GoodBye 2023

2024-01-23

启动，2023，年度小作文！
十年前，我还刚刚是一名高中生，不知道未来的图景会是怎么样的，十五岁的少年。一转眼，十个年头。有些时候还是会感慨，自己也已经成为可以以“十年”为单位来记录的人了。2023 于我而言，还是挺幸运的。这一年里，我从 P 大硕士毕业，和舍友们一同到日本毕业旅行；离开大陆，前往香港特区开始 PhD 生涯，也终于第一次出国开会，甚至拿到了 Best Paper。在这些时刻以外，还有许多日常的点滴，串成了我的2023。

毕业以及毕业旅行

毕业比想象中来的更快，但好在研究生期间的工作大多能够串到一个还说得过去的故事里，而且恰逢 ChatGPT 问世，于是就在愉快的英翻中里把毕业论文完成。送审也很顺利，根据老师们的意见做了修改后，答辩也顺利通过。至今都对这个过程感到有一些不那么真实：就这样，我就硕士毕业了？
给毕业带来实感的是我们宿舍的毕业旅行，目的地选的是日本，理由有近、机票价格合适（往返3k）、签证好搞（赶着最后在校身份下的学生签证，单次有学信网就行），同时也是@zhuoge的打卡诸多动漫取景地的好去处。线路是北京（西安转机）-东京-京都（奈良）-大阪。
西安转机途中经历了某种意义上的中转免费住宿骗局？被拉到自建房交了点钱度过了中转的夜晚，西安的烧烤还是如本科时候一样好吃，阿伟也在凌晨三点的烧烤摊上留下了“铁签烫嘴”的名场面。日本的形成中，我们在东京呆了四个晚上，京都两晚，大阪则是短短停留就走了。回过头来看还是应该多去去东京周边，东京虽说很大经典也很多，但走马观花之后的感觉就是大经典的国际化大都市，著名的银座但因为都是男生也没啥shopping的欲望，新宿秋叶原倒是适合二次元可惜我也不是，吃的总体来说也感觉性价比不高。唯一比较有意思的是一群百大学生在东大拍毕业照，碰到好多游客和我们亲切交谈，属于是东京分京了。我们坐新干线到下一站京都，沿途说是能看到富士山但似乎睡过了。另外也再次感慨原先邓小平爷爷羡慕的新干线，现在中国的高铁也毫不逊色了。整体的建筑风格，林立的寺庙都给人一种静谧的氛围，令我感觉很不错。到奈良看了看小鹿，可爱是可爱，味道也是真大（照片是闻不到的），说它们有礼貌它们会给你点头讨鹿饼，但也淘气，但凡给闻着点味就要追着屁股撅你。大阪短暂停留，逛了逛几个商圈之后，就结束了这次旅程。
回到学校之后的日子过的就更快了，好像一直都没有很正式地告别，可能是觉得不会离开的缘故罢。可惜，一转眼，就到了收拾工位打包宿舍的行李的时候，坐上飞机，我的硕士生涯，结束了。

Hong Kong & HKU-NLP

当初选择来 HK 很大程度也是因为可以减少适应环境带来的挑战，事实证明，确实如此。日常生活中大部分使用普通话就行，xhs 上也有很多的攻略，如办银行卡、身份证等，省去了很多的麻烦。学校的课程设置上我觉得比内地的博士要轻松许多，PhD 需要修 6 门导论 module（每个 Module 3 hour）+ 4 门专业课，甚至比我硕士的课时还少，因此 workload 几乎没有，可以 all in research。如我很久以前所言，我并不期望能够在课程上学到什么，但是第一学期 Dr. Tao Yu （aka 涛哥）开的高级 NLP 课还是让我感受到了信息差。P 大的 NLP 课相对而言还是有版本差距，而 HKU 至少就这门课程而言，还是在努力的向北美的课程设置看齐，尽可能让同学们讲比较新的研究，并且也会请一些 senior 的 researcher 来给 talk。这门课也是我第一次用英文讲 1.5 hour 的 presentation，属实是给哥们的破烂口语上了点强度。例如，GPT-4 说出来就变成了 GPT-四，好在同学们也都是中国人，毫无违和感之后我才意识到，哈哈 mother tongue 都给我整出来了，Lol。

HKU-NLP 在这两年势头还是很不错的，有很多优秀的同学在这边，最早我也是在 lab 感受到实验室之间的温差，国内的实验室还在 BERT 而 HKU-NLP 已经在 LLM 了，应了之前 P 大同学去 THU-NLP 开组会有进城了的感觉。这也有 CCF 指挥棒和毕业考核的压力在，HKU 这边的 target conf 就是 ML 三大会 + ACL 和 EMNLP，可以说老师们在设计之处就帮助大家过滤掉一些体验不太好的会议~~（没错说的就是 AAAI 和 IJCAI）~~。好在 P 大虽然动作稍慢一些，但目前我了解到在优秀的 senior 同学如麦哥、 Andy、Peter 、Qingxiu、Liang 等等 rising star 的引领下，也终归走上了 LLM 的道路。就我的观察而言，同学们的能力可能都不会有特别大的差距，而最终造成了为什么我们的工作相对来说更多是在 follow 而不是开创，则来自于这个跟上版本节奏的速度。所以如果让我给年轻的同学们一个建议的话，我会说请到版本更新的地方去。当然，我也相信在这样一个时代下，有很多 fundmental 的问题不用拼手速，相信也会有同学们广阔的思考和探索的空间。

EMNLP & Best Paper

狮城流水账

说来也是很奇妙，我第一次参加学术会议是 2019 年，当时就是在 HK 举办。一眨眼，硕士就毕业了，才得以第二次参加线下的学术会议。EMNLP 在新加坡，到了之后的感受就是一个HK Plus，体现在城市更加干净道路更加宽敞，整体也都是以华人为主。因为有了上一次会议的铺垫（第一次老老实实的听了许多talk 和 tutorial 但最后都发现比较 entry-level），这次参会就老油条了许多，主要的时间就是在找好吃的和找好玩的地方。新加坡必打卡的几个大件都走马观花了一波：

圣淘沙：会议就在这里办并且我们也算是奢侈地定了岛上的酒店，因此几个沙滩基本都逛了一遍。遗憾的是，新加坡的天气在下午总是会下雨，没有感受到阳光明媚的沙滩风情。
环球影城：EMNLP 又豪气地包下了环球影城半个晚上，在几乎不排队的情况下，2个小时就玩完了所有的项目。基本就是大大（刺激）小小（很慢）的过山车。火种源争夺战不如北京环球影城清楚，木乃伊倒是挺不错，不过我心中的 top-1 还是霸天虎过山车。
珍宝海鲜+克拉码头：和语言所的朋友们一起在新加坡暴走的一个晚上，我们去了牛车水（China Town）然后沿着街道一直走到了克拉码头，并且在策哥的预定下吃到了新加坡的国宝海鲜。辣螃蟹的给我的感受是番茄炒蛋背后躲着辣味的一个螃蟹，用汤汁拌饭能够吸收所有的精华，味道好极了，当晚波龙还打五折，只可惜蒜蓉味道太冲压过了肉质的鲜美。随后又是沿着码头散步，两岸酒吧五颜六色的灯光映着湖面，在这样的氛围下，兄弟们一致决定去喝一杯。于是很幸运的找到了一家 view 很好的酒吧 Southbridge，一起喝了一轮，尽兴！
鱼尾狮和金沙购物城：刚到新加坡的时候遗憾的听闻鱼尾狮在维修，被一个罩子罩住了。谁知柳暗花明又一村，在最后几天，刷 xhs （yyds）发现说它修好了，于是第二天火速前往，并且拍摄了几张搞笑的喝水照片！金沙购物城则是晚上和语言所的伙伴们再次前往鱼尾狮，然后漫步到金沙购物城，有一说一，世界上的购物中心，都长一个样（我买不起的模样）。shopping 了一些纪念品，指 TWG 茶包，结果发现机场免税更便宜，害（x

会议本身并没有什么记忆点（除了上台拿best paper），上一次还会追星，期待能和大佬们合影 or 聊聊，这次基本就是在 poster 自己找有意思的 paper 看看。讲 poster 也比 oral 更累，感觉相当于 N 个 oral （ N = 2 hour / avg introduction time）。最后整体的感觉就是，CL会议的进展已经落后几个版本了。因此以后可能还是多投投 ML 的会议，会有更多 LLM 相关的 topic。

Best Paper

回头看了一眼，发现自己中的大多数 Paper （CascadeBERT, DynamicKD, MUKI 还有这次的 VEC）都是 EMNLP (or Findings)，可能 EMNLP 就是我的快乐老家吧。这次 EMNLP 很幸运地获得了 Best Long Paper 的奖项，具体的内容就不再赘述，但可以给大家分享一下我们这个 Paper 幕后的一些故事。
Paper 的一作 Lean 是 lanco 组的师弟，北大图班的 top，大二的时候轮转来组里做研究实习生。当时我、andy 还有 zzy 师兄负责出题目，也很幸运有机会和这些学弟们合作，毕竟这波同学可能是中国最优秀的生源了 lol。一开始给 Lean 想的是沿着知识蒸馏的方向做一段时间，Lean 提了一个利用 Gradient KD 做 alignment 的思路，二阶的信息更能够刻画函数的曲率，但是因为实验效果不是特别显著，最后中了 NeurIPS workshop 的 spotlight，也算是一个很好的开端。这个 project 结束后，Lean 基本上决定来孙老师组读博。
当时我在上海 AI Lab实习，逐渐意识到大语言模型的重要性以及 In-context Learning 的选样本的挑战，于是就想着可以让 Lean 看看我们的 survey 然后讨论一下能做的方向。一开始考虑的是一个黑箱优化 demonstration 权重，但无奈地发现怎么调都很难，梯度信息对于权重至关重要。但如果必须要计算梯度，那就失去了 In-context Learning 的一个核心特点，变得 trivial 了起来。但是在实验过程中，我们在分析样本权重的时候，发现了现在 paper 里面的信息流动的一些 evidence：深层大多的 attention 都集中在样本 label word 上，而浅层的则较为分散。基于这一点，我们讨论出了目前的 label words as anchors 的猜想，并且进行了更为形式化的验证和描述。但在验证这一猜想的过程中，还存在着很多 challenge，因此也邀请了之前对 ICL 也有很多经验的麦哥来一起帮忙，麦哥毕竟还是强，给我们的讨论一下子打开了很多思路。同时 Lean 也在 Wechat AI 做了几次讨论，收获了很多建议。除了验证猜想以外，我们首先把之前的 gradient-based reweighting 作为了一个应用，并且额外想了两个用处，一个是 cache label words 做加速（也是 efficient NLP 的精神再一次发挥了），另外则是一个 error analysis 的工具。这一下，整篇文章就显得完整了很多，从 attention map 观察出发提出假设并且验证，然后基于分析的结果用效果提升、推理加速的应用进一步做验证。我们在 arxiv ddl 之前（CL 再也没有 ddl 了好耶！）挂了出去，然后在交稿的 ddl 前一周再次 polish。值得一提的是，ddl 前一晚我还在日本和舍友毕业旅行，但因为延误于是打开了 overleaf，并且和 903 的同学们一波激情讨论，再次收获了很多宝贵的建议。
分数出来的时候，好像就有一个满分还有两个也都是 4+，这种分数的rebuttal也不太难，当时我们讨论的时候就说是保A（ccept）争（Best）。考虑到前一年 ACL 有 30+ outstanding paper，我们都觉得还是挺有希望拿个奖项的。但是最终录用的时候却是 poster（即使我们申请了 oral），令我感觉似乎是不是不太可能拿奖了？谁知道 EMNLP 组委会柳暗花明又一村，在会上告诉大家所有 best paper 都是 poster，让大家不要 care 这俩的区别，真是会玩。
Best Paper 邮件比公布更早一些，当时我正在和策哥在酒店泳池游泳，上岸休息刷手机的时候发现中奖了，第一时间给策哥看看我是不是在做梦。确认真的中了之后又发给 jingjing 师姐问问是不是 final decision（毕竟她是我认识为数不多的 best paper 得主之一，lol），但看描述是大局已定。邮件里说不能提前庆祝，于是我只好跳下泳池再游了几圈平复我激动的心情。之后几天去会场，有些消息灵通的同学就会来悄咪咪地和我们对眼神，我们也只好露出意味深长的表情，掩盖自己的激动哈哈。再以后的故事，就是音乐一响，上台领奖啦。

Research

Research 方面，最近的几个工作聚焦在为构建大规模的 MLLM 做数据的准备上，包括 instruction tuning 的数据集 M3IT，以及最近刚放的 VLFeedback DPO 数据集。大体上的预期是这些工作多少能够为未来的多模态模型提供一些帮助，至少我个人还是蛮喜欢用自己的这几个数据集来做一些工作的。在这以后，多模态模型会往哪走？至少我个人觉得架构层面逐渐走向统一，oai 的 GPT4V 除了模型以外，更多的功夫应该在数据层面，毕竟压缩即智能的前提是有足够好的数据（输入端和输出端的分辨率足够高）来做 alignment。至于剩下的，就交给时间。

Future

展望 2024（虽然写的时候已经是 2024 的一月底了哈哈），希望能在 research 以外的自我游戏中有更多的收获。包括但不限于:

阅读: 去年微信读书上读完了 27 本书，印象里是为了冲刺一波 50 本勋章读了不少短篇科幻，记忆比较深刻的就是《带上她的眼睛》，推荐给某人之后也觉得特别美，大刘除了科幻以外，更令人折服的是他细腻的内心。还有很多书都是囫囵吞枣，跳着阅读，这是读书习惯上的一个很大的变化，以前觉得书一定要逐字逐句读完，现在逐渐习惯了看目录-挑有趣的章节-想想问题作者有没有答案-到结尾这样一个顺序来加快阅读，小说类的除外。如果让我推荐几本年度书籍的话，我会不能免俗地推荐《太白金星有点烦》以及《纳瓦尔宝典》。希望新的一年，继续开卷有益。
写作: blog 上 2023 年只更新了三篇文章，两篇随笔一篇技术向的文章，属实是比之前产出的少多了。你问我想写吗，我是想写的，但是太懒了，而且感觉每年写论文已经把人的表达欲都压制的差不多，但这样不好。新的一年姑且定一个 4 篇技术写作文章的目标罢，笔耕不辍。
锻炼: 在毕业季的时候逐渐养成了去健身房的习惯，虽然总的来说是三天打鱼两天晒网，但总归是知道器械都应该怎么用，训记 app 还蛮好用的，动作库丰富并且计划也简单明了，hk一顿饭钱就能终身买断，更加让我觉得非常划算。比较困难的学校的健身房近的人多，远的通勤起来不方便，准备探索附近的健身房看看能不能找到一个这种的方案。足球踢的不多，主要是和宿舍球队的养生足球，纯纯快乐出汗，倒也不错。跑步的话着海跑步的感觉很好，逐渐爱上这样一种运动，只是配速始终不快，希望能够有机会把跑量提上去，尝试一次半马。
理财: 大 A，我们对你爱得深沉，你却如此对我。我只能说，永远满仓，永远热泪盈眶了。为了以后能够更好地帮助大 A，我决定以后买崩美股，助力我国资本市场！！
怎么随笔碎碎念也这么难写，以后要设计一个 scaling law 来拟合一下年龄和表达欲的函数了（x
祝大家新年快乐！

展开全文 >>

PKU 这三年

2023-07-04

两个月之前，我在语言所的工位上坐着，有些无所事事，在博客的目录敲下

hexo new "ThreeYearsatPKU"

创建了这篇文章，以为还有很多时间让我来收拾情绪，写下很多点滴。一转眼，我已经收拾好了行李，和舍友们、同学们告别，离开了理科一号楼，~~在家里~~在香港住下来了。我真傻，哪有那么多的时间留给自己，三年不过弹指一挥间。反过来想想，是得写点什么，在旅途中设下几个锚点，给以后的回忆留一些线索。

My Research

如果要用一根线来串起我的研究生三年，我觉得也许我的毕业论文会是一个很好的roadmap，大体上，我的经历也都和论文中的内容相关。

在入学之前，我加入了孙老师和微信的合作项目，并且在林老师和李老师的指导下学习如何做科研。前几次的讨论中，鹏导的高标准让我一下子感觉有点紧张，很担心自己是否能够完成好这个项目。

我们花了大约三个月的时间来讨论方向，有几个方面是我到现在依旧在选择 topic 时觉得很重要的：(i) 和时代大潮流相关，当时是预训练模型 BERT 的时代，大家都在思考怎么更好地利用预训练模型做各种各样的任务，那么我们的研究方向必然是要以预训练语言模型为基础的，这样的工作才可能会有影响力。(ii) 这个方向的容量要足够大，足以支撑完成一篇 thesis，但又需要能够有机的串联在一起。大体来说，基本上 *CL 的 track 都可以认为是一个大的 node，然后往下走一层的节点基本上是能够满足容量足够大。当时我选择的 Efficient NLP 这个领域现在也被逐渐认可成为一个 track，这一 track 下像知识蒸馏和推理加速都是比较大的 area，并且有一定的实际应用意义。

确定了大体的方向后便是文献调研和一些 idea 的尝试，以及每周固定的讨论。CascadeBERT 是我在 WeChat AI 做的第一个 idea，一开始 motivation 是希望能够利用类似 NAS 或者 RL 的方法在 BERT 内部进行一些 skip-layer 或者是在多个 BERT model 之间进行 switch。在激情 coding & training 一个多月之后发现，发现怎么都训不出来，进一步分析 RL 训不出来的原因在于 reward 很稀疏，即很少的样本需要大规模的计算，因此没办法获得充足的监督信号。相反，一个简单的，两个模型级联的 baseline 效果很好，稳定地超过当时的所有 baseline。后续和两位老师讨论后决定，我们把 paper 做成一个分析导向的 paper，弱化级联这一方案的贡献。然而第一次 ACL submission，却因为方案比较简单，reviewer 抨击 novelty 而被拒稿；第二次 EMNLP，投稿了新开的 efficient track，review 意见依旧比较 negative，在 rebuttal 之后依旧是均分 < 3 (3, 2.5, 2.5 ?)。但那次的 AC 非常给力，把这篇 paper 捞成了 Findings。

相比之下，Dynamic KD 就顺利的多，在做完推理加速之后，我的兴趣转移到了如何让模型参数减少但是尽可能不降低性能。这一方面，知识蒸馏就是非常经典的框架。然而，当时有着 TinyBERT，纯蒸馏的性能的天花板基本就在那。于是考虑如何利用更少的数据完成同等效果的蒸馏，又发现有个同期的 MixKD 方法，利用 Mixup 数据做知识蒸馏，很难 beat 掉他们的效果。然后和 Andy 讨论之后发现，当时的工作都在聚焦如何设计更多的 supervision objective 来利用好 teacher model，但实际上，学生模型的能力不断变强，应该更有针对性地挑选教师模型、训练数据和训练目标来实现更加高效的知识蒸馏。因此我们设计了一个动态的框架，来挑选这三个方面，从而提升模型的效果和训练的效率。定完这个框架之后，距离 ddl 只有两个礼拜了，当时手上有的实验结果里，挑选数据部分是我们最早做过探究，有着比较丰富的实验的结果；教师模型选择和蒸馏目标选择则是紧赶慢赶，终于在距离截稿还有一周的时候完成了实验的部分。最后一周疯狂的 polish 论文，并且在这一阶段林老师帮忙 rewrite 了 introduciton，我再一次窥见了我写作方面的不足，并且尝试模仿这样一种写作思路：将所作的事情抽象成一个 research question，然后娓娓道来你是如何探究这些问题的。这篇文章的 review 很 positive，录用也变得顺理成章，还有幸入选了 oral。因为疫情缘故，开会是 online 的，也对消弭第一次 oral 的紧张有很大的帮助。现在，我已经不记得在 talk 里说了些什么，只记得等 runxin 的 talk 讲完之后，一起到东南门的雪地里滚了一大圈。

在做完推理加速和知识蒸馏之后，我看到 CV 方向有不少对模型融合的探究，即将多个教师模型的能力（分割、分类）蒸馏到一个学生模型中，然而这一想法却鲜有 NLP 方面的探索。我理解这个是新的一种维度的高效化，即我们不再需要部署多个 task-specific 模型，而只需要一个 unified model 来完成这一切。不过当时可能过于看重眼前的 story，回过头来看，LLM 也是这样一个 Unified model，instruction tuning 中有足够的数据来教会他所有的事情。两篇 paper 以后，我已经对科研的套路相对熟悉，因此又是一阵设计、实验和分析，最后延续了 Dynamic KD 中的不确定度的思想，来挑选合适的教师模型进行学习。方法效果依旧是非常不错，beat 掉了 CV 那边几乎所有的方案。投稿的时候是第一次 ARR，还想着挺新鲜，review 意见也不错(4, 3.5, 3, ARR 的 3 分当时根据我的理解应该是 softconf 的 3.5），没成想 commit 之后录成了 Findings，感觉很不值当，于是修改之后再次 commit EMNLP，还是 Findings。想了想，算了，也许这就是命，出来混迟早要还的，低分 Findings 和相对高分 Findings，so take it。

这段在 WeChat AI 的实习经历，除了论文的发表以外，对我科研之路的影响非常之大，令我从一个懵懵懂懂的大四毕业生变成一个对科研、发论文有一些概念的研究生。最重要的是，我也意识到，you own the project，所有的合作者都是你的助手，你可以向他们寻求各个层面的帮助，但是最终需要你来 make decision, and take responsiblity。感谢给予过我帮助的所有人。

往后的故事，就是到上海 AI Lab 和晶晶师姐合作（顺便 tla (x，在多模态方面开始做一些尝试，并且我也突然发现，预训练模型的时代，以一个更快地速度过去，而等待着我们的，则是大语言模型的波澜壮阔。也许这一部分，等我 PhD 毕业再来回顾，会更有整体的视角，指不定那个时候又出什么幺蛾子了哈哈。

My Friends & Love

Research 的道路也因为朋友们的陪伴变得更加丰富多彩，还记得在 2020 年总结给 20 级的同学们都写了一句话，三年之后，大家的 paper 都挺多，鹤一烤肉也没少吃，也都有着光明的未来。师兄师姐师弟师妹们也都很给力，一起打狼人杀也一起做科研，德艺双馨。还有我的舍友们，毕业旅行一起去到了霓虹，每天早上出去觅食走走看看，晚上喝酒打牌畅谈人生理想的日子，会是很多年回想起来都感觉很珍贵的回忆，再往前，谁能想到一墙之隔的几个人会成为德扑局上根据 raise 尺度就能锁定范围的知己呢？

感谢我的 nvpy 一直以来的陪伴，新冠时期的异地恋着实是煎熬，所有的一切都存在着巨大的不确定性。好在，我们彼此是笃定的，虽有波折，却也坚持了下来。相信，风雨过后的彩虹会更加绚烂，以及，会抓住一切机会创造更加美好的经历。

My Future

简单的展望一下未来的 PhD 生涯：

做有影响力的研究：影响力是个很抽象的东西，但有一些基本的原则可循，有用的研究往往会产生更大的影响力，例如高质量的开源数据集、工具，开源 >> 闭源。此外，研究的 topic 粒度要粗，能够容纳更多的叶子节点的研究，但是落脚在确保可以泛化的情况下可以在具体的问题上开展，以小见大。
保持身心的健康：BMI 或许会是一个主要的指标，多多健身并且希望能够跟梦觉老师学会自由泳。心理健康大抵比较好保持，有空的话多出去走走，找找好吃的！
构建自己的知识体系：回顾这三年，学到的很多东西都是零散的分布在各式各样平台上（主要是我的脑子里），没有比较好的整理，进而对复用效率造成影响（脑子会变慢的）。在保持输入（广泛阅读）和输出（尝试提升写技术文章的频率）的同时，在个人知识库中沉淀感兴趣的模块的内容和工具。

祝自己能够如愿，也祝愿 PKU 的大家都有美好的未来！

展开全文 >>

LLM101-Parallelism学习笔记

2023-03-28

ChatGPT 大模型的时代到来了，怎么样才能不做一个 Prompt 工程师呢？那自然是学习如何训练大模型了。个人理解，大模型的训练的目标函数并不难，就是 language modeling 的极大似然估计，难的是大规模算力的调度和高质量数据的清洗。而这方面的经验和技术储备，很多的同学因为受到实验室的资源限制，其实是远远不够的，那我们能做的，就是通过尽可能地和公司合作，并且熟练地掌握分布式的训练框架，这些框架的核心就是各式各样的并行，这篇 Blog 就来分享一下学习并行机制以及 megatron LM 的相关代码。

几种并行机制

Data Parallelism

数据并行是之前做单机多卡（Single-node multi GPUs）最常用的一种方案，其核心就是在不同 GPU 上分别 host 一个模型，从而每块 GPU 能够拥有自己的一部分 dataset subset，达到一个亚线性的加速，例如，使用八块 GPU 训练会比单块 GPU 快大约八倍不到的速度。之所以无法达到完全的 GPU 数量倍数的加速比，是因为各个 GPU 所 host 参数需要在梯度更新后进行参数同步，即：

各个 GPU 单独在自己的数据上计算梯度
对各个 GPU 的梯度进行平均，将平均后的梯度分发给各个 GPU
各个 GPU 利用得到的平均梯度对参数进行更新
利用某些 Barrier 机制来确保各个 GPU 的参数都完成更新后，进行下一个 batch

第二步中需要在 GPU 之间进行大量的数据传输，造成对训练吞吐量的影响，当然有一些异步的机制来降低这一数据传输的开销，但一般这种开销也基本可以接受，使用原版的数据并行就可以了。

Pipeline Parallelism

如果模型的参数特别大无法 fit 到GPU 的显存中，数据平行就无能为力了。Pipeline Parallell 的解决思路就是将模型的不同部分放到不同 GPU 上，直观的理解就是把多块 GPU 的显存都拼接起来，合成一块更大的显存的 GPU。对于 Transformer 模型，最直接的 pipeline parallel 就是根据 TransformerLayer 来切块（例如，总共 32层，8块 GPU，则我们可以在每块 GPU 上放 4 层），然后将不同的块放到不同的 GPU 上。由于层和层之间的依赖关系，例如，8-4层的计算依赖于 0到3层的结果，则对应 GPU 上的计算需要等待前序块的 GPU 完成计算，这种等待被称之为气泡 bubble，同样会降低计算的吞吐量（学过操统的流水线的同学应该会感觉非常熟悉）。

如何降低气泡数量从而提升计算吞吐量呢？我们可以尝试将计算的粒度变小，即复用 Data Parallel 的思路，在等待的时候，计算下一个小 batch，从而用小 batch 的计算来填补等待的空白，对应地，梯度计算的时候也复用数据并行的方案即可，然后进行 GPU 之间的传递。因为前向计算和反向梯度传播之中都包含结果或者是activation 的传递，以及有多卡多 minibatch 之间的聚合，这里存在巨大的调度设计的空间以提升效率。GPipe 和 PipeDream 则是两个代表性的方案，前者分别地处理前向和反向的计算（完成所有 batch 的前向后再进行反向传播），而后者则是当第一个 minibatch 的前向完成之后即可进行反向的计算，因而更能够降低等待时间。

GPipe

PipeDream

Tensor Parallelism

张量并行则是更细粒度的计算层面的并行机制。相较于 Pipeline 在层和层之间切分，张量并行则是在层内部，对基础的矩阵操作进行切块。 Transformer 模型的主要计算单元 FFN 和 Self-Attention 中存在大量的矩阵运算，而矩阵运算又可以被视为是列向量和行向量的点积，而行-行/列-列之间的计算是相互独立的（或许最后需要求和汇总），因此我们可以将矩阵切块放到不同 GPU 上，进一步提升并行度。MegatronLM 对此有比较直观的图解：

MegatronLM

具体地，给定一个矩阵乘法操作：

$$ Y = GeLU(XA) $$

其中 $Y$ 和 $X$ 分别对应输出和输入，$A$ 则是一个权重矩阵，则我们有两种对 $XA$ 进行分割的操作：

第一种将输入按列分块$ X = [X_1, X_2] $，将权重按行分块$A = [A_1 ; A_2]$ （分号表示 A1, A2 的列数相同），

则我们需要对结果进行聚合得到

$$ Y = GeLU(X_1 A_1 + X_2 A_2)$$

而因为 $GeLU$ 是非线性函数，$GeLU(X_1A_1 + X_2 A_2) != GeLU(X_1A_1) + GeLU(X_2A_2)$ ，因而在得到最终的结果之前还需要进行一次聚合；

另外一种切割则是将 $A$ 按列切分，则有 $A = [A_1, A_2]$，对应的可以得到 $[Y_1, Y2] = [GeLU(X A_1), GeLU(X A_2)]$，可以单独计算每个部分而不需要一个同步节点用来求和，因而可以降低 GPU 之间同步所需要的通讯量，但在 dropout 之前需要对所有结果进行一个聚合操作（类似 GeLU 的非线性），第二种切分方式对应的示意图如下:

Tensor Slice

对应到具体的实现，则可以在 MegatronLM 里找到两种分割的实现，分别称之为 ColumnParallelLinear 和 RowParallelLinear。

其核心就在于 weight 权重的初始化分别是:

# ColumnParallel
self.weight = Parameter(torch.empty(self.output_size_per_partition,
                                                self.input_size,
                                                dtype=params_dtype))
# RowParallel
self.weight = Parameter(torch.empty(self.output_size,
                                    self.input_size_per_partition,
                                    dtype=params_dtype))

以及 RowParallel（即第一种实现）需要在前向中进行 AllReduce。此外，因为 ColumnParallel 得到的输出 Y 天然是按列分块的，因而可以在后面接上一个 RowParallel（输入是按列分块，权重按行分块），而只需要做一次 reduce 操作即可完成 MLP 的计算。

Parallel Vocab Embedding

语言模型里的 Embedding matrix (look-up table)其实也可以看做是一个大规模的矩阵乘法运算，因而也可以通过张量并行来实现：

1
2
3

self.weight = Parameter(torch.empty(
                self.num_embeddings_per_partition, self.embedding_dim,
                dtype=params_dtype))

因而当我们在 load 大规模语言模型特别是利用 tensor parallel 训练的模型的时候，需要确保模型的对应的设置也正确，否则则会出现 load error ，即参数形状不对（例如 50000 的词表可能被分成四块，每块 12500）的问题。

对应的，Output Embedding (输出为词表概率的矩阵)也可能做了对应的并行，并且和 CrossEntropy Loss 一起考虑进行相应的 mask 后的计算。

Takeaway

以上提到的几种并行策略都可以叠加使用，达到更好的并行效果。此外，我们也会注意到，更细粒度的并行意味着和模型结构更高的耦合，即需要对模型的结构、计算有着特定的假设才可以使用对应的并行策略，而不存在某种策略适合所有的模型。最后，附上 Huggingface 给出的并行选择的方法：

单卡：模型放得下就可以不用并行；显存放不下可以考虑使用 ZeRO 和 Offload CPU（将 optimizer state 放到 CPU 上）
单机多卡：模型放得下可以使用数据并行和 Zero；放不下则可以考虑 Pipeline Parallel（PP），ZeRO 以及 Tensor Parallel（TP）。几种方法的在 GPU 通讯带宽较好的（e.g., NVLINK A100）的场景下速度，否则 PP 会更快，而 TP 的效率取决于如何配置，可以多尝试不同的并行度；
多机多卡：节点之间通讯比较好的话考虑 ZeRO 或者 PP + DP + TP；节点通讯带宽差并且单个 GPU memory 较少，则考虑：DP+PP+TP+ZeRO-1

Reference

展开全文 >>

读博和 AIGC

2023-02-02

朋友们，好久不见！或许大家都以为这个博主失踪了，很久没有正经的技术 Blog 和碎碎念更新了（也可能并没什么还在关注这个 Blog 哈哈）。博主并没有失踪，也不至于说忙到没时间吹水，表达的欲望总是存在的，只是很多时候会在和朋友们分享之后，敲键盘码字的动力就会少一些，Typora 收费也一度让我打不开我的 Markdown 编辑器。好在，最终支持了一波 Typora（看在它陪我写了这么多文章的份上），也再次写一篇新的文章和大家分享一些最近的所思所想。主要是两点：关于我决定读博的心路历程 & 对 ChatGPT 和 AIGC（AI generated content）内容的感受。

more >>

展开全文 >>

EMNLP21 和 Rebuttal 攻略

2021-11-14

这次 EMNLP 很幸运的中了 4 篇文章，有两篇的得分其实挺 negative，最后还是靠着 rebuttal 掰成了 Findings，也算是达到期望。这篇 Blog 就给大家分享一下这四篇工作，毕竟这是一个酒香还怕巷子深的年代（当然，ResNet 这种茅台级别的工作不用PR也是会迟早被家喻户晓的哈哈），以及一些 rebuttal 的感悟。

Text Autoaugment

TAA是关于文本自动增强的策略的一个工作。一作 Andy 哥，也是著名对抗攻击 baseline PWWS 的作者。文章的核心是想要解决 edition-based 数据增强方案的两个问题：(1) DA 对于一些超参数的设置非常敏感，比如删词的比例，造成性能很大的波动；(2): 很多的 edition 操作是拍脑袋出来的，有些是增广操作非常单一，限制了增广数据集的多样性，因此也进一步限制了数据增广的效果。

为此，我们提出将数据增强操作组合成一个 policy，这个 policy 包含了对采取某种数据增广操作的概率，数据增强的 edit type 以及对应的超参（例如删词操作的比例）。并且引入 AutoML 中的 SMBO 来对这个 policy 进行优化。优化的核心思路类似 Meta-Learning，先在训练集上进行 policy 训练，然后在验证集上验证效果，再拿着验证集上的效果作为 feedback 来更新 policy 的参数。

TAA

实验部分，我们在 low-resource 以及 class-imbalance 的设定下进行了实验，相比于之前的一些方案能够取得统计上显著的提升。并且还做了一些有趣的分析，例如在小规模训练集上学习的 policy 迁移到大规模训练集上也有比较好的效果，同时不同数据集上学习出的 policy 的迁移性能也有很有趣的模式。具体的细节，大家可以参考我们的 Paper。

在中稿之后，Andy 也带着组里的师弟对代码做了比较多的改动，以适配目前大家用的比较多的 transformers 框架，并且可以通过一两行代码进行配置，可以关注 TAA 的 Repo。

回顾这篇文章的中稿过程，其实还是挺波折的。这边也可以给大家分享一下 TAA 的几次大的改动。（1）最早的一版 readability 存在比较大的问题，因为对问题的建模有一些复杂，带来理解上的难度，几个作者反复讨论多次之后才找到一个比较好的折中，能够把方法讲清楚的同时也让 reader 能够看懂。（2）前几次被拒的时候 reviewer 批评实验不够 convincing。解决的方法就是，我一直反复强调的，就是在条件允许的情况下，特别是对于一些小数据集，假设检验尽可能做。我作为审稿人看到标准差有5个点的情况下带来 5-6 个点的提升，在没有假设检验的情况下我是无法被说服提升的明显的。补充了假设检验以及后续的一些实验，EMNLP 的审稿人认为我们的实验非常 solid（3）除了性能以外，对方法本身的分析是画龙点睛的，最早的版本只有对性能的分析，总会让人感觉审美疲劳，我们后来额外添加了增广数据的多样性分析以及迁移性能的分析，充实文章内容的同时也更全面地展现了 TAA 框架的优点。

Dynamic KD

DynamicKD 则是我们和 Wechat AI 合作的一篇论文。我们注意到目前预训练模型知识蒸馏的 common practice 会把 teacher model / training data / training objective 提前固定好，而没有考虑到 student 模型在蒸馏过程中能力不断变强的这一事实。从这一点出发，我们提出了 Dynamic Knowledge Distillation 这样一个框架，来探究根据学生模型的能力动态的调整三个方面所带来的性能和效率上的收益：

Dynamic KD Framework

核心的方案也很简单，就是根据学生模型的预测结果的不确定性，不确定性高则意味着学生模型对于当前样本的自信程度较低，则相应地对这三个方面进行挑选即可。下面就简单介绍一下我们探索的一些发现。

Dynamic Teacher Adoption

首先是教师模型的 size 选择方面，我们的实验发现model size 更大效果更好的 teacher 预训练模型不一定能够蒸馏出效果更好的学生模型，因为当学生模型和教师模型的容量差距超过一定阈值的时候，学生模型很难去拟合教师模型的输出，造成蒸馏效果的下降。这一点在 CV 之中之前也有人发现了这一点，我们在 PLMs 上也验证了这样一个现象。之前 CV 的解决方案是引入 Teacher Assistant，即一个中等大小的模型进行过渡以降低教师模型太大所带来的影响，而我们的策略则是：当学生模型对某个样本预测非常自信的时候，则可以更多地依赖较大教师模型的信号；反之，则更多地依赖小教师模型。关于这一点，在 oral 的时候被问到了一个挺关键的问题：模型大小的差距是在 KD 一开始就被确定了的，也即，能力差距实际上是固定的。这一点实际上在我们讨论的时候就注意到了这一点，我们的看法是，模型能力确实只和 size 有关，但同样 size 的模型，在其训练程度不同的时候，能力也有差距。所以当学生模型性能较强时去 query 大的教师模型，能够缓解之前提到的拟合能力不足的问题，进而带来效果上的提升。

Dynamic Data Selection

第二个我们探究的方面是动态的数据选择方面，期待找到对于学生模型更加有利的训练数据。这背后的一个事实是，TinyBERT 用了数据增广操作进行知识蒸馏取得了很好的效果，但也带来了巨大的教师模型侧的开销，有没有可能以更加经济的方式达到同样的效果呢。我们的实验发现，借用 active learning 里的一些简单的基于 uncertainty 的策略，每次挑选 batch 内部最困难的 10% 的样本，就可以达到非常接近的效果：

Dynamic Dat Selection Results

Dynamic Objective Adjustment

最后一个则是目标函数，之前的 setting 一般是提出一个额外的 loss objective，比如 BERT-PKD 的隐状态的 MSE loss ，然后搜索出对应目标函数的权重 $\lambda_{PKD}$并且保持训练中超参数不变。同样的，我们好奇的是，如果动态的调整不同目标之间的比例，是否对最后的效果有所提升？我们在 BERT-PKD 和 KL loss 上进行了验证，发现在模型不确定的时候更多地依赖隐层对齐的目标，以及在模型确定的时候拟合输出概率分布的 KL-divergence 能提升模型蒸馏的效果。

Summary and Furture Directions

总的来说，这篇文章并不是一篇方法性的文章，而是体现了我们对目前 KD 框架一个新维度的拓展，即考虑学生模型能力的 KD 框架，以期望获得更好的效率和性能。未来同样有很多方向值得进一步探索，比如多 teacher 情况下的异构的问题，以及目标函数之间的 correlation，都很值得进一步的挖掘。

CascadeBERT & FormBERT

这两篇都是 Findings，一长一短，就放在一起简单介绍一下。

CascadeBERT 是一篇关注于预训练模型早退（Early Exiting）机制用于推理加速的文章，关于早退，上一篇 blog 尝试做了一个简单的 survey。文章、首先对之前 Early Exiting 方法在高加速比的需求下效果不好的原因进行了分析，结论是浅层的表示信息不足以及中间层的分类器退出决策不准确所造成的。因此后续我们提出把一大一小两个完整的 BERT 拼接在一起，做级联（Cascade）并且对小模型的输出的概率分布进行校准，使得其退出决策更加可靠，因而在高加速比的场景下能够取得更好的效果。这边展开一些我关于早退工作的看法。首先，目前大家测试的时候计算加速比的方法不一，而这一点，Xiangyang Liu & Tianxiang Sun 最近做了一个 ELUE benchmark，提供了一个比较好的基准平台；此外，他们尝试在预训练过程中加入早退的目标函数得到了 ElasticBERT，ElasticBERT 所解决的问题也和 CascadeBERT 类似，CascadeBERT 是利用 google 预训练好的模型进行级联，而 ElasticBERT 则是通过预训练来解决了表示不充分的问题，并且更加贴近 early exiting 的 weight sharing 的模式，效果因此也非常的好。另外，效果很好的 FastBERT 主要得益于其更加复杂的中间层分类器，以及在这之上的自蒸馏目标函数，解决了分类器退出不准确的问题。

FormBERT 是我和 Hua Zheng 师姐合作的一篇论文。idea 起源于之前我们合作的 NAACL 论文，那篇 NAACL 尝试利用构词信息（Word Formation）来辅助词义生成，我们很自然地就想到这个思路也可以扩展到词义消歧上。具体来说，“征文”中的“征”如果是动词，那么就是一个“Verb-Object”的构词，则对应的“征文”对应的是一个动作；反过来，如果“征”是个定语来修饰“文”，则对应的“征文”就是一个名词，指的是“征收的文章”：

FormBERT

基于此，我们首先构建了带有构词信息的数据集，并且尝试在 WSD 中加入这样的信息，并且引入了一个构词预测模块，来降低推理阶段对这种外部信息的意外。实验发现能够利用构词信息确实能够带来一定的增益。这篇文章的思路本身是挺直接的，但是对于中文构词信息的利用之前鲜有人尝试，Hua Zheng 师姐一系列的工作一直在挖掘这点，我觉得很成体系并且是对中文信息处理很有益处的。数据集因为版权问题暂时还不能 release 出来，应该在不久的将来就能够公布。

Rebuttal

我原先对于 Rebuttal 的认知是一个鸡肋定位的东西，因为审稿人基本不太会看 Rebuttal，因而改分这种事情就变得非常随缘，但是不 rebuttal 又很气，因为有些审稿人实在是太粗心，所以还得老老实实 rebuttal。但是最近几次 rebuttal 都很 lucky 的逆天改命，让我对 rebuttal 又重新燃起了希望。并且最近 Guangxiang 给我们分享了一个 rebuttal 攻略，他亲测在 NeurIPS 上提了 2 分。攻略来自一个 OSU 的团队的 blog，里边有很多 TIPS，这边摘取一些我认为比较核心的分享给大家。

Audience & Goal

首先，搞清楚 rebuttal 的受众和目标很重要，而 rebuttal 的受众其实就两类人：

(1) reviewers，但因为审稿的随机性，审稿人对于你 Paper 了解程度的方差是很大的，因此一些比较难以 get 的东西他们扫一眼过去是看不到的，并且当他们看 rebuttal 的时候，他大概率不记得很多的细节；

(2) AC，对于你的 paper 他是更加不了解的，我们对他们最大程度的假定就是他会读 reviews & rebuttal。

搞清楚受众之后，我们的目标也对应的分成两类：

(1) 对于审稿人，澄清他们的疑惑，回答问题，修正他们的误解，并且回击错误的审稿意见，整合他们的反馈来提升工作的价值；

(2) 对于AC：令他们相信，你的工作做的很好，让他明白 reviewer 的关心的问题在 rebuttal 中很好的解决了，同时，尝试着帮他写一个 meta-review 来提炼文章的亮点，引导他做出决定

这里的 (2) 实际上是我之前一直容易忽略的一个视角，也就是说 rebuttal 是给 AC 看的，搞清楚这一点之后，我们就可以从一个更高的视角来审视 rebuttal。一个合格的 rebuttal，应该能让一个中立的第三方在只看 review 和 rebuttal 的时候，做出相应的决策。

TIPS

下面摘录一些重要的 TIPS：

Start positive，第一印象很重要，在 review summary 中一定要多一些正面的表述，不然 AC 上来一看都是 negative 那就很容易有先入为主的负面印象，进而造成之后他的决策不利于你的paper；
分清主次问题：对于重要的问题，能够被清楚的回答的问题，将它们的顺序往前往。不需要 care 审稿人是否在意顺序的对应，因为他们大概率忘了自己文了什么（x
回答问题背后的问题：有些时候审稿人问的一个问题 A，其实并不是想问问题 A，而是想问问题 B，这个时候你得猜出他想问 B 并且回答 B。这个还挺难的，所以得仔细推敲。
保持对话的氛围：Rebuttal 并不是让大家吵架，而更多的是一个 discuss 的过程，所以行文的格式上如果有一种你方问罢我解答的对话感觉，就可以让人身心愉悦，进而增加中稿稿率；
适当强调，明确的回答/实验结果可以适当 highlight，不然容易 catch 不到终点；
用事实说话，即使不能增加结果，若是已有的结果能够明确的回应 reviewer 的关切，那么直接摆证据是最 convincing 的。

这些策略给我独立写 rebuttal 的时候提供了很大的帮助，并且我在 AAAI rebuttal 的过程中也应用了相应的策略，虽然不知道结果如何，这个攻略把 rebuttal 这事很好的系统化了，可以说有攻略在手，rebuttal 不慌。

祝我自己以及大家好运 :) ！

展开全文 >>

A Brief Survey on Dynamic Early Exiting

2021-10-19

随着如 BERT、RoBERTa 等预训练模型在一众自然语言处理任务上取得了出色的表现，如何在取得较好性能的前提下，缩小模型的大小，加快模型的推理速度，成为了学术界和工业界的一个热门的研究方向。这篇文章将会介绍基于动态提前退出（ Dynamic Early Exiting）的预训练模型推理加速方面的系列工作。

动态提前退出

Dynamic Early Exiting（动态提前退出）的核心是根据样本的难度来匹配相应的计算量，这一思想在之前的不少文献中都已有体现，例如在 RNN 中根据样本难度决定所需的时间步 (ACT)， CV 领域的Shallow-Deep Network/动态深度网络等。将这一思想应用到如 BERT 的预训练的模型上，我们可以把模型的 Layer 视作是一个固定的时间步/深度，则 BERT(base) 实际上对每个样本都同等地执行了 12 层的前向计算。然而，样本之间是普遍存在难度差异的，对于一些比较简单的样本，或许前几层的 BERT Layer 表示就足以支撑模型进行正确的预测，则后续的计算都可以认为是冗余的，从而可以省去以提升推理的速度。

基于这个思想，一个最为直接想法跃然纸上，我们可以在每个层之后增加一个线性分类器，然后每执行一层模型，就拿着得到的表示去过分类器得到输出结果，并且根据这个输出结果来判断是否可以直接退出，或者继续执行下去，直到模型的最后一层，整个框架的示意图如下：

框架有了，那么如何进行是否要退出模型的决策呢？发表在 ACL 2020 上的 DeeBERT 采用了一个非常启发式的指标，即模型预测概率分布的熵，若其熵小于某个特定的阈值，说明模型对于当前的预测足够自信，则可以退出，否则则需要继续执行下一层，整体的算法如下：

deebert-algorithm

最后则就是中间的这些分类器应该如何训练，DeeBERT 采用的是两阶段的方案，第一个阶段就是简单的 Fine-tuning，训练模型每一层的表示以及最后一层的分类器；第二阶段则固定住中间层的参数以及最后分类器，利用 CE loss 训练中间层的分类器，从而优化中间分类器的分类结果。

模型的评估则是通过设定不同的阈值，比较不同加速比之下的测试集上的平均性能。作者在 GLUE 的分类数据集上进行了实验，发现相比于 DistilBERT 这类静态模型压缩的方法，能够取得更好的推理加速的效果：

deebert-ret

无独有偶，同样是 ACL 2020，还有两篇也是基于动态退出的想法进行 BERT 推理加速的文章，这里对其简要介绍如下：

FastBERT: 和 DeeBERT 不同之处在于其中间层的分类器用了更加复杂的基于 attention 的分类器，并且在训练中间分类器的时候增加了额外的 self-attention 目标，使得中间层的输出和最后一层分类器的输出保持一致。文章在一种文本分类数据集能够在 ~10x 加速比的情况下保持原始模型的性能。

RightTool: 文章利用中间分类器的预测结果的 confidence，即预测类别的概率值作为退出的指标，并且对其进行了 post-hoc carlibration，以避免 over-confident 的问题。文章和之前的 Paper 不同的地方在于，其对于样本复杂度进行了分析，发现样本长度和难度的相关性很低，而模型的预测的置信度和难度的相关性也不高，相关系数大约在 0.3 附近，这也提示我们说虽然目前基于启发式的退出策略已经取得了不错的成绩，但还有着提升的空间。

改进

后续有不少工作尝试对 Dynamic Early Exiting 的框架进行探究和改进，CascadeBERT 总结了 Dynamic Early Exiting 在高加速比下，即大部分样本都在浅层退出时，会遇到的两个瓶颈问题：(1) 退出决策不鲁棒，即样本难度和中间分类器的分类置信度并不匹配(2) 浅层表示具备的信息不够充分。

对于前者，作者设计了一个用于衡量退出决策和样本难度顺序是否匹配的指标 Difficulty Inversion Score（难度逆序分数），越高说明中间层分类器给出的退出决策和样本难度越一致，文章发现 DeeBERT 的中间分类器在其自己选择退出的样本上进行了分析，发现其依旧无法给出较好的退出决策：

cascadebert-dis

对于后者，作者比较了使用相同层的表示，并且在 DeeBERT 选择退出的样本上进行了性能分析：

cascadebert-layer

发现即使是相较于直接 fine-tune BERT 前几层得到的 BERT-kl，DeeBERT 的性能在只用少数浅层的样本的时候也难以做出相对准确的预测。基于此，CascadeBERT 提出了一种级联不同大小预训练模型的方案，并且在训练过程中加入样本难度相关的正则项，从而使得在较高加速比的情况下也能够保持较好的性能。

同期也有不少工作在这两方面对 Dynamic Early Exiting 进行改进：

更好的退出决策

PABEE 尝试结合中间不同层的退出决策的一致性进行更加鲁邦的退出决策，其核心是当连续某几层的中间分类器都给出一致的预测结果后，认为这一个样本的预测结果以及足够自信，因而可以提前退出：

PABEE

这样的方案简单并且有效，相对于 DeeBERT 都取得了比较明显提升，但因为在设定退出条件的时候需要设置的一致预测层数只能是整数，大大地限制了其加速比的取值范围。类似地，ELBERT 在连续多层分类器给出某个类别上单调递增的概率之后触发退出。

Early Exiting with Ensemble 指出目前的动态退出框架距离性能的上限仍然存在巨大的空间，假设存在 oracle 模型能够在最早的完成正确预测的一层退出，这一情况即下的加速比即是理论的一个上限，而目前不同的方法还存在很大的改进空间，下图的右上角是理论的上界，而大部分的方法都落在了图中的左下部位：

ensemble

作者基于 Ensemble 理论，推导出一个目标函数，使得不同层的 classifier 在正确的类别上预测一致，而错误类别上的分布尽量拉大，进而增加了中间分类器预测的 Diversity，使得后续基于 Ensemble Voting 的退出决策更加准确。在多个数据集上的实验结果也证明了这一点：

ensemble-result

类似地，LeeBERT 使中间的分类器进行 Mutual Distillation，并且对不同层的分类器的 loss 赋以不同的可学习的权重，以提升退出决策的质量。

更好的中间表示

前面提到，CascadeBERT 指出 BERT 浅层的样本表示可能不足以支撑分类器进行正确的分类决策，因其，其作者提出将中间层退出改为在不同大小的预训练模型（例如，一个 2层的 BERT 和一个 12 层的 BERT）之中进行级联退出，因为 2 层的 BERT 也是从头预训练得到，因而其样本表示具备比较完整的语义信息，从而能得到一个比较好的效果：

cascadebert-result

Global Past-Future 则尝试利用 imitation learning，一方面利用所有浅层的样本表示，另外一方面尝试预测出更深层的样本表示来作为辅助信息，进而提升分类的效果：

应用

动态提前退出不仅仅可以应用在简单的分类任务上，不少研究也尝试将其拓展到更加不同的任务上。

BERxiT 利用一个额外学习 learn-to-exit 模块，根据当前的样本表示给出一个是否要退出的决策，这一就可以将这一思想应用到回归任务上。

Early Exiting for Sequence Labeling 更近一步地拓展到了序列标注任务上，其根据序列标注任务的特点，设计了两种退出的机制：Sentence-level Early Exit (SENTEE) 以及基于局部 token 的不确定性设计的 Token-level Early Exit（TOKEE):

sentee

句子级别的退出机制和 DeeBERT 类似，就不再赘述。Token 级别的退出，则是基于上下文窗口 $k$ 中所有 Token 的预测不确定度的最大值，若是其超过了某个设定的阈值，则后续的计算过程中，这一 token 的表示将不再被重复计算，而是直接传递到下一层，进而能够将 A ttention计算量从 $O(N^2d)$ 到 $O(NMd)$，$N$ 和 $M$ 分别是序列长度和没有退出的 token 的数量，$d$ 是隐层的维度。

SENTEE 和 TOKEE 能够在一众序列标注任务上取得比较高的加速比的同时保持较好的效果：

sentee-result

小结

我们在这篇文章中简要介绍了用于预训练模型推理加速的动态提前退出思想，并且对目前主要的工作和相关改进进行了梳理。此外，这一框架也被拓展到例如序列标注等的多种任务上，展现出了一定的潜力，也期待未来有更多相关工作来探索更好更快的预训练模型。

参考文献

Adaptive Computation Time for Recurrent Neural Networks. Preprint 2016
Shallow-Deep Networks: Understanding and Mitigating Network Overthinking. ICML 2019
DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference. ACL 2020.
The Right Tool for the Job: Matching Model and Instance Complexities. ACL 2020.
FastBERT: a Self-distilling BERT with Adaptive Inference Time. ACL 2020.
CascadeBERT: Accelerating Inference of Pre-trained Language Models via Calibrated Complete Models Cascade. Findings of EMNLP 2021.
BERT Loses Patience: Fast and Robust Inference with Early Exit. NeurIPS 2020.
ELBERT: Fast Albert with Confidence-Window Based Early Exit. Preprint 2021.
Early Exiting with Ensemble Internal Classifiers. Preprint May 2021.
LeeBERT: Learned Early Exit for BERT with Cross-Level Optimization. ACL 2021.
A Global Past-Future Early Exit Method for Accelerating Inference of Pre-trained Language Models. NAACL 2021.
BERxiT: Early Exiting for BERT with Better Fine-Tuning and Extension to Regression. EACL 2021.
Accelerating BERT Inference for Sequence Labeling via Early-Exit. ACL 2021

更多相关的 paper 可以参考复旦大学博士生孙天祥同学整理的 Paper List: awesome-early-exiting，我们也梳理了和预训练模型效率相关的 Paper List: Awesome-Efficient-PLM，包括剪枝（Pruning）、知识蒸馏（Knowledge Distillation）、量化（Quantization）等，也欢迎大家 Star。

展开全文 >>

研一这一年

2021-09-10

欢迎大家关注我的公众号三石杂货铺，第一时间收获更新：

QR Code

园子里的稚嫩面孔多了起来，熙熙攘攘的校门迎来送往，我也在这个门中，度过了完整的春夏秋冬。北京的秋天是很凉爽的，或许当得上是最舒服的一个季节。一年级的第二个学期也比第一个学期舒服了许多。

课程方面，顺利修满了课程的学分，绩点都还看得过去。有趣的是选了一门讲座课，和周明老师吃了个便餐，佩服他从首席科学家到创新工场投资人的转变，也豁然觉得学而优则天使投资人似乎成为了一个新的人生规划选择。这门课更加令我惊讶的是最后的课程展示，我们小组摸鱼的成果居然得了第一名，并且获得了 3000 元的奖金，简直比做梦还梦幻（PS：隔壁寝室拿了第二，这课包圆了被我们）。

生活方面，买了小电驴，对于居住在万柳的我而言幸福指数直线上升，妈妈再也不用担心我要赶班车啦。通勤更加方便以外，有了车之后的活动半径也扩大了很多，可以动不动到五道口吃个网红餐厅。如果说有什么缺点的话，就是下雨的时候不太友好，送的雨披约等于没有并且感觉穿雨衣骑车也很不舒服。好在北京的雨多是阵雨，若是碰上特别大的雨，等一会再打伞骑回去就行。新开的家园食堂也大大丰富了早饭的选择，一方面是开的比较晚，萝卜干星人表示家一早上的萝卜干+菊花粥/豆浆+油条简直是dream breakfast。

运动方面，今年应该是算是超额完成了运动量。首当其中的是在包括黄教练@hlz、王教练@wpy、许教练@xrx、李教练@lyf 以及梦觉教练@梦觉教游泳的帮助下，勉强能够学会游泳。说来惭愧，作为一个游泳大省的学生，居然研一才学会游泳，正是太不应该了。不过相比于一开始连漂浮都困难，目前我已经能够坚持蛙泳50 900米，可以算是一个巨大突破了，希望以后能够多多精进，学学酷炫的其他泳姿。在北大杯代表信科完成首秀，并且出道即巅峰在第一场比赛中完成传射，之后水平断崖式下跌沦为管理员，在对抗比较强的比赛里我还是太容易着急和慌张了，需要多练练。

Research

研究部分得单独列一节来讲讲，这一年下来，经历了几轮的投稿，反复摩擦之后，有挺多感想的，这边就从整个投 paper 的过程来分别谈谈这一年的收获。

选题：

赛道很重要，比较卷的领域，出 paper 真的有挑战。这一年我关注在 Efficient NLP 上，很多公司都在卷这个领域，指标也很明确，说白了就是更快更强。除了刷完指标以外，故事还要能讲的好听，TinyBERT 是很强的 Model 但是最后还是只被 Findings 录用大约就是这个原因，这个领域不是特别的好讲故事。此外，新兴的 topic 容易讲故事则会更容易被接收，但也要思考新兴 topic 是否是本质的问题，有很多昙花一现的 idea，盲目追热点并不可取，还是要守住自己的一亩三分地。对于很卷的领域，我的一个想法是可以另辟蹊径，不要盯着数字，而去在设定以及进行原理的探究，或许是提高录用率的办法。
有趣和有用。我选取的 Efficient NLP 这个领域或许会更加接近有用的研究，但是有用的研究或许是比较枯燥的，考虑和其他同学合作一些自己感兴趣的 topic，是一种增添趣味、增进友谊、增加 publication 的 win-win-win 方案。

实验：

请做正确的假设检验，可以参考这篇文章，平均数也可能是 misleading，因为结果的分布可能是大幅度的 overlap。
对于最终效果而言，数据 >> 对任务的理解 > 模型。这一点的基础是目前大家的Backbone都是 BERT 之流的模型，模型本身的能力已经接近天花板了，数据和任务 inductive bias 的效果比花式叠 blocks 是更加有用的。

写作：

论文写作最难的在于 Introduction，而 Introduction 最难的部分在于你需要 sell your paper，特别需要强调两个方面：

Challenges: 为什么之前的工作没有做好，他们做不好的原因是什么，这里或许就是体现 insight 的地方
Non-trivial: solution/method 要不简单。这里的不简单是指说，换了别人做不了，非你不可。Transformer 核心 idea 很简单，但是其中的设计以及超参的设置并不是随随便便就能做 work 的。内核简单，而外在需要复杂性以体现工作的独到之处，才是一篇好文章。

合作：理解自己的 leader 精神，考虑他人的 workload，合理 credit co-author。

心态：把 research 当成 lifestyle，该吃吃该喝喝，被拒稿再正常不过，认真对待审稿人的意见，甄别性地加以吸收和利用，*CL 投不中没关系，或许换到 AI、Data Mining 的会就能中了，再不行就投个 workshop。因为研究的时效性，一个 paper 的价值可能是不断在衰减的，我们能做的也就只有准备工作的时候尽可能通过选题、方法延长他的半衰期，完成之后，在价值湮灭之前，为他找到归宿就行。

Misc

开了微信读书的会员，但因为骑小电驴没法玩手机，碎片阅读时间大幅缩短，正确固定划拉时间努力回本
尝试了禁食减肥法，效果一度很好，但是还是忍不住得吃饭，又反弹了
Blog 的产出还是不够，不过 paper 还行（逃
美股原地踏步，抄底新东方，让子弹再飞一会吧

新的学年，日拱一卒，坚定向前！

展开全文 >>