导语
Transformer已成为大模型的事实标准架构。它的能力边界在哪里?为什么会出错/幻觉?能否/怎样改进?了解Transformer的内部工作机理对这些问题都有基础性意义。本次分享将介绍由注意力头和前馈网络组成的Transformer circuits(回路)的基本概念,通过探寻induction head、indirect object identification (IOI)、事实知识回忆等经典例子的回路理解Transformer完成这些的任务的机制,并介绍回路发现的常用方法的原理。可作为回路研究这个大模型机制可解释性子领域的概览和入门引导。
机制可解释性的两种研究方法
静态分析(权重)
动态分析(回路)
Transformre和回路基础
残差流和线性结构
注意力头和前馈网络的作用
注意力头的组合
Hello World回路:induction head
典型回路举例
indirect object identification (IOI)
事实知识回忆
上下文学习
回路发现
基于patch的方法(activation patching、path patching)
自动化方法(ACDC)
基于梯度的方法(EAP、EAP-IG)
核心概念
Transformer circuit
这个大家都听说过,但是可能又不是特别理解,期待肖达老师的讲解:它的数学框架是什么,为什么有效?
induction head(感应头)
感应头是 Transformer 最基本的情境学习形式。它指的是 Transformer 如何在第二次识别已经见到过的模式,例如观察到"AB"
子序列时学习到模式( "B"
跟随 "A"
),这可能意味着当模型第二次看到 "Barack"
时,即使它没有使用包含此名称的数据进行训练,也能预测 "Obama"
跟随 "Barack"
。
activation patching(激活补丁)
激活补丁(又名因果中介分析、互换干预、因果追踪、重采样消融 ...)是一种核心机械可解释性技术。关键思想是,对于给定的模型行为,只有一组稀疏的组件(头部和神经元)可能是相关的。希望通过因果干预来定位这些组成部分。但是,只要有任何提示,就会涉及到许多模型行为。
Indirect object identification (IOI)
IOI 电路是在 GPT2-small 中发现的,相当庞大且复杂。是指模型内部是否“理解”了谁是接收者。例如,给定句子 "John and Mary went to the shops, John gave a bag to Mary"
,IOI 任务会预测单词 "Mary"
紧跟在单词 "to"
之后。
Edge attribution patching(EAP)
EAP with integrated gradients (EAP-IG)
EAP和EAP-IG通过集成梯度来更好地维护电路的忠实度,从而找到更加忠实的电路。旨在解决语言模型可解释性研究中的一个问题找到能够最小化计算子图的电路,以解释模型在特定任务上的行为?
Automated circuit discovery(自动回路发现,ACDC)
参考文献
经典的思考Transformer基础思想的文章,文章可以分成两个部分,一个部分是如何用数学框架去推理Transformer,比如其代数表达,分解方式,以及一些需要了解的概念性内容;另一部分是在真实语言数据上训练tiny版的transformer,并去解释,验证上部分的内容。本期讲座主讲人会重点讲解,并期待和大家充分讨论的一篇Anthropic发布的研究文献。
Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread 1.1 (2021): 12.
这篇博客建立了一个Transformer的隐喻:一群人排成一队,每人(残差流中的向量)手里拿着一个单词 ([2]) 。每个人都知道自己的单词和在队伍中的位置,但他们看不到队伍中的其他人。每个人的目标是猜出前面的人拿着的单词。人们可以向队伍中站在他们后面的每个人大声提问(前面的人听不到)(注意力头)。听到问题后,每个人都可以选择是否回答,以及将哪些信息传达给提问者(MLP)。此后,人们不会记住他们被问到的问题(因此信息不能在队伍中后退,只能前进)。当队伍中的个人从这些交流中收集信息时,他们可以使用这些信息来组织后续问题并提供答案。
Callum McDougall. An Analogy for Understanding Transformers — EA Forum
IOI 电路是在 GPT2-small 中发现的,相当庞大且复杂。在大模型(如GPT)的机制分析中,“indirect object identification” 可能指模型内部是否“理解”了谁是接收者。
Wang, Kevin, et al. "Interpretability in the wild: a circuit for indirect object identification in gpt-2 small." arXiv preprint arXiv:2211.00593 (2022).
这是一篇关于大语言模型的提取过程的文献,提出一种三阶段提取方法。
阶段1:发生在Transformer底层,实体的最关键的词汇会不断集成信息,触发更多相关属性词汇。
阶段2:发生在Transformer底层,上下文的重要信息通过Attention集成到提示词最后一个位置。
阶段3:发生在Transformer高层,最后一个位置在高层通过Attention Heads把编码的知识提取出来(Attention Head里会编码<实体-属性>信息)。
Geva, Mor, et al. "Dissecting recall of factual associations in auto-regressive language models." arXiv preprint arXiv:2304.14767 (2023).
本文提出了自动回路发现的算法ACDC,递归地构建一个子图,该子图通过将模型激活修补到与特定任务相关的数据点上来识别。作者证明,ACDC 能够基本忠实地恢复先前研究人员在各种任务(尤其是 Python 文档字符串、IOI 和Induction head)中手动识别的电路。
Conmy, Arthur, et al. "Towards automated circuit discovery for mechanistic interpretability." Advances in Neural Information Processing Systems 36 (2023): 16318-16352.
这篇文献提出了一种新的方法——EAP-IG,它通过集成梯度来更好地维护电路的忠实度,从而找到更加忠实的电路。旨在解决语言模型可解释性研究中的一个问题:如何找到能够最小化计算子图的电路,以解释模型在特定任务上的行为?
Hanna, Michael, Sandro Pezzelle, and Yonatan Belinkov. "Have faith in faithfulness: Going beyond circuit overlap when finding model mechanisms." arXiv preprint arXiv:2403.17806 (2024).
肖达,人工智能公司彩云科技联合创始人、首席科学家、北京邮电大学网络空间安全学院副教授。
研究方向:主要负责深度神经网络模型和算法的研发用于彩云天气、彩云小译、彩云小梦等产品。
2025年6月19日(周四)晚上19:30-21:30
https://pattern.swarma.org/study_group_issue/919?from=wechat
大模型可解释性读书会
集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起「大模型可解释性」读书会。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:
自下而上:Transformer circuit 为什么有效?
自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?
更新时间:2025-06-18
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号