
Aofeisi Qubits的亨利|官方帐户QBITAI大型语言模型仅在解决精神算术问题时仅取决于最后一个令牌?最近,加利福尼亚大学,圣克鲁斯大学,乔治·梅森大学和Datadog的研究人员发现,在心理算术活动中,几乎所有实际的数学计算都集中在采用的最终代币中,而不是分散在所有标记上。这意味着,与通常访问有关变形金刚和多层感知器(MLP)的全局信息相比,在诸如算术思想之类的特定活动中,全局访问并不是绝对必要的 - 它可以查询每个令牌,并在预测时使用上面的全部信息。这是怎么回事?精神算术中只有最后一个令牌?呢通常,研究人员使用上下文 - 加索材料,这意味着基于基于技术的基于注意的注意力(CAMA)基于注意的注意力技术,以对变压器建筑师进行一系列消融实验乌拉尔模型,例如Llama-3-8B。这些实验被系统地删除或修改了模型零件,以探索可以使模型固定的“最小计算量”。在此过程中,研究人员发现,在模型中将开发一个稀疏的子图 - 他们称其为“一个af1)。该子图允许该模型在计算的最小计算层和最有限的信息传递中有效地完成操作。大型语言模型的“黑匣子”采用了以下三个步骤,首先是该模型的初始层,可防止特定输入的令牌。IC活动,每个令牌可能从一开始就无法获取全球信息。因此,研究人员介绍了一个等待期(L_WAIT):让L_WAIT上一层中的令牌独立计算,仅执行一般NA任务的操作(例如了解算术结构的数字和识别),而不是访问其他令牌。为了实现这一目标,他们使用了上下文意识,这意味着消融(CAMA)的角色是阻碍令牌之间的信息特定输入,同时保持每个令牌计算的通用计算能力,从而使模型可以完成基本的准备工作,而无需依赖特定的输入。接下来,以几层限制整个令牌位置的信息传输路径。最后一个令牌只能访问l_transfer层中的所有令牌,其余层仅专注于自己。最后,迫使所有计算发生在其余层中的最后一个令牌中。 sINCE CAMA只能从第一层开始,研究人员介绍了一个可以控制任何一层信息的程序 - 基于注意力的窥视(ABP),它可以通过更改注意力掩码来确切地定义了每个“ Query”令牌的“ keys”,每个“ Query”代币。在本文中,研究人员主要使用两种模式:全曲:代币可以在此之前集中在所有令牌上,这是由注意力引起的标准。在AF1交付期间,最后一个令牌使用此模式来收集信息。自称:令牌只能专注于自己。在交付阶段和计算中,所有非诗意令牌都使用此模式。在计算阶段,最终令牌也切换到了此模式。实验验证完成了操作的过程和过程后,研究人员进行了一系列实验,证明和研究了AF1的子图。它主要涉及Llama-3-8B和Llama-3.1-8B,以及Pytho的验证NIA和GPT-J模型。首先,通过消融和窥视实验的三个阶段,研究人员发现,Llama-3-8b仅需要前14个层即可在A+B+C工作中进行一般计算(CAMA层)的工作,然后最后一个标记通过2层交付信息获得了全球信息,而剩余的层次则是使自我计算的自我计算的效果。该子图几乎所有表现都被命名为AF1_LLAMA,研究人员进一步证明了Af1_llama对Llama-3-8B和Llama-3.1-8B的表现。实验表明,AF1_LLAMA在八项活动中总体上表现出很高的诚实。 Morefurther,该实验进一步证实了向Llama-3-8B上15和16层传递信息的重要性。研究表明,某些注意力的负责人对于算术计算至关重要,即使删除了近60个头部,该模型也可以保持约95%的精度,表明大多数头痛是多余的,而MAI则是多余的。n头集中在几层中。此外,要探索代表A+B和A-B操作的其他算术形式的AF1_LLAMA是否可以在Llama-3-8b中进行,进一步研究介绍了对Python应用程序或代码问题的操作和嵌入式操作的口头描述。实验表明,AF1_LLAMA在直接算术活动中仍然保持高精度,而这些活动不包含其他语义上下文。但是,它完全失败了需要语义理解的活动,例如Python应用程序和代码问题,这表明它需要其他成分来处理其他功能,例如了解Python程序的自然语言或输入。最后,研究人员还发现了类似于Python和GPT-J中AF1的子图,但是与Llama不同,这些模型的等待期更短(L_WAIT≈9-11),信息传输层较长,并且比较明确的性能界限。骆驼。尽管忠诚度通常低于骆驼,但用于二进制计算任务的子图仍然可以恢复模型原始准确性的一半以上。通常,这项工作有助于算术推理和对大语言模型中交叉计算的机械理解。此外,它通过CAMA和ABP提供了创新的方法,以提供算术活动以外的更多应用。 [1] https://x.com/rohanpaul_ai/status/19666788202238448101 [2] https://www.arxiv.org/pdf/pdf/2509.09650
特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。
注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。