注意力

首页 > 注意力

把注意力计算丢给CPU，大模型解码吞吐量提高1.76~4.99倍

CPU+GPU，模型KV缓存压力被缓解了。来自CMU、华盛顿大学、Meta AI的研究人员提出MagicPIG，通过在CPU上使用LSH（局部敏感哈希）采样技术，有效克服了GPU内存容量限制的问题。与仅使用GPU的注意力机制相比，MagicPIG在各种情况下提高了1.76~4.99倍的解码吞吐量，并
2024-12-28 09:55
谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说

谷歌大改Transformer，“无限”长度上下文来了。现在，1B大模型上下文长度可扩展到1M（100万token，大约相当于10部小说），并能完成Passkey检索任务。
2024-04-15 11:18
少于两层的transformer，且只有注意力块，GPT-3：你怕不是搞事情？

只有一层或两层、且只有注意力块的transformer，在性能上有望达到96层、兼具注意力块与MLP块的GPT-3的效果吗？作者 | Mordechai Rorvig编译 | bluemin编辑 | 陈彩娴在过去的两年里，基于Transformer架构开发的大规模语言模型在性能（如语言流畅度）上达到
2023-11-01 08:27
奥尔特曼新年发文：OpenAI开始将注意力转向“超级智能”

财联社1月6日讯（编辑周子意）OpenAI首席执行官Sam Altman在1月6日的最新个人博客中写道，OpenAI将有信心构建通用人工智能（AGI），并且公司已经开始将目标转向“超级智能（superintelligence）”。奥尔特曼还指出，“我们热爱现在的产品，但我们在这里是为了辉煌的未来。
2025-01-07 11:21
ICML2024高分！魔改注意力，让小模型能打两倍大的模型

改进Transformer核心机制注意力，让小模型能打两倍大的模型！ICML 2024高分论文，彩云科技团队构建DCFormer框架，替换Transformer核心组件多头注意力模块（MHA），提出可动态组合的多头注意力（DCMHA）。DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定
2024-06-04 16:34
17篇注意力机制PyTorch实现，包含MLP、Re-Parameter系列热门论文

机器之心报道编辑：陈PyTorch实现各种注意力机制。注意力（Attention）机制最早在计算机视觉中应用，后来又在 NLP 领域发扬光大，该机制将有限的注意力集中在重点信息上，从而节省资源，快速获得最有效的信息。2014 年，Google DeepMind 发表《Recurrent Models
2023-11-02 12:18
Kimi新论文再次“撞车”DeepSeek，都谈到了长文注意力机制

Kimi背后的长上下文处理机制曝光了！这项名为MoBA的新型注意力机制，能将处理1M长文本的速度一下子提升6.5倍，而且还是经过Kimi平台实际验证的那种。
2025-02-20 09:18
无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升

随着大语言模型在长文本场景下的需求不断涌现，其核心的注意力机制（Attention Mechanism）也获得了非常多的关注。注意力机制会计算一定跨度内输入文本（令牌，Token）之间的交互，从而实现对上下文的理解。随着应用的发展，高效处理更长输入的需求也随之增长 [1][2]，这带来了计算代价的挑
2024-11-15 15:27
基于Transformer和注意力的可解释核苷酸语言模型，用于pegRNA优化设计

基因编辑是一种新兴的、比较精确的能对生物体基因组特定目标基因进行修饰的一种基因工程技术。先导编辑（Prime editor, PE）是美籍华裔科学家刘如谦（David R.Liu）团队开发的精准基因编辑系统，PE 是一种很有前途的基因编辑工具，但由于缺乏准确和广泛适用的方法，
2023-11-17 17:33
Sigmoid注意力一样强，苹果开始重新审视注意力机制

注意力是 Transformer 架构的关键部分，负责将每个序列元素转换为值的加权和。将查询与所有键进行点积，然后通过 softmax 函数归一化，会得到每个键对应的注意力权重。尽管 SoftmaxAttn 中的 softmax 具有广泛的用途和有效性，但它并非没有局限性。例如，softmax 函数
2024-11-16 14:30