Transformer

首页 > Transformer

颠覆Transformer霸权！CMU普林斯顿推Mamba新架构，解决致命bug推理速度暴增5倍

原文来源：新智元由无界 AI生成深度学习进入新纪元，Transformer的霸主地位，要被掀翻了？2017年6月12日横空出世，让NLP直接变天，制霸自然语言领域多年的Transformer，终于要被新的架构打破垄断了。Transformer虽强大，却有一个致命的bug：核心注意力层无法扩
2023-12-06 10:09
Transformer王者归来！无需修改任何模块，时序预测全面领先

原文来源：新智元由无界 AI生成近年来，Transformer在自然语言处理以及计算机视觉任务中取得了不断突破，成为深度学习领域的基础模型。受此启发，众多Transformer模型变体在时间序列领域中被提出。然而，最近越来越多的研究发现，使用简单的基于线性层搭建的预测模型，就能取得比各类魔
2023-10-21 10:13
五倍吞吐量，性能全面包围Transformer：新架构Mamba引爆AI圈

文章来源：机器之心屹立不倒的 Transformer 迎来了一个强劲竞争者。由无界 AI 生成在别的领域，如果你想形容一个东西非常重要，你可能将其形容为「撑起了某领域的半壁江山」。但在 AI 大模型领域，Transformer 架构不能这么形容，因为它几乎撑起了「整个江山」。自 2017
2023-12-06 10:09
谷歌DeepMind力证：GPT-4终局是人类智慧总和！Transformer模型无法超越训练数据进行泛化

Transformer模型是否能够泛化出新的认知和能力？最近，谷歌的研究人员进行了有关实验，对于这一问题给出了自己的答案。原文来源：新智元由无界 AI生成Transformer模型是否能够超越预训练数据范围，泛化出新的认知和能力，一直是学界争议已久的问题。最近谷歌DeepMind的3位研究
2023-11-07 10:06
Transformer不读《红楼梦》，上下文长度真的越长越好？

原文来源：硅星人由无界 AI生成在 Transformer 的自注意力（self-attention）机制中，每个token都与其他所有的token有关联。所以，如果我们有n个token，那么自注意力的计算复杂性是O(n^2)。随着序列长度n的增加，所需的计算量和存储空间会按平方增长，这会
2023-12-17 10:25
马斯克让盗梦空间成真？初创公司用Transformer诱导清醒梦，Neuralink技术操控梦境效果惊人

原文来源：新智元由无界 AI生成你是否曾有过在自己梦中醒来的奇怪经历？那时，你还没有完全清醒，能感觉到周围有一个梦境，但你已经有足够的意识，来控制幻影的一部分。对于大约一半的成年人来说，这种「清醒梦」有着非凡的意义，根据调查，他们一生中至少做过一次清醒梦。这就是为什么科技初创公司Proph
2023-11-22 10:09
无需额外训练提升模型30%性能！DeepMind科学家点赞MIT博士生实习成果

一个来自MIT博士生的惊人发现：只需对Transformer的特定层进行一种非常简单的修剪，即可在缩小模型规模的同时显著提高模型性能。效果主要体现在文本理解任务上，最高可达30%。
2024-01-01 10:07
简化版Transformer来了，网友：年度论文

原文来源：机器之心由无界 AI生成Transformer 架构可以说是近期深度学习领域许多成功案例背后的主力军。构建深度 Transformer 架构的一种简单方法是将多个相同的 Transformer 「块」（block）依次堆叠起来，但每个「块」都比较复杂，由许多不同的组件组成，需要以
2023-11-29 10:03
Transformer变革3D建模，MeshGPT生成效果惊动专业建模师，网友：革命性idea

原文来源：机器之心连续「预测下一个 token」能生成句子，同理，连续「预测下一个三角形网格」也能生成 3D 模型。由无界 AI生成在计算机图形学中，「三角形网格」是 3D 几何物体的主要表现形式，也是游戏、电影和 VR 界面中主要使用的 3D 资产表示方法。业界通常基于三角形网格来模拟复
2023-11-30 10:04
黑客帝国真实存在？矩阵模拟！Transformer大模型3D可视化，GPT-3、Nano-GPT每一层清晰可见

原文来源：新智元由无界 AI生成黑客帝国中，「矩阵模拟」的世界或许真的存在。模拟人类神经元，不断进化的Transformer模型，一直以来都深不可测。许多科学家都试着打开这个黑盒，看看究竟是如何工作的。而现在，大模型的矩阵世界，真的被打开了！一位软件工程师Brendan Bycroft制作
2023-12-06 10:08