SAM2.1上新、Lingua代码库发布，一大波Meta开源工具来袭

首页 > AI资讯 > 行业动态 > SAM2.1上新、Lingua代码库发布，一大波Meta开源工具来袭

SAM2.1上新、Lingua代码库发布，一大波Meta开源工具来袭

新火种 2024-11-16

今天，Meta 分享了一系列研究和模型，这些研究和模型支撑 Meta 实现高级机器智能（AMI）目标，同时也致力于开放科学和可复现性。
这些工作侧重于 AMI 的构建模块，包括感知、语音和语言、推理、具身智能和对齐。研究工作包括 SAM 2.1、Spirit LM、Layer Skip、自学习评估器等。

SAM 2.1
SAM 2 已经被应用于跨学科（包括医学图像、气象学等）研究，并且产生了良好的影响。现在，Meta 宣布推出性能更强的 SAM 2.1。

Meta 引入了额外的数据增强技术来模拟 SAM 2 之前遇到的视觉相似物体和小物体的存在，通过在较长的帧序列上训练模型并对空间和物体指针内存的位置编码进行一些调整，提高了 SAM 2 的遮挡处理能力。

项目链接：https://github.com/facebookresearch/sam2

Spirit LM
大型语言模型经常被用于构建文本到语音 pipeline，其中语音通过自动语音识别 (ASR) 进行转录，然后由 LLM 生成文本，最终使用文本到语音 (TTS) 转换为语音。然而，这个过程损害了语音表达。
为了解决这一限制，Meta 构建了开源多模态语言模型 Spirit LM，实现了语音和文本的无缝集成。

Spirit LM 在语音和文本数据集上使用词级交织方法进行训练，以实现跨模态生成。Meta 开发了两个版本的 Spirit LM，以展示文本模型的语义生成能力和语音模型的表达能力。

论文链接：https://arxiv.org/abs/2402.05755
代码链接：https://github.com/facebookresearch/spiritlm
模型权重：https://ai.meta.com/resources/models-and-libraries/spirit-lm-downloads/

Layer Skip
大型语言模型已在各个行业中广泛采用，但其高计算和内存要求会消耗大量能源，并且可能带来高昂的经济成本。为了应对这些挑战，Meta 提出了一种端到端解决方案 ——Layer Skip，以加快 LLM 在新数据上的生成时间，而无需依赖专门的硬件或软件。

论文链接：https://arxiv.org/abs/2404.16710
代码链接：https://github.com/facebookresearch/LayerSkip
权重链接：https://huggingface.co/collections/facebook/layerskip-666b25c50c8ae90e1965727a

Layer Skip 通过执行其层的子集并利用后续层进行验证和校正来加速 LLM。现在，Meta 又要发布 Layer Skip 的推理代码和微调检查点。Llama 3、Llama 2 和 Code Llama 等模型已经使用 Layer Skip 进行了优化。Layer Skip 可以将模型性能提升高达 1.7 倍。
Lingua
Lingua 是一个轻量级且独立的代码库，旨在助力大规模训练语言模型。Lingua 将使人们更容易将概念转化为实际实验，并优先考虑简单性和可复用性以加速研究。高效且可定制的平台还允许研究人员以最少的设置快速测试他们的想法。

项目链接：https://github.com/facebookresearch/linguaMEXMA
MEXMA 是一种新型预训练跨语言句子编码器。在训练过程中，通过结合 token 层级和句子层级的目标，MEXMA 的表现优于以往的方法。
研究团队发现，之前用于训练跨语言句子编码器的方法仅通过句子表征来更新编码器，而通过引入 token 层级的目标，研究者可以更好地更新编码器，从而改进性能。MEXMA 覆盖了 80 种语言，并且在句子分类等下游任务中表现出色。
- 论文链接：https://arxiv.org/abs/2409.12737
- 模型链接：https://huggingface.co/facebook/MEXMA
代码链接：https://github.com/facebookresearch/mexma

自学习评估器

Meta 在 8 月发表了一篇题为《Self-Taught Evaluators》的论文，提出了自学习评估器，用于生成合成偏好数据来训练奖励模型，无需依赖人工标注。

论文链接：https://arxiv.org/abs/2408.02666
代码链接：https://github.com/facebookresearch/RAM/tree/main/projects/self_taught_evaluator
访问合成数据：https://huggingface.co/datasets/facebook/Self-taught-evaluator-DPO-data
模型链接：https://huggingface.co/facebook/Self-taught-evaluator-llama3.1-70B

同时，Meta 发布了使用直接偏好优化训练的模型。实验结果表明，在 RewardBench 上，虽然在训练数据创建中未使用任何人工标注，但其表现优于更大的模型或使用人工标注标记的模型，如 GPT-4、Llama-3.1-405B-Instruct 和 Gemini-Pro。

Tags:

人工智能代码工具

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

SAM2.1上新、Lingua代码库发布，一大波Meta开源工具来袭

新AI见未来|2024世界人工智能大会·国际AI城市论坛成功举办

第一次见有人把人工智能强化学习讲的这么通俗易懂！

LeCun赞转！类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究揭秘

大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！

高通公司万卫星出席全球AI芯片峰会：以终端侧AI创新开启智能计算全新体验

热门文章

英伟达接到大单：曝苹果斥资10亿购买AI服务器

腾讯混元训练营开营，共创50多个大模型应用场景

性能不等于销量NVIDIA最新AI芯片市场遇冷！客户偏爱成熟老产品

朱啸虎看不上的赛道，腾讯投了150亿独角兽

语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%

腾讯构建AI新矩阵：四大产品线合龙

小米真AI智能眼镜下月发布：双芯架构、自带镜头

DeepSeekV3模型重磅升级！腾讯/微美全息加速AI大模型“上车”多场景落地

微软被曝关闭上海人工智能实验室：Logo被移除办公设备清空