Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Memory Layers – Meta 开源不增加算力时增加大模型的参数方法
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Memory Layers – Meta 开源不增加算力时增加大模型的参数方法
AIGC 资讯

Memory Layers – Meta 开源不增加算力时增加大模型的参数方法

站外新闻
最近更新: 2026年6月9日 上午11:37
SHARE

Memory Layers是什么

Memory Layers是Meta推出的用可训练的键值查找机制为模型增加额外参数的方法,它不会增加浮点运算次数(FLOPs)。基于稀疏激活Memory Layers补充计算密集型的前馈层,提供专门的容量廉价地存储和检索信息。Memory Layers在大规模语言模型中显示出显著的实用性,尤其是在处理事实性任务时,能显著提高模型的性能。基于替换Transformer层中的一个或多个前馈网络(FFN)与记忆层,在不显著增加计算成本的情况下,显著提升模型的事实准确性和知识获取能力。

阅读目录
  • Memory Layers是什么
  • Memory Layers的主要功能
  • Memory Layers的技术原理
  • Memory Layers的项目地址
  • Memory Layers的应用场景

memory layers

Memory Layers的主要功能

  • 参数扩展:支持模型在不增加计算负担(即不增加FLOPs)的情况下增加额外的参数,扩展模型的容量。
  • 信息存储与检索:提供专门的机制存储和检索信息。
  • 补充密集层:与计算密集型的前馈层(feed-forward layers)互补,基于稀疏激活模式提供信息存储和检索的专用容量。
  • 提高事实准确性:在事实性任务中,显著提高语言模型的准确性,让模型更准确地记忆和使用训练数据中的事实。
  • 性能提升:在计算和参数匹配的情况下,让模型性能超过传统的密集模型和混合专家模型。

Memory Layers的技术原理

  • 键值查找机制:基于简单的键值查找机制工作,其中键和值都编码为嵌入向量。给定查询向量q,及一组键K和值V,输出是值的一个软组合,权重根据q与对应键的相似度确定。
  • 稀疏激活:与传统的注意力机制不同,Memory Layers中的键和值是可训练的参数,而不是激活值。由于键和值的数量通常很大,Memory Layers需要进行稀疏查找和更新,只有与查询最相似的top-k键和对应的值参与输出计算。
  • 产品键查找:为解决大规模记忆中查询-键检索的瓶颈,Memory Layers采用产品量化键(product-quantized keys),用两组较小的键有效地执行全键集的top-k查找。
  • 并行化实现:由于Memory Layers对内存的需求很大,在多个GPU上并行化嵌入查找和聚合实现大规模扩展。
  • 共享记忆参数:用共享的记忆参数池,在不增加参数数量的情况下,基于多个记忆层增加性能。

Memory Layers的项目地址

  • 项目官网:https://ai.meta.com/research/publications/memory-layers-at-scale/
  • GitHub仓库:https://github.com/facebookresearch/memory
  • arXiv技术论文:https://arxiv.org/pdf/2412.09764

Memory Layers的应用场景

  • 问答系统:在问答系统中,帮助模型记住和检索大量的事实信息,提供准确的答案。
  • 语言模型:在自然语言处理中,增强语言模型的记忆能力,在处理长文本和复杂对话时更加有效。
  • 推荐系统:在推荐系统中存储用户的历史行为和偏好,提供更个性化的推荐。
  • 知识图谱:在知识图谱的应用中,存储和检索实体之间的关系,支持复杂的查询和推理。
  • 对话系统:在对话系统中,帮助模型记住对话历史,让对话更加连贯和自然。
Video Alchemist – AI视频生成模型,具备多主体开放集合个性化能力
字节Seed团队开源Protenix-v1:性能对标AlphaFold 3,生物分子结构预测迎来新突破
Gemini Embedding – 谷歌推出的文本嵌入模型
Kimi K2系列API正式下线:详解停服影响、用户迁移指南与K2.6新版本核心优势
重磅!ChatGPT深度整合PowerPoint:用自然语言秒生幻灯片,AI办公自动化进入多模态全流程时代
分享
Email 复制链接 打印
Share
上一篇 AddressCLIP – 中科院联合阿里云推出的端到端图像地理定位大模型
下一篇 OptoChat AI – 南智光电联合南大推出的光子芯片领域专用大模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

OpenAI发布GPT-5.3 Instant:轻量级模型免费用,AI对话更自然、幻觉率显著降低
AI 工具 AIGC 资讯
GPT-5.4重磅发布:OpenAI旗舰模型首次在电脑操作上超越人类,专业工作效率提升83%
AI 工具 AIGC 资讯
蚂蚁集团发布Ming-flash-omni-2.0:开源全模态大模型,引领AI理解与生成一体化新范式
AI 工具 AIGC 资讯
OpenAI发布GPT-5.3-Codex-Spark:1000+ tokens/s实时编程模型,速度提升80%的开发神器
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

k1.5 – Kimi推出的多模态思考模型

站外新闻
AI 工具AIGC 资讯

腾讯开源Covo-Audio:70亿参数端到端语音大模型,挑战GPT-4o的实时对话新标杆

站外新闻
Covo-Audio 全双工交互 端到端语音模型 腾讯开源 语音大模型
AIGC 资讯

MemU开源记忆框架:让AI情感陪伴更懂你,92%准确率+50ms检索速度

站外新闻
AI记忆框架 MemU 情感陪伴 知识图谱
量子芯片科技感占位特色图
AI 工具AIGC 资讯

Meta 全球强推 ‘Meta One’ 订阅生态:AI 算力+社交增值+商业赋能,开启万亿营收第二曲线

站外新闻
AI订阅 Meta One Meta Verified 企业服务 社交订阅
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.