Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 小红书hi lab重磅开源dots.llm1:1420亿参数MoE大模型,性能对标Qwen2.5-72B
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 小红书hi lab重磅开源dots.llm1:1420亿参数MoE大模型,性能对标Qwen2.5-72B
AI 工具AIGC 资讯

小红书hi lab重磅开源dots.llm1:1420亿参数MoE大模型,性能对标Qwen2.5-72B

站外新闻
最近更新: 2026年6月7日 下午8:27
dots.llm1 MoE 小红书hi lab 开源模型
SHARE

💡 站外导读:在开源大模型竞争白热化的当下,如何用更高效的架构和更优质的数据,在可控成本内训练出性能顶尖的模型,是业界共同面对的痛点。小红书hi lab此次开源dots.llm1,正是一次面向这一挑战的有力回应。该模型基于Mixture of Experts(MoE)架构,在拥有巨量参数的同时,通过专家激活机制大幅降低实际计算开销,并在11.2T高质量token上完成预训练,展现了在通用与专业任务上与顶级密集模型一较高下的实力。

dots.llm1是什么

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,具有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上进行预训练,用高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 优化技术,训练效率显著提升。基于精心设计的数据处理流程和两阶段监督微调,dots.llm1 在中英文通用场景、数学、代码等任务上表现出色,与 Qwen2.5-72B 等模型相比具有较强的竞争力。hi lab 团队开源了 Pretrain 阶段每 1T token 的 checkpoint 和 Instruct 模型,为大模型社区提供丰富的研究基础,助力推动大模型技术的发展。

阅读目录
  • dots.llm1是什么
  • dots.llm1的主要功能
  • dots.llm1的技术原理
  • dots.llm1的项目地址
  • dots.llm1的应用场景
      • 📝 站长洞察 (Editor’s Insight)

dots.llm1

dots.llm1的主要功能

  • 多语言文本生成:支持生成高质量的中英文文本,适用多种场景,如写作辅助、内容创作等。
  • 复杂指令遵循:理解和执行复杂的指令,完成特定任务,如数据整理、代码生成等。
  • 知识问答:提供准确的知识问答服务,帮助用户获取所需信息。
  • 数学与代码推理:具备数学计算和代码推理能力,解决数学问题和编写简单代码。
  • 多轮对话:支持多轮对话,与用户进行自然流畅的交流,理解上下文并给出恰当回应。

dots.llm1的技术原理

  • Mixture of Experts (MoE) 架构:dots.llm1 是基于 Decoder-only Transformer 的 MoE 模型,用 6in128 Expert 配置,即每个 token 最多激活 6 个专家,共有 128 个专家。在 1420 亿参数中,每次前向传播只激活 140 亿参数,基于门控机制选择最相关的专家进行计算,提高计算效率。
  • 高效的数据处理和训练框架:用 11.2T 高质量 token 数据进行预训练,数据来源包括 Common Crawl 和自有 Spider 抓取的 web 数据,经过多轮清洗和过滤,确保数据质量。基于 Interleaved 1F1B 流水并行的 AlltoAll overlap 和高效 Grouped GEMM 实现,显著提升训练效率。
  • 两阶段监督微调:对全量数据进行两轮基础训练,基于采样、动态学习率调整等技术,初步释放模型潜力。针对数学与代码等特定领域,引入拒绝采样微调,结合验证器筛选高置信度重要样本,进一步提升模型的推理性能。
  • 学习率调度与超参数优化:基于 WSD 学习率调度方式,在学习率稳定阶段保持 3e-4 训练 10T token 语料,退火阶段分两个阶段训练 1.2T token 语料,逐步降低学习率。在训练过程中,调整 batch size 等超参数,确保训练过程稳定,避免出现 loss spike。

dots.llm1的项目地址

  • GitHub仓库:https://github.com/rednote-hilab/dots.llm1
  • HuggingFace模型库:https://huggingface.co/rednote-hilab
  • arXiv技术论文:https://github.com/rednote-hilab/dots.llm1/blob/main/dots1_tech_report.pdf

dots.llm1的应用场景

  • 内容创作:辅助写作文案、故事、新闻等,提供创意灵感与写作建议。
  • 教育学习:用在语言学习、编程教育和知识问答,辅助学习者提升能力。
  • 商业办公:构建智能客服,生成数据分析和市场调研报告,助力企业运营。
  • 编程开发:生成代码片段、代码文档,提供调试建议,提高开发效率。
  • 个人助理:管理日程、规划任务、整理信息,提升个人工作与生活效率。

📝 站长洞察 (Editor’s Insight)

dots.llm1的发布,清晰地指向了当前大模型发展的两个核心趋势:效率与开放。其采用的MoE架构并非新鲜事,但小红书hi lab通过“6in128”的专家配置、创新的Interleaved 1F1B流水并行及Grouped GEMM优化,将‘用更少的计算激活更多智能’的工程哲学发挥到了新高度。这不仅是技术细节的优化,更是对如何经济、可持续地训练超大规模模型这一产业级难题的系统性思考。

更值得关注的是其‘全开源’策略——不仅开源最终模型,更开放了预训练阶段的全部checkpoint。这相当于将一份详尽的‘大模型成长日记’公之于众,极大地降低了研究社区复现、诊断和二次开发的门槛。它标志着开源竞争已从单纯的模型参数竞赛,深化为对训练过程透明度、可复现性与生态赋能能力的全面比拼。这不仅仅是一个模型的发布,更是中国AI力量在开源路线上一次有诚意的、旨在推动整个社区前进的示范性动作。

美团发布VitaBench:首个生活场景大模型Agent评测基准,66个工具与跨场景任务重新定义AI评测
OceanBase开源AI原生数据库Seekdb:三行代码构建应用,支持向量、全文、地理空间多模态混合搜索
MAI-Image-2.5 – 微软推出的旗舰级文生图模型
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
VimRAG重磅开源:阿里通义首创多模态记忆图,企业级图文视频RAG精度飙升50%
TAGGED:dots.llm1MoE小红书hi lab开源模型
分享
Email 复制链接 打印
Share
上一篇 华中科技×金山办公发布MonkeyOCR:解析精度飙升15%,每秒0.84页,专治公式表格难题的文档AI神器
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

华中科技×金山办公发布MonkeyOCR:解析精度飙升15%,每秒0.84页,专治公式表格难题的文档AI神器
AI 工具 AIGC 资讯
趣丸科技发布Playmate框架:音频驱动,精准控制表情与姿态的AI人脸动画生成革命
AI 工具 AIGC 资讯
蚂蚁Ming-Flash-Omni 2.0全模态大模型重磅开源:100B参数MoE架构,统一音视频文本理解与生成
AI 工具 AIGC 资讯
GPT-5.3-Codex-Spark:OpenAI实时编程神器,1000+ tokens/秒,重新定义开发者交互体验
AI 工具 AIGC 资讯

相关推荐

AI 工具

Nof1.ai交易提示词终极指南:AI量化交易系统如何实现自动决策与风险管理

站外新闻
AI交易系统 交易提示词 加密货币 量化交易 风险管理
AIGC 资讯

Gemma 3 QAT – 谷歌推出的最新开源模型,Gemma 3 量化版

站外新闻
AIGC 资讯

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

站外新闻
AI 工具AIGC 资讯

阿里通义开源 Wan2.2-S2V:一张图+一段音频,分钟级生成电影级数字人视频的多模态大模型

站外新闻
AIGC 多模态模型 数字人 视频生成 通义万相
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.