小红书hi lab重磅开源dots.llm1：1420亿参数MoE大模型，性能对标Qwen2.5-72B

💡 站外导读：在开源大模型竞争白热化的当下，如何用更高效的架构和更优质的数据，在可控成本内训练出性能顶尖的模型，是业界共同面对的痛点。小红书hi lab此次开源dots.llm1，正是一次面向这一挑战的有力回应。该模型基于Mixture of Experts（MoE）架构，在拥有巨量参数的同时，通过专家激活机制大幅降低实际计算开销，并在11.2T高质量token上完成预训练，展现了在通用与专业任务上与顶级密集模型一较高下的实力。

dots.llm1是什么

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts（MoE）文本大模型，具有 1420 亿参数，激活参数为 140 亿。模型在 11.2T 高质量 token 数据上进行预训练，用高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 优化技术，训练效率显著提升。基于精心设计的数据处理流程和两阶段监督微调，dots.llm1 在中英文通用场景、数学、代码等任务上表现出色，与 Qwen2.5-72B 等模型相比具有较强的竞争力。hi lab 团队开源了 Pretrain 阶段每 1T token 的 checkpoint 和 Instruct 模型，为大模型社区提供丰富的研究基础，助力推动大模型技术的发展。

阅读目录

dots.llm1是什么
dots.llm1的主要功能
dots.llm1的技术原理
dots.llm1的项目地址
dots.llm1的应用场景

📝 站长洞察 (Editor’s Insight)

dots.llm1

dots.llm1的主要功能

多语言文本生成：支持生成高质量的中英文文本，适用多种场景，如写作辅助、内容创作等。
复杂指令遵循：理解和执行复杂的指令，完成特定任务，如数据整理、代码生成等。
知识问答：提供准确的知识问答服务，帮助用户获取所需信息。
数学与代码推理：具备数学计算和代码推理能力，解决数学问题和编写简单代码。
多轮对话：支持多轮对话，与用户进行自然流畅的交流，理解上下文并给出恰当回应。

dots.llm1的技术原理

Mixture of Experts (MoE) 架构：dots.llm1 是基于 Decoder-only Transformer 的 MoE 模型，用 6in128 Expert 配置，即每个 token 最多激活 6 个专家，共有 128 个专家。在 1420 亿参数中，每次前向传播只激活 140 亿参数，基于门控机制选择最相关的专家进行计算，提高计算效率。
高效的数据处理和训练框架：用 11.2T 高质量 token 数据进行预训练，数据来源包括 Common Crawl 和自有 Spider 抓取的 web 数据，经过多轮清洗和过滤，确保数据质量。基于 Interleaved 1F1B 流水并行的 AlltoAll overlap 和高效 Grouped GEMM 实现，显著提升训练效率。
两阶段监督微调：对全量数据进行两轮基础训练，基于采样、动态学习率调整等技术，初步释放模型潜力。针对数学与代码等特定领域，引入拒绝采样微调，结合验证器筛选高置信度重要样本，进一步提升模型的推理性能。
学习率调度与超参数优化：基于 WSD 学习率调度方式，在学习率稳定阶段保持 3e-4 训练 10T token 语料，退火阶段分两个阶段训练 1.2T token 语料，逐步降低学习率。在训练过程中，调整 batch size 等超参数，确保训练过程稳定，避免出现 loss spike。

dots.llm1的项目地址

GitHub仓库：https://github.com/rednote-hilab/dots.llm1
HuggingFace模型库：https://huggingface.co/rednote-hilab
arXiv技术论文：https://github.com/rednote-hilab/dots.llm1/blob/main/dots1_tech_report.pdf

dots.llm1的应用场景

内容创作：辅助写作文案、故事、新闻等，提供创意灵感与写作建议。
教育学习：用在语言学习、编程教育和知识问答，辅助学习者提升能力。
商业办公：构建智能客服，生成数据分析和市场调研报告，助力企业运营。
编程开发：生成代码片段、代码文档，提供调试建议，提高开发效率。
个人助理：管理日程、规划任务、整理信息，提升个人工作与生活效率。

📝 站长洞察 (Editor’s Insight)

dots.llm1的发布，清晰地指向了当前大模型发展的两个核心趋势：效率与开放。其采用的MoE架构并非新鲜事，但小红书hi lab通过“6in128”的专家配置、创新的Interleaved 1F1B流水并行及Grouped GEMM优化，将‘用更少的计算激活更多智能’的工程哲学发挥到了新高度。这不仅是技术细节的优化，更是对如何经济、可持续地训练超大规模模型这一产业级难题的系统性思考。

更值得关注的是其‘全开源’策略——不仅开源最终模型，更开放了预训练阶段的全部checkpoint。这相当于将一份详尽的‘大模型成长日记’公之于众，极大地降低了研究社区复现、诊断和二次开发的门槛。它标志着开源竞争已从单纯的模型参数竞赛，深化为对训练过程透明度、可复现性与生态赋能能力的全面比拼。这不仅仅是一个模型的发布，更是中国AI力量在开源路线上一次有诚意的、旨在推动整个社区前进的示范性动作。

小红书hi lab重磅开源dots.llm1：1420亿参数MoE大模型，性能对标Qwen2.5-72B

dots.llm1是什么

dots.llm1的主要功能

dots.llm1的技术原理

dots.llm1的项目地址

dots.llm1的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型

Matrix -Game3.5 – 昆仑万维开源的实时流式交互世界模型

vivago R1- 智象未来推出的无限时长多模态创作智能体

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

dots.llm1是什么

dots.llm1的主要功能

dots.llm1的技术原理

dots.llm1的项目地址

dots.llm1的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复