💡 站外导读:在开源大模型竞争白热化的当下,如何用更高效的架构和更优质的数据,在可控成本内训练出性能顶尖的模型,是业界共同面对的痛点。小红书hi lab此次开源dots.llm1,正是一次面向这一挑战的有力回应。该模型基于Mixture of Experts(MoE)架构,在拥有巨量参数的同时,通过专家激活机制大幅降低实际计算开销,并在11.2T高质量token上完成预训练,展现了在通用与专业任务上与顶级密集模型一较高下的实力。
dots.llm1是什么
dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,具有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上进行预训练,用高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 优化技术,训练效率显著提升。基于精心设计的数据处理流程和两阶段监督微调,dots.llm1 在中英文通用场景、数学、代码等任务上表现出色,与 Qwen2.5-72B 等模型相比具有较强的竞争力。hi lab 团队开源了 Pretrain 阶段每 1T token 的 checkpoint 和 Instruct 模型,为大模型社区提供丰富的研究基础,助力推动大模型技术的发展。

dots.llm1的主要功能
- 多语言文本生成:支持生成高质量的中英文文本,适用多种场景,如写作辅助、内容创作等。
- 复杂指令遵循:理解和执行复杂的指令,完成特定任务,如数据整理、代码生成等。
- 知识问答:提供准确的知识问答服务,帮助用户获取所需信息。
- 数学与代码推理:具备数学计算和代码推理能力,解决数学问题和编写简单代码。
- 多轮对话:支持多轮对话,与用户进行自然流畅的交流,理解上下文并给出恰当回应。
dots.llm1的技术原理
- Mixture of Experts (MoE) 架构:dots.llm1 是基于 Decoder-only Transformer 的 MoE 模型,用 6in128 Expert 配置,即每个 token 最多激活 6 个专家,共有 128 个专家。在 1420 亿参数中,每次前向传播只激活 140 亿参数,基于门控机制选择最相关的专家进行计算,提高计算效率。
- 高效的数据处理和训练框架:用 11.2T 高质量 token 数据进行预训练,数据来源包括 Common Crawl 和自有 Spider 抓取的 web 数据,经过多轮清洗和过滤,确保数据质量。基于 Interleaved 1F1B 流水并行的 AlltoAll overlap 和高效 Grouped GEMM 实现,显著提升训练效率。
- 两阶段监督微调:对全量数据进行两轮基础训练,基于采样、动态学习率调整等技术,初步释放模型潜力。针对数学与代码等特定领域,引入拒绝采样微调,结合验证器筛选高置信度重要样本,进一步提升模型的推理性能。
- 学习率调度与超参数优化:基于 WSD 学习率调度方式,在学习率稳定阶段保持 3e-4 训练 10T token 语料,退火阶段分两个阶段训练 1.2T token 语料,逐步降低学习率。在训练过程中,调整 batch size 等超参数,确保训练过程稳定,避免出现 loss spike。
dots.llm1的项目地址
- GitHub仓库:https://github.com/rednote-hilab/dots.llm1
- HuggingFace模型库:https://huggingface.co/rednote-hilab
- arXiv技术论文:https://github.com/rednote-hilab/dots.llm1/blob/main/dots1_tech_report.pdf
dots.llm1的应用场景
- 内容创作:辅助写作文案、故事、新闻等,提供创意灵感与写作建议。
- 教育学习:用在语言学习、编程教育和知识问答,辅助学习者提升能力。
- 商业办公:构建智能客服,生成数据分析和市场调研报告,助力企业运营。
- 编程开发:生成代码片段、代码文档,提供调试建议,提高开发效率。
- 个人助理:管理日程、规划任务、整理信息,提升个人工作与生活效率。
📝 站长洞察 (Editor’s Insight)
dots.llm1的发布,清晰地指向了当前大模型发展的两个核心趋势:效率与开放。其采用的MoE架构并非新鲜事,但小红书hi lab通过“6in128”的专家配置、创新的Interleaved 1F1B流水并行及Grouped GEMM优化,将‘用更少的计算激活更多智能’的工程哲学发挥到了新高度。这不仅是技术细节的优化,更是对如何经济、可持续地训练超大规模模型这一产业级难题的系统性思考。
更值得关注的是其‘全开源’策略——不仅开源最终模型,更开放了预训练阶段的全部checkpoint。这相当于将一份详尽的‘大模型成长日记’公之于众,极大地降低了研究社区复现、诊断和二次开发的门槛。它标志着开源竞争已从单纯的模型参数竞赛,深化为对训练过程透明度、可复现性与生态赋能能力的全面比拼。这不仅仅是一个模型的发布,更是中国AI力量在开源路线上一次有诚意的、旨在推动整个社区前进的示范性动作。
