TeleChat3发布：中国电信千亿参数MoE大模型，全链路国产化训练，开源36B版本

💡 站外导读：随着AI大模型进入深水区，企业级应用对模型的效率、可控性和成本提出了更高要求。传统的稠密模型面临算力瓶颈，而细粒度MoE架构正成为突破性能天花板的关键。中国电信TeleAI团队此次推出的TeleChat3，不仅是一次技术的展示，更是国产大模型在核心算力、框架全链路自主化道路上的一次重要实践。

TeleChat3是什么

TeleChat3是中国电信人工智能研究院（TeleAI）自主研发的千亿参数细粒度MoE语义大模型，采用国产算力训练，支持多轮对话、文本创作、代码生成等任务。模型包含105B参数（实际激活4.7B），通过192个路由专家实现精准知识调用，擅长处理复杂任务如游戏设计、网页开发等。特色在于全链路国产化技术，训练效率达93%，已应用于智能客服、政务问答等场景，开源了36B稠密模型版本。

阅读目录

TeleChat3是什么
TeleChat3的主要功能
TeleChat3的技术原理
TeleChat3的项目地址
TeleChat3的应用场景

📝 站长洞察 (Editor’s Insight)

TeleChat3

TeleChat3的主要功能

代码生成与优化：能高效拆解任务需求，整合多项代码能力，一次性交付完整可运行的代码，实现代码补全、代码修改、网站和网页游戏生成等多类任务，省去大量人工调试时间投入，运行流畅，结果准确。
知识问答与逻辑推理：在知识问答、逻辑推理等维度实现了能力提升，能更好地理解和回答用户的问题，提供准确的知识信息和逻辑推理结果。
文本创作与语义理解：具备文本创作能力，能生成高质量的文本内容，在语义理解方面进行了针对性优化，能更好地理解用户输入的文本信息。
角色扮演与多轮对话：支持角色扮演功能，可以根据用户设定的角色和场景进行对话，在多轮对话中能自动处理历史信息，保持对话的连贯性和一致性。
引入“Thinking模式”：通过在对话模板中加入特定引导符号，模型可自动生成中间推理步骤，显著提升在复杂任务中的逻辑性与准确性，使AI推理过程可追溯。

TeleChat3的技术原理

模型架构：TeleChat3采用细粒度Mixture-of-Experts（MoE）架构，例如TeleChat3-105B-A4.7-Thinking模型包含1个共享专家和192个路由专家，每次激活4个专家。
推理机制：TeleChat3支持长文推理优化，通过NTK-aware外推和attention scaling方法，能将在较短长度上微调的模型在推理时外推到更长的长度。
训练与优化：系列模型完全基于国产算力（如上海临港国产万卡算力池）训练，基础数据量达15T tokens。同时，模型实现了对昇腾Atlas 800T A2训练服务器及昇思MindSpore框架的深度适配。
思考模式：TeleChat3全系支持Thinking思考模式，通过在chat template中加入特定引导符号生成推理过程，提升在复杂任务中的逻辑性与准确性。
位置编码与注意力机制：采用旋转位置编码（Rotary Embedding）为token注入位置信息，通过对查询（Q）和键（K）的旋转操作，使模型捕捉序列的顺序依赖关系。同时，支持因果自注意力机制，确保每个位置的预测仅依赖于前面的token。
非线性增强：模型包含多层感知机（MLP）模块，用于对注意力层的输出进行非线性变换，增强模型的表达能力。

TeleChat3的项目地址

Github仓库：https://github.com/Tele-AI/TeleChat3
ModelScope：
- https://www.modelscope.cn/models/TeleAI/TeleChat3-105B-A4.7B-Thinking
- https://www.modelscope.cn/models/TeleAI/TeleChat3-36B-Thinking

TeleChat3的应用场景

代码生成与开发辅助：可用于代码补全、代码修改以及生成网站和网页游戏等，帮助开发者快速实现编程任务，提高开发效率。
知识问答与教育：在知识问答、逻辑推理等任务中表现良好，能为用户提供准确的知识信息，适用于教育领域，辅助学习和答疑。
文本创作与内容生成：能生成高质量的文本内容，可用于写作、文案创作、新闻报道等场景，满足不同文本创作需求。
多轮对话与客服：支持多轮对话，能自动处理历史信息，保持对话连贯性，适用于智能客服、虚拟助手等场景。
角色扮演与互动娱乐：支持角色扮演功能，可根据用户设定的角色和场景进行对话，应用于游戏、互动娱乐等领域。

📝 站长洞察 (Editor’s Insight)

TeleChat3的发布，标志着国产大模型正从“参数竞赛”迈入“效能与生态”并重的第二阶段。其采用的细粒度MoE架构（105B总参/4.7B激活）是当前最前沿的技术路线之一，能在保持甚至提升性能的同时，大幅降低推理成本，这对于大规模商业化落地至关重要。更值得关注的是其“全链路国产化”——从昇腾算力到MindSpore框架的深度适配，这不仅是技术突破，更是构建自主可控AI基础设施的战略一步。模型开源36B版本，则显示了其“以开源促生态”的务实思路。在应用层面，其强调的“Thinking模式”和代码生成能力，正切中当前企业对于可解释性AI和生产力工具的核心需求。总体来看，TeleChat3不仅是一个模型，更是一个信号：国产大模型正加速从技术验证走向产业深水区。

TeleChat3发布：中国电信千亿参数MoE大模型，全链路国产化训练，开源36B版本

TeleChat3是什么

TeleChat3的主要功能

TeleChat3的技术原理

TeleChat3的项目地址

TeleChat3的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

特斯拉Grok覆盖全欧洲并进军更多亚洲国家，语音控制空调手套箱一步到位

腾讯云推出 CodeBuddy NPC：从代码助手走向端到端自主研发智能体

北京抛出”智能体新政”十策：从驾驭层工程到一人公司，一张 Agent 经济蓝图铺开了

[AI生图咒语] 毛毡手工风 Apple 设计 UI 横幅

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

TeleChat3是什么

TeleChat3的主要功能

TeleChat3的技术原理

TeleChat3的项目地址

TeleChat3的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复