💡 站外导读:在全球AI发展被少数几家美国科技巨头主导、数据隐私与合规争议不断的背景下,欧洲正在寻找自己的路径。瑞士顶尖学府EPFL和ETH Zurich联合推出首个大规模开源语言模型Apertus,直接将模型权重、数据和训练细节全部公开。这不仅是技术上的突破,更是对“开放AI”理念的一次重要实践,旨在让开发者和企业能够在自己的服务器上运行模型,完全掌控数据。
Apertus是什么
Apertus是瑞士EPFL、ETH Zurich和瑞士国家超级计算中心(CSCS)联合推出的瑞士首个大规模开放、多语言的大型语言模型,有70B和8B两个参数版本,用大规模语言进行训练,其中40%的数据为非英语,包括瑞士德语、罗曼什语等此前在LLM中被低估的语言。Apertus用解码器仅的Transformer架构,基于新的xIELU激活函数和AdEMAMix优化器。模型完全开放,模型权重、数据和训练细节,用户能在自己的服务器上使用,保持数据控制权。

Apertus的主要功能
-
文本生成:根据用户输入的提示生成连贯、相关的文本。
-
多语言支持:支持超过1811种语言,包括许多此前在LLM中被低估的小语种。
-
透明性和开放性:模型权重、数据和训练细节完全公开,用户能在自己的服务器上使用。
-
长上下文处理:支持长上下文处理,适用于复杂的任务。
Apertus的技术原理
- 模型架构:Apertus用仅密集解码器Transformer架构,模型有8B和70B两种规模,分别有32层/32个注意力头和80层/64个注意力头。使用xIELU激活函数、RMSNorm归一化、RoPE位置编码和分组查询注意力机制,提升模型效率和长上下文处理能力。
- 预训练目标:用Goldfish目标函数,通过随机掩盖部分标记,防止模型学习精确的上下文映射,有效抑制逐字回忆,同时保留下游任务性能。预训练数据完全来自公开可用的来源,尊重内容所有者的退出意愿,避免使用受版权保护、非许可、有毒或包含个人身份信息的内容。
- 预训练数据:Apertus在超过15万亿个标记的数据上进行预训练,涵盖超过1800种语言。数据来源多样,包括高质量的网络爬取数据、代码数据、数学数据等。通过多种过滤机制,如尊重robots.txt文件中的爬取限制、移除个人身份信息和毒性内容,确保数据的合规性。为提高模型的多语言能力和数据多样性,在预训练数据中分配大量非英语内容。
- 训练过程:用AdEMAMix优化器和WSD学习率调度进行训练,确保训练的稳定性和效率。通过逐步增加上下文长度,使模型能处理更长的文本序列,支持长达65,536个标记的上下文。
- 后训练(Post-Training):通过指令微调和对齐训练,用QRPO算法优化模型的行为,使其在生成文本时更加安全、有用和符合人类价值观。后训练阶段使模型能更好地理解和生成符合指令的文本。
Apertus的项目地址
- 项目官网:https://www.swiss-ai.org/apertus
- HuggingFace模型库:https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059
- 技术论文:https://github.com/swiss-ai/apertus-tech-report
Apertus的应用场景
- 多语言对话系统:适用构建多语言聊天机器人、客服系统等,为用户提供跨语言的交流和信息获取服务。
- 代码生成与辅助:根据自然语言描述生成代码片段,帮助开发者快速实现编程任务,提高开发效率,适用于软件开发辅助工具。
- 教育与学习辅助:生成教育内容、解答学术问题、提供学习建议等,用于在线教育平台、智能辅导系统等教育场景。
- 内容创作:协助创作文本内容,如撰写文章、故事、新闻报道等,为内容创作者提供灵感和写作辅助。
- 翻译服务:用在翻译任务,提供文本翻译服务,支持跨语言的信息传播和交流。
📝 站长洞察 (Editor’s Insight)
Apertus的发布标志着欧洲开源AI生态的一次重要尝试。在OpenAI等闭源模型占据主导的今天,瑞士团队选择将15万亿标记数据和完整的训练流程公开,其数据来源严格遵守robots.txt规则并过滤有害信息,这为AI的合规训练树立了新标杆。特别值得关注的是,模型中40%的非英语数据(包括罗曼什语等小语种),体现了对语言多样性的重视,这在全球AI同质化的趋势下极具价值。长远看,这类完全透明、可本地部署的模型将对金融、医疗、政务等对数据主权要求极高的行业产生深远影响,可能催生基于私有化部署的新商业模式。
