瑞士Apertus开源大模型重磅发布：70B参数支持1811种语言，数据合规性引关注

💡 站外导读：在全球AI发展被少数几家美国科技巨头主导、数据隐私与合规争议不断的背景下，欧洲正在寻找自己的路径。瑞士顶尖学府EPFL和ETH Zurich联合推出首个大规模开源语言模型Apertus，直接将模型权重、数据和训练细节全部公开。这不仅是技术上的突破，更是对“开放AI”理念的一次重要实践，旨在让开发者和企业能够在自己的服务器上运行模型，完全掌控数据。

Apertus是什么

Apertus是瑞士EPFL、ETH Zurich和瑞士国家超级计算中心（CSCS）联合推出的瑞士首个大规模开放、多语言的大型语言模型，有70B和8B两个参数版本，用大规模语言进行训练，其中40%的数据为非英语，包括瑞士德语、罗曼什语等此前在LLM中被低估的语言。Apertus用解码器仅的Transformer架构，基于新的xIELU激活函数和AdEMAMix优化器。模型完全开放，模型权重、数据和训练细节，用户能在自己的服务器上使用，保持数据控制权。

阅读目录

Apertus是什么
Apertus的主要功能
Apertus的技术原理
Apertus的项目地址
Apertus的应用场景

📝 站长洞察 (Editor’s Insight)

Apertus

Apertus的主要功能

文本生成：根据用户输入的提示生成连贯、相关的文本。
多语言支持：支持超过1811种语言，包括许多此前在LLM中被低估的小语种。
透明性和开放性：模型权重、数据和训练细节完全公开，用户能在自己的服务器上使用。
长上下文处理：支持长上下文处理，适用于复杂的任务。

Apertus的技术原理

模型架构：Apertus用仅密集解码器Transformer架构，模型有8B和70B两种规模，分别有32层/32个注意力头和80层/64个注意力头。使用xIELU激活函数、RMSNorm归一化、RoPE位置编码和分组查询注意力机制，提升模型效率和长上下文处理能力。
预训练目标：用Goldfish目标函数，通过随机掩盖部分标记，防止模型学习精确的上下文映射，有效抑制逐字回忆，同时保留下游任务性能。预训练数据完全来自公开可用的来源，尊重内容所有者的退出意愿，避免使用受版权保护、非许可、有毒或包含个人身份信息的内容。
预训练数据：Apertus在超过15万亿个标记的数据上进行预训练，涵盖超过1800种语言。数据来源多样，包括高质量的网络爬取数据、代码数据、数学数据等。通过多种过滤机制，如尊重robots.txt文件中的爬取限制、移除个人身份信息和毒性内容，确保数据的合规性。为提高模型的多语言能力和数据多样性，在预训练数据中分配大量非英语内容。
训练过程：用AdEMAMix优化器和WSD学习率调度进行训练，确保训练的稳定性和效率。通过逐步增加上下文长度，使模型能处理更长的文本序列，支持长达65,536个标记的上下文。
后训练（Post-Training）：通过指令微调和对齐训练，用QRPO算法优化模型的行为，使其在生成文本时更加安全、有用和符合人类价值观。后训练阶段使模型能更好地理解和生成符合指令的文本。

Apertus的项目地址

项目官网：https://www.swiss-ai.org/apertus
HuggingFace模型库：https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059
技术论文：https://github.com/swiss-ai/apertus-tech-report

Apertus的应用场景

多语言对话系统：适用构建多语言聊天机器人、客服系统等，为用户提供跨语言的交流和信息获取服务。
代码生成与辅助：根据自然语言描述生成代码片段，帮助开发者快速实现编程任务，提高开发效率，适用于软件开发辅助工具。
教育与学习辅助：生成教育内容、解答学术问题、提供学习建议等，用于在线教育平台、智能辅导系统等教育场景。
内容创作：协助创作文本内容，如撰写文章、故事、新闻报道等，为内容创作者提供灵感和写作辅助。
翻译服务：用在翻译任务，提供文本翻译服务，支持跨语言的信息传播和交流。

📝 站长洞察 (Editor’s Insight)

Apertus的发布标志着欧洲开源AI生态的一次重要尝试。在OpenAI等闭源模型占据主导的今天，瑞士团队选择将15万亿标记数据和完整的训练流程公开，其数据来源严格遵守robots.txt规则并过滤有害信息，这为AI的合规训练树立了新标杆。特别值得关注的是，模型中40%的非英语数据（包括罗曼什语等小语种），体现了对语言多样性的重视，这在全球AI同质化的趋势下极具价值。长远看，这类完全透明、可本地部署的模型将对金融、医疗、政务等对数据主权要求极高的行业产生深远影响，可能催生基于私有化部署的新商业模式。

瑞士Apertus开源大模型重磅发布：70B参数支持1811种语言，数据合规性引关注

Apertus是什么

Apertus的主要功能

Apertus的技术原理

Apertus的项目地址

Apertus的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

Moonshine – 实时转录场景、低延时高准确的语音识别模型

Time-MoE – 基于MoE架构的时间序列基础模型

SynthID – DeepMind推出能嵌入数字水印和检测AI生成内容的工具

Whispo – AI语音转录工具，一键录音与转写

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Apertus是什么

Apertus的主要功能

Apertus的技术原理

Apertus的项目地址

Apertus的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复