FlexTok – Apple 联合 EPFL 推出的图像处理技术

最近更新: 2026年6月8日下午10:31

FlexTok是什么

FlexTok 是瑞士洛桑联邦理工学院（EPFL）和苹果公司联合开发的图像处理技术。通过将二维图像重新采样为一维离散标记序列（token sequences），以灵活的长度描述图像，实现高效的图像压缩和生成。FlexTok 的核心技术包括动态像素重组，能将图像压缩率提升300%，支持8K视频的实时渲染，显著降低功耗。

阅读目录

FlexTok是什么
FlexTok的主要功能
FlexTok的技术原理
FlexTok的项目地址
FlexTok的应用场景

FlexTok

FlexTok的主要功能

高效图像压缩：通过动态像素重组技术，FlexTok 能根据图像的复杂性灵活调整标记数量，将图像压缩率提升300%，同时支持8K视频的实时渲染。
低功耗与高性能：在处理高分辨率图像时，FlexTok 的功耗降低45%，显著提升了设备的能效。
无损超分辨率重建：FlexTok 首次实现了移动端的无损超分辨率重建，能将低分辨率图像高质量地放大。
灵活的图像生成：通过“视觉词汇表”（visual vocabulary），FlexTok 可以从粗到细地描述图像，支持高保真图像生成和文本条件下的图像生成。

FlexTok的技术原理

动态像素重组技术：FlexTok 通过动态像素重组，将图像的像素信息重新排列并压缩为离散的标记序列（token sequences）。
多尺度离散化处理：FlexTok 借鉴了多尺度量化自动编码器（VQ-VAE）的思想，将图像从高分辨率逐步分解为低分辨率的离散标记序列。生成过程从粗到细逐步进行，类似于人类视觉的分层次处理。
自回归模型的应用：FlexTok 使用自回归模型（Autoregressive Model）对离散标记序列进行建模。自回归模型通过逐步预测下一个标记的方式生成图像，类似于语言模型生成文本的过程。能捕捉图像的局部结构和细节信息，实现高质量的图像生成。

FlexTok的项目地址

项目官网：https://flextok.epfl.ch/
arXiv技术论文：https://arxiv.org/pdf/2502.13967

FlexTok的应用场景

智能家居设备的图像处理：FlexTok 的高效压缩技术可以用于智能家居设备中的图像传感器，例如智能摄像头或智能门锁。通过优化图像数据的传输和存储，可以在不降低图像质量的情况下，减少存储空间占用和网络带宽消耗。
家庭娱乐系统中的图像优化：在家庭影院或智能电视中，FlexTok 的超分辨率重建能力可以用于提升低分辨率视频的画质，在大屏幕上也能保持清晰的视觉效果。
智能安防监控：对于家庭安防摄像头，FlexTok 的技术可以实现更高效的图像压缩和存储，同时通过超分辨率技术提升监控画面的清晰度，帮助用户更准确地识别画面中的细节。
移动设备中的图像管理：在智能手机或平板电脑中，FlexTok 可以帮助用户更高效地存储和管理大量照片，同时通过无损超分辨率技术提升照片的显示质量。

分享

AnythingLLM – 开源的全栈 AI 客户端，支持本地部署和API集成

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

发表评价

发表评价取消回复