Hugging Face 发布轻量级多模态模型 SmolVLM

来源:爱游戏平台

  Hugging Face 近来发布了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M,其间 SmolVLM-256M 被誉为全球最小的视觉言语模型。这两款模型根据上一年练习的 80B 参数模型蒸馏而成,在性能与资源需求之间完成了平衡。

  SmolVLM-256M 和 SmolVLM-500M 均选用 SigLIP 作为图片编码器,运用 SmolLM2 作为文本编码器。SmolVLM-256M 很合适移动渠道,仅需不到 1GB 的 GPU 显存即可处理单张图片推理,功用包括描绘图片内容、生成短视频字幕及处理 PDF 等。而 SmolVLM-500M 则针对高性能场景规划,适用于企业环境,推理单张图片仅需 1.23GB GPU 显存,输出更为精准。

  两款模型均选用 Apache 2.0 开源授权,并供给根据 transformer 和 WebGUI 的示例程序,便于开发者下载和运用。

上一篇:content
下一篇:deepseek在应试教育方面有哪些使用

总部地址:湖南省长沙经济技术开发区东十路南段9号
邮编:410131