Hugging Face 发布轻量级多模态模型 SmolVLM_爱游戏平台|爱游戏官网网页版|爱游戏在线登录入口

　　Hugging Face 近来发布了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M，其间 SmolVLM-256M 被誉为全球最小的视觉言语模型。这两款模型根据上一年练习的 80B 参数模型蒸馏而成，在性能与资源需求之间完成了平衡。

　　SmolVLM-256M 和 SmolVLM-500M 均选用 SigLIP 作为图片编码器，运用 SmolLM2 作为文本编码器。SmolVLM-256M 很合适移动渠道，仅需不到 1GB 的 GPU 显存即可处理单张图片推理，功用包括描绘图片内容、生成短视频字幕及处理 PDF 等。而 SmolVLM-500M 则针对高性能场景规划，适用于企业环境，推理单张图片仅需 1.23GB GPU 显存，输出更为精准。

　　两款模型均选用 Apache 2.0 开源授权，并供给根据 transformer 和 WebGUI 的示例程序，便于开发者下载和运用。