Question 1

免费试用怎么用？

Accepted Answer

免费试用让你在没有时间限制的情况下免费处理最多 100 张图片。你可以在购买前完整体验工作流——模型选择、内置分区、自定义字段和导出选项。

Question 2

支持哪些图片格式和来源？

Accepted Answer

VisionTagger 支持常见图片格式，如 JPEG、PNG、TIFF、HEIC 和 WebP，以及包括 DNG 在内的多种 RAW 格式。你可以从 Mac 上的文件夹选择图片，或直接从你的 Photos Library 选择。

Question 3

可以调整描述的详细程度吗？

Accepted Answer

可以。你可以在三个级别中选择：简洁生成一句话，适合用作 alt 文本；标准生成两句带上下文的描述，适合用作图片说明；详细则生成全面的描述。

Question 4

可以控制生成哪些关键词吗？

Accepted Answer

可以。你可以设置关键词的最大数量，让模型为每张图片生成不超过该数量的关键词。你还可以定义始终添加在列表开头或末尾的关键词，以及指定要排除的关键词。生成后，你可以在导出前手动为每张图片重新排序、编辑、添加或删除关键词。

Question 5

可以自定义元数据字段吗？

Accepted Answer

可以。除了内置分区（标题、描述、关键词、内容与风格、安全与合规）之外，你还可以[创建自定义分区并添加自己的字段](https://youtu.be/S2oEM6LTHVQ)。每个字段都支持数据类型（Boolean、Text 或 List of Texts）以及独立的提示词，让你能精确控制模型要提取的内容。

Question 6

VisionTagger 能写回我的 Photos Library 吗？

Accepted Answer

可以。当你选择该输出选项时，VisionTagger 可以把元数据写回你的 Photos Library。写入之前你总会看到发布摘要。

Question 7

VisionTagger 能生成哪些输出？

Accepted Answer

VisionTagger 可以为每张图片导出 JSON、CSV 或 TXT，也可以为整批图片导出单个 JSON/CSV/TXT 文件。它还可以应用 Finder 标签。对于 XMP sidecar 和将元数据嵌入图片文件，VisionTagger 会集成 [ExifTool](https://exiftool.org)（需另行安装）。

Question 8

VisionTagger 可以输出英语以外的其他语言的元数据吗？

Accepted Answer

可以。VisionTagger 始终以英语生成元数据，以确保最佳的 AI 模型质量。当你在设置中选择其他输出语言时，生成的元数据会使用 macOS 内置翻译功能自动翻译。支持的语言包括阿拉伯语、中文、荷兰语、法语、德语、印地语、印度尼西亚语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、泰语、土耳其语、乌克兰语和越南语。翻译可用前需要先在系统设置中下载语言包。

Question 9

我需要安装 ExifTool 吗？

Accepted Answer

[ExifTool](https://exiftool.org) 只在生成 XMP sidecar 和将元数据嵌入图片文件时需要。如果你只导出 JSON/CSV/TXT 或应用 Finder 标签，就不需要 ExifTool。

Question 10

VisionTagger 会覆盖已有文件或元数据吗？

Accepted Answer

VisionTagger 在写入任何输出前都会显示发布摘要，并在可能覆盖已有文件时提醒你。你可以先检查将要执行的操作，并在保存前确认。

Question 11

需要进行技术配置吗？

Accepted Answer

不需要。一键下载模型即可开始处理。VisionTagger 预设了合理的默认值。如果你想要更多控制，可以在设置中调整输出长度等参数——但大多数用户无需调整。

Question 12

VisionTagger 需要联网吗？

Accepted Answer

VisionTagger 在本地运行，不会上传你的图片或生成的元数据。只有在应用内下载模型，以及检查并下载应用更新时才需要联网。

Question 13

速度怎么样，我需要什么 Mac？

Accepted Answer

VisionTagger 需要 Apple Silicon（M1 或更新机型），并在 macOS Tahoe 26.0 或更高版本上运行。建议至少 16 GB 内存；使用较大模型时，推荐 32 GB 或更多。速度取决于你的 Mac、所选模型、图片分辨率以及你选择的元数据字段。较小的模型通常更快；较大的模型可能产出更高质量结果。

Question 14

模型会占用多少磁盘空间？

Accepted Answer

模型下载会保存在本地。每个模型大约需要 4–8 GB（因模型而异）。

Question 15

我可以自动化 VisionTagger 吗？

Accepted Answer

可以。VisionTagger 通过两个操作与 Apple 快捷指令集成：Generate Image Metadata（用于 Finder 中的文件）和 Generate Photo Metadata（用于你的 Photos Library）。两者都能在后台运行完整流程，并将结果导出到你配置的目的地。你可以在快捷指令 App、Finder 快速操作、文件夹自动化、命令行和 AppleScript 中使用它们。你还可以提供从应用导出的设置预设，以实现可复现的自动化。

Question 16

内置了哪些视觉模型？

Accepted Answer

VisionTagger 内置了六个预配置的视觉模型：Qwen3-VL 8B Instruct、Qwen3-VL 30B-A3B Instruct、Qwen2.5-VL 7B Instruct、Gemma 3 4B IT、InternVL3 8B Instruct 和 Pixtral 12B。较小的模型通常运行更快；较大的模型可能输出更高细节，但会根据你的 Mac 和所选设置需要更多内存。你可以用试用版对比模型并调整参数，直到结果符合你的工作流和偏好的细节程度。

Question 17

我可以使用自己的模型吗？

Accepted Answer

可以。如果你有兼容 GGUF 的视觉模型及其匹配的 projector 文件（同样是 GGUF），就能在 VisionTagger 里把它们[链接起来](https://youtu.be/V21D3kcudQc)，像内置选项一样使用。你需要自行确保对第三方模型的使用符合它们的许可与条款。

Question 18

可以调模型参数吗？

Accepted Answer

可以。在设置里你可以用滑块调整 temperature、max tokens、context length、top-P 和 top-K 等生成参数。这能帮助你在创意和一致性之间做平衡，并控制输出长度与细节。

Question 19

VisionTagger 和云端关键词服务相比如何？

Accepted Answer

大多数云端关键词服务按张收费，且需要将照片上传到他们的服务器。VisionTagger 一次购买，无按张收费——你可以处理任意数量的图片。你的照片永远不会离开你的 Mac，元数据直接写入 XMP sidecar 和文件，而不是需要手动导入的 CSV 导出。

Question 20

GPS Location 功能会将我的数据发送到哪里吗？

Accepted Answer

图片中嵌入的 GPS 坐标会匿名发送至 Apple 地图以查询地名。仅发送坐标——Apple 不会收集与您的地图使用相关的个人数据。GPS Location 功能在应用中默认处于关闭状态。

Question 21

翻译功能会向 Apple 发送数据吗？

Accepted Answer

默认情况下，macOS 可能会使用 Apple 的在线翻译服务以提高准确性。要确保所有翻译完全在 Mac 上完成，不让数据离开设备，请在系统设置 > 翻译 中启用“设备端模式”。

Question 22

VisionTagger 会收集使用数据或分析信息吗？

Accepted Answer

不会。VisionTagger 不包含 analytics 或遥测，也不会上传你的数据。许可激活与更新检查会在这些功能需要时发起网络请求。

再也不用手动给照片打标签。

VisionTagger 适合谁？

用已有的上下文获得更智能的结果

精确生成你需要的元数据

无缝融入你的工作流

自动化，然后忘掉它

使用方法

一次性购买

VisionTagger 常见问题

入门