对于大模型API问题的，统一看这里！

`.env` 中，对于模型要求支持多模态，而不是图片理解模型或文本模型。
比如：
- DeepSeek-OCR 属于图片理解模型，并不是通用多模态模型 ❌
- DeepSeek-R1 是文本推理模型，模型本身理解不了图像，为什么有的能上传图片？因为有的事通过工具把图片做了一次转换，理解能力仍然不行。❌

那什么模型可以呢？这里推荐几个

- gemini gemin-flash等模型 优点是免费，缺点是需要翻墙且有免费额度限制。
- qwen-flash，qwen-vl，gml-vl系列模型，都支持多模态，优点是便宜，好用，缺点是要钱。

如果你遇到llm api有问题 那就尝试更换一个。