Janus Pro 试用——以下是我测试 DeepSeek 新图像平台后的体验

发布日期：2025-02-05 15:04 点击次数：182

DeepSeek 的蜜月期或许已经结束

DeepSeek 正在持续发力。在凭借其与 ChatGPT 竞争的 R1 模型颠覆市场后，这家公司刚刚推出了一款名为 Janus Pro 的多模态模型升级。

这些新的 10 亿和 70 亿参数模型不仅可以生成图像，还能理解视觉内容，这在当今 AI 的发展中正变得越来越重要。

作为目前全球最炙手可热的 AI 公司之一，我亲自体验了这一最新成果。

承诺

这是 Janus 模型的第二代，号称可以提供更高的图像质量，并具备处理文本的能力。

展开剩余73%

另一个关键差异在于，新模型结合了视觉理解和图像生成功能——也就是说，它不仅可以“生成”图像，还能“读取”上传的图像并理解其内容。

这样的组合并不常见于传统模型。他们称其为“统一多模态”（unified multimodal）。

现实（目前）

遗憾的是，这些技术似乎并未成功打造出一个令人惊艳的产品。

并不是说这个模型表现得很糟糕，而是图像生成的效果显得像是两年前的技术。别指望它能生成人脸——生成的面部扭曲、变形，甚至可以说是早期 AI 图像生成效果的“最糟糕”表现。如果你还记得 2023 年的 Stable Diffusion，你就会明白我的意思。

感觉就像我们被带回了那个三指人类的时代，只不过现在问题不仅是手指，而是整个身体的比例都不对劲。

这令人遗憾，但我想创新往往伴随着代价。我花了很长时间尝试生成一张接近当今技术水平的图像，却以惨败告终。以下是一些生成的示例。

好消息

图像理解功能似乎正常。我上传了一张某人在咖啡馆里看手机的照片，模型准确描述了图片中的内容。

然而，这并不是什么开创性的功能。目前几乎所有视觉模型，无论是专有的还是开源的，都可以做到这一点。即便是运行在家用电脑上的小型 Llava 模型也能完成类似任务。

总结

那么，这让我们得出了什么结论呢？很明显，中国团队再次尝试通过模型设计进行创新，从表面上看，这确实是一个不错的方向。将图像生成与图像读取功能结合起来是一个很好的特性。

然而，这次尝试的评价只能是“需要努力改进”。

我不知道 DeepSeek 是如何在其官网上获得那些演示图像的，也完全无法理解他们所宣传的文本图像生成结果。

当然，这些模型只有 10 亿和 70 亿参数，相对较小，但即便如此，人们也会希望看到更好的输出效果。我无论使用长提示还是短提示、调整不同配置，都无法接近他们网站上的演示效果。这完全是个谜。我建议他们可能需要重新回到绘图板上重新规划？

发布于：重庆市