DeepSeek 的蜜月期或许已经结束
DeepSeek 正在持续发力。在凭借其与 ChatGPT 竞争的 R1 模型颠覆市场后,这家公司刚刚推出了一款名为 Janus Pro 的多模态模型升级。
这些新的 10 亿和 70 亿参数模型不仅可以生成图像,还能理解视觉内容,这在当今 AI 的发展中正变得越来越重要。
作为目前全球最炙手可热的 AI 公司之一,我亲自体验了这一最新成果。
承诺
这是 Janus 模型的第二代,号称可以提供更高的图像质量,并具备处理文本的能力。
展开剩余73%另一个关键差异在于,新模型结合了视觉理解和图像生成功能——也就是说,它不仅可以“生成”图像,还能“读取”上传的图像并理解其内容。
这样的组合并不常见于传统模型。他们称其为“统一多模态”(unified multimodal)。
现实(目前)
遗憾的是,这些技术似乎并未成功打造出一个令人惊艳的产品。
并不是说这个模型表现得很糟糕,而是图像生成的效果显得像是两年前的技术。别指望它能生成人脸——生成的面部扭曲、变形,甚至可以说是早期 AI 图像生成效果的“最糟糕”表现。如果你还记得 2023 年的 Stable Diffusion,你就会明白我的意思。
感觉就像我们被带回了那个三指人类的时代,只不过现在问题不仅是手指,而是整个身体的比例都不对劲。
这令人遗憾,但我想创新往往伴随着代价。我花了很长时间尝试生成一张接近当今技术水平的图像,却以惨败告终。以下是一些生成的示例。
好消息
图像理解功能似乎正常。我上传了一张某人在咖啡馆里看手机的照片,模型准确描述了图片中的内容。
然而,这并不是什么开创性的功能。目前几乎所有视觉模型,无论是专有的还是开源的,都可以做到这一点。即便是运行在家用电脑上的小型 Llava 模型也能完成类似任务。
总结
那么,这让我们得出了什么结论呢?很明显,中国团队再次尝试通过模型设计进行创新,从表面上看,这确实是一个不错的方向。将图像生成与图像读取功能结合起来是一个很好的特性。
然而,这次尝试的评价只能是“需要努力改进”。
我不知道 DeepSeek 是如何在其官网上获得那些演示图像的,也完全无法理解他们所宣传的文本图像生成结果。
当然,这些模型只有 10 亿和 70 亿参数,相对较小,但即便如此,人们也会希望看到更好的输出效果。我无论使用长提示还是短提示、调整不同配置,都无法接近他们网站上的演示效果。这完全是个谜。我建议他们可能需要重新回到绘图板上重新规划?
发布于:重庆市