首页 时时彩五码倍投公式介绍 产品展示 新闻动态
Janus Pro 试用——以下是我测试 DeepSeek 新图像平台后的体验
发布日期:2025-02-05 15:04    点击次数:182

DeepSeek 的蜜月期或许已经结束

DeepSeek 正在持续发力。在凭借其与 ChatGPT 竞争的 R1 模型颠覆市场后,这家公司刚刚推出了一款名为 Janus Pro 的多模态模型升级。

这些新的 10 亿和 70 亿参数模型不仅可以生成图像,还能理解视觉内容,这在当今 AI 的发展中正变得越来越重要。

作为目前全球最炙手可热的 AI 公司之一,我亲自体验了这一最新成果。

承诺

这是 Janus 模型的第二代,号称可以提供更高的图像质量,并具备处理文本的能力。

展开剩余73%

另一个关键差异在于,新模型结合了视觉理解和图像生成功能——也就是说,它不仅可以“生成”图像,还能“读取”上传的图像并理解其内容。

这样的组合并不常见于传统模型。他们称其为“统一多模态”(unified multimodal)。

现实(目前)

遗憾的是,这些技术似乎并未成功打造出一个令人惊艳的产品。

并不是说这个模型表现得很糟糕,而是图像生成的效果显得像是两年前的技术。别指望它能生成人脸——生成的面部扭曲、变形,甚至可以说是早期 AI 图像生成效果的“最糟糕”表现。如果你还记得 2023 年的 Stable Diffusion,你就会明白我的意思。

感觉就像我们被带回了那个三指人类的时代,只不过现在问题不仅是手指,而是整个身体的比例都不对劲。

这令人遗憾,但我想创新往往伴随着代价。我花了很长时间尝试生成一张接近当今技术水平的图像,却以惨败告终。以下是一些生成的示例。

好消息

图像理解功能似乎正常。我上传了一张某人在咖啡馆里看手机的照片,模型准确描述了图片中的内容。

然而,这并不是什么开创性的功能。目前几乎所有视觉模型,无论是专有的还是开源的,都可以做到这一点。即便是运行在家用电脑上的小型 Llava 模型也能完成类似任务。

总结

那么,这让我们得出了什么结论呢?很明显,中国团队再次尝试通过模型设计进行创新,从表面上看,这确实是一个不错的方向。将图像生成与图像读取功能结合起来是一个很好的特性。

然而,这次尝试的评价只能是“需要努力改进”。

我不知道 DeepSeek 是如何在其官网上获得那些演示图像的,也完全无法理解他们所宣传的文本图像生成结果。

当然,这些模型只有 10 亿和 70 亿参数,相对较小,但即便如此,人们也会希望看到更好的输出效果。我无论使用长提示还是短提示、调整不同配置,都无法接近他们网站上的演示效果。这完全是个谜。我建议他们可能需要重新回到绘图板上重新规划?

发布于:重庆市

Powered by 时时彩五码倍投公式 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024