Vivago的HiDream图像生成器击败行业巨头,让开源AI再次伟大
Vivago的HiDream图像生成器击败行业巨头,让开源AI再次伟大

Vivago的HiDream图像生成器击败行业巨头,让开源AI再次伟大

Vivago名不见经传的AI模型在盲测中超越Stable Diffusion,仅次于ChatGPT和字节跳动的Mogao。它是如何做到的?

Vivago AI上周刚刚发布HiDream-I1,这款图像生成器就已稳居全球前五,超越了Flux、Auraflow和Stable Diffusion 3.5等成熟模型,甚至击败了MidJourney v7、Ideogram v3和Reve等闭源竞品。

Vivago是由香港公司Sparking Innovations Limited开发的AI创意平台,提供一系列视觉内容生成和编辑工具。

HiDream提供三个版本:”完整版”(Full)需要50步渲染,输出质量最高;”开发版”(Dev)约30步;”快速版”(Fast)仅需16步即可生成不错的结果。当然,步数越多,图像细节越丰富——但对硬件资源的要求也越高。

与众不同的核心竞争力

首先是规模。HiDream拥有170亿参数,能在几秒内生成多种风格的高质量图像。作为对比,Stable Diffusion的SD3.5参数规模仅有其一半。

HiDream-I1未设内容审查且支持商用。采用MIT许可证,允许”无限制用于个人和商业项目”。不过Vivago声明已过滤训练数据中的”问题内容”,但不会限制输出内容,赋予用户”完全创作自由”——若需生成NSFW内容,需自行微调模型。

运行本地版本需要顶级硬件。完整版需27GB显存,这意味着至少需要2500美元起步的旗舰级GPU。但发布数日内,开发者就推出了量化版本,最低仅需16GB显存即可运行。

对于没有高端硬件的用户,Vivago提供在线平台访问权限,Hugging Face也提供演示空间。Fal AI更推出超低成本服务:

  • 完整版:1美元可运行约20次
  • 开发版:1美元可运行约33次
  • 快速版:1美元可运行约100次

模型实测

我们对三个版本进行了全面测试。

人体结构理解测试
提示词:一个夏威夷小孩对着镜头做手势

完整版
专业级解剖学精度:手指数量比例正确,面部特征协调,身体比例自然。仅在极端复杂姿势时关节稍显僵硬。
评分:9/10

开发版
在速度与细节间取得平衡:手指偶有长度或粗细失真,但通过模糊处理巧妙掩饰。标准姿势表现良好,但重叠肢体处理欠佳。有趣的是,其皮肤纹理有时比完整版更自然。
评分:8.5/10

快速版
为速度做出明显妥协:出现典型AI手部问题(手指粘连、数量错误)。但服装褶皱和头发流动感有时反超高级版本。多指生成时能清晰识别错误部分便于修正。
评分:8/10

胜出者:HiDream-I1完整版

艺术风格理解测试
提示词:未来餐厅里共进晚餐的男女,梵高风格油画,餐厅招牌写着”欢迎来到Decrypt旗下Emerge”,厚涂技法,布面油画

完整版
完美平衡梵高风格与厚涂技法:可见颜料厚度与笔触方向,构图动态,光照强烈到近乎过曝。虽然女性多生成了两条腿,餐厅细节丰富且不喧宾夺主。招牌文字存在拼写错误。
评分:9/10

开发版
更强烈的厚涂质感与笔触:人物互动更自然,整体氛围较暗。色彩控制出色,招牌与场景融合度优于完整版,尤其擅长通过光影表现梵高的情感张力。
评分:8.5/10

快速版
意外捕捉到梵高标志性的活力笔触:场景构图动态,但风格准确性最低。背景笔触反而比高级版本更丰富流畅。
评分:8.5/10

胜出者:HiDream-I1完整版

提示词遵循与空间意识测试
提示词:戴红帽的狗站在播放”Decrypt是全球最佳加密+AI媒体”的电视上,左侧金发女商人持硬币,右侧机器人站在急救箱上,后方绿色金字塔,倒立猫站在白色足球旁,NASA宇航员手持”Emerge”标语站在机器人旁

完整版
核心元素准确:狗与电视位置正确,女商人姿态写实,金字塔位置无误。但其他元素随机出现。
评分:8/10

开发版
在超现实主义与提示遵循间取得平衡:电视文字存在透视变形但准确,金字塔上意外出现第二个宇航员。沙漠背景强化超现实感,猫的平衡表现优于完整版。
评分:8.5/10

快速版
包含多数元素但空间准确性有限:电视文字仅部分可读,却是唯一正确生成”站在急救箱上的宇航员”的版本。
评分:8.2/10

胜出者:HiDream-I1开发版

最终结论

HiDream-I1系列为AI图像生成领域带来新风向,在闭源模型主导的当下,重新将开源模型推向聚光灯下。完整版在多数测试中表现最优,开发版则在速度与质量间取得惊艳平衡,即便是快速版的输出质量,放在数月前也堪称顶尖。

与闭源竞品不同,HiDream的MIT许可证和开源特性让艺术家、开发者和企业能自由改编构建。虽然硬件门槛较高,但社区正在持续优化量化版本。对于受困于商业模型审查或许可限制的创作者,HiDream提供了极具吸引力的替代方案。

按次计费的云服务模式,使其成为订阅制闭源模型的强力竞争者。随着量化版本改进和定制模型涌现,HiDream对生成式AI领域的影响必将持续扩大。不妨几周后关注Hugging Face和Civitai的更新——当然,目前Flux的微调版本仍非常强大。