字节跳动称 Seedream 3.0 击败 GPT-4os 图像生成
字节跳动称 Seedream 3.0 击败 GPT-4os 图像生成

字节跳动称 Seedream 3.0 击败 GPT-4os 图像生成

字节跳动正式推出Seedream 3.0文本生成图像模型。基准测试表明,该模型在生成速度、准确性和视觉质量上均优于GPT-4o和Midjourney。

字节跳动最新发布的Seedream 3.0文本生成图像模型,根据内外部的评估结果显示,其性能不仅超越了前代Seedream 2.0,更在图像质量上比肩甚至超过了当前主流系统,包括GPT-4o、Midjourney v6.1和Imagen 3。

相较于Seedream 2.0,新模型的训练数据量翻倍。此前因视觉缺陷被排除在训练集外的图像,如今通过预处理中的掩码技术得以重新利用。分辨率感知采样和混合分辨率训练等新技术,显著提升了不同尺寸图像的输出保真度。Seedream 3.0原生支持2K分辨率,生成1K图像仅需约3秒。

Seedream 3.0图像质量评测领先GPT-4o

在Artificial Analysis Arena等基准测试平台中(用户可对不同模型的输出结果进行对比),Seedream 3.0在论文发布时一度位列榜首。目前其评分仅以1分之差稍逊于GPT-4o(Arena ELO 1156 vs. 1157)。该模型在文本密集型提示词处理上表现尤为突出,中英文文本渲染准确率均达94%,即使面对复杂排版也能完美呈现。

为支撑这一性能,模型训练采用了包含细致美学和风格描述的数据集。字节跳动表示,其成果不仅在整体上超越GPT-4o,在海报、贴纸等设计任务中甚至能击败Canva等专业设计平台。这些对比主要聚焦于排版质量及图文融合效果。

在写实人像领域,字节跳动宣称Seedream 3.0同样优于Midjourney v6.1。据公司介绍,该模型能生成更真实的皮肤纹理和细节(包括皱纹与发丝),避免了多数AI生成人像过度平滑的通病。与部分竞品不同,Seedream 3.0无需后处理放大即可直接输出高清图像。

SeedEdit强化图像内编辑功能

字节跳动同步推出了SeedEdit工具,作为Seedream的配套编辑系统,支持对生成图像中的视觉元素和文本内容进行修改。公司表示,在保持图像主体一致性的前提下,SeedEdit的编辑精度胜过GPT-4o和Gemini 2.0 Flash。该系统在文本擦除、替换或插入等任务中,能以更少的视觉伪影实现更精准的效果。

Seedream 3.0论文中包含了大量与其他模型的视觉对比案例,佐证了字节跳动的技术主张。虽然展示的均为优势场景,但该模型确实展现出顶级竞争力。字节跳动计划将Seedream 3.0整合至其聊天机器人平台豆包。