Napkin AI 的“AI代理设计机构”正在改变专业人士创作图形的方式
Napkin AI 的“AI代理设计机构”正在改变专业人士创作图形的方式

Napkin AI 的“AI代理设计机构”正在改变专业人士创作图形的方式

图形设计公司Napkin AI正在垂直人工智能代理应用这一激动人心的新领域中开辟一条独特道路。

用户只需在Napkin AI的网站上输入文本,其模型便能在五秒内生成代表该文本的图形。

令人着迷的是,Napkin AI之所以能做到这一点,是因为它在幕后颠覆了传统设计公司的各项职能——文案撰写、设计、插画、品牌造型等,并用各个独立的AI代理来替代这些原本由人类执行的职能。

自今年8月推出以来,该产品便获得了显著的市场关注。Napkin AI联合创始人兼首席执行官Pramod Sharma表示,目前该产品已拥有200万测试版用户,是六周前的两倍。

“我们采取了一个略有不同的角度。”他在接受采访时说道,“我们并没有从一开始就说:‘让我们先研究一下图像模型,看看它能做什么。’事实上,这对我们来说只是事后才考虑的事情。我们真正关注的是创建图形需要什么,以及如今是如何创建的,并以此为基础逆向推导。”

Napkin AI是垂直AI代理趋势的一部分

Napkin AI是众多新兴创业公司中的一员,这些公司正不断涌现,为垂直领域提供服务。它们的产品并非由传统的SaaS模式驱动,而是由幕后运作的垂直AI代理所驱动。Napkin AI充分展示了这类代理型公司的生产效率。该公司拥有一支12人的远程工作团队,其中Sharma是唯一一位居住在旧金山湾区的人。这些公司还承诺将带来极大的颠覆性,因为它们在特定应用场景下具有更高的可定制性和更强大的功能。

Napkin AI之所以能在竞争中脱颖而出,似乎在于它专注于满足一个特定的需求:帮助那些非图形设计专家的专业人士创建美观的设计,主要用于PowerPoint演示文稿。这些用户需要的不仅仅是许多生成式AI提供商所提供的华丽图像,他们还需要图表和其他插图,并且希望能够轻松、简单地编辑这些图像。这正是Napkin AI所做的:它在五秒内为用户提供最佳设计后,还允许用户根据风格、颜色和设计类型等进行编辑。

Napkin AI 生成的图像示例

Napkin AI开辟了第三条道路

Sharma表示,Napkin AI并未像大多数其他图像提供商那样使用扩散AI模型,因为这些模型不允许用户轻松编辑插图中的独特元素,例如饼图的切片或周围的文字。Napkin AI通过为产品配备具有特定、实用功能的代理,开辟了一条“第三条道路”。

第一条道路是Adobe或Canva等传统图形设计平台所走的路线,即将AI工具附加到传统设计工作流程中。Napkin AI并未采取这一方式。它是以生成式AI为先,即根据用户的提示,利用该技术首先创建出最佳视觉初稿。然后,它简化了剩余的编辑过程,同时考虑到大多数用户并不具备高级设计技能——例如,使用Adobe Creative Cloud所需的那种技能。

Napkin AI同样没有遵循“第二条道路”,即新一代AI图像和视频公司的路线——如MidJourney、Stable Diffusion、Runway、Ideogram等,这些公司以AI为先而自豪,并使用大型扩散模型向用户展示高质量图像或视频,令人眼花缭乱。但它们之间往往难以区分。然而,Napkin AI决心不沉溺于炫目的技术本身,因为那并不会将用户放在首位,Sharma指出。

Napkin AI的工作原理如下:它允许用户粘贴文本描述——无论是演示文稿提示、博客摘录还是头脑风暴笔记——并在几秒钟内收到多个高质量的图形选项。这些图形并非简单的模板,而是可自定义的设计,具有可编辑的字体、颜色和布局——但它们易于使用,配备滑动工具。该产品摒弃了Figma或Canva等更复杂工具所提供的拥有数百个选项的巨大菜单栏。创建图像后,Napkin AI允许用户以PNG、PDF或SVG格式导出。

Napkin AI有四个子代理

不过,更有意思的是这些代理在幕后是如何工作的:Napkin AI使用了一个由OpenAI的GPT-4o mini驱动的编排器大型语言模型(LLM),来响应用户的提示。这个LLM充当一个代理,将任务分配给一系列具有特定职责的其他子代理。第一个“文本”代理会提出一些可用于设计的文本建议。第二个“布局”代理会查看文本,并决定最适合该文本的特定设计布局。

第三个“图标和插图”代理会检查数据库,看是否有与文本请求相匹配的图标,如果没有,它可能会即时生成一个图标。最后,还有一个第四个“样式”代理,它允许用户用自己的公司颜色和样式来自定义设计。Sharma解释说,Napkin AI对这四个代理的限制并不多,除了要最大限度地提高质量和速度之外。在五秒钟内做出回应是满足客户需求的关键。

每个代理都为整体构图做出贡献,确保生成的图形不仅美观,而且符合用户的意图。

Sharma解释说,第四个样式代理将于下周引入产品,并且会随着时间的推移不断改进。很快,用户将能够上传公司样式的截图或其他文档,以便图像模型能够自动生成该样式的图像。Sharma提到了Meta在大概念模型(LCMs)领域正在进行的研究,这可能对此有所帮助。不过,就目前而言,Napkin AI的代理是一个渲染引擎,它通过仪表板向用户提供各种样式选项。

质量和专注是差异化因素

Napkin AI最引人注目的承诺之一就是其对质量的关注。对于Sharma来说,目标不仅仅是快速生成视觉内容,而是要确保每一张图形都值得使用。“我们获取您的文字内容,并将其转化为真正捕捉到您想法精髓的图形。”Sharma说,“我们意识到,在图形中,仅仅‘好’是不够的,它必须非常好,非常好。否则就失去了意义。”

Sharma和Jerome Scholler在共同对演示文稿的质量感到失望后,共同创立了Napkin AI。在创办Napkin之前,Sharma创建了教育游戏公司Osmo,该公司也以其设计质量而闻名。Scholler是Osmo创始团队的一员。Sharma也曾是谷歌的员工。

这种对质量的痴迷也延伸到了技术基础层面。与通常缺乏对图形语义理解的扩散模型不同,Napkin AI的代理驱动平台能够分离内容、布局和样式等元素。这种解耦允许用户在不破坏设计完整性的情况下动态修改内容。

市场反响与扩张

市场似乎认同Napkin AI的方法。该平台在过去六周内用户数量翻了一番,并且显示出很高的留存率,这表明用户喜欢其底层工作流程。在使用了几周后,Sharma注意到,“用户会说:‘给我更多!’‘你们能扩展一下目录吗?增加一些可能性?多一些插图类型吗?’这对我们来说是好消息,因为我们现在的专注度很高。”

然而,有趣的是,在视觉传达方面,某些设计效果很好,而其他设计则不然。例如,人类大脑可以很容易地理解饼图和条形图,但对于其他设计可能会感到困惑。“我们在这个领域学到的是,结构本身并不是无限的。”Sharma说,“它们是人们通常使用的定义明确的结构或隐喻,但如何呈现它们呢?如何阐明这种隐喻呢?这正是大量创造力所在的地方,而我们实际上正在致力于大幅扩展这一方面。”

该公司筹集了1000万美元的种子轮融资,并于2024年8月公开亮相。但他们从三年前就开始研究这个问题了。“我可以告诉你,这仍然是一个非常难的问题。”Sharma说,“人类非常擅长阅读图形,并能迅速判断图形的好坏。他们不知道如何制作图形,但能非常快速地评判一个图形。”

Napkin AI的未来

随着Canva和Adobe等大型玩家瞄准通用人工智能(general AI)领域,Napkin AI凭借其明确的差异化优势可能成为收购目标。无论是作为独立的颠覆者还是更大生态系统中的关键组成部分,Napkin AI无疑是通用人工智能图形领域值得关注的一员。