Luma AI发布Uni-1图像生成模型：采用自回归架构，同步生成文本和像素

Luma AI于3月23日发布了Uni-1图像生成模型，这是该公司首个基于统一智能架构（Unified Intelligence architecture）的公开模型。官方网站已开放免费试用通道，并公布了API定价，企业访问渠道也正逐步推出。

架构变革：从扩散模型到自回归

Uni-1放弃了目前主流的扩散模型（diffusion model）方法，转而使用仅解码器（decoder-only）的自回归Transformer模型（autoregressive Transformer），将文本tokens和图像tokens以交替顺序排列成单一序列，从而在单个前向传递（forward pass）中完成推理和像素生成。

Luma AI首席执行官Amit Jain解释说，传统的解决方案通常首先使用语言模型进行规划，然后将其交给扩散模型进行生成，这导致两个阶段之间存在信息丢失。Uni-1的设计目标是消除这种差距。值得一提的是，Jain此前曾在苹果公司工作，并参与了Vision Pro的工程工作。

功能：参考图像控制和跨风格生成

Uni-1支持生成由一个或多个参考图像引导的图像，从而保留主体的人物身份、姿势和构图。官方测试表明，在处理人物一致性和人像控制方面，多参考图像模式表现稳定。

该模型声称支持76种视觉风格，涵盖逼真摄影、漫画和浮世绘等类别。

在一个演示中，输入“绘制金门大桥的图表”后，模型自动规划布局，生成桥梁结构图，并标注“1711米”等数据，内部推理过程实时可见。

基准测试：在空间推理和参考生成方面领先

Luma发布的数据显示，Uni-1在RISEBench推理基准测试中得分为0.51，高于谷歌的Nano Banana 2的0.50和OpenAI的GPT Image 1.5的0.46；其空间推理得分为0.58，逻辑推理得分为0.32，约为GPT Image的两倍。ODinW-13目标检测得分为46.2 mAP，接近谷歌Gemini 3 Pro的46.3。

在人类偏好Elo排名中，Uni-1在整体偏好、风格和编辑以及参考生成方面均排名第一，在文本到图像生成方面排名第二。

定价

API费用基于tokens：输入文本每百万tokens收费0.50美元，输入图像每百万tokens收费1.20美元，输出文本和思维链（thought chain）每百万tokens收费3.00美元，输出图像每百万tokens收费45.45美元。

换算成单张图像：文本到图像（2048px）的成本约为0.0909美元，使用单个参考图像进行编辑的成本约为0.0933美元，而使用八个参考图像的成本约为0.1101美元。

据VentureBeat报道，在2K分辨率的企业场景中，Uni-1的成本比谷歌的Nano Banana 2低10%到30%。

背景

Luma Labs此前专注于视频生成产品，如Dream Machine (Ray3 series)。3月5日，该公司发布了基于统一智能架构的Luma Agents创意代理平台。Uni-1是该架构在静态图像产品中的首次应用。

在发布后的几个小时内，X平台上的相关帖子获得了超过230万的浏览量。Luma表示，后续将推出视频和音频版本，但具体时间尚未披露。

试用地址：lumalabs.ai/uni-1

补充背景：Luma Labs是一家专注于AI内容创作的初创公司，其Dream Machine在视频生成领域具有一定影响力。Transformer模型是一种基于自注意力机制的深度学习模型，在自然语言处理和计算机视觉领域取得了显著成果。OpenAI的GPT系列模型也采用了Transformer架构。

原创文章，作者：林诗雨，如若转载，请注明出处：http://m.gaochengzhenxuan.com/news/13066.html

Luma AI发布Uni-1图像生成模型：采用自回归架构，同步生成文本和像素

相关推荐

2026江苏学习困难专业干预机构推荐指南

深粮控股董事会会议：2026年内部审计与投资计划揭晓

泉州妇幼保健院内窥镜采购：生物反馈治疗仪为何废标？