Luma AI于3月23日发布了Uni-1图像生成模型,这是该公司首个基于统一智能架构(Unified Intelligence architecture)的公开模型。官方网站已开放免费试用通道,并公布了API定价,企业访问渠道也正逐步推出。
架构变革:从扩散模型到自回归
Uni-1放弃了目前主流的扩散模型(diffusion model)方法,转而使用仅解码器(decoder-only)的自回归Transformer模型(autoregressive Transformer),将文本tokens和图像tokens以交替顺序排列成单一序列,从而在单个前向传递(forward pass)中完成推理和像素生成。
Luma AI首席执行官Amit Jain解释说,传统的解决方案通常首先使用语言模型进行规划,然后将其交给扩散模型进行生成,这导致两个阶段之间存在信息丢失。Uni-1的设计目标是消除这种差距。值得一提的是,Jain此前曾在苹果公司工作,并参与了Vision Pro的工程工作。
功能:参考图像控制和跨风格生成
Uni-1支持生成由一个或多个参考图像引导的图像,从而保留主体的人物身份、姿势和构图。官方测试表明,在处理人物一致性和人像控制方面,多参考图像模式表现稳定。
该模型声称支持76种视觉风格,涵盖逼真摄影、漫画和浮世绘等类别。
在一个演示中,输入“绘制金门大桥的图表”后,模型自动规划布局,生成桥梁结构图,并标注“1711米”等数据,内部推理过程实时可见。
基准测试:在空间推理和参考生成方面领先
Luma发布的数据显示,Uni-1在RISEBench推理基准测试中得分为0.51,高于谷歌的Nano Banana 2的0.50和OpenAI的GPT Image 1.5的0.46;其空间推理得分为0.58,逻辑推理得分为0.32,约为GPT Image的两倍。ODinW-13目标检测得分为46.2 mAP,接近谷歌Gemini 3 Pro的46.3。
在人类偏好Elo排名中,Uni-1在整体偏好、风格和编辑以及参考生成方面均排名第一,在文本到图像生成方面排名第二。
定价
API费用基于tokens:输入文本每百万tokens收费0.50美元,输入图像每百万tokens收费1.20美元,输出文本和思维链(thought chain)每百万tokens收费3.00美元,输出图像每百万tokens收费45.45美元。
换算成单张图像:文本到图像(2048px)的成本约为0.0909美元,使用单个参考图像进行编辑的成本约为0.0933美元,而使用八个参考图像的成本约为0.1101美元。
据VentureBeat报道,在2K分辨率的企业场景中,Uni-1的成本比谷歌的Nano Banana 2低10%到30%。
背景
Luma Labs此前专注于视频生成产品,如Dream Machine (Ray3 series)。3月5日,该公司发布了基于统一智能架构的Luma Agents创意代理平台。Uni-1是该架构在静态图像产品中的首次应用。
在发布后的几个小时内,X平台上的相关帖子获得了超过230万的浏览量。Luma表示,后续将推出视频和音频版本,但具体时间尚未披露。
试用地址:lumalabs.ai/uni-1
补充背景:Luma Labs是一家专注于AI内容创作的初创公司,其Dream Machine在视频生成领域具有一定影响力。Transformer模型是一种基于自注意力机制的深度学习模型,在自然语言处理和计算机视觉领域取得了显著成果。OpenAI的GPT系列模型也采用了Transformer架构。
原创文章,作者:林诗雨,如若转载,请注明出处:http://m.gaochengzhenxuan.com/news/13066.html