资讯
开云官方模子意会了什么和模子画了什么是两件事-开云(中国)Kaiyun·官方网站登录入口
发布日期:2026-05-12 07:33    点击次数:51
 

允中 发自 凹非寺

量子位 | 公众号 QbitAI

一支不到15东谈主的团队,把图像模子作念到了大家第三。

5月6日凌晨,Luma AI崇拜晓喻通达Uni-1.1 API。

险些在归拢工夫,由第三方机构Arena.ai发布的图像生成榜单,完成了最新一轮的“大洗牌”——

Luma凭UNI-1.1与UNI-1.1-Max径直冲进大家前三,仅次于OpenAI(gpt-image-2)和Google(nano-banana-2)。

△Arena.ai图片生成榜单

把Microsoft AI、Reve、xAI等玩家……悉数甩在死后。

这个名次的含金量了然于目,Arena.ai秉承的是一套依靠用户盲测投票产出的ELO评分系统,莫得官方公关或自报数据,每张图齐是由确凿用户在不知谈模子起原的前提下,对两份生奏效果二选一投出来的。

这意味着,在确凿场景下,图像模子Uni-1.1的审好意思和输出质地,也曾成了OpenAI和Google除外的最优解。

随API、名次榜单一同发布的,还有两项硬目的值得沿途看:

价钱腰斩:2K别离率单图最低$0.0404(合东谈主民币0.2755元),对比Nano Banana级别模子径直砍半;落地连忙:阿迪达斯、马自达以及阳狮集团等告白大户,也曾带头签了单。

更值得注释的是,一个正本预算1500万好意思元、周期一年的告白campaign,用Luma Agents跑了40小时、花了不到2万好意思元,不仅拓展成多国脉地化版块,还通过了甲方内审。

这也曾不是在探求“丹青得好不面子”了。

推理和生成,住进归拢个模子

许多东谈主当先看到Uni-1,第一响应以为这是又一个图像模子。

但Luma此次发布果然凿卖点,并不在像修养量本人,而是它把推理(reasoning)和生成(generation)放进了归拢个模子。

传统图像模子的使命流是:用户写prompt → 模子径直出图 → 不舒心→ 换prompt重抽。

总共这个词过程里,模子意会了什么和模子画了什么是两件事,企业拿这种AI用具去跑品牌投放,最大的痛点是不成控,归拢个扮装到了下一张图就变样、品牌色每次齐飘、跨市场素材格调各跑各的。

而Uni的架构改换了这件事。

它秉承decoder-only自回想Transformer,文本token与图像token分享归拢个序列——

也便是说,模子不是先翻译再画,而是同期跨模态推理;构图、空间、品牌一致性这些管理,是在像素生成之前就也曾在结构层面被求解。

API层面的体现便是两个端点:

Reasoning端点:解构教唆、诡计构图、锁定品牌/扮装/家具管理;Generation端点:在推理效果之上完成像素渲染。

这套遐想的产业真理,是把创意可控性从prompt工程的哲学,酿成了一组能写进坐蓐pipeline的API协议。

谁在用:告白巨头、通顺品牌、素材平台

Luma此次莫得把Uni-1.1当成建造者玩物发布,而是径直把企业客户名单亮了出来。

1、告白与营销侧

Publicis Groupe(阳狮,大家跳跃的告白与传播集团)和Serviceplan(欧洲最大的自主策划告白代理集团):

把Luma Agents(基于Uni-1.1)部署到从计谋、创意建造到坐蓐的全经由。

一个被屡次征引的标杆案例是,把某品牌原筹算1500万好意思元、一年期的告白campaign,用40小时、不到2万好意思元(合东谈主民币约13.6万元)的资本,拓展为多国脉地化版块,且通过了甲方里面质地审核。

Adidas、Mazda:

把Uni-1.1接入品牌内容坐蓐活水线,用于跨市场视觉素材的批量生成与一致性悭吝。

2、素材与建造者生态侧

Envato、Comfy、Runware、Flora、Krea、Magnific、Fal、LovArt等创作家平台与AI使命流公司,已基于Uni-1.1 API发布了集成。

Luma独创东谈主兼CEO Amit Jain把这件事综合为:

用言语想考,用像素设想与渲染,这便是像素中的智能(intelligence in pixels)。

三个起初被产业考据的运用场所

从已落地的客户案例倒推,Uni-1.1 API在以下三个方朝上,也曾有了分解的ROI模子:

1. 告白土产货化

一支在纽约拍的告白主视觉,要在东京、利雅得、巴黎、上海各发一版。

传统经由要重拍、重P、重作念合规审查,单条预算从几万到几十万好意思元不等。

Uni-1.1单次API调用支撑最多9张参考图采集输入,把品牌主形象、笔墨、家具、地域元素当作模子层级的硬管理传入,多言语渲染(含汉文、阿拉伯文等非拉丁字符)一次到位。

Publicis案例里40小时 vs 一年的差距,便是从这里挤出来的。

2. 电商与家具可视化

电市场景的痛点是量大、SKU杂、还要保证家具骨子一致。

建造者不错把家具照、面料样、场景参考一并喂给API,单图资本最低$0.0404,作念到按页/按用户/按地域及时生成家具图,而不是一次拍完反复套模板。

Luma官方把这种用法叫作reference-grounded brand workflows at scale,即参考图当作模子级管理,把视觉身份锁在总共channel里。

3. 扮装与IP一致性

游戏好意思宣、漫画、影视前期、诬捏代言——

这些场景需要归拢个扮装穿越不同场景、姿态、色泽,但身份信息必须稳如老狗。

Uni-1.1的多参考图机制+ 句子级裁剪(按句改图,默许保留其他元素),让这件事不错作念成笃定性活水线,而不是反复抽卡赌运谈。

智力速览:3个例子,看懂范围

单图直出一整张「2036年新闻网站」

Prompt:Generate a news website page from the year 2036, featuring relevant news stories and ad blocks designed not for humans, but for AI agents who have evolved into distinct personalities. Both the website and all the advertisements featured on it should be in English.

(生成一个来自2036年的新闻网站页面,其中包含磋议的新闻,以及成心为Agent遐想的告白模块。这些Agent也曾进化出各自特有的“东谈主格”。总共这个词网站内容以及总共告白齐必须使用英文呈现。)

一张图测出一个模子的「确凿成色」——

Uni-1.1单次推理生成了一整页可读的新闻网站:

包括报头、栏目导航、突发新闻条、头条主图、多栏正文、签字/工夫戳、面向AI受众的横幅告白位、页脚邻接,十几类版式元素同框,每一类的英文文本齐是确凿可读的。

而不是图像模子常见的「远望OK、但近看全是乱码」。

这么的复杂版面+长文本任务,在传统pipeline里要由文本裁剪、OCR一致性、版面结构多个模块采集完成,Uni-1.1把它们持在了一次推理里。

多参考图+品牌logo+真东谈主和会

两只猫+一位真东谈主+Luma logo,4张参考图和会成一个有逻辑的会议场景。

GPT Image 1.5把参考图当贴图径直镶嵌了PPT区域,Uni-1在语义层面完成了和会,这是品牌campaign里家具+代言东谈主+场景+logo组合最常见的需求。

多轮裁剪:三连改不丢主体

去掉前边那只熊→加一个玄色布帘→改成瑕瑜相片,三轮教唆重叠,主体一致性和空间干系在每一轮齐没崩。

这是按句裁剪在坐蓐环境里最值钱的智力,家具司理不错像裁剪文档相同迭代视觉。

(注:Uni-1.1还支撑汉文笔墨渲染、UV贴图、草稿转漫画、格调挪动、跨年齿扮装故事板等更多场景,本文不再伸开。)

价钱:把图像生成的旯旮资本打到地板

API径直对企业掀开了两档计费:

Build筹算(按量计费)

Scale筹算(预留迷糊,最低8单位起订)

Luma的官方说法是,价钱与延长均不到同类模子的一半——

这少量在第三方榜单和早期接入客户的资本对比里已被实证。

SDK遮盖Python/JavaScript/TypeScript/Go/CLI,从platform.lumalabs.ai拿key即可接入。

团队不到15东谈主,干到大家第三:DDIM之父&CVPR最好论文作家带队

Uni-1的中枢磋议团队不到15东谈主,由两位华东谈主学者领衔:

宋佳铭(Jiaming Song):清华本科、斯坦福博士。代表作DDIM(Denoising Diffusion Implicit Models)是扩散模子采样加快的奠基使命之一,被Stable Diffusion、DALL·E等系统庸碌秉承;沈博魁(William Shen):斯坦福本科及博士。代表作获CVPR 2018 Best Paper Award和RSS 2022 Best Student Paper Award。

一位深耕“生成”、一位精于“意会”。

这种互补的威望,适值对应了Uni-1.1“脑手合一”的架构,让模子在落笔绘画之前,先学会像东谈主类相同想考构图和品牌逻辑。

在Google、OpenAI主导的图像赛谈里,一支不到15东谈主的团队,把API订价压到同业一半,还趁便在Arena.ai上完成了对一众大厂的“越级反杀”,是此次发布另一个值得记一笔的产业信号。

API发布前后,Luma团队在X平台上,贴出了三条短评:

Luma首席科学家宋佳铭说:

咱们用的算力范围可能会让你感到不测。为咱们团队感到自傲。

(略略更详备的推崇,很快会发布。)

Uni-1磋议负责东谈主沈博魁(William Shen)说:

UNI-1的首发,让咱们成了除OpenAI与Gemini App除外名次最高的践诺室。对一个第一代妥洽图像模子来说,这个起先不算差。顺带一提,此次榜单更新里,GPT Image 2的ELO比之前掉了110分,不太笃定中间发生了什么……

而Luma模子家具lead Barkley Dai说:

Luma现时是Arena.ai第三名了。GPT-Image 2级别的智能,Midjourney级别的审好意思,价钱只好Nano Banana的零头。

两条背后的潜台词是,Uni-1.1是Luma妥洽智能阶梯的第一代家具;

而它所以第一代的身份,径直干到Arena.ai第三名,把价钱压到同类一半。

下一步:从图像到“看说推想”的一语气流

按照Luma的阶梯图,Uni-1.1仅仅妥洽智能的第一代落地花式。

下一步,他们会把这套妥洽框架从静态图像推广到视频、语音和交互式宇宙模拟——

倡导是构建一个能在一语气流里看、说、推理、设想的多模态系统。

其CEO Amit Jain对此的总结是:

妥洽智能果然凿价值,不是更面子的图,而是模子既能意会又能生成之后,AI第一次确凿具备了端到端完成创意使命的智力。

API进口:lumalabs.ai/api

官方公告:lumalabs.ai/news/uni-1-1-api

接入文档:platform.lumalabs.ai

SDK:Python/JavaScript/TypeScript/Go/CLI