发布日期:2026-02-12 23:47 点击次数:115

允中 发自 凹非寺
AI生图边界,又出了个“狠变装”。
本日,小红书基础模子FireRed-Image-Edit贯注亮相。
看似“低调”,实则战绩惊东说念主——其在惩处复杂裁剪教导、作风化调遣,及高精度笔墨裁剪等多个中枢想法上,展现出超强实力。
对比末端长远,FireRed-Image-Edit凭借更精确的剖释力、更强的ID保抓度及高效的架构,在多项巨擘测试中脱颖而出,在ImgEdit、GEdit等多个榜单中获取了SOTA,达到业界逾越水平。

△主流榜单和自建评测集上的想法对比
这种高效架构背后的技艺底座,来自小红书Super Intelligence Team在图像生成与裁剪边界的一次勤奋探索。
起诉书显示,李群和林某强于2018年通过网络认识,2022年年底确定恋爱关系,后二人因感情纠纷于2024年8月底分手。林某强认为李群对感情不忠,遂欲杀害李群及与李群有暧昧关系的人,并购买三棱军刺、电击枪等工具。2024年11月1日,林某强在一处出租屋将李群掐死。
划重心!现在该名目代码、技艺呈文、demo网页已开源,模子权重也行将在将来几天开源。

△东说念主工评估胜出率
硬核评测想法与全链路技艺底座
FireRed-Image-Edit之是以能被称为“狠变装”,不仅在于榜单上的惊艳进展,更源于小红书团队为其量身定制的一套“高难度考卷”与“进阶版练功房”。
1、从头界说圭臬:RedEdit Bench
在AI生图边界,现存的基准测试经常难以隐私用户实在的复杂需求。为此,团队推出了RedEdit Bench这一深度评测决策。
全场景隐私:包含15个子任务。除了成例的画面增篡改外,该评测集还前瞻性地纳入了东说念主像好意思化、低画质增强等高频实战场景。
实在严苛:对比执行标明,比较ImgEdit和GEdit,该Bench对裁剪模子通用能力的评估精度更高。
该Bench随后会开源,以期为开源社区对图像裁剪模子的评估竖立新维度的圭臬。

2、中枢战力起首:数据构造与三阶段历练
有了严苛的考卷,若何“培养”出高分考生?
FireRed-Image-Edit依靠的是一套极具成果的数据引擎与历练逻辑——
当先来看数据引擎方面,FireRed-Image-Edit构建了一套图像裁剪数据分娩引擎,从“快速、可控、精确”启程,将复杂裁剪需求拆解为可组合的子任务,并通过三条旅途规模化产出历练对:
教导末端的人人模子合成;
结构化末端(如分割/要津点/深度等)的人人模子合成;
模子无关的模板化合成(如3D/布局/笔墨)。
针对长尾裁剪任务样本稀缺问题,弃取“检查—补皆”的定向补数经由,由引擎快速生成针对性数据,并妥洽三层级去重、十余种质地清洗算子与严格一致性守门员,确保数据的教导革职、视觉当然度与内容一致性。

而在模子历练方面,现时模子框架参考主流裁剪模子框架,j9game模子通过三阶段历练来完成能力的进阶。
预历练阶段:通过多条目感知桶采样来均衡不同的裁剪任务,并通过当场动态教导来擢升模子的教导泛化剖释能力,并通过前置的embedding抽取来擢升历练就果;
微调阶段:通过高质地数据的引入,来擢升模子进展;
强化学习阶段:通过非对称梯度优化来强化正样本响应,基于OCR奖励的diffusionNFT来擢升笔墨裁剪准确性。

模子中枢能力展示
FireRed-Image-Edit的浩大,源于对“裁剪”二字的深度剖释。
并非简便重绘,而是兑现精确末端,其中枢能力擢升如下。
1、教导革职一致性
指的是模子引入当场教导对皆的机制,通过当场打乱和动态重组prompt,来使模子能信得过剖释语义与图像的对应联系,而非死记硬背。
请修正图像中的舛误。
示例1:


示例2:


2、笔墨裁剪
FireRed-Image-Edit改进性地提议了Layout-Aware OCR-based Reward。
在强化学习阶段,团队不仅刑事背负错别字,还刑事背负字符的错位、大小畸形和布局崩坏。
这使得模子在进行海报修改、笔墨替换时,能更准确地进行裁剪并保抓原始笔墨作风。
示例1:
将海报上右下角的笔墨“ programme”修改为“program ongoing”,保抓字体和作风一致。


示例2:
用参考图的玩偶行为画面主角,一稔上头印着“FireRed-Image-Edit”字样,站在童话感花圃草地中,开云体育周围有精眇小花和柔软建筑配景,全体作风和善梦乡,超清细节,生意级照相质感。 小红薯正对镜头,自信可人地直立,死后是一块黑板,用白色粉笔明晰写着: “FireRed-Image-Edit三大绝活:笔墨艺术家:中英笔墨体排版专科相识,视觉作风斡旋 时光开采师:老相片开采细节丰富,呈现当然实在造型谋略师:智能换装精确当然,多作风衣饰一键切换”,笔墨为白色粉笔手写体。 画面明后柔软当然光,浅景深,配景隐微虚化,色调亮堂裕如,高清8K,实在照相作风,细节明锐,无噪点,无畸变。


3、创意与多图生成
同期依赖于浩大的模子架构能力,FireRed-Image-Edit撑抓了创造力场景生成和多参考图生成的能力,撑抓作风移动或多图和会。
示例1:
模特穿上图1衣饰,版型宽松。搭配玄色、材质为氨纶、纯色、紧身、长度至大腿中部的骑行短裤,再搭配金色圆环耳饰。



示例2:
一瓶香水放居中,香水瓶放在水面上,透明方形瓶身搭配金色金属瓶盖,极简而当代。彻亮的水花如爆炸般环绕瓶身通达开,大量水点在空中定格,折射出梦乡的光彩。底部水波激荡层层扩散,与飞溅的水花酿成动静交汇的视觉张力。寒冷活力与高端蹧跶并存,仿佛将夏令清泉的转眼灵动历久封存。透过瓶身能看到香水背后的诠释书。


示例3:
将这张图变成游戏CG作风,极具艺术感,震憾东说念主心,超高清。落叶飞溅,远景落叶虚化,动态璷黫,配景动态虚化,阳光灿烂,蓝天白云,光影交错,仰拍特写镜头,隆起速率感和视觉冲击力,强透视。


示例4:
将这张图变成游戏CG作风,极具艺术感,震憾东说念主心。


示例5:
谋略一张A6折叠卡:翻开时长远图片中的小屋。


示例6:
画质开采,细节重现:除了通用裁剪,骨子驾驭中,用户粗鄙濒临相片璷黫、低分手率、曝光不及或画质受损的问题。FireRed-Image-Edit将超分、去璷黫、去噪及光影增强等底层视觉任务斡旋纳入了教导微调的限度。让用户不错一键画质调治。开采并上色这张老相片,使其看起来像是用当代相机拍摄的。


示例7:
将这张璷黫的图像增强明晰度,使其极为明晰且高质地。


通过开源FireRed-Image-Edit,小红书但愿为社区提供一个高效、可控、高质地的基座。
后续将会进一步擢升基础模子在东说念主像好意思化、一致性、笔墨上的裁剪能力,并将在将来几个月内抓续开源更新版块和文生图基座模子。
接待人人下载体验,在GitHub上点亮Star!
以下是小红书Super Intelligence的团队先容:

*本文系量子位获授权刊载,不雅点仅为原作家悉数。
一键三连「点赞」「转发」「留意心」
接待在批驳区留住你的思法!
— 完 —
点亮星标
科技前沿进展逐日见kaiyun sports
Copyright © 1998-2026 开云体育官方网站 - KAIYUN™版权所有
技术支持:®开云体育 RSS地图 HTML地图