首页 小说推荐 实时讯息 百科知识 范文大全 经典语录
位置: 首页 > 实时讯息 >

腾讯混元宣布开源定制化图像生成插件InstantCharacter

0次浏览     发布时间:2025-04-18 19:26:00    

IT之家 4 月 18 日消息,腾讯混元今日宣布开源定制化图像生成插件 InstantCharacter,并实现了对开源文生图模型 Flux 的兼容。

腾讯官方介绍称,通过这个插件,在大模型中,只需要一张图加一句话,就可以让任何角色以你想要的姿势出现在任何地方

输入原始图片

+ prompt :a rabbit is in the kitchen holding a spoon and drinking soup

就能得到下面的图:

+prompt:a rabbit in the city,cyberpunk

就可以得到:

角色一致性是多轮文生图场景中的一大难题。InstantCharacter 的优势在于可以确保角色在不同场景中的一致性和真实性、画质和精度高,同时具有灵活的文本编辑性,用户可以根据需要灵活切换任意场景,让人物生成任意动作。

其在角色一致性和图像生成的精确度上号称超过了此前业界的相关技术,能够处理多种风格和复杂度的图像。

通过这个插件,内容创作者可以让生成的角色保持高度一致,能够更高效地创作出符合其需求的视觉作品,可以用于连环画、影片创作等场景

实际的测评中,开源的 InstantCharacter 实现的效果媲美 GPT 4o 等模型。

从技术上看,现有基于学习的方法主要依赖于 U-Net 架构,但在泛化能力和图像质量上存在局限性,而基于优化的方法则需要针对特定主体进行微调,这不可避免地降低了文本可控性。

为了解决这些挑战,InstantCharacter 利用 DiT 模型构建了一个创新的框架。框架引入了一个可扩展的适配器(adapter),采用多个 transformer encoder,能够有效处理开放域的角色特征,并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征。

同时,为了有效训练框架,腾讯混元团队还构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织为成对(多视角角色)和非成对(文本-图像组合)子集。这种双数据结构使得身份一致性和文本可编辑性能够通过不同的学习路径同时优化。

IT之家附项目相关链接:

  • 项目官网:https://instantcharacter.github.io/

  • 代码:https://github.com/Tencent/InstantCharacter

  • Hugging Face Demo:https://huggingface.co/spaces/InstantX/InstantCharacter

  • 论文:https://arxiv.org/abs/2504.12395

相关文章

2026年发行:万代南梦宫放出《Code Vein 2》游戏首支预告片

IT之家 6 月 7 日消息,在 2025 夏日游戏节活动中,万代南梦宫(Bandai Namco)发布了《Code Vein 2》游戏,官方计划于 2026 年在 PS5、Xbox Series X / S 以及 PC 平台发行。 开发团队官宣并放出了《Code Vein 2》游戏首支预告片,展现

2025-06-07 06:03:00

6月26日发行,《死亡搁浅2:冥滩之上》游戏新预告放出

IT之家 6 月 7 日消息,在 2025 夏日游戏节上,《死亡搁浅 2:冥滩之上》(Death Stranding 2: On The Beach)游戏发布了全新预告片。预告片中,意大利演员 Luca Marinelli 饰演关键角色 Neil,而 Alyssa Jung 则饰演其治疗师 Lucy

2025-06-07 05:41:00

入局人形机器人,宁波想靠这张“隐藏王牌”拼过京沪深

宁波期望成为国内重要的人形机器人研发制造应用基地。作为一个制造业强市,如何才能形成一个好的人形机器人产业生态?《宁波人形机器人产业创新发展行动方案(2024—2027年)》提出,力争到2027年,跻身国内人形机器人产业链竞争力头部城市。去年3月,浙江人形机器人创新中心落地宁波。去年8月,浙江人形机器

2025-06-06 00:13:00

全球首款安卓AR眼镜亮相,上海产业链抢占先机!

5月20日,谷歌全球开发者大会上,全球首款安卓系统AR(增强现实)眼镜正式亮相,由谷歌和上海AI硬件企业XREAL联合打造,开启了AR行业的“安卓时刻”。记者注意到,受益于国内开源生态的持续影响,以AR眼镜、AI电脑、AI手机为代表的AI硬件正快速走向市场,成为AI应用的新风口。上海凭借完善的产业链

2025-05-31 09:07:00

o3不听指令拒绝关机,7次破坏关机脚本,AI正在学会「自我保护」机制

AI居然不听指令,阻止人类把自己给关机了???有测试者编写了一个关机脚本来测试AI模型,结果显示Codex-mini、o3、o4-mini忽略了该指令,并至少一次成功破坏了关机脚本。o3甚至还重新定义脚本命令!这不禁让人想到那句经典的“I’m sorry Dave, I’m afraid I can

2025-05-27 12:26:00

太盟投资集团将组建500亿元基金收购万达旗下48家万达广场,预计下半年交割

5月25日,有市场消息称,太盟投资集团(PAG)将组建一个由其主导,包括腾讯控股、阳光人寿、京东系资本在内支持的公司等联合组成500亿元的基金用于收购万达商业旗下48家万达广场。据澎湃新闻从知情人士处了解,此次收购将通过专项基金平台完成。由太盟来主导进行投资,太盟计划注资约50亿元认购基金次级份额,

2025-05-25 22:20:00

动物园里办时装秀?南京红山森林动物园为何能火“出圈”

模特身着品牌潮服,踩着动感节拍,一场时装秀,引来上百名观众。“太特别了!谁能想到这里不是秀场而是动物园!”来自江苏苏州的游客杨婕感慨。江苏省南京市红山森林动物园,如今是全国知名的“网红打卡地”,去年吸引游客近800万人次。这里还是众多品牌的“活动首发地”,时装秀、新品会、电影地推活动等频繁举办。求新

2025-05-25 16:36:00

小米REDMI K80 Ultra通过3C认证,标配120W快充头

IT之家 5 月 23 日消息,小米昨日有一款型号为 25060RK16C 的新机通过了国家 3C 质量认证。结合 @数码闲聊站 的说法,这款机型就是小米即将发布的 REDMI K80 Ultra。认证信息显示,该机由惠州光弘科技股份有限公司代工,标配 120W 电源适配器 MDY-14-ED。@数

2025-05-23 09:16:00