首页 小说推荐 实时讯息 百科知识 范文大全 经典语录
位置: 首页 > 实时讯息 >

腾讯混元宣布开源定制化图像生成插件InstantCharacter

0次浏览     发布时间:2025-04-18 19:26:00    

IT之家 4 月 18 日消息,腾讯混元今日宣布开源定制化图像生成插件 InstantCharacter,并实现了对开源文生图模型 Flux 的兼容。

腾讯官方介绍称,通过这个插件,在大模型中,只需要一张图加一句话,就可以让任何角色以你想要的姿势出现在任何地方

输入原始图片

+ prompt :a rabbit is in the kitchen holding a spoon and drinking soup

就能得到下面的图:

+prompt:a rabbit in the city,cyberpunk

就可以得到:

角色一致性是多轮文生图场景中的一大难题。InstantCharacter 的优势在于可以确保角色在不同场景中的一致性和真实性、画质和精度高,同时具有灵活的文本编辑性,用户可以根据需要灵活切换任意场景,让人物生成任意动作。

其在角色一致性和图像生成的精确度上号称超过了此前业界的相关技术,能够处理多种风格和复杂度的图像。

通过这个插件,内容创作者可以让生成的角色保持高度一致,能够更高效地创作出符合其需求的视觉作品,可以用于连环画、影片创作等场景

实际的测评中,开源的 InstantCharacter 实现的效果媲美 GPT 4o 等模型。

从技术上看,现有基于学习的方法主要依赖于 U-Net 架构,但在泛化能力和图像质量上存在局限性,而基于优化的方法则需要针对特定主体进行微调,这不可避免地降低了文本可控性。

为了解决这些挑战,InstantCharacter 利用 DiT 模型构建了一个创新的框架。框架引入了一个可扩展的适配器(adapter),采用多个 transformer encoder,能够有效处理开放域的角色特征,并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征。

同时,为了有效训练框架,腾讯混元团队还构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织为成对(多视角角色)和非成对(文本-图像组合)子集。这种双数据结构使得身份一致性和文本可编辑性能够通过不同的学习路径同时优化。

IT之家附项目相关链接:

  • 项目官网:https://instantcharacter.github.io/

  • 代码:https://github.com/Tencent/InstantCharacter

  • Hugging Face Demo:https://huggingface.co/spaces/InstantX/InstantCharacter

  • 论文:https://arxiv.org/abs/2504.12395

相关文章

全省支持受理数字人民币商户达286.7万个

来源:【河北经济日报】截至6月末全省支持受理数字人民币的商户286.7万个,较年初增长6.4%;开立个人钱包2515.9万个,较年初增长12.1%;累计消费金额255.3亿元,总业务金额2148.5亿元,分别较年初增长26.4%、32.2%,各项数据稳步增长上半年全省共开展惠民红包活动147次,投入

2025-07-21 12:16:00

我国牵头制定的自动驾驶测试场景评价国际标准发布

记者7日从工业和信息化部获悉,由我国牵头制定的国际标准《道路车辆 自动驾驶系统测试场景 场景评价与测试用例生成》日前正式发布。测试场景是评估自动驾驶系统功能和性能的基础,是支撑仿真和封闭场地测试等“多支柱”自动驾驶安全验证方法应用的核心要素,测试场景的多样性、覆盖性、典型性直接影响着测试结果的有效性

2025-07-08 11:14:00

辽宁印发《实施方案》促进人工智能创新发展

中新网沈阳6月25日电 (李晛 韩宏)记者25日从辽宁省政府新闻办召开的发布会上获悉,辽宁省政府办公厅印发了《辽宁省促进人工智能创新发展实施方案》(以下简称《实施方案》)。到2027年底,辽宁省算力基础设施建设体系基本形成。人工智能是引领未来的战略性技术,是新一轮科技革命和产业变革的重要驱动力量,将

2025-06-25 19:08:00

这座“养老之城”封顶,长三角养老新地标来了

近日,由中建三局承建的上海泰康之家申园三期项目主体结构全面封顶。上海泰康之家申园位于上海市松江区,是泰康保险集团在长三角地区布局的首家旗舰医养社区。中建三局先后承建二期、三期工程,此次封顶的三期工程,总建筑面积约4.3万平方米,由3栋独立生活楼、1栋商业及相关配套工程组成。该项目建成后,将与一期、二

2025-06-20 00:02:00

火山引擎×联想:进入“安全无感”的个人云时代

在端云协同成为智能终端发展主流方向的当下,大模型服务正从传统的云上访问模式,向原机预装演进。一方面,语音助手、AI搜索等应用对响应速度要求极高;另一方面,智能终端设备存储的大量敏感数据,也亟需可靠的安全保障。安全,已然成为构筑优质智能体验的核心基石。6月11日,在2025火山引擎FORCE春季原动力

2025-06-18 00:04:00

《东极岛》高难度水戏全实拍,朱一龙吴磊水下训练照首度公开

6月17日,在第27届上海国际电影节举办的“2025华语巨制巡礼”活动上,导演管虎、费振翔及制片人梁静携暑期巨制《东极岛》亮相,并在现场首度公开领衔主演朱一龙、吴磊的水下训练照片,同时分享了影片的更多幕后故事。电影《东极岛》由北京七印象文化有限公司、上海淘票票影视文化有限公司、珠江电影集团有限公司等

2025-06-17 21:18:00

在大模型应用中拓展师生思维

图①上海市虹口区曲阳第四小学学生使用学科学习智能体完善思维导图梳理。学校供图图②北京第十中学课堂教学中,学生使用生物学科AI学伴智能体开展自主学习。学校供图当前,人工智能技术已经开启了一个新的时代,社会转型必然会对教育发展提出新的要求。特别是具有开放性特征的通用大模型,借助区域教育教学资源对其进行训

2025-06-17 07:11:00

免签扩容带来服务贸易新机遇

要积极推进消费供给侧提质,通过要素集成、区域联动、产业协作等方式,进一步提升附加值、延长消费链,促进服务贸易加快升级。我国免签“朋友圈”再迎扩容。自6月12日起,中国240小时过境免签政策适用国家增至55国;截至6月9日,适用单方面免签政策来华国家已扩展至47个。免签名单不断变长,彰显了我国持续推进

2025-06-17 06:50:00