首页 小说推荐 实时讯息 百科知识 范文大全 经典语录
位置: 首页 > 实时讯息 >

腾讯混元宣布开源定制化图像生成插件InstantCharacter

0次浏览     发布时间:2025-04-18 19:26:00    

IT之家 4 月 18 日消息,腾讯混元今日宣布开源定制化图像生成插件 InstantCharacter,并实现了对开源文生图模型 Flux 的兼容。

腾讯官方介绍称,通过这个插件,在大模型中,只需要一张图加一句话,就可以让任何角色以你想要的姿势出现在任何地方

输入原始图片

+ prompt :a rabbit is in the kitchen holding a spoon and drinking soup

就能得到下面的图:

+prompt:a rabbit in the city,cyberpunk

就可以得到:

角色一致性是多轮文生图场景中的一大难题。InstantCharacter 的优势在于可以确保角色在不同场景中的一致性和真实性、画质和精度高,同时具有灵活的文本编辑性,用户可以根据需要灵活切换任意场景,让人物生成任意动作。

其在角色一致性和图像生成的精确度上号称超过了此前业界的相关技术,能够处理多种风格和复杂度的图像。

通过这个插件,内容创作者可以让生成的角色保持高度一致,能够更高效地创作出符合其需求的视觉作品,可以用于连环画、影片创作等场景

实际的测评中,开源的 InstantCharacter 实现的效果媲美 GPT 4o 等模型。

从技术上看,现有基于学习的方法主要依赖于 U-Net 架构,但在泛化能力和图像质量上存在局限性,而基于优化的方法则需要针对特定主体进行微调,这不可避免地降低了文本可控性。

为了解决这些挑战,InstantCharacter 利用 DiT 模型构建了一个创新的框架。框架引入了一个可扩展的适配器(adapter),采用多个 transformer encoder,能够有效处理开放域的角色特征,并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征。

同时,为了有效训练框架,腾讯混元团队还构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织为成对(多视角角色)和非成对(文本-图像组合)子集。这种双数据结构使得身份一致性和文本可编辑性能够通过不同的学习路径同时优化。

IT之家附项目相关链接:

  • 项目官网:https://instantcharacter.github.io/

  • 代码:https://github.com/Tencent/InstantCharacter

  • Hugging Face Demo:https://huggingface.co/spaces/InstantX/InstantCharacter

  • 论文:https://arxiv.org/abs/2504.12395

相关文章

这份公益已坚持四年,提供7.7万个安睡夜

2025年9月,麦当劳迎来第四届全球志愿者月。作为年度活动,延续以往的爱心接力,广州麦麦义工团今年通过举办爱心公益义卖活动支持麦当劳叔叔之家,为异地就医的困难病童家庭募集善款,送去关怀与帮助。9月6日,广州乐峰广场热闹非凡。广州麦麦义工团携手一群“小小志愿者”,通过义卖活动倡导关爱与奉献精神,让孩子

2025-09-08 16:55:00

变身数智化工具 鸿蒙生态加速建设

“目前互联网头部应用已适配鸿蒙,中长尾应用也陆续加入,鸿蒙生态基本好用。”在8月底举行的鸿蒙生态大会2025上,华为轮值董事长徐直军介绍,开源鸿蒙在金融、电力、能源、交通、通信等行业得到广泛应用。对企业来说,加入鸿蒙生态,既是技术创新的机会,也是商业发展的契机。在数字化转型的过程中,企业可以利用鸿蒙

2025-09-05 08:11:00

迈胜:填补国内运动专业营养的空白

据了解,中国运动健身人群规模已突破6亿。如何在庞大的运动市场中找到新增长点,成为众多品牌的共同课题。作为国内首个定位“专业运动营养”的本土品牌,迈胜以超300%的业绩增速交出亮眼答卷:既在跑者和健身人群中建立了专业心智,又在多个细分品类拔得头筹。通过战略第二曲线的精准切入、全场景产品矩阵的持续完善,

2025-09-01 18:47:00

驻马店:园林增色绘新景 绿意满城绽芳华

全媒体记者 孔莉 张静近年来,驻马店市坚持以人民为中心,加快推进城市绿化,推动公园游园建设、道路绿化、水岸景观改造全面展开,征迁建绿、拆违还绿、见缝插绿、立体绿化齐头并进,努力形成“园在城中,城在园中,城园一体”的园林绿地系统新格局,让市民在繁华都市中尽享绿意之美。8月29日,记者在开源公园看到,各

2025-08-30 17:37:00

南都N视频客户端鸿蒙版上线!新型都市媒体智能交互应用+1

近日,南方都市报社旗下南都新闻客户端与N视频客户端合二为一,“南都N视频客户端”焕新上线,迈出主流媒体系统性变革中南都探索的重要一步。8月25日,南都N视频客户端在HarmonyOS应用市场正式上架,“南都N视频”纯血鸿蒙版与大家见面!继苹果和安卓版本后,这个拥有4500万粉丝的客户端将为鸿蒙系统终

2025-08-25 01:38:00

报告丨2025“人工智能+”行业标杆案例荟萃

来源:AI芯天下前言:2025年,“人工智能 +”领域智能体应用呈现从工具赋能向系统重构的深刻转型。报告显示,智能体已深度融入制造、能源、医疗等核心场景,不仅实现了从数据感知到决策执行的闭环升级,更展现出虚实融合的创新模式、行业知识的深度融合以及生态级协同能力。作者 | 方文三图片来源 |网 络 这

2025-08-18 00:12:00

第二十四届中国计算语言学大会(CCL 2025)成功召开

2025年8月11日-14日,第二十四届中国计算语言学大会(CCL 2025)在济南市成功召开。本次大会由中国中文信息学会计算语言学专业委员会主办,齐鲁工业大学(山东省科学院)承办。会议聚焦计算语言学前沿技术与发展趋势,为700余位与会学者搭建了高水平的学术交流平台,获得与会专家学者的高度认可。本次

2025-08-17 11:14:00

全省支持受理数字人民币商户达286.7万个

来源:【河北经济日报】截至6月末全省支持受理数字人民币的商户286.7万个,较年初增长6.4%;开立个人钱包2515.9万个,较年初增长12.1%;累计消费金额255.3亿元,总业务金额2148.5亿元,分别较年初增长26.4%、32.2%,各项数据稳步增长上半年全省共开展惠民红包活动147次,投入

2025-07-21 12:16:00