当前位置:100EC>产业数字化>百度文心开源ERNIE-Image 复杂海报与多语言文字渲染能力全面升级
百度文心开源ERNIE-Image 复杂海报与多语言文字渲染能力全面升级
网经社发布时间:2026年04月16日 10:48:29

(网经社讯)4月15日,百度文心大模型团队正式开源文生图模型ERNIE-Image。该模型主打复杂指令跟随、高密度文字渲染和多语言生成,参数量仅8B,可在24GB显存的消费级显卡上本地运行。官方称其在多项国际基准测试中文字渲染能力达到开源SOTA,与NanoBanana等商业闭源模型同属第一梯队。

网经社数字生活台(DL.100EC.CN)获悉,文字渲染长期是文生图模型的痛点。Midjourney V8虽相比V7大幅改善了文本生成稳定性,但仍需用户用引号标注内容,复杂排版下容易出错。ERNIE-Image的差异化在于,它不仅能生成清晰的单行文字,还能处理海报排版、学术图表、漫画分镜等需要精确布局和多语言混合的场景。模型针对中、英、日、韩等语言做了字形和笔画的专门优化,在多语言文字同时出现时保持可读性。

技术架构上,ERNIE-Image采用单流Diffusion Transformer,并附带轻量级Prompt Enhancer,能将简短用户输入扩展为更结构化的描述。模型权重和推理代码已在Hugging Face开源,采用Apache 2.0协议,同时支持ComfyUI工作流,并与Unsloth联合推出GGUF量化方案,降低了开发者部署门槛。

在开源文生图赛道,阿里Qwen Image 2.0同样强调中文汉字渲染和长文本输入能力;字节Seedream 5.0 Preview侧重检索增强生图与精细调控;谷歌Nano Banana 2也重点宣传了文字繁重设计场景。ERNIE-Image的独特之处在于完全开源权重,允许本地部署和二次开发,而非受限于云API调用,为对数据隐私和部署灵活性有要求的用户提供了新的选择。

当前文生图领域正从“生成好看图片”转向“高效解决实际问题”。海报设计、多语言广告本地化、信息图制作等场景对文字渲染和指令控制的精度要求越来越高。ERNIE-Image选择在此节点开源,既是百度在多模态大模型战略上的进一步落地,也是其对开源社区的积极试探。

浙江网经社信息科技公司拥有18年历史,作为中国领先的数字经济新媒体、服务商,提供“媒体+智库”、“会员+孵化”服务;(1)面向电商平台、头部服务商等PR条线提供媒体传播服务;(2)面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务;(3)面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务;(4)面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库(DATA.100EC.CN,免费注册体验全库)基于电商行业18年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【关键词】 百度ERNIE-Image原创
【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
          微信公众号
          微信二维码 打开微信“扫一扫”
          微信小程序
          小程序二维码 打开微信“扫一扫”