AI编程AI开源项目

AnyText

多语言视觉文本生成和编辑工具,它基于扩散模型,能够在图片中生成或编辑文字

标签:
阿里绘蛙

AnyText 是一个开源的多语言视觉文本生成和编辑工具,它基于扩散模型,能够在图片中生成或编辑文字。这个工具支持中文、英文、日文和韩文等多种语言,适用于电商海报、Logo 设计、创意涂鸦、表情包等多种场景。AnyText 包含两个核心模块:辅助潜在模块(Auxiliary Latent Module)和文本嵌入模块(Text Embedding Module)。辅助潜在模块负责处理字形、文字位置和掩码图像等辅助信息,而文本嵌入模块则将文字的语义信息与字形信息解耦合,以提高文字生成的精度和背景一致性。在训练阶段,除了使用扩散模型常用的噪声预测损失,还增加了文本感知损失,以提升文字书写的精度。
AnyText 的代码和安装说明可以在其 GitHub 页面上找到。要在本地安装和运行 AnyText,需要至少20GB的内存和高端显卡。安装过程包括克隆代码库、准备字体文件(推荐 Arial Unicode MS),创建新的环境并安装所需的软件包。AnyText 还提供了在线演示,用户可以通过这个演示直接体验其功能。
此外,AnyText 的训练数据集为 AnyWord-3M,主要来源于互联网开源数据集,包括 LAION-400M, Noah-Wukong 以及部分 OCR 数据集。这些数据集经过筛选,得到了300万高质量的图文对,涵盖了多种语言和图像类型。

相关导航

暂无评论

暂无评论...