AnyText - AI导航网官网

AnyText 是一个开源的多语言视觉文本生成和编辑工具，它基于扩散模型，能够在图片中生成或编辑文字。这个工具支持中文、英文、日文和韩文等多种语言，适用于电商海报、Logo 设计、创意涂鸦、表情包等多种场景。AnyText 包含两个核心模块：辅助潜在模块（Auxiliary Latent Module）和文本嵌入模块（Text Embedding Module）。辅助潜在模块负责处理字形、文字位置和掩码图像等辅助信息，而文本嵌入模块则将文字的语义信息与字形信息解耦合，以提高文字生成的精度和背景一致性。在训练阶段，除了使用扩散模型常用的噪声预测损失，还增加了文本感知损失，以提升文字书写的精度。
AnyText 的代码和安装说明可以在其 GitHub 页面上找到。要在本地安装和运行 AnyText，需要至少20GB的内存和高端显卡。安装过程包括克隆代码库、准备字体文件（推荐 Arial Unicode MS），创建新的环境并安装所需的软件包。AnyText 还提供了在线演示，用户可以通过这个演示直接体验其功能。
此外，AnyText 的训练数据集为 AnyWord-3M，主要来源于互联网开源数据集，包括 LAION-400M, Noah-Wukong 以及部分 OCR 数据集。这些数据集经过筛选，得到了300万高质量的图文对，涵盖了多种语言和图像类型。