阿里达摩院发布的AnyText项目看起来非常出色,它能够生成与原始图片风格相融合的文字,或者对图片中的文字进行修改,同时支持中文!
AnyText项目包括两个核心模块:一个潜在特征模块和一个文本嵌入模块。潜在特征模块使用文本字形、位置和蒙版图像等输入,生成用于文本生成或编辑的潜在特征。文本嵌入模块则利用OCR模型将笔画数据转化为嵌入,再与来自标记器的图像标题嵌入相结合,生成能够与背景无缝融合的文本。
为了提高书写的准确性,AnyText采用了两种损失函数进行训练:文本控制扩散损失和文本感知损失。
相关导航
暂无评论...