一种分层自适应零样本语音风格转换模型
一个功能强大的数据库工具,它可以帮助用户子集化数据库、浏览关系数据,并提供数据库维护和管理功能。
Facebook Research开发的Audiocraft音频处理和生成库
可以爬取指定网站中的内容,并生成json文件,可以直接上传到GPTs的知识库使用。
一个开源的2D和3D深度人脸分析库
音频转文字
DragGAN 是一个效果惊人的 AI 绘图工具,它让设计师和艺术家交互地、极其精细地调整 AI 绘图过程,和那些输入文本、期待 AI 生成作品、然后一次次痛苦地微调结果的 AI 相比,这领先了一个时代!
一个简洁、易于使用的控制台记录器,具有多彩的日志输出、时间戳和性能统计、自定义日志级别和输出位置以及错误追踪和堆栈跟踪等功能。
高级语音和Deepfake神经网络工具
通过将静态内容与时间变形结合,为视频处理提供了新的视角和工具
一款专业的人物肖像提示词生成工具
一个功能强大且易于使用的视频翻译和配音工具,适用于需要翻译视频或为视频添加不同语言配音的人们。
由清华大学交叉信息科学研究院研发的一款生成模型。它的特点是可以通过少量步骤推理合成高分辨率图像,使图像生成速度提升 2-5 倍,需要的算力也更少。
一个强大的 npm 包,它提供了一个在线浏览器中使用的抠图脚本
一个语音转换工具,可以将文字转换为语音,并用OSC消息发送到VRChat上的头像显示。
微软发布了DragNUWA 1.5版本,用户可以在图像上画出对应方向的箭头标记。在通过图像生成视频之前,这些标记可以用来指导镜头的运动方向。
一种专门为实时图像生成服务设计的扩散模型管道,显著地提升了实时图像生成的性能。
通过参考图片,使用文本生成图像,风格符合参考图像
AI 画图工具,它结合了 Stable Diffusion 和 Midjourney 的优点
一个使用GPT模型来控制浏览器的工具。它通过接受自然语言命令,实现了用人类方式与浏览器进行交互的功能。
轻松构建LLMs应用程序开源UI可视化工具
一个帮助你在本地运行开源大模型的程序,支持Windows、Mac和Linux多平台
自动音乐生成研究的演示网站列表
结合OpenAI API,在本地运行代码解释器,可以联网,有更全的库,不限制文件大小和运行时间
快速、轻量级搜索引擎
展示了开源语音AI在各种设备中的威力
主要用于数据分析领域,可以将用户需求转换为可执行代码
把 AIGC 提示词(现在支持 Midjourney)可视化并提供编辑功能的工具
一个收集免费API的共享列表,包含各种各样的免费API,供开发者使用。这些API可以用于开发各种应用程序、网站和软件,为开发者提供了丰富的功能和数据源。
一个开源的深度伪造工具包,用于生成逼真的深度伪造视频和图像。