AI开源项目

web-stable-diffusion

一个将稳定扩散模型引入Web浏览器的项目

Audiocraft

一个用于音频处理和生成的深度学习库

chatgpt-api nodejs库

一个封装的非常好的ChatGPT nodejs库

Tantivy

全文本搜索引擎库

PaddleMIX

一个基于飞桨（PaddlePaddle）的跨模态大模型开发套件，旨在聚合图像、文本、视频等多种模态，以支持各种跨模态任务

HierVST

一种分层自适应零样本语音风格转换模型

Jailer

一个功能强大的数据库工具，它可以帮助用户子集化数据库、浏览关系数据，并提供数据库维护和管理功能。

Audiocraft

Facebook Research开发的Audiocraft音频处理和生成库

gpt-crawler

可以爬取指定网站中的内容，并生成json文件，可以直接上传到GPTs的知识库使用。

InsightFace

一个开源的2D和3D深度人脸分析库

Bark

音频转文字

DragGAN

DragGAN 是一个效果惊人的 AI 绘图工具，它让设计师和艺术家交互地、极其精细地调整 AI 绘图过程，和那些输入文本、期待 AI 生成作品、然后一次次痛苦地微调结果的 AI 相比，这领先了一个时代！

Consola

一个简洁、易于使用的控制台记录器，具有多彩的日志输出、时间戳和性能统计、自定义日志级别和输出位置以及错误追踪和堆栈跟踪等功能。

Wunjo

高级语音和Deepfake神经网络工具

CoDeF

通过将静态内容与时间变形结合，为视频处理提供了新的视角和工具

ComfyUI Portrait Master

一款专业的人物肖像提示词生成工具

pyvideotrans

一个功能强大且易于使用的视频翻译和配音工具，适用于需要翻译视频或为视频添加不同语言配音的人们。

LCM（Latent Consistency Models）

由清华大学交叉信息科学研究院研发的一款生成模型。它的特点是可以通过少量步骤推理合成高分辨率图像，使图像生成速度提升 2-5 倍，需要的算力也更少。

Background Removal

一个强大的 npm 包，它提供了一个在线浏览器中使用的抠图脚本

TTS-Voice-Wizard

一个语音转换工具，可以将文字转换为语音，并用OSC消息发送到VRChat上的头像显示。

DragNUWA

微软发布了DragNUWA 1.5版本，用户可以在图像上画出对应方向的箭头标记。在通过图像生成视频之前，这些标记可以用来指导镜头的运动方向。

StreamDiffusion

一种专门为实时图像生成服务设计的扩散模型管道，显著地提升了实时图像生成的性能。

StyleDrop

通过参考图片，使用文本生成图像，风格符合参考图像

Fooocus

AI 画图工具，它结合了 Stable Diffusion 和 Midjourney 的优点

BrowserGPT

一个使用GPT模型来控制浏览器的工具。它通过接受自然语言命令，实现了用人类方式与浏览器进行交互的功能。

FlowiseAI

轻松构建LLMs应用程序开源UI可视化工具

Jan

一个帮助你在本地运行开源大模型的程序，支持Windows、Mac和Linux多平台

文字生成音乐工具大全

自动音乐生成研究的演示网站列表

Open Interpreter

结合OpenAI API，在本地运行代码解释器，可以联网，有更全的库，不限制文件大小和运行时间

sonic

快速、轻量级搜索引擎

123 4…7

AInav - AI导航网 | 发现AI,导航未来

AI开源项目