分类目录归档:开源项目

SadTalker-数字人说话的视频-开源项目


SadTalker是一个开源项目,它能够将静态图片中的人物与音频结合,生成数字人说话的视频。该项目基于深度学习技术,通过从音频中提取3D运动系数(包括头部姿态和表情),并使用3D面部渲染器来生成视频。以下是关于SadTalker在GitHub上的信息:

SadTalker GitHub项目地址

SadTalker的GitHub项目地址是:https://github.com/OpenTalker/SadTalker。在这个页面上,你可以找到项目的源代码、文档、教程以及相关的模型文件。

SadTalker的主要功能

  • 音频驱动的数字人生成:通过输入一张包含人脸的图片和一段音频,SadTal...

Read more

TANGO-口型同步手势视频重演的项目


您提供的链接指向的是GitHub上的一个项目,名为TANGO,这是一个官方实现的论文项目,论文标题为“TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation”。以下是该项目的一些关键信息:

  1. 项目简介
  2. TANGO是一个用于口型同步手势视频重演的项目,它结合了层次化的音频-动作嵌入和扩散插值技术。

  3. 新闻更新

  4. 2024年10月,TANGO项目在Hugging Face空间上线,代码用于创建手势图现已可用。

  5. 结...

Read more

StreamingT2V-长视频生成模型-开源项目


这篇文章介绍了一种名为StreamingT2V的新型长视频生成模型,该模型能够从文本生成一致、动态且可扩展的长视频。

  1. 研究背景
  2. 问题:现有的文本到视频生成模型在处理长视频时存在一致性差、动态性不足和扩展性有限的问题。
  3. 难点:这些问题的主要难点在于如何在大规模视频数据中保持生成内容的一致性,同时确保视频的动态变化和适应不同场景的需求。
  4. 相关工作:现有工作主要集中在短视频生成上,使用的方法包括基于GAN的模型和自回归模型,但这些方法在处理长视频时表现不佳。

  5. 研究方法

  6. StreamingT2V模型采用了一种新的架构设计,结合了Transformer和卷积神经网络(CNN)的优势。...

Read more

Trellis-3D资产生成-开源项目


“microsoft/TRELLIS”是一个用于 3D 资产生成的项目仓库。 - 项目概述:其核心是结构化 3D 潜在(SLAT)表示和校正流变压器,能根据文本或图像提示生成高质量 3D 资产,如辐射场、3D 高斯和网格等多种格式,提供了在 500K 多样物体的 3D 资产数据集上训练的多达 20 亿参数的预训练模型,在功能和性能上超越现有方法,并具备灵活输出格式选择和局部 3D 编辑能力。 - 主要内容 - 文件结构:包含 assets、dataset_toolkits 等文件夹及众多代码文件,如 app.py、example.py 等,各文件在不同时间有更新,涉及多图像条件处...

Read more

Ai-Learn-人工智能学习项目与学习路径


该网页介绍了一个人工智能学习项目,涵盖多领域资源与学习路径,旨在助力学习者高效入门和实践,以下是详细总结: 1. 项目概述:由唐宇迪创建,提供近 200 个人工智能实战案例与项目,基于其五年教学积累,涉及 Python、数学、机器学习、数据分析、深度学习等热门领域,配套教材可免费获取电子版,资料原在百度网盘,因举报问题后续将提供谷歌网盘,抖音资料可按指引获取。 2. 学习路径与资源 - 必备基础技能 - Python 基础:不熟悉 Python 者可看入门视频,建议使用 Anaconda 和 jupyter notebook,后续实战基于 Python。 ...

Read more

Crawl4AI-开源且免费的、专为大型语言模型(LLM)和AI应用设计的网页爬虫及数据提取工具


Crawl4AI是一款开源且免费的、专为大型语言模型(LLM)和AI应用设计的网页爬虫及数据提取工具。以下是对它的详细介绍:

特点

  • 强大的功能与数据处理能力:支持滚动页面、抓取多个URL、提取媒体标签(如图片、视频、音频)、元数据、外部/内部链接以及屏幕截图等,可处理各种复杂网页环境。
  • AI驱动的智能化提取:能通过学习网页结构,智能地识别并提取所需信息,减少人为错误,提高处理复杂网页的能力。
  • 输出格式友好:支持将提取到的数据转换为JSON、Markdown等结构化格式,方便后续的分析和处理。
  • 高度可定制:支持用户自定义认证、请求头信息、爬取前页面修改、用户代理以及JavaScript脚...

Read more

TradeMaster-开源的基于强化学习的量化交易系统


您提供的链接是指向GitHub上的TradeMaster项目页面。TradeMaster是一个由南洋理工大学(Nanyang Technological University, NTU)开发的开源平台,专注于利用强化学习(Reinforcement Learning, RL)进行量化交易(Quantitative Trading, QT)。以下是该项目的一些关键信息:

项目概述

  • TradeMaster 包含6个关键模块:
  • 多模态市场数据,涵盖不同金融资产和多个粒度。
  • 完整的数据处理流程。
  • 一系列高保真度的数据驱动市场模拟器,用于主流的量化交易任务。
  • 超过13种新颖的基于RL的交易算法的...

Read more

Storm-开源多因子系统


Storm项目主要实现了以下功能:

金融数据处理与预训练

  • 能够对金融数据(可能与道琼斯30指数DJ30相关,根据配置文件推测)进行处理,为后续分析和模型训练做准备。
  • 通过执行预训练步骤(pretrain_day_dj30_dynamic_dual_vqvae.py相关配置),利用特定的模型结构(可能是动态双VQ-VAE,从配置文件名推测)进行预测和投资组合管理相关的预训练操作,学习金融数据中的潜在模式和规律,以便为后续的交易决策提供基础支持。

状态提取用于强化学习

  • 可以从预训练模型或数据中提取状态信息(通过--state参数指定),这些状态信息将用于强化学习部分,为智能体(agen...

Read more

UFO-UI为中心的多模态智体框架


你可能想问的是微软的UFO智能体框架,它并非一个传统意义上的操作系统,而是一个以UI为中心的多模态智体框架,专为Windows操作系统交互而设计。以下是对其的详细介绍:

基本信息

  • 名称由来:UFO全称“UI-Focused Agent”,即面向用户界面的智能体。
  • 研发团队:由微软亚洲研究院(MSRA)、微软AI与应用研究团队等共同打造。

工作原理

  • 理解用户请求:UFO首先会理解用户用自然语言表达的请求,将其分解为一系列循序渐进的子任务。
  • 选择应用程序:应用程序选择智体(AppAgent)会根据用户请求、桌面屏幕截图、应用程序信息、记忆等,选择一个合适的应用程序来满足用户请求,并制定...

Read more

人脸识别自动登录的开源项目-Python


以下是几个关于人脸识别自动登录的开源项目和相关信息:

  1. 基于 FaceNet 的人脸登录系统
    该项目使用 FaceNet 深度学习模型实现人脸识别,并通过 Flask 搭建了一个登录系统。用户在注册时,系统会通过摄像头拍摄用户的照片并将编码存储到数据库中。登录时,系统会检测摄像头画面中的人脸,将其与数据库中的编码匹配,如果匹配成功则登录。项目使用 MongoDB 存储数据,适合需要在 Web 应用中集成人脸识别功能的场景【26】。

  2. GitHub 地址: Face-Login_System

  3. 基于 OpenCV 的人脸识别登录系统
    这个项目结合 Python 的 Ope...

Read more