Skip to content

Latest commit

 

History

History
93 lines (59 loc) · 3.81 KB

File metadata and controls

93 lines (59 loc) · 3.81 KB

Dataflow-MM 多模态

Documents

🎉 如果你认可我们的项目,欢迎在 GitHub 上点个 ⭐ Star,关注项目最新进展。

简体中文 | English

📰 1. 项目动态(News)

🔍 2. 项目概览(Overview)

df_overview_final_300

DataFlow 系列是一个面向大模型的数据准备与训练系统,旨在从噪声数据源(如 PDF、纯文本、低质量问答数据等)中解析、生成、处理并评估高质量数据,从而通过有针对性的训练(预训练、监督微调、强化学习)或基于知识库清洗的 RAG 流程,显著提升大语言模型(LLMs)在特定领域中的性能。

具体而言,我们构建了大量多样化的 operators,涵盖基于规则的方法、深度学习模型、LLMs 以及 LLM API。这些 operators 被系统性地组织并集成到不同的 pipelines 中,整体构成完整的 DataFlow 系统。此外,我们还开发了智能化的 DataFlow-agent,能够根据需求动态重组已有的 operators,自动构建新的 pipelines,以适配不同的数据处理与建模任务。

DataFlow-MM 是优秀开源项目 DataFlow多模态扩展版本,支持图像、视频、音频等多模态数据的统一处理与训练。


🚀 快速开始(Quick Start)

安装(Installation)

首先,克隆仓库并以可编辑模式安装 DataFlow-MM

cd ./DataFlow-MM
conda create -n dataflow-mm python=3.12
conda activate dataflow-mm
pip install -e .

可选依赖(Optional Dependencies)

根据使用场景安装对应的可选依赖:

音频环境(Audio)

pip install -e ".[audio]"

图像环境(Image)

pip install -e ".[image]"

初始化 DataFlow 工作空间

创建并初始化一个 DataFlow-MM 工作目录:

mkdir test_dataflow
cd test_dataflow
dataflowmm init

该命令会自动生成运行 DataFlow-MM pipelines 所需的基础目录结构和配置文件。


示例数据(Demo Data)

如果需要运行 ImageVideo 相关的示例,请先从 Hugging Face 下载对应的演示数据集(由于文件体积较大,不适合直接托管在 GitHub 上):

下载完成后,请按照各示例的说明,将数据放置在 test_dataflow/example 目录下。