DVC - 数据版本控制入门详解

一卷旌收千骑虏,万全身出百重围。这篇文章主要讲述DVC - 数据版本控制入门详解相关的知识,希望能为你提供帮助。
一、简介DVC(Data Version Control)) 是一种利用现有工程工具集(Git、CI/CD 等)来实现数据和机器学习实验管理工具,DVC 的存在使 ML 模型可共享且可复现。它旨在处理大型文件、数据集、机器学习模型、指标和代码。

DVC - 数据版本控制入门详解

文章图片

DVC 主要有以下几个强大的功能:
  • ML项目版本管理
    DVC 对机器学习的模型、数据集和中间文件进行版本控制。
    支持多种格式存储:Amazon S3Microsoft Azure Blob StorageGoogle DriveGoogle Cloud StorageAliyun OSSSSH/SFTPHDFSHTTP网络连接存储(NAS)磁盘
  • ML实验管理
    DVC设计目的类似于Git的版本控制功能,但针对大文件的支持更加友好,不同版本切换更加流畅。
  • 模型部署与团队协作
    DVC使用push/pull命令将ML模型、数据和代码移动到生产环境、远程机器或同事的计算机中。
    【DVC - 数据版本控制入门详解】DVC在Git中引入了轻量级流水线作为一级公民,它们与语言无关,并将多个步骤连接成DAG。 这些流水线用于消除将代码投入生产环境而产生分歧。
DVC实现了类似Git的功能,也就兼具了类似Git的特性,同时为数据科学工作流程带来敏捷性、可重复性和协作性。
  • 兼容 Git
  • 对存储没有限制
  • 可复现实验
  • 低冲突分支
  • 指标跟踪
  • 机器学习流水线框架
  • 与语言和框架无关
  • 支持HDFS、Hive 和 Apache Spark
  • 故障跟踪
二、安装 1.pip/conda(推荐)
#### pip 安装方式 pip install dvc# 或指定存储类型,选择安装 ## 类型:[s3] [azure] [gdrive] [gs] [oss] [ssh] [all] ## [all]表示安装所有的 pip install "dvc[s3]"#### conda 安装方式 conda install -c conda-forge mamba mamba install -c conda-forge dvc # 类型:dvc-s3 dvc-azure dvc-gdrive dvc-gs dvc-oss dvc-ssh mamba install -c conda-forge dvc-s3

2. Windows/Linux/Macos
# 当前最新版为2.9.5 #### Windows choco install dvc https://download.fastgit.org/iterative/dvc/releases/download/2.9.5/dvc-2.9.5.exe#### Linux snap install --classic dvc https://download.fastgit.org/iterative/dvc/releases/download/2.9.5/dvc_2.9.5_amd64.deb#### Macos brew install dvc https://download.fastgit.org/iterative/dvc/releases/download/2.9.5/dvc-2.9.5.pkg

其他的安装方式,详细请点击

    推荐阅读