一卷旌收千骑虏,万全身出百重围。这篇文章主要讲述DVC - 数据版本控制入门详解相关的知识,希望能为你提供帮助。
一、简介DVC
(Data Version Control)) 是一种利用现有工程工具集(Git、CI/CD 等)来实现数据和机器学习实验管理工具,DVC 的存在使 ML 模型可共享且可复现。它旨在处理大型文件、数据集、机器学习模型、指标和代码。
文章图片
DVC
主要有以下几个强大的功能:- ML项目版本管理
DVC
对机器学习的模型、数据集和中间文件进行版本控制。
支持多种格式存储:Amazon S3
、Microsoft Azure Blob Storage
、Google Drive
、Google Cloud Storage
、Aliyun OSS
、SSH/SFTP
、HDFS
、HTTP
、网络连接存储(NAS)
、磁盘
- ML实验管理
DVC
设计目的类似于Git的版本控制功能,但针对大文件的支持更加友好,不同版本切换更加流畅。
- 模型部署与团队协作
DVC
使用push/pull
命令将ML模型、数据和代码移动到生产环境、远程机器或同事的计算机中。
【DVC - 数据版本控制入门详解】DVC
在Git中引入了轻量级流水线作为一级公民,它们与语言无关,并将多个步骤连接成DAG。 这些流水线用于消除将代码投入生产环境而产生分歧。
DVC
实现了类似Git
的功能,也就兼具了类似Git的特性,同时为数据科学工作流程带来敏捷性、可重复性和协作性。- 兼容 Git
- 对存储没有限制
- 可复现实验
- 低冲突分支
- 指标跟踪
- 机器学习流水线框架
- 与语言和框架无关
- 支持HDFS、Hive 和 Apache Spark
- 故障跟踪
pip/conda
(推荐)
#### pip 安装方式
pip install dvc# 或指定存储类型,选择安装
## 类型:[s3] [azure] [gdrive] [gs] [oss] [ssh] [all]
## [all]表示安装所有的
pip install "dvc[s3]"#### conda 安装方式
conda install -c conda-forge mamba
mamba install -c conda-forge dvc
# 类型:dvc-s3 dvc-azure dvc-gdrive dvc-gs dvc-oss dvc-ssh
mamba install -c conda-forge dvc-s3
2.
Windows/Linux/Macos
# 当前最新版为2.9.5
#### Windows
choco install dvc
https://download.fastgit.org/iterative/dvc/releases/download/2.9.5/dvc-2.9.5.exe#### Linux
snap install --classic dvc
https://download.fastgit.org/iterative/dvc/releases/download/2.9.5/dvc_2.9.5_amd64.deb#### Macos
brew install dvc
https://download.fastgit.org/iterative/dvc/releases/download/2.9.5/dvc-2.9.5.pkg
其他的安装方式,详细请点击
推荐阅读
- QT读取剪切板内容-实现复制粘贴文本和图片
- 字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化
- #yyds干货盘点# Map - LinkedHashSet&Map源码解析
- 一文了解 Python 中的对象析构函数(__del__)
- 阿里巴巴开源大规模稀疏模型训练/预测引擎DeepRec
- #yyds干货盘点# ant design中 table的表格行的拖拽实现
- #yyds干货盘点#运算溢出,负负得正
- k8s部署微服务springcloud从0-1(微服务各个组件镜像构建)
- 详解JVM 的垃圾回收算法和垃圾回收器