在计算机上设置数据科学环境

本文概述

  • python
  • R编程语言
  • Unix Shell
  • Git
  • 总结
在像srcmini这样的在线交互式培训和教育平台上学习后, 下一步就是采用在Python, R, Git或Unix Shell中获得的技能, 然后在本地计算机上使用它。并非总是很容易知道要为各种项目安装的内容。本教程将使你知道使用各种技术入门所需的软件包, 软件。本教程将包括:
Anaconda Python发行版的好处以及如何在你的操作系统上安装它。
一起使用R和RStudio的好处, 以及如何在操作系统上安装它们。
Unix Shell的优点以及如何在操作系统上使用它。
使用Git的好处以及如何在你的操作系统上安装它。
这样, 我们就开始吧!
python 为了能够在本地计算机上使用Python, 首先需要安装它。有许多不同的python发行版, 但是对于数据科学而言, Anaconda Python发行版是最受欢迎的。
水蟒的好处
Anaconda是一个程序包管理器, 一个环境管理器和一个Python发行版, 其中包含许多开源程序包的集合。 Anaconda的安装附带许多软件包, 例如numpy, scikit-learn, scipy和pandas, 它们是预安装的, 也是推荐的安装Jupyter Notebook的方法。下图显示了Jupyter Notebook的运行情况。 Jupyter笔记本包含代码和富文本元素, 例如图形, 链接和方程式。你可以在此处了解有关Jupyter Notebooks的更多信息。
在计算机上设置数据科学环境

文章图片
Anaconda的其他一些优点包括:
  • 如果在安装Anaconda之后需要其他软件包, 则可以使用Anaconda的软件包管理器conda或pip安装这些软件包, 这非常有优势, 因为你不必自己管理多个软件包之间的依赖关系。 Conda甚至可以轻松地在Python 2和3之间切换(你可以在此处了解更多信息)。
  • Anaconda带有Python集成开发环境Spyder。集成开发环境是一种编码工具, 可让你编写, 测试和调试代码, 因为它们通常提供代码完成功能, 突出显示代码见解, 资源管理和调试工具以及许多其他功能。还可以将Anaconda与其他Python集成开发环境(包括PyCharm和Atom)集成。你可以在此处了解有关不同的Python集成开发环境的更多信息。
如何安装Anaconda(Python)
以下是一些有关如何在操作系统上安装Anaconda的指南的链接。
在Mac上安装Anaconda
在Windows上安装Anaconda
R编程语言 大多数人通常将RStudio与R编程语言一起安装。 RStudio集成开发环境(IDE)通常被认为是使用R编程语言的最简单, 最好的方法。
RStudio的好处
安装R编程语言后, 你可以从R语言获得一组功能和对象, 还可以使用R解释器来构建和运行命令。 RStudio为你提供了与R解释器一起使用的集成开发环境。
在计算机上设置数据科学环境

文章图片
当你打开RStudio时, 将出现上述屏幕。四个RStudio窗格中包含的一些功能包括:(A)文本编辑器。 (B)仪表板到工作环境。 (C)R解释器。 (D)帮助窗口和软件包管理系统。所有这些功能使RStudio成为安装R后真正需要的。
如何安装R和RStudio
以下是一些有关如何在操作系统上安装R和RStudio的指南的链接。
在Mac上安装R和RStudio
在Windows上安装R和RStudio
Unix Shell 导航目录, 复制文件, 使用虚拟机等是数据科学家工作的常规部分。你通常会发现用于完成这些任务的Unix Shell。
Unix Shell的一些用法
1-许多云计算平台都基于Linux(利用Unix Shell)。例如, 如果你想在Google Cloud上设置数据科学环境, 或使用Jupyter Notebooks在云端(AWS EC2)进行深度学习, 则需要一些Unix Shell知识。有时你可能会使用Windows虚拟机, 但是这种情况并不常见。
2-Unix Shell提供了许多有用的命令, 例如:wc命令(用于计算文件中的行数或单词数), cat命令(用于连接/合并文件), head和tail命令(可帮助你对大文件进行子集化)。你可以在8个有用的数据科学Shell命令中了解有关此内容的更多信息。此外, 请查看Shell中srcmini的课程” 数据处理” 。
3-你会经常在本文的其余部分看到与其他技术集成的Unix Shell。
与其他技术的整合
你经常会发现其他技术中集成了Unix Shell命令。例如, 通常在Jupyter Notebook中与Python代码一起找到shell命令。在Jupyter Notebook中, 可以通过使用!转义到shell来访问shell命令。在下面的代码中, shell命令ls(列出当前目录中的所有文件)的结果分配给Python变量myfiles。
myfiles = !ls

下图显示了一些集成在工作流中的Python代码, 可以组合多个数据集。请注意, 集成在Jupyter Notebook中的Unix Shell命令(用红色矩形包围)。
在计算机上设置数据科学环境

文章图片
请记住, 上图中的代码并不是执行任务的唯一方法, 而只是一个有关如何使用Unix的小例子。如果你想学习如何将Unix用于数据科学, srcmini提供了免费课程, 我强烈建议你学习Shell for Data Science。许多有抱负的数据科学家都忽略了这项技能, 但这是工作场所中非常重要的一项技能。
Mac上的Unix Shell
Mac带有Unix shell, 因此你通常不需要安装任何东西!重要的一点是, 有各种各样的Unix系统具有不同的命令。有时你会发现在另一个Unix系统上找不到Unix命令(例如wget)。与通过RStudio和Anaconda拥有软件包管理器的方式类似, 如果你安装Mac, 则可以拥有名为Homebrew的软件包管理器。下面的链接介绍了如何安装和使用Homebrew。
如何安装和使用自制软件
Windows上的Unix Shell命令
Windows没有Unix Shell。请记住, Unix Shell为你提供的功能是为Data Science提供有用的命令。在Windows上有很多不同的方法来获取这些有用的命令。你可以使用可选的Unix工具在Windows上安装Git, 以便在命令提示符下包含Unix命令。另外, 你可以在Windows(GOW)(10mb), Cygwin(最小100mb)上安装Gnu, 以及许多其他选项。
Git Git是使用最广泛的版本控制系统。版本控制系统可以记录一段时间内对一个文件或一组文件的更改, 以便你以后可以调用特定版本。 Git是一项重要的技术, 因为它确实可以帮助你与他人合作, 并且在很多工作场所中都可以找到它。学习Git的一些好处包括:
  • 使用Git控制的任何版本都不会丢失, 因此你可以随时返回查看程序的早期版本。
  • 当你的工作与其他人的工作发生冲突时, Git会通知你, 因此意外覆盖工作更困难(但并非不可能)。
  • Git可以同步不同人在不同机器上完成的工作, 因此可以像你的团队一样进行扩展。
  • 了解Git可以更轻松地为R和Python软件包的开源开发做出贡献。
与其他技术的整合
关于Git的很酷的事情之一就是你经常发现它与其他技术集成在一起。之前我提到过, RStudio集成开发环境(IDE)通常被认为是使用R编程语言的最佳方式。 RStudio提供了版本控制支持, 大多数Python集成开发环境(IDE)(在此处了解更多信息)都提供了版本控制支持。
如果你想学习如何将Git用于数据科学, srcmini提供了一个免费课程, 我强烈建议你免费学习Git for Data Science。
如何安装Git
以下是一些有关如何在操作系统上安装Git的指南的链接。
在Mac上安装Git
在Windows上安装Git
总结 【在计算机上设置数据科学环境】本教程提供了一种在本地计算机上设置本地数据科学环境的方法。需要强调的重要一点是, 这些技术可以并且经常集成在一起。如果你对本教程有任何疑问或想法, 请随时通过以下评论或通过Twitter与我们联系。另外, 请随时查看我在Github或Medium博客上的其他基于安装的教程。

    推荐阅读