如何在Windows 10上安装Apache Spark（操作步骤指南） _如何在Windows上安装ApacheSpark

Windows 10 Apache Spark安装教程介绍Apache Spark 是一个开源框架，可处理来自多个源的大量流数据。Spark 用于具有机器学习应用程序、数据分析和图形并行处理的分布式计算。
如何在Windows上安装Apache Spark？本指南将向你展示如何在 Windows 10 上安装 Apache Spark并测试安装。
先决条件

运行 Windows 10 的系统
具有管理员权限的用户帐户（安装软件、修改文件权限和修改系统路径所需）
命令提示符或 Powershell
提取 .tar 文件的工具，例如 7-Zip

在 Windows 上安装 Apache SparkWindows 10如何安装Apache Spark？对于新手用户来说，在 Windows 10 上安装 Apache Spark 似乎很复杂，但是这个简单的教程会让你开始使用。如果你已经安装了 Java 8 和 Python 3，则可以跳过前两步。
第 1 步：安装 Java 8
Apache Spark 需要 Java 8。你可以使用命令提示符检查是否安装了 Java。
通过单击开始> 键入cmd > 单击命令提示符打开命令行。
在命令提示符中键入以下命令：

java -version

如果安装了 Java，它将响应以下输出：

文章图片
你的版本可能有所不同。第二个数字是 Java 版本——在本例中是 Java 8。
如果你没有安装 Java：
1. 打开浏览器窗口，并导航到https://java.com/en/download/。

文章图片
2. 单击Java 下载按钮并将文件保存到你选择的位置。
3. 下载完成后双击该文件以安装 Java。
注意：在撰写本文时，最新的 Java 版本为 1.8.0_251。安装更高版本仍然有效。此过程只需要 Java 运行时环境 (JRE) – 不需要完整的开发工具包 (JDK)。JDK 的下载链接是https://www.oracle.com/java/technologies/javase-downloads.html。
第 2 步：安装 Python
1. 要安装 Python 包管理器，请在 Web 浏览器中导航到https://www.python.org/。
2. 将鼠标悬停在下载菜单选项上，然后单击Python 3.8.3。3.8.3 是撰写本文时的最新版本。
3. 下载完成后，运行该文件。

文章图片
4. 在第一个设置对话框底部附近，勾选Add Python 3.8 to PATH。选中另一个框。
5. 接下来，单击自定义安装。

文章图片
6. 你可以在此步骤中选中所有复选框，也可以取消选中你不想要的选项。
7. 单击下一步。
8. 选择为所有用户安装框，其他框保持原样。
9. 在自定义安装位置下，单击浏览并导航到 C 盘。添加一个新文件夹并将其命名为Python。
10. 选择该文件夹并单击确定。

文章图片
11. 点击安装，让安装完成。
12. 安装完成后，单击底部的禁用路径长度限制选项，然后单击关闭。
13. 如果你打开了命令提示符，请重新启动它。通过检查 Python 版本来验证安装：

python --version

【如何在Windows 10上安装Apache Spark（操作步骤指南）】输出应该打印Python 3.8.3。
注意：有关如何在 Windows 上安装 Python 3 或如何解决潜在问题的详细说明，请参阅我们的在 Windows 上安装 Python 3指南。
第 3 步：Windows 10如何安装Apache Spark - 下载安装包
1. 打开浏览器并导航到https://spark.apache.org/downloads.html。
2. 在下载 Apache Spark标题下，有两个下拉菜单。使用当前的非预览版本。

在我们的例子中，在选择 Spark 版本下拉菜单中选择2.4.5 (Feb 05 2020)。
在第二个下拉选择包类型中，保留选择Pre-built for Apache Hadoop 2.7。

3. 点击spark-2.4.5-bin-hadoop2.7.tgz 链接。

文章图片
4. 加载镜像列表的页面，你可以在其中查看要下载的不同服务器。从列表中选择任何一个并将文件保存到你的下载文件夹。
步骤 4：验证 Spark 软件文件 - Windows 10 Apache Spark安装教程
1. 通过检查文件的校验和来验证下载的完整性。这可确保你使用未更改、未损坏的软件。
2. 导航回Spark 下载页面并打开校验和链接，最好在新选项卡中。
3.接下来，打开命令行并输入以下命令：

certutil -hashfile c:\users\username\Downloads\spark-2.4.5-bin-hadoop2.7.tgz SHA512

4.将用户名更改为你的用户名。系统会显示一个长字母数字代码以及消息Certutil: -hashfile completed successfully。

文章图片
5. 将代码与你在新浏览器选项卡中打开的代码进行比较。如果它们匹配，则你的下载文件未损坏。
第 5 步：安装 Apache Spark
如何在Windows上安装Apache Spark？安装 Apache Spark 涉及将下载的文件解压缩到所需位置。
1.在 C: 驱动器的根目录中创建一个名为Spark的新文件夹。从命令行，输入以下内容：

cd \mkdir Spark

2. 在资源管理器中，找到你下载的 Spark 文件。
3. 右键单击??该文件并使用系统上的工具（例如 7-Zip）将其解压缩到C:\Spark。
4. 现在，你的C:\Spark文件夹中有一个新文件夹spark-2.4.5-bin-hadoop2.7，其中包含必要的文件。
第 6 步：添加 winutils.exe 文件
为你下载的 Spark 安装的底层 Hadoop 版本下载winutils.exe文件。
1. 导航到此 URL https://github.com/cdarlint/winutils并在bin文件夹中找到winutils.exe并单击它。

文章图片
2. 找到右侧的下载按钮下载文件。
3. 现在，使用 Windows 资源管理器或命令提示符在 C 上创建新文件夹Hadoop 和bin。
4. 将 winutils.exe 文件从 Downloads 文件夹复制到C:\hadoop\bin。
步骤 7：配置环境变量
Windows 10如何安装Apache Spark？在 Windows 中配置环境变量会将 Spark 和 Hadoop 位置添加到你的系统 PATH。它允许你直接从命令提示符窗口运行 Spark shell。
1. 单击开始并键入environment。
2. 选择标记为Edit the system environment variables的结果。
3. 系统属性对话框出现。在右下角，单击环境变量，然后在下一个窗口中单击新建。

文章图片
4. 对于变量名称，输入SPARK_HOME。
5. 对于变量值，键入C:\Spark\spark-2.4.5-bin-hadoop2.7，然后单击确定。如果你更改了文件夹路径，请改用该路径。

文章图片
6. 在顶部框中，单击路径条目，然后单击编辑。编辑系统路径时要小心。避免删除列表中已有的任何条目。

文章图片
7. 你应该会在左侧看到一个带有条目的框。在右侧，单击新建。
8. 系统高亮显示新行。输入 Spark 文件夹的路径C:\Spark\spark-2.4.5-bin-hadoop2.7\bin。我们建议使用%SPARK_HOME%\bin以避免路径可能出现的问题。

文章图片
9. 对 Hadoop 和 Java 重复此过程。

对于 Hadoop，变量名是HADOOP_HOME ，值使用你之前创建的文件夹的路径：C:\hadoop。将C:\hadoop\bin添加到Path 变量字段，但我们建议使用%HADOOP_HOME%\bin。
对于 Java，变量名是JAVA_HOME，值使用 Java JDK 目录的路径（在我们的例子中是C:\Program Files\Java\jdk1.8.0_251）。

10. 单击确定关闭所有打开的窗口。
注意：通过重新启动命令提示符来应用更改。如果这不起作用，你将需要重新启动系统。
第 8 步：启动 Spark
1. 如何在Windows上安装Apache Spark？使用右键单击并以管理员身份运行打开一个新的命令提示符窗口：
2. 要启动 Spark，请输入：

C:\Spark\spark-2.4.5-bin-hadoop2.7\bin\spark-shell

如果正确设置环境路径，则可以键入spark-shell以启动 Spark。
3. 系统应显示多行指示应用程序的状态。你可能会看到 Java 弹出窗口。选择允许访问以继续。
最后，会出现 Spark 徽标，并且提示会显示Scala shell。

文章图片
4., 打开网页浏览器并导航到http://localhost:4040/。
5. 你可以将localhost替换为你的系统名称。
6. 你应该会看到一个 Apache Spark shell Web UI。下面的示例显示了Executors页面。

文章图片
7. 要退出 Spark 并关闭 Scala shell，请ctrl-d 在命令提示符窗口中按。
注意：如果你安装了 Python，则可以使用 Python 使用以下命令运行 Spark：

pyspark

使用 quit() 退出。
Windows 10 Apache Spark安装教程：测试SparkWindows 10如何安装Apache Spark？在本例中，我们将启动 Spark shell 并使用 Scala 读取文件的内容。你可以使用现有文件，例如Spark 目录中的README文件，也可以创建自己的文件。我们用一些文本创建了pnaptest。
1. 打开命令提示符窗口并导航到要使用的文件所在的文件夹，然后启动 Spark shell。
2. 首先，用文件名声明一个在 Spark 上下文中使用的变量。如果有，请记住添加文件扩展名。

val x =sc.textFile("pnaptest")

3. 输出显示已创建 RDD。然后，我们可以通过使用此命令调用操作来查看文件内容：

x.take(11).foreach(println)

文章图片
如何在Windows上安装Apache Spark？此命令指示 Spark 从你指定的文件中打印 11 行。要对该文件执行操作（值 x），请添加另一个值y，并进行映射转换。
4. 例如，你可以使用以下命令反向打印字符：

val y = x.map(_.reverse)

5. 系统创建与第一个相关的子 RDD。然后，指定要从值y打印多少行：

y.take(11).foreach(println)

文章图片
输出以相反的顺序打印pnaptest文件的11 行。
完成后，使用ctrl-d.
Windows 10 Apache Spark安装教程结论Windows 10如何安装Apache Spark？你现在应该在 Windows 10 上安装了 Apache Spark，并安装了所有依赖项。开始在你的 Windows 环境中运行 Spark 实例。
我们的建议是还可以了解更多有关Spark DataFrame是什么、其功能以及在收集数据时如何使用 Spark DataFrame 的信息。