如果你是数据科学爱好者或数据科学家, 你会知道Pandas是必不可少的库, 可让你执行数据整理, 在构建机器学习模型之前, 你可以在其中读取数据, 预处理数据, 处理丢失的数据等。
Pandas确实确实可以使很多工作变得非常容易并且非常强大, 但是使用和掌握它可能是一个巨大的挑战。为了解决这个问题并使Pandas更方便地使用, 我们在python中提供了一个库, 称为Bamboolib库.
Bamboolib:它是用于Pandas数据框的GUI扩展, 可轻松进行数据探索和转换, 使任何人都可以在Jupyter Notebook或JupyterLab中使用Python。
让我们看一下该库的一些功能以及如何使用它们。
注意:Bamboolib仅在Kaggle和Binder上免费提供开放数据。你也可以在计算机上使用付费版本。
Bamboolib库的安装:
在开始之前, 我们需要先安装该库。请按照以下步骤正确安装库。
#install bamboolib on linux or anaconda prompt
pip install bamboolib
- 如果你想在Kaggle或Binder上使用该库, 则可以在此步骤停止, 否则继续-
jupyter nbextension enable --py qgrid --sys-prefix
jupyter nbextension enable --py widgetsnbextension --sys-prefix
jupyter nbextension install --py bamboolib --sys-prefix
jupyter nbextension enable --py bamboolib --sys-prefix
如果要在Jupyter笔记本电脑上使用此功能, 则可以在此处停止, 但如果还要在JupyterLab上使用此功能, 则可以继续执行以下步骤以完成安装。
确保你有node.js和npm已安装。
#install nodejs on anaconda prompt
conda install -c conda-forge nodejs
#install npm on anaconda prompt
pip install npm
【Python-适用于Pandas的Bamboolib详细指南】接下来运行以下命令:
jupyter labextension install @jupyter-widgets/jupyterlab-manager --no-build
jupyter labextension install @8080labs/qgrid --no-build
jupyter labextension install plotlywidget --no-build
jupyter labextension install jupyterlab-plotly --no-build
jupyter labextension install bamboolib --no-buildjupyter lab build --minimize=False
至此安装完成。
如何使用Bamboolib:
要了解如何使用该库, 我们将使用Binder github。
你也可以按照上述步骤构建自己的Binder笔记本, 或者像我们将在此处使用的那样使用已经可用的笔记本。
文章图片
打开笔记本后, 运行以下代码以可视化数据:
文章图片
现在, 你可以使用” 显示Bamboolib UI” 按钮执行各种功能。
你主要可以看到3个可用选项:
- 探索DataFrame
- 创建图
- 搜索转换
文章图片
1)探索DataFrame:
你有4个可用选项, 即:
Glimpse:在这里您可以获得关于数据集中列的信息。您可以了解列的数据类型、唯一值的数量、列中“n”行中缺失的值,这里n=891。
文章图片
Columns:提供每个列的信息。特定列的概述,类别概述——特定值在列中出现的次数。
文章图片
这还提供了两列之间的双变量图,以获得关于数据集的更多信息。
文章图片
预测模式:您可以通过单击热图的任何单元格来预测数据集的模式,以获得列之间的关系。
文章图片
相关矩阵:你可以获取任何列之间的相关矩阵。
文章图片
2)创建图:
你可以创建任何条形图, 例如条形图, 直方图, 散点图等, 并可以添加不同的属性。还提供了用于开发情节的Pandas代码, 你也可以复制和粘贴它们以获得相同的输出。
文章图片
3)搜索转换:
你可以对数据集执行各种转换。其中一些是:
删除栏:
由于在所使用的数据集中我们可以看到Cabin缺少大量值, 因此我们可以从数据集中删除/删除该列。选择选择或删除列选项, 填充字段并按执行。
文章图片
你将自动获取Pandas代码, 并针对已执行的转换执行该代码。新数据框将显示为输出。
文章图片
过滤:
使用此选项, 你可以创建数据子集以应用某些条件对其进行分析。这是获取有意义的数据见解的最常用的技术。在此我们过滤了“ 年龄” 列上的数据集以访问年龄大于25的记录。
文章图片
新数据框显示为输出。
分类:
你可以使用此转换对数据集进行排序。也可以同时对多个列进行排序。在这里, 我们已对” 名称” 列上的数据进行了升序排序。
文章图片
注意:
- 要撤消或重做你对数据框执行的任何转换, 可以单击历史记录按钮.
- 要获取先前转换的代码, 请转到出口。如果选中了实时代码导出, 那么你将自动获得代码。
文章图片
Bamboolib提供了许多其他转换选项,如分组和聚合、重命名列、替换值、更改列数据类型等。
使用Bamboolib的好处:
Bamboolib是一个非常方便易用的工具, 它可以立即进行海量数据框架的转换, 这对组织非常有用, 因为几乎没有编程知识的员工也可以使用此工具而无需费力或寻找语法来获取完成任务并可以随后获得操作或转换的语法。这对程序员也很有帮助, 因为他们可以处理数据并研究针对用户特定问题的语法, 而不必查找不同情况并尝试提取所需的结果。
既然你已经学到了这个神奇的动手工具, 就可以自己尝试一下, 并探索数据可以提供的隐藏信息。对于任何查询, 请在下面留下评论。
首先, 你的面试准备可通过以下方式增强你的数据结构概念:Python DS课程。
推荐阅读
- Python扩展和自定义django-allauth
- Python使用Tkinter创建GUI标记表
- Python使用Bokeh进行数据可视化
- Python从矩阵过滤代表字典键的不可变行
- Python使用OpenCV对图像进行灰度缩放
- Python Tkinter中的forget_pack()和forget_grid()用法
- Python Tkinter中的geometry方法用法示例
- Python Tkinter中的grid()方法用法示例
- Python groupby方法删除所有连续的重复项