需求说明:将单个或者多个Excel文件数据进行去重操作,去重的列可以通过自定义制定。
【PyQt5 批量删除 Excel 重复数据,多个文件、自定义重复项一键删除...】【阅读全文】
开始源码说明之前,先说明一下工具的使用过程。
1、准备需要去重的数据文件。
文章图片
文章图片
2、使用工具执行去重操作。
文章图片
3、处理完成后的结果文件。
文章图片
文章图片
PyQt5 界面UI相关的模块引用
from PyQt5.QtWidgets import *
from PyQt5.QtGui import *
核心组件
from PyQt5.QtCore import *
主题样式模块引用
from QCandyUi import CandyWindow
在这个应用中使用一个默认的杨氏模块QCandyUi,可以改变整个应用的主题颜色设计不用一个控件一个控件的去修改样式。有一个不好的地方就是应用本身设置的标题和应用图标不能生效,必须利用这个样式控件CandyWindow来修改,就像下面这样需要将我们自己写的UI空间放到里面。
# w = CandyWindow.createWindow(EDataDel(), theme='blueGreen', title='Excel批数据去重器公众号:[Python 集中营]',
#ico_path='数据去重.ico')
#w.show()
应用操作相关模块
import sys
import os
Excel数据处理模块
import pandas as pd
import openpyxl as pxl
UI界面布局设计、信号量槽函数绑定实现
class EDataDel(QWidget):
def __init__(self):
super(EDataDel, self).__init__()
self.init_ui()def init_ui(self):
self.brower = QTextBrowser()
self.brower.setReadOnly(True)
self.brower.setFont(QFont('微软雅黑', 8))
self.brower.setPlaceholderText('处理进程展示区域...')
self.brower.ensureCursorVisible()form = QFormLayout()
self.file_paths = QLineEdit()
self.file_paths.setReadOnly(True)self.file_paths_btn = QPushButton()
self.file_paths_btn.setText('加载批文件')
self.file_paths_btn.clicked.connect(self.file_paths_btn_click)self.colums_label = QLabel()
self.colums_label.setText('自定义去重复列')self.colums_text = QLineEdit()
self.colums_text.setPlaceholderText('列名1,列名2,列名3,...')form.addRow(self.file_paths, self.file_paths_btn)
form.addRow(self.colums_label, self.colums_text)self.work = DataWork(self)
self.work.trigger.connect(self.update_log)
self.work.finished.connect(self.finished)vbox = QVBoxLayout()
self.start_btn = QPushButton()
self.start_btn.setText('开始执行')
self.start_btn.clicked.connect(self.start_btn_click)vbox.addLayout(form)
vbox.addWidget(self.start_btn)hbox = QHBoxLayout()
hbox.addWidget(self.brower)
hbox.addLayout(vbox)self.setLayout(hbox)def file_paths_btn_click(self):
paths = QFileDialog.getOpenFileNames(self, '选择文件', os.getcwd(), 'Excel Files(*.xlsx)')
files = paths[0]
path_strs = ''
for file in files:
path_strs = path_strs + file + ';
'
self.file_paths.setText(path_strs)
if self.file_paths.text().strip() != '':
self.update_log('已经完成批文件路径加载!')
else:
self.update_log('没有选择任何文件!')def save_dir_btn_click(self):
directory = QFileDialog.getExistingDirectory(self, '选择文件夹', os.getcwd())
self.save_dir.setText(directory)def update_log(self, text):
cursor = self.brower.textCursor()
cursor.movePosition(QTextCursor.End)
self.brower.append(text)
self.brower.setTextCursor(cursor)
self.brower.ensureCursorVisible()def start_btn_click(self):
self.start_btn.setEnabled(False)
self.work.start()def finished(self, finished):
if finished is True:
self.start_btn.setEnabled(True)
创建子线程,处理业务逻辑(清理Excel重复文件)
class DataWork(QThread):
trigger = pyqtSignal(str)
finished = pyqtSignal(bool)def __init__(self, parent=None):
super(DataWork, self).__init__(parent)
self.parent = parent
self.working = Truedef __del__(self):
self.working = False
self.wait()def run(self):
self.trigger.emit('启动批量处理子线程...')
file_paths = self.parent.file_paths.text().strip()
colums_text = self.parent.colums_text.text().strip()
colums = []
if ',' in colums_text:
colums = colums_text.split(',')
else:
colums.append(colums_text)
self.trigger.emit('获取配置项完成!')
for file in file_paths.split(';
'):
if file.strip() != '':
web_sheet = pxl.load_workbook(file)
sheets = web_sheet.sheetnames
print(file)
new_file = file.split('.')[0] + '_已去重.' + file.split('.')[1]
print(new_file)
writer = pd.ExcelWriter(new_file)
for sheet in sheets:
sheet_name = sheet.title()
print(sheet_name)
self.trigger.emit('准备处理工作表名称:' + str(sheet.title()))
data_frame = pd.read_excel(file, sheet_name=sheet_name)
print(data_frame)
repe = data_frame.duplicated(subset=colums)
repe = repe[repe]
print(data_frame.iloc[repe.index])
res = data_frame.drop_duplicates(subset=colums)
print(res)self.trigger.emit(str(sheet.title()) + ':已清除')
res.to_excel(writer, sheet_name, index=False)
writer.save()
else:
self.trigger.emit('当前文件路径为空,继续...')
self.trigger.emit('数据处理完成...')
self.finished.emit(True)
使用主函数启动整个应用
if __name__ == '__main__':
app = QApplication(sys.argv)
w = CandyWindow.createWindow(EDataDel(), theme='blueGreen', title='Excel批数据去重器公众号:[Python 集中营]',
ico_path='数据去重.ico')
w.show()
sys.exit(app.exec_())
文章图片
【往期精彩】
再见XShell,这款国人开源的终端命令行工具更nice!
python 表情包下载器,轻松下载上万个表情包、斗图不用愁...
Python 自动清理电脑垃圾文件,一键启动即可...
有了jmespath,处理python中的json数据就变成了一种享受...
解锁一个新技能,如何在Python代码中使用表情包...
万能的list列表,python中的堆栈、队列实现全靠它!
该怎么用pyqt5来实现数据的增、删、改、查功能...
python批量自动整理文件
介绍一个文本语音神器,几行代码就能搞定!
初学者福利:分享五个免费的 Python 学习网站,抓紧收藏吧!
有趣的控制台玩法:一行代码绘制控制台图像!
数据处理小工具:Excel 批量数据文件拆分/整合器...
推荐阅读
- 爬虫|python3 qq音乐爬取歌手名字,专辑,歌曲时间,播放链接
- python|Python爬取网易云音乐网易云音乐歌手歌曲和歌单,并下载到本地
- Python|python.exe和pythonw.exe的区别
- python|Python【 for循环与while循环】
- Python 操作 mysql 数据库,wait_timeout 后报什么错误
- 一文了解 Python 中的生成器
- Python|笔记 - 5 -HTML介绍 (2)
- 系统安装(重装)|Mac 电脑系统重装(详细流程)
- 数据分析|数据分析之实战项目——电商用户行为分析【python】