Python实现单词查询&文件查找

最近学C++ Primer,做到第十二章有个习题。要求针对英文文本,对于用户想搜索的单词,打印出该单词在文本中出现的总次数,单词所出现行号及对应的行内容;单词在一行内出现多次,只打印该行一次。C++的代码太长就不给出,实现大概是用vector保存每一行内容,set保存每个单词出现的行号,map来保存单词与所在行号的映射。set.size()表示单词出现的总行数。这是个很好的思路,然而用类的方式实现起来有点繁琐了。好久不用Python了,灵机一动,想试试在Python上如何简单实现同样的功能。
单词查询 程序较为简单,直接上代码。
# 查询文本中某单词出现的次数,并打印其出现的行号及所在行的内容 # 只适用于英文文本 import re from string import punctuationtext = open('find.txt') text_list = text.readlines() # 删除标点及其他常用符号 # punctuation = r"""!"#$%&'()*+,-./:; <=>?@[\]^_`{|}~""" text_plain = re.sub(r'[{}]'.format(punctuation), '', ''.join(text_list)) # 大写转换为小写,便于正确统计单词数 one_word_list = [word.lower() for word in text_plain.split()] print(one_word_list)def run_query(wanted): word_total = 0 # 统计出现的总个数 for each in one_word_list: if each == wanted: word_total += 1print('"{}" occurs {} times'.format(wanted, word_total))line_number = 0 for line in text_list: line_plain = re.sub(r'[{}]'.format(punctuation), '', line) word_list = [word.lower() for word in line_plain.split()] # 按照用户习惯第一行从"1"开始 line_number += 1 # 每行的单词列表 if wanted in word_list: # 而下标"0"表示第一行,故需要减去1 print('\tline {}: {}'.format(line_number, text_list[line_number - 1]), end='')if __name__ == '__main__': while True: sought = input('Input a word you want to search: ') if sought == 'q': breakrun_query(sought)

看下结果,下面这张是Python下运行,yes出现94次。

C++中,yes出现91次。

【Python实现单词查询&文件查找】仔细观察,两者对应的行号是一样的。为何单词出现次数C++版本就比Python版本少了?原因在于C++ Primer里面的写法是用的set,由于set里面的元素不能重复,如果想要查询的单词在一行内出现多次,实际也只记录一次。程序用set.size()表示单词出现总次数,即假设有n行里存在这个单词,单词出现总次数就是n。不知道作者本来就想实现这样的功能还是出于什么原因,私以为,这不符合我们的初衷。Python版本里对于想查询的单词,不管是否在一行内出现多次,都真正做到了精确计数。
文件查找 突然想起以前还写过个小脚本,查询本地文件。是当时看廖雪峰的Pytthon教程时做的一个课后习题。一起贴在这儿。
import osdef find_files(path, wanted): try: # 盘符内所有文件(夹)的路径 dir_list = os.listdir(path) for filename in dir_list: # 当前文件(夹)的路径 new_path = os.path.join(path, filename) # 如果是文件夹,深入下一级继续查找 if os.path.isdir(new_path): find_files(new_path, wanted) # 若是文件,检查文件名里是否含有关键字, 应该不区分大小写,特别是针对后缀名时比较方便 elif os.path.isfile(new_path): if wanted.lower() in filename.lower(): print(new_path) except Exception as e: print(e)def save_all(): print('Example:\npath>>> F:\\secret\\action movies' + '\n' + 'key>>> .avi') print('The result will be saved in C:\\findall.txt\n==========================================') p = input('path>>> ') k = input('key>>> ') find_files(p, k)if __name__ == '__main__': save_all()

试试查询我的E:/Movie下得MP4视频文件
path>>> E:/Movie key>>> .mp4 E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 001.mp4 E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 002.mp4 E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 003.mp4 E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 004.mp4 E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 005.mp4 E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 006.mp4 E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 007.mp4 E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 008.mp4 E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 009.mp4 E:/Movie\[YYDM] HUNTER×HUNTER(2011)\HUNTER×HUNTER(2011) 010.mp4 ...

by @sunhaiyu
2016.9.29
转载于:https://www.cnblogs.com/sun-haiyu/p/7026959.html

    推荐阅读