python的阻塞函数 python阻塞线程

python2.7怎么实现异步改进之前
之前,我的查询步骤很简单,就是:
前端提交查询请求 -- 建立数据库连接 -- 新建游标 -- 执行命令 -- 接受结果 -- 关闭游标、连接
这几大步骤的顺序执行 。
这里面当然问题很大:
建立数据库连接实际上就是新建一个套接字 。这是进程间通信的几种方法里,开销最大的python的阻塞函数了 。
在“执行命令”和“接受结果”两个步骤中,线程在阻塞在数据库内部的运行过程中 , 数据库连接和游标都处于闲置状态 。
这样一来,每一次查询都要顺序的新建数据库连接,都要阻塞在数据库返回结果的过程中 。当前端提交大量查询请求时,查询效率肯定是很低的 。
第一次改进
之前的模块里,问题最大的就是第一步——建立数据库连接套接字了 。如果能够一次性建立连接,之后查询能够反复服用这个连接就好了 。
所以 , 首先应该把数据库查询模块作为一个单独的守护进程去执行,而前端app作为主进程响应用户的点击操作 。那么两条进程怎么传递消息呢python的阻塞函数?翻了几天Python文档,终于构思出来:用队列queue作为生产者(web前端)向消费者(数据库后端)传递任务的渠道 。生产者,会与SQL命令一起,同时传递一个管道pipe的连接对象 , 作为任务完成后,回传结果的渠道 。确保,任务的接收方与发送方保持一致 。
作为第二个问题的解决方法,可以使用线程池来并发获取任务队列中的task,然后执行命令并回传结果 。
第二次改进
第一次改进的效果还是很明显的 , 不用任何测试手段 。直接点击页面链接,可以很直观地感觉到反应速度有很明显的加快 。
但是对于第二个问题,使用线程池还是有些欠妥当 。因为,CPython解释器存在GIL问题,所有线程实际上都在一个解释器进程里调度 。线程稍微开多一点,解释器进程就会频繁的切换线程,而线程切换的开销也不小 。线程多一点,甚至会出现“抖动”问题(也就是刚刚唤醒一个线程 , 就进入挂起状态,刚刚换到栈帧或内存的上下文,又被换回内存或者磁盘),效率大大降低 。也就是说 , 线程池的并发量很有限 。
试过了多进程、多线程,只能在单个线程里做文章了 。
Python中的asyncio库
Python里有大量的协程库可以实现单线程内的并发操作,比如Twisted、Gevent等等 。Python官方在3.5版本里提供了asyncio库同样可以实现协程并发 。asyncio库大大降低了Python中协程的实现难度,就像定义普通函数那样就可以了,只是要在def前面多加一个async关键词 。async def函数中,需要阻塞在其他async def函数的位置前面可以加上await关键词 。
import asyncio
async def wait():
await asyncio.sleep(2)
async def execute(task):
process_task(task)
await wait()
continue_job()
async def函数的执行稍微麻烦点 。需要首先获取一个loop对象,然后由这个对象代为执行async def函数 。
loop = asyncio.get_event_loop()
loop.run_until_complete(execute(task))
loop.close()
loop在执行execute(task)函数时,如果遇到await关键字,就会暂时挂起当前协程,转而去执行其他阻塞在await关键词的协程,从而实现协程并发 。
不过需要注意的是,run_until_complete()函数本身是一个阻塞函数 。也就是说,当前线程会等候一个run_until_complete()函数执行完毕之后,才会继续执行下一部函数 。所以下面这段代码并不能并发执行 。
for task in task_list:
loop.run_until_complete(task)
对与这个问题,asyncio库也有相应的解决方案:gather函数 。
loop = asyncio.get_event_loop()
tasks = [asyncio.ensure_future(execute(task))
for task in task_list]
loop.run_until_complete(asyncio.gather(*tasks))
loop.close()
当然了,async def函数的执行并不只有这两种解决方案,还有call_soon与run_forever的配合执行等等 , 更多内容还请参考官方文档 。
Python下的I/O多路复用
协程,实际上,也存在上下文切换,只不过开销很轻微 。而I/O多路复用则完全不存在这个问题 。
目前,Linux上比较火的I/O多路复用API要算epoll了 。Tornado , 就是通过调用C语言封装的epoll库,成功解决了C10K问题(当然还有Pypy的功劳) 。
在Linux里查文档,可以看到epoll只有三类函数,调用起来比较方便易懂 。
创建epoll对象 , 并返回其对应的文件描述符(file descriptor) 。
int epoll_create(int size);
int epoll_create1(int flags);
控制监听事件 。第一个参数epfd就对应于前面命令创建的epoll对象的文件描述符python的阻塞函数;第二个参数表示该命令要执行的动作:监听事件的新增、修改或者删除python的阻塞函数;第三个参数,是要监听的文件对应的描述符;第四个,代表要监听的事件 。
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
等候 。这是一个阻塞函数 , 调用者会等候内核通知所注册的事件被触发 。
int epoll_wait(int epfd, struct epoll_event *events,
int maxevents, int timeout);
int epoll_pwait(int epfd, struct epoll_event *events,
int maxevents, int timeout,
const sigset_t *sigmask);
在Python的select库里:
select.epoll()对应于第一类创建函数;
epoll.register(),epoll.unregister(),epoll.modify()均是对控制函数epoll_ctl的封装;
epoll.poll()则是对等候函数epoll_wait的封装 。
Python里epoll相关API的最大问题应该是在epoll.poll() 。相比于其所封装的epoll_wait,用户无法手动指定要等候的事件 , 也就是后者的第二个参数struct epoll_event *events 。没法实现精确控制 。因此只能使用替代方案:select.select()函数 。
根据Python官方文档 , select.select(rlist, wlist, xlist[, timeout])是对Unix系统中select函数的直接调用,与C语言API的传参很接近 。前三个参数都是列表,其中的元素都是要注册到内核的文件描述符 。如果想用自定义类,就要确保实现了fileno()方法 。
其分别对应于:
rlist: 等候直到可读
wlist: 等候直到可写
xlist: 等候直到异常 。这个异常的定义,要查看系统文档 。
select.select(),类似于epoll.poll(),先注册文件和事件,然后保持等候内核通知 , 是阻塞函数 。
实际应用
Psycopg2库支持对异步和协程 , 但和一般情况下的用法略有区别 。普通数据库连接支持不同线程中的不同游标并发查询;而异步连接则不支持不同游标的同时查询 。所以异步连接的不同游标之间必须使用I/O复用方法来协调调度 。
所以 , 我的大致实现思路是这样的:首先并发执行大量协程,从任务队列中提取任务,再向连接池请求连接,创建游标,然后执行命令,并返回结果 。在获取游标和接受查询结果之前,均要阻塞等候内核通知连接可用 。
其中,连接池返回连接时 , 会根据引用连接的协程数量,返回负载最轻的连接 。这也是自己定义AsyncConnectionPool类的目的 。
我的代码位于:bottle-blog/dbservice.py
存在问题
当然了 , 这个流程目前还一些问题 。
首先就是每次轮询拿到任务之后 , 都会走这么一个流程 。
获取连接 -- 新建游标 -- 执行任务 -- 关闭游标 -- 取消连接引用
本来,最好的情况应该是:在轮询之前 , 就建好游标;在轮询时,直接等候内核通知,执行相应任务 。这样可以减少轮询时的任务量 。但是如果协程提前对应好连接,那就不能保证在获取任务时 , 保持各连接负载均衡了 。
所以这一块 , 还有工作要做 。
还有就是epoll没能用上,有些遗憾 。
以后打算写点C语言的内容,或者用Python/C API,或者用Ctypes包装共享库,来实现epoll的调用 。
最后,请允许我吐槽一下Python的epoll相关文档:简直太弱了python的阻塞函数?。。”匦肟丛绰氩拍芘宄δ?。
python - 日志记录模块(logging)的二次封装上篇文章 对logging做了基本介绍,我们可以使用logging来做日志的简单记录 。但实际项目应用时,我们一般会根据自身需要对其做二次封装(loggingV2),然后在其他python文件中, 先import申明后直接调用 。
废话不多说,下面给几个二次封装的简单示例:
示例一:
loggingV2.py - 封装
logMain.py - 应用
示例二:
对上述示例进行 模块化封装,如下log.py
则任何声明了log模块的python文件都可以调用logging日志系统,如下logMain.py
示例三:
对上述示例进行 定制化封装,如下myLog.py
需求:
1)同时实现终端显示与日志文件保存
2)日志文件名除日期外,增加显示时间 , 精确到秒
3)日志输出级别可配置
4)日志保存路径与文件名可配置
5)日志跨天(或者小时/分钟),另生成新文件保存
改写logMain.py,如下:
示例四:
对上述示例进行 异步线程封装 ,如下myThreadLog.py
需求:
1)独立线程处理日志 , 不影响主程序性能
2)使用队列异步处理日志记录
继续改写logMain.py,如下:
注意 - 线程相关操作函数(如下):
1.threading.Thread() — 创建线程并初始化线程,可以为线程传递参数
2.threading.enumerate() — 返回一个包含正在运行的线程的list
3.threading.activeCount(): 返回正在运行的线程数量,与len(threading.enumerate())有相同的结果
4.Thread.start() — 启动线程
5.Thread.join() — 阻塞函数,一直等到线程结束
6.Thread.isAlive() — 返回线程活动状态
7.Thread.setName() — 设置线程名
8.Thread.getName() — 获取线程名
9.Thread.setDaemon() — 设置为后台线程,这里默认是False,设置为True之后则主线程不会再等待子线程结束才结束,而是主线程结束意味程序退出,子线程也立即结束,注意调用时必须设置在start()之前;
10.除了以上常用函数,线程还经常与互斥锁Lock/事件Event/信号量Condition/队列Queue等函数配合使用
python os.system、os.popen、subprocess.Popen的区别1、使用os.system("cmd")
这是最简单的一种方法,其执行过程中会输出显示cmd命令执行的信息 。
例如python的阻塞函数:print os.system("mkdir test") 输出:0
可以看到结果打印出0,表示命令执行成功python的阻塞函数;否则表示失败(再次执行该命令,输出:子目录或文件 test 已经存在 。1) 。
2、使用os.popen("cmd")
通过os.popen()返回的是 file read 的对象,对其进行读取read()操作可以看到执行的输出
例如:print os.popen("adb shell ls /sdcard/ | findstr aa.png").read()输出:aa.png(若aa.png存在,否则输出为空)
【python的阻塞函数 python阻塞线程】 3、subprocess.Popen("cmd")
subprocess模块被推荐用来替换一些老的模块和函数 , 如:os.system、os.spawn*、os.popen*等
subprocess模块目的是 启动一个新的进程并与之通信 ,最常用是定义类Popen,使用Popen可以创建进程,并与进程进行复杂的交互 。其函数原型为:
classsubprocess.Popen(args, bufsize=0, executable=None, stdin=None, stdout=None, stderr=None, preexec_fn=None, close_fds=False, shell=False, cwd=None, env=None, universal_newlines=False, startupinfo=None, creationflags=0)
Popen非常强大,支持多种参数和模式,通过其构造函数可以看到支持很多参数 。但Popen函数存在缺陷在于 ,  它是一个阻塞的方法,如果运行cmd命令时产生内容非常多,函数就容易阻塞 。另一点,Popen方法也不会打印出cmd的执行信息。
以下罗列常用到的参数:
args :这个参数必须是 字符串 或者是一个由 字符串成员的列表。其中如果是一个字符串列表的话,那第一个成员为要运行的程序的路径以及程序名称python的阻塞函数;从第二个成员开始到最后一个成员为运行这个程序需要输入的参数 。这与popen中是一样的 。
bufsize: 一般使用比较少,略过 。
executable: 指定要运行的程序,这个一般很少用到,因为要指定运行的程序在args中已经指定python的阻塞函数了 。stdin , stdout  , stderr: 分别代表程序的标准输入、标准输出、标准错误处理 。可以选择的值有 PIPE , 已经存在的打开的文件对象 和 NONE。若stdout是文件对象的话,要确保文件对象是处于打开状态 。
shell:shell参数根据要执行的命令情况来定,如果将参数shell设为True,executable将指定程序使用的shell 。在windows平台下,默认的shell由COMSPEC环境变量来指定 。
关于python的阻塞函数和python阻塞线程的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息 , 记得收藏关注本站 。

    推荐阅读