linux命令多线程 linux多线程并发的处理方式

在Linux系统中使用Shell实现多线程运行任务(多任务并发执行) 2022-05-30 最近,有一批任务需要把两批的fastq合并到一起并压缩成一个fastq文件才能继续往下做,由于存储空间有限又不能直接全部跑上 , 只能按样本逐个分批跑 。众所周知 , 一般fastq是成对存在的,所需要对read1和read2分别合并一次,然而这次任务的fastq文件比较大,合并然后压缩一次需要1天左右,那对于一组fastq就要2-3天,这也太耗时间了,所以linux命令多线程我在想能不能read1和read2 同时跑上,这就可以节省一半的时间了 。
平时也能遇到很多类似的任务,特别是在进程数有限的情况下,如果这些小任务单独占用一个进程,而任务很多就很耗时间,如果能在一个进程下实现多个线程并行执行,就能大大提高运行效率 。关于进程和线程的知识可以参考知乎的这篇文章【 Shell“ 多线程”,提高工作效率 】,整理的也比较有条理,能比较容易读懂 。
当然,某些博主也写过类似的文章,例如这篇【 shell后台限制多并发控制后台任务强度进行文件拷贝 】但是实在是太高深莫测了,看不懂,一时半会儿也学不会 。本文将示例Shell实现多线程的简单版本 , 其实不用太复杂 。
其实只需要两个步骤,第一步是给需要并行运行的命令行在结尾加上"",代表放到后台运行,第二步是在在所有并行任务的后面加上一句“wait”,意思是等所有通过“”放到后台运行的任务跑完后再继续执行后面的任务 ,这些就能实现所有带有“”的行并行执行了 。
看完脚本是不是觉得很简单?
上面的脚本适合并行任务少的,可以手动加和wait,但是如果有几十个甚至上百个的小任务就比较麻烦了 。但不用担心,可以写个循环 , 批量运行 。
循环的结果也是跟上面类似的,只是多了个循环结构 。
如果需要执行的任务只有一行,可以把大括号去掉 。
关于for和while的循环可以查看之前的文章【 Shell常用循环示例(for和while批量处理)2022-05-25 】
需要注意的是多线程并行还是需要有限制的 , 毕竟都是在一个进程里运行,如果线程太多了会卡顿的,建议控制在100个以内,当然还有毕竟高级和复杂的方法可以实现限制 。因为上面的脚本已经够linux命令多线程我用了,没继续往下学,以后可以再补充 。
Linux 多线程编程(二)2019-08-10 三种专门用于线程同步的机制:POSIX信号量,互斥量和条件变量.
在Linux上信号量API有两组,一组是System V IPC信号量,即PV操作,另外就是POSIX信号量,POSIX信号量的名字都是以sem_开头.
phshared参数指定信号量的类型,若其值为0,就表示这个信号量是当前进程的局部信号量,否则该信号量可以在多个进程之间共享.value值指定信号量的初始值,一般与下面的sem_wait函数相对应.
其中比较重要的函数sem_wait函数会以原子操作的方式将信号量的值减一,如果信号量的值为零,则sem_wait将会阻塞,信号量的值可以在sem_init函数中的value初始化;sem_trywait函数是sem_wait的非阻塞版本;sem_post函数将以原子的操作对信号量加一,当信号量的值大于0时,其他正在调用sem_wait等待信号量的线程将被唤醒.
这些函数成功时返回0,失败则返回-1并设置errno.
生产者消费者模型:
生产者对应一个信号量:sem_t producer;
消费者对应一个信号量:sem_t customer;
sem_init(producer,2)----生产者拥有资源,可以工作;
sem_init(customer,0)----消费者没有资源,阻塞;
在访问公共资源前对互斥量设置(加锁),确保同一时间只有一个线程访问数据,在访问完成后再释放(解锁)互斥量.
互斥锁的运行方式:串行访问共享资源;
信号量的运行方式:并行访问共享资源;
互斥量用pthread_mutex_t数据类型表示,在使用互斥量之前 , 必须使用pthread_mutex_init函数对它进行初始化,注意,使用完毕后需调用pthread_mutex_destroy.
pthread_mutex_init用于初始化互斥锁,mutexattr用于指定互斥锁的属性 , 若为NULL,则表示默认属性 。除了用这个函数初始化互斥所外 , 还可以用如下方式初始化:pthread_mutex_t mutex = PTHREAD_MUTEX_INITIALIZER 。
pthread_mutex_destroy用于销毁互斥锁 , 以释放占用的内核资源 , 销毁一个已经加锁的互斥锁将导致不可预期的后果 。
pthread_mutex_lock以原子操作给一个互斥锁加锁 。如果目标互斥锁已经被加锁,则pthread_mutex_lock则被阻塞 , 直到该互斥锁占有者把它给解锁.
pthread_mutex_trylock和pthread_mutex_lock类似 , 不过它始终立即返回 , 而不论被操作的互斥锁是否加锁 , 是pthread_mutex_lock的非阻塞版本.当目标互斥锁未被加锁时,pthread_mutex_trylock进行加锁操作;否则将返回EBUSY错误码 。注意:这里讨论的pthread_mutex_lock和pthread_mutex_trylock是针对普通锁而言的 , 对于其他类型的锁,这两个加锁函数会有不同的行为.
pthread_mutex_unlock以原子操作方式给一个互斥锁进行解锁操作 。如果此时有其他线程正在等待这个互斥锁,则这些线程中的一个将获得它.
三个打印机轮流打印:
输出结果:
如果说互斥锁是用于同步线程对共享数据的访问的话,那么条件变量就是用于在线程之间同步共享数据的值.条件变量提供了一种线程之间通信的机制:当某个共享数据达到某个值时,唤醒等待这个共享数据的线程.
条件变量会在条件不满足的情况下阻塞线程.且条件变量和互斥量一起使用 , 允许线程以无竞争的方式等待特定的条件发生.
其中pthread_cond_broadcast函数以广播的形式唤醒所有等待目标条件变量的线程,pthread_cond_signal函数用于唤醒一个等待目标条件变量线程.但有时候我们可能需要唤醒一个固定的线程,可以通过间接的方法实现:定义一个能够唯一标识目标线程的全局变量,在唤醒等待条件变量的线程前先设置该变量为目标线程,然后采用广播的方式唤醒所有等待的线程,这些线程被唤醒之后都检查该变量以判断是否是自己.
采用条件变量 互斥锁实现生产者消费者模型:
运行结果:
阻塞队列 生产者消费者
运行结果:
Linux C多线程同步的四种方式From :
1.同一个线程内部,指令按照先后顺序执行;但不同线程之间的指令很难说清楚是哪一个先执行 , 在并发情况下,指令执行的先后顺序由内核决定 。
如果运行的结果依赖于不同线程执行的先后的话,那么就会形成竞争条件,在这样的情况下,计算的结果很难预知,所以应该尽量避免竞争条件的形成 。
2.最常见的解决竞争条件的方法是:将原先分离的两个指令构成一个不可分割的原子操作,而其他任务不能插入到原子操作中!
3.对多线程来说 , 同步指的是在一定时间内只允许某一个线程访问某个资源 , 而在此时间内,不允许其他线程访问该资源!
互斥锁
条件变量
读写锁
信号量
一种特殊的全局变量 , 拥有lock和unlock两种状态 。
unlock的互斥锁可以由某个线程获得,一旦获得,这个互斥锁会锁上变成lock状态,此后只有该线程由权力打开该锁 , 其他线程想要获得互斥锁,必须得到互斥锁再次被打开之后 。
1.互斥锁的初始化, 分为静态初始化和动态初始化.
2.互斥锁的相关属性及分类
(1) attr表示互斥锁的属性;
(2) pshared表示互斥锁的共享属性 , 由两种取值:
1)PTHREAD_PROCESS_PRIVATE:锁只能用于一个进程内部的两个线程进行互斥(默认情况)
2)PTHREAD_PROCESS_SHARED:锁可用于两个不同进程中的线程进行互斥 , 使用时还需要在进程共享内存中分配互斥锁,然后为该互斥锁指定属性就可以了 。
互斥锁存在缺点:
(1)某个线程正在等待共享数据内某个条件出现 。
(2)重复对数据对象加锁和解锁(轮询),但是这样轮询非常耗费时间和资源,而且效率非常低,所以互斥锁不太适合这种情况 。
当线程在等待满足某些条件时,使线程进入睡眠状态;一旦条件满足,就换线因等待满足特定条件而睡眠的线程 。
程序的效率无疑会大大提高 。
1)创建
静态方式:pthread_cond_t cond PTHREAD_COND_INITIALIZER
动态方式:int pthread_cond_init(cond,NULL)
Linux thread 实现的条件变量不支持属性,所以NULL(cond_attr参数)
2)注销
int pthread_cond_destory(cond)
只有没有线程在该条件变量上,该条件变量才能注销 , 否则返回EBUSY
因为Linux实现的条件变量没有分配什么资源,所以注销动作只包括检查是否有等待线程!(请参考条件变量的底层实现)
3)等待
条件等待:int pthread_cond_wait(cond,mutex)
计时等待:int pthread_cond_timewait(cond,mutex,time)
1.其中计时等待如果在给定时刻前条件没有被满足 , 则返回ETIMEOUT , 结束等待
2.无论那种等待方式 , 都必须有一个互斥锁配合,以防止多个线程同时请求pthread_cond_wait形成竞争条件!
3.在调用pthread_cond_wait前必须由本线程加锁
4)激发
激发一个等待线程:pthread_cond_signal(cond)
激发所有等待线程:pthread_cond_broadcast(cond)
重要的是,pthread_cond_signal不会存在惊群效应 , 也就是是它最多给一个等待线程发信号,不会给所有线程发信号唤醒,然后要求他们自己去争抢资源!
pthread_cond_broadcast() 唤醒所有正在pthread_cond_wait()的同一个条件变量的线程 。注意:如果等待的多个现场不使用同一个锁,被唤醒的多个线程执行是并发的 。
pthread_cond_broadcastpthread_cond_signal
1.读写锁比互斥锁更加具有适用性和并行性
2.读写锁最适用于对数据结构的读操作读操作次数多余写操作次数的场合!
3.锁处于读模式时可以线程共享,而锁处于写模式时只能独占,所以读写锁又叫做共享-独占锁 。
4.读写锁有两种策略:强读同步和强写同步
强读同步:
总是给读者更高的优先权,只要写者没有进行写操作,读者就可以获得访问权限
强写同步:
总是给写者更高的优先权,读者只能等到所有正在等待或者执行的写者完成后才能进行读
1)初始化的销毁读写锁
静态初始化:pthread_rwlock_t rwlock=PTHREAD_RWLOCK_INITIALIZER
动态初始化:int pthread_rwlock_init(rwlock,NULL),NULL代表读写锁采用默认属性
销毁读写锁:int pthread_rwlock_destory(rwlock)
在释放某个读写锁的资源之前,需要先通过pthread_rwlock_destory函数对读写锁进行清理 。释放由pthread_rwlock_init函数分配的资源
如果你想要读写锁使用非默认属性,则attr不能为NULL , 得给attr赋值
int pthread_rwlockattr_init(attr),给attr初始化
int pthread_rwlockattr_destory(attr),销毁attr
2)以写的方式获取锁,以读的方式获取锁 , 释放读写锁
int pthread_rwlock_rdlock(rwlock),以读的方式获取锁
int pthread_rwlock_wrlock(rwlock),以写的方式获取锁
int pthread_rwlock_unlock(rwlock),释放锁
上面两个获取锁的方式都是阻塞的函数,也就是说获取不到锁的话,调用线程不是立即返回,而是阻塞执行,在需要进行写操作的时候,这种阻塞式获取锁的方式是非常不好的,你想一下,我需要进行写操作,不但没有获取到锁,我还一直在这里等待,大大拖累效率
所以我们应该采用非阻塞的方式获取锁:
int pthread_rwlock_tryrdlock(rwlock)
int pthread_rwlock_trywrlock(rwlock)
互斥锁只允许一个线程进入临界区,而信号量允许多个线程进入临界区 。
1)信号量初始化
int sem_init(sem,pshared, v)
pshared为0,表示这个信号量是当前进程的局部信号量 。
pshared为1,表示这个信号量可以在多个进程之间共享 。
v为信号量的初始值 。
【linux命令多线程 linux多线程并发的处理方式】 返回值:
成功:0,失败:-1
2)信号量值的加减
int sem_wait(sem):以原子操作的方式将信号量的值减去1
int sem_post(sem):以原子操作的方式将信号量的值加上1
3)对信号量进行清理
int sem_destory(sem)
如何进行Linux下多线程的调试方法一:PS
在ps命令中linux命令多线程,“-T”选项可以开启线程查看 。下面的命令列出linux命令多线程了由进程号为pid的进程创建的所有线程 。
1.$ ps -T -p pid
“SID”栏表示线程IDlinux命令多线程,而“CMD”栏则显示了线程名称 。
方法二: Top
top命令可以实时显示各个线程情况 。要在top输出中开启线程查看linux命令多线程,请调用top命令的“-H”选项 , 该选项会列出所有Linux线程 。在top运行时 , 你也可以通过按“H”键将线程查看模式切换为开或关 。
1.$ top -H
要让top输出某个特定进程pid并检查该进程内运行的线程状况:
$ top -H -p pid
Linux多线程编程编译时要用到pthread 库:gcc -lpthread
错误码位置:/usr/include/asm-generic/errno.h
gcc pthread_create.c -lpthread
思考:主子线程交替打印奇数偶数 。
思考:证明线程可以自己取消自己 。
思考:证明SIGKILL和SIGSTOP 是无法阻塞的 。
/usr/include/bits/pthreadtypes.h中查看pthread_mutex_t
思考:用多线程将一个文件1.c拷贝3个副本,11.c,12.c,13.c
思考:多个生产者和消费者
思考:将互斥量等初始化使用pthread_once实现 。
思考:设置线程的分离属性,然后在新县城中获取自己的分离属性 。
linux多线程线程是进程内独立的一条运行路线,处理器调度的最小单元,也可以称为轻量级进程 。线程可以对进程的内存空间和资源进行访问 , 并与同一进程中的其他线程共享 。因此,线程的上下文切换的开销比创建进程小很多 。
Pthread是一套用户级线程库,但在linux上实现时,却使用了内核级线程来完成,这样提高的线程的并发性.Pthread是由POSIX提供的一套通用的线程库,具有很好的移植性.
linux命令多线程的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于linux多线程并发的处理方式、linux命令多线程的信息别忘了在本站进行查找喔 。

    推荐阅读