Linux命令使用线程 linux 线程实现

在Linux系统中使用Shell实现多线程运行任务(多任务并发执行) 2022-05-30 最近,有一批任务需要把两批的fastq合并到一起并压缩成一个fastq文件才能继续往下做,由于存储空间有限又不能直接全部跑上,只能按样本逐个分批跑 。众所周知 , 一般fastq是成对存在的,所需要对read1和read2分别合并一次,然而这次任务的fastq文件比较大,合并然后压缩一次需要1天左右,那对于一组fastq就要2-3天,这也太耗时间了,所以我在想能不能read1和read2 同时跑上,这就可以节省一半的时间了 。
平时也能遇到很多类似的任务,特别是在进程数有限的情况下,如果这些小任务单独占用一个进程,而任务很多就很耗时间,如果能在一个进程下实现多个线程并行执行,就能大大提高运行效率 。关于进程和线程的知识可以参考知乎的这篇文章【 Shell“ 多线程”,提高工作效率 】,整理的也比较有条理,能比较容易读懂 。
当然,某些博主也写过类似的文章 , 例如这篇【 shell后台限制多并发控制后台任务强度进行文件拷贝 】但是实在是太高深莫测了,看不懂,一时半会儿也学不会 。本文将示例Shell实现多线程的简单版本 , 其实不用太复杂 。
其实只需要两个步骤 ,  第一步是给需要并行运行的命令行在结尾加上"",代表放到后台运行,第二步是在在所有并行任务的后面加上一句“wait”,意思是等所有通过“”放到后台运行的任务跑完后再继续执行后面的任务 ,这些就能实现所有带有“”的行并行执行了 。
看完脚本是不是觉得很简单?
上面的脚本适合并行任务少的,可以手动加和wait,但是如果有几十个甚至上百个的小任务就比较麻烦了 。但不用担心,可以写个循环,批量运行 。
循环的结果也是跟上面类似的,只是多了个循环结构 。
如果需要执行的任务只有一行 , 可以把大括号去掉 。
关于for和while的循环可以查看之前的文章【 Shell常用循环示例(for和while批量处理)2022-05-25 】
需要注意的是多线程并行还是需要有限制的,毕竟都是在一个进程里运行,如果线程太多了会卡顿的,建议控制在100个以内,当然还有毕竟高级和复杂的方法可以实现限制 。因为上面的脚本已经够我用了,没继续往下学,以后可以再补充 。
Linux有几个线程?前三个和最后一个是两个类型 。前三个主要是Linux用来创建新的进程(线程)而设计的,exec()系列函数则是用来用指定的程序替换当前进程的所有内容 。所以exec()系列函数经常在前三个函数使用之后调用,来创建一个全新的程序运行环境 。Linux用init进程启动其他进程的过程一般都是这样的 。
下面说fork、vfork和clone三个函数 。这三个函数分别调用了sys_fork、sys_vfork、sys_clone,最终都调用了do_fork函数,差别在于参数的传递和一些基本的准备工作不同 。可见这三者最终达到的最本质的目的都是创建一个新的进程 。在这里需要明确一下 , Linux内核中没有独立的“线程”结构,Linux的线程就是轻量级进程,换言之基本控制结构和Linux的进程是一样的(都是通过struct task_struct管理) 。
fork是最简单的调用,不需要任何参数 , 仅仅是在创建一个子进程并为其创建一个独立于父进程的空间 。fork使用COW(写时拷贝)机制,并且COW了父进程的栈空间 。
vfork是一个过时的应用,vfork也是创建一个子进程,但是子进程共享父进程的空间 。在vfork创建子进程之后,父进程阻塞 , 直到子进程执行了exec()或者exit() 。vfork最初是因为fork没有实现COW机制,而很多情况下fork之后会紧接着exec,而exec的执行相当于之前fork复制的空间全部变成了无用功,所以设计了vfork 。而现在fork使用了COW机制,唯一的代价仅仅是复制父进程页表的代价,所以vfork不应该出现在新的代码之中 。在Linux的manpage中队vfork有这样一段话:Itis rather unfortunate that Linux revived this specter from the past.The BSD man page states: "This system call will be eliminated when proper system sharing mechanisms are implemented.Users should not depend on the memory sharing semantics of vfork() as it will, in that case, be made synonymous to fork(2)."

推荐阅读