问:多线程是不是能加快处理速度?
一个实际例子
我最近做的一个报表引擎项目:
在单线程的情况下,生成10个报表文件需要1个小时。
如果是在多线程的情况下呢,生成10个文件要多少个小时?
同样要1个小时。不管启动多少个线程,就算有100个线程,一样需要1个小时。
单线程是先执行完第一个报表,用了6分钟,再执行第二个报表,也用6分钟,……一直到第十个还是6分钟,总耗时=10*6 = 60分钟。
多线程,是10个报表一起执行,但是每一个报表线程都要1个小时。
这就是问题所在。单线程和多线程的区别在哪里?
同一个线程,比如说一个servlet,一个人去访问,执行它,只需要2秒。
如果两个人同时去访问,可能就要4秒。如果10个人同时去访问,那么通常就要4~
20秒。就是说它基本上是一个成倍的线性增长。
一个线程占2%的CPU,那是不是50个线程就占100%的CPU?不是。
分配CPU资源的单位通常是进程,而不是线程。
我这里有一组数据,我有两个任务,如果是单线程。
先执行任务1,再执行任务2,一共用了80秒钟,每个任务花费40秒
如果我用2个线程同时跑,一共也用了80秒,但是每个任务都花费80秒(在80秒最后一刻的时候,两个任务几乎是同时完成)。
附:以下两组数据是单线程和多线程耗时的对比(win7系统、笔记本i7 CPU-4核8线程)。
单位:毫秒
编号 | 单线程1 | 单线程2 | 2个线程同时运行 |
测试1 | 81284 | 81020 | 155373 |
测试2 | 79601 | 78405 | 154144 |
从上面数据可见,2个线程同时运行的时间,几乎等于线程1+线程2单独运行的时间。在CPU密集型的任务上,多线程实际上并没有减少总时间,多线程只不过是轮流抢占CPU而已,而且还会使得单个线程的执行时间延长。多线程由于轮换使用CPU,会造成单个线程的执行速度变慢(以前CPU供一个线程使用,现在要供多个线程轮流使用了)
但是理论上,多CPU的服务器上,CPU调度很灵活,当一个线程占用着一个CPU的时候,其他线程可以被分配给其他CPU去处理,从而实现了“真正意义上地并行”。这样,多线程就很有优势了,它不但能提高并发数量,而且能提高处理速度。当然,具体还得看使用场景(是否为CPU密集型)、软件和硬件的支持。
总结:
第一,看硬件。如果是在比较强大的、多CPU的服务器上运行程序,可以使用多线程来尝试一下,看是否能提高并发数和执行速度。但是线程也不宜过多,即使是16个CPU的服务器,同一时间最多也只能真正意义上地并发处理N个线程,多出来的线程还是要等待,况且操作系统和其他软件也都要争夺CPU,还是得以实际测试来决定线程多少。
第二,看用途。如果你不在乎处理速度,仅仅是为了提高并发处理能力,那么理所当然地用多线程,但是如果你仅仅是想提高处理速度,且又是在单CPU机器上运行,那么多线程并不值得。如果你的任务很耗时,且可以一部分、一部分地分开做,那么最好不要用多线程(好比搬砖,单线程一次搬10块,总共搬10天,但搬一块算一块,到第9天的时候,你就搬完90块砖了;如果你用10个线程同时去搬砖,差不多同样要搬近10天,但是到第9天的时候,这10个线程100块砖都“还在路上”,一块砖都没搬完!)。