1 2 [cpn233]$ cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c 36 Intel(R) Xeon(R) Gold 6150 CPU @ 2.70GHz
1 2
[cpn233]$ cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c 36 Intel(R) Xeon(R) Gold 6150 CPU @ 2.70GHz
1 2 3 [gpu55]$ nvidia-smi --query-gpu=clocks.max.sm --format=csv --id=0 clocks.max.sm [MHz] 1530 MHz
1 2 3
[gpu55]$ nvidia-smi --query-gpu=clocks.max.sm --format=csv --id=0 clocks.max.sm [MHz] 1530 MHz
(使用两个节点后)…现在效率只有 58%了,怎么看这个数值都太感人了吧,可能是其它的小参数有限制,也可能是网络原因
1 export I_MPI_FAVRICS=shm:dapl # 节点内共享内存,节点间用dapl
1
export I_MPI_FAVRICS=shm:dapl # 节点内共享内存,节点间用dapl
Linpack 算法可以说是最精妙的并行算法,算法本身的细节可以通过大量调整参数,应用于各种不同计算环境的 Benchmark(杜总)
0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM