0CP2K 是一款著名的开源量子化学与固态物理计算软件包,能够执行原子模拟、电子结构计算(DFT)、从头算分子动力学(AIMD)等任务。
本版本专为 NVIDIA RTX 4090 (Ada Lovelace) 架构优化,基于 CUDA 12.8 编译。
DBCSR (Distributed Block Compressed Sparse Row) 加速,矩阵乘法运算将卸载至 GPU 执行。以下步骤演示如何运行标准的 H2O-64(64个水分子的 DFT 计算)基准测试,以验证 GPU 加速是否生效。
在运行计算前,建议设置以下并行参数以获得最佳性能(针对单卡 4090 + 多核 CPU):
# 添加 CP2K 可执行文件到路径 (根据你的实际安装位置)
export PATH=/workspace/cp2k-2025.2/exe/local_cuda:$PATH
# 设置 OpenMP 线程数 (建议设置为 CPU 物理核心数,例如 16)
export OMP_NUM_THREADS=16
# 增加堆栈大小以防止内存溢出错误
export OMP_STACKSIZE=512M
ulimit -s unlimited
CP2K 自带了丰富的测试用例,我们使用标准的 QS 基准测试:
cd /workspace/cp2k-2025.2/benchmarks/QS
使用 mpirun 启动计算。
-np 1:使用 1 个 MPI 进程(对应 1 张 GPU)。--allow-run-as-root:如果你在 Docker/容器的 root 用户下运行,必须加此参数。mpirun --allow-run-as-root -np 1 cp2k.psmp -i H2O-64.inp -o H2O-64.out
在任务运行时,打开一个新的终端窗口,输入以下命令监控显卡:
watch -n 1 nvidia-smi
预期现象:
cp2k.psmp。任务完成后(或运行几步后),检查输出文件 H2O-64.out 确认 GPU 被识别:
# 检查是否识别到 NVIDIA RTX 4090
grep "DBCSR| ACC:" H2O-64.out
# 预期输出类似:
# DBCSR| ACC: Number of devices: 1
# DBCSR| ACC: Device 0: NVIDIA GeForce RTX 4090

认证作者