一、驱动下载

1、NVIDIA显卡&GPU卡驱动官网下载链接

https://www.nvidia.cn/Download/index.aspx?lang=cn

2、按照显卡或者GPU卡具体型号、系统版本下载相应的驱动

二、 安装步骤

2.1 安装系统依赖包

  • centos&redhat系列
  • yum install gcc  gcc-c++  kernel-devel  kernel-headers make
  • ubuntu系列 
  • sudo apt-get update
    sudo apt-get install gcc g++ make

    注意:安装完成后使用uname –r /usr/src/kernel 检查两个内核版本号是否一致,如果不一致则进行升级 

  • centos&redhat系列
  • yum update kernel kernel-devel  -y  (只更新内核版本,不更新系统版本,升级完成后重启)

    再次查看uname –r /usr/src/kernel 中两个内核版本号,确保一致 

    2.2 将nouveau拉入黑名单 

    编辑/lib/modprobe.d/dist-blacklist.conf  (centos7路径)

    将nvidiafb注释掉。#blacklist nvidiafb
    然后在文件最后添加以下语句:
    blacklist nouveau
    options nouveau modeset=0
    

    或在 /etc/modprobe.d/blacklist.conf(centos6、7、8,ubuntu系统都是这个路径)文件中直接加入以下两行内容也可以,使使用echo命令加入

    echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist.conf

    或编辑blacklist.conf文件 

    blacklist nouveau
    options nouveau modeset=0

     centos 6 路径  /etc/modprobe.d/blacklist.conf  

    2.3 重建initramfs image

  •  centos&redhat系列
  • mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
    dracut /boot/initramfs-$(uname -r).img $(uname -r)

    运行dracut需要花费几分钟的时间 

  •  ubuntu系列 
  • sudo update-initramfs -u

     2.4 重启系统 

    查看nouveau是否禁用

    rmmod nouveau (卸载nouveau,这个操作是当lsmod有输出时操作,正常情况下前面修改配置文件加入的两行命令在重启系统后就会拉黑nouveau)
    
    lsmod | grep nouveau  (没有输出就表示禁用)

     2.5 修改运行级别为文本模式 (这步操作其实也可以在重启系统之前操作)

  •  centos&redhat系列
  • systemctl set-default multi-user.target
    或者 init 3
    或者systemctl stop gdm   (如果在重启系统之前操作stop改为disable,设置开机禁用&关闭图形界面)
    
  •   ubuntu系列 
  • sudo telinit 3

    禁用X-window服务,查看图形管理器是什么,输入下面指令查看 

    cat /etc/X11/default-display-manager
    

     如果是gdm3,输入下面指令

    sudo systemctl stop gdm
    
    sudo systemctl disable gdm  如果是在重启之前做的操作,使用这条命令设置开机禁用图形界面

     如果是lightdm,输入下面指令

    sudo service lightdm stop
    
    sudo systemctl disable lightdm  如果是在重启之前做的操作,使用这条命令设置开机禁用图形界面

     2.6 安装驱动

    2.6.1 图形方式安装驱动

    ./NVIDIA-xxx.run

    1)如果使用显卡做输出,安装VTD等场景仿真软件,则不加任何参数,直接安装

    2)如果不使用显卡做输出,或者使用的是GPU卡,则需要添加–no-opengl-files参数 只安装驱动文件,不安装OpenGL文件,

    32bit兼容包选择, 这里要注意选择NO,不然后面就会出错

    您是否希望运行X-configurtion 来自动更新x配置,以便在重新启动x时使用NVIDIA x驱动程序?任何预先存在的x配置文件都将被备份

    这里个人理解如果使用显卡做图形显示,类如3090、4090等,则选择yes,如果是数据中心GPU卡,类如V100、A100、H100等选择no

    之前centos系统安装的是数据中心显卡X-configurtion的选择页面选的NO 

    ubuntu系统安装是3090则选择 yes

    2.6.1 文本方式安装(可选项)

    ./NVIDIA-xxx.run --ui=none --no-questions --accept-license --disable-nouveau --no-cc-version-check --install-libglvnd --no-open

     2.6 修改运行级别为图形模式

  • centos&redhat系列
  • systemctl set-default graphical.target
    或者init 5
    或者systemctl start gdm   (如果前面步骤配置了开机禁用图形界面,则使用enable)
    

     ubuntu系列 

    sudo systemctl start gdm    (如果在前面步骤设置了开机禁用图形界面则使用enable)
    
    或
    
    sudo systemctl start  lightdm   (如果在前面步骤设置了开机禁用图形界面则使用enable)
    

    即可自动进入登陆界面,不行的话,输入sudo reboo重启看机,强烈建议装完驱动都重启一下,让驱动各个功能模块完全加载,避免因偷懒产生其它问题。

    2.7 验证

    验证驱动和系统图形界面是否正常

    nvidia-smi
    
    -L 参数可列出所有插在计算机上的 GPU 卡
    -q 参数可列出 GPU 卡非常详细的信息
    

     

    三、卸载驱动 

    如果需要卸载NVIDIA驱动的话,可以通过如下命令来卸载驱动

    ./NVIDIA-版本号.run   --uninstall
    
    nvidia-installer  --uninstall

     四、CUDA安装

    4.1 下载安装,选择相应系统版本下载run文件

    CUDA Toolkit 12.5 Update 1 Downloads | NVIDIA Developer

    有互联网环境下,使用下面命令下载及安装

    安装可以根据向导一步步安装

    wget https://developer.download.nvidia.com/compute/cuda/12.5.1/local_installers/cuda_12.5.1_555.42.06_linux.run
    sudo sh cuda_12.5.1_555.42.06_linux.run

    强烈建议:GPU卡驱动尽可能使用CUDA包里面驱动进行安装,因为CUDA包里面的驱动版本跟CUDA能够更好兼容,不会因为单独安装的驱动版本过高或过低而无法使用,最后还需要上网查询对应的版本

    如果是多台可使用静默方式进行安装(可选项)

  • CUDA、驱动一起的安装的参数
  • ./cuda_12.5.1_555.42.06_linux.run --silent  --driver --no-opengl-libs --toolkit --toolkitpath=/public/software/cuda --samples --samplespath=/public/software/cuda

    参数解释:

    --silent  使用静默方式
    
    --driver 安装驱动
    
    --no-opengl-libs  不按照opengl库,适用于数据中心GPU卡,不使用GPU卡做图形输出的用户
    
    --run-nvidia-xconfig 告诉驱动程序安装运行nvidia-xconfig,更新系统X配置文件,以便使用NVIDIA X驱动程序 ,此选项适用于用显卡做图形输出的用户
    
    --toolkit   安装toolkit
    
    --toolkitpath=<path> 为指定toolkit安装路径,如果不指定默认为/usr/local/cuda-11.$下
    
    --samples  安装samples 
    
     --samplespath=<path>  将CUDA示例安装到<path>目录。如果没有提供,则默认路径为$(HOME)/使用NVIDIA_CUDA-11.4_Samples

    4.2 环境变量配置

    export PATH=/usr/local/cuda-11.8/bin/:$PATH
    export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH

     4.3 CUDA卸载

    如果需要卸载CUDA Toolkit,请运行工具的“bin”目录下提供的卸载脚本工具包。默认情况下,它位于/usr/local/cuda-11.4/bin:

    $ sudo /usr/local/cuda-11.4/bin/cuda-uninstaller    
    

    要卸载NVIDIA驱动程序,请运行NVIDIA -uninstall:

    $ sudo /usr/bin/nvidia-uninstall

    五、压测

    5.1 下载gpu_burn

        下载网址:wilicc (Ville Timonen) · GitHub   可自行选择版本下载,或直接使用一下地址进行下载

        下载命令:wget https://github.com/wilicc/gpu-burn/archive/refs/heads/master.zip

     5.2 安装gpu_burn

        

    命令:unzip master.zip && cd gpu-burn-master/ && make

        

    5.3 执行显卡压力测试

    进入gpu_burn文件夹内执行gpu_burn文件

    命令:./gpu_burn 秒数

    5.4 实时查看显卡状态

    命令:watch nvidia-smi

     

        

    作者:技术瘾君子1573

    物联沃分享整理
    物联沃-IOTWORD物联网 » NVIDIA GPU卡性能详解

    发表回复