神通情人夢的願望4(GeForce GT640不給力啊 XD)

原來Tensorflow需要的GPU要 Compute Capability 3.5 以上 ( 看來得換顯卡了 XD )

話說好不容易 CentOS7 與 Tensorflow 基本環境建立好 (參考此篇 : 神通情人夢的願望3(Tensorflow+GPU基礎建設中)) , 開始著手來進行 GPU driver 與 CUDA 安裝 ; (說到底其實也還真麻煩 , 有許多版本相容性的問題 ) ...  然後一切都快準備就緒時 , 才發現原來我的GPU不給力阿 ~~ 昏 = = ( 應該是功課又沒做足 XD  本來不想多花錢的 , 看來得找高一等級顯卡了才能玩 Tensorflow with GPU )

底下先來說說央喜的GPU Driver與CUDA建立過程 :

1. 先裝 GPU Driver for CentOS7 
這過程還算順利  (可參考此篇上半部 : centos7伺服器cuda9.0深度學習環境搭建筆記 ) , 先把nouveau 禁用 ( 查了一下為何要禁用 nouveau ??  開源顯示卡驅動程式Nouveau太不穩,被Chrome列入黑名單關閉GPU加速 )

Note : 裝完後 nvidia-smi 顯示如下資訊 , linux driver版本 418.43 , CUDA版本 10.1 (這裡是指 driver中的CUDA)

# 參照教學 : 裝完 repo後
$ nvidia-detect -v
Probing for supported NVIDIA devices...
[10de:0fc1] NVIDIA Corporation GK107 [GeForce GT 640]
This device requires the current 418.43 NVIDIA driver kmod-nvidia
WARNING: Xorg log file /var/log/Xorg.0.log does not exist
WARNING: Unable to determine Xorg ABI compatibility
WARNING: The driver for this device does not support the current Xorg versio

# 上方紅字 kmod-nvidia 找到有rpm可以下載$ yum list all | grep kmod

還挺方便 裝完後重開機 , 最新版驅動就上去了 (可使用 $lsmod | grep nvidia 查看 )


重開機後下指令 $nvidia-smi  , 看到GPU顯卡狀態資訊  , 應該已成功驅動

爬了一下官網 Tensorflow GPU 可相容的環境 官網參考連結
(決定用 Python3.6 + CUDA10.0 + cuDNN7.4)


2. 安裝 CUDA Toolkit 10.0 , 我是直接裝下載RPM包安裝  (下載CUDA Toolkit 10.0 )


CUDA官網最新已到10.1 所以需去CUDA Toolkit Archive  下載CUDA Toolkit 10.0

Q: CUDA10.0裝好  , 要如何測試呢 !? 
參考此篇 : 學習筆記-機器學習-搭建環境-7:安裝CUDA(Docker)

$ cd /usr/local/cuda-10.0/samples/1_Utilities/deviceQuery
$ make
$ ./deviceQuery

CUDA10.0裝好  , deviceQuery 測一下 , Result = PASS

3. 安裝 tensorflow-gpu ( $pip install tensorflow-gpu 直接安裝)

#裝完後可查看版本
$ python -c "import tensorflow; print(tensorflow.__version__)"
(得到安裝的是 1.13.1 版)
==================================================
# tensorflow test script
import tensorflow as tf
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
===================================================

# 第一次執行出現如下 , 原來少了 cuDNN library (查看對應的cuDNN需要安裝 7.4)
ImportError: libcudnn.so.7: cannot open shared object file: No such file or directory

# 安裝 cuDNN7.4  (這邊還要註冊才能下載 真麻煩 XD  且檔案有點大要載很久)
https://developer.nvidia.com/rdp/cudnn-download

# 安裝完成後再執行結果出現如下
//==================================================
2019-03-17 20:22:02.721650: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:998] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2019-03-17 20:22:02.722516: I tensorflow/compiler/xla/service/platform_util.cc:194] StreamExecutor cuda device (0) is of insufficient compute capability: 3.5 required, device is 3.0
2019-03-17 20:22:02.722721: F tensorflow/stream_executor/lib/statusor.cc:34] Attempting to fetch value instead of handling error Internal: no supported devices found for platform CUDA
//=====================================================

OH! MY !?   擔心的事真的發生了 , 一開始還想說Geforce GT 640會不會太古老 !? 但原想說手邊有什麼就先用什麼來玩 ... 仔細再研究了一下官網說明 : 


NVIDIA® GPU card with CUDA® Compute Capability 3.5 or higher ( Ref. )
GeForce GT 640 的 Compute Capability 只有 2.1  !?  ( Ref. 這麼不巧啊啊! XD 



後記: 頭洗一半了 , 還不想就此打住啊 ...  後續找到一塊便宜且可以玩tensorflow-gpu 的顯卡再來筆記吧 ..  或誰家裡有舊NVIDIA顯卡支援計算能力3.5以上的可以借我玩 !? XD


Ref:

centos7伺服器cuda9.0深度學習環境搭建筆記

開源顯示卡驅動程式Nouveau太不穩,被Chrome列入黑名單關閉GPU加速

CentOS7+cuda9.2+Tensorflow-gpu

在centos7下安装tensorflow-gpu 1.8版本教程

Tensorflow官網安裝說明

CentOS7 Tensorflow GPU开发环境配置

Linux 系統 NVIDIA GPU 顯示卡壓力測試

Pytorch 案例代码注释三 DCGAN

Install CUDA 10.0, cuDNN 7.3 and build TensorFlow (GPU) from source on Ubuntu 18.04

使用tensorflow-gpu版本测试下学习速度,cpu(3分钟) vs gpu(4秒)

學習筆記-機器學習-搭建環境-7:安裝CUDA(Docker)

Nvidia顯卡查看Compute Capability(官網)

cuda 计算能力查询表

2018最新显卡天梯图 Nvidia/AMD显卡性能排行榜2018

2019显卡天梯图 最新Nvidia/AMD显卡性能排行榜2019



留言

這個網誌中的熱門文章

舊公寓對講機變身為手機遙控門鎖研究筆記

舊大門換裝小米電子鎖筆記

解決愛奇藝APP在SONY電視上花屏問題筆記