2019-11-24-谷歌云T4服务器配置

#2019-11-24-谷歌云T4服务器配置
categories: 配置深度学习环境大作战
辣鸡神经网络,本地挂个4天都跑不完,8G显存都能爆掉,我选择tesla T4服务器

环境

  • 科学上网
  • visa卡注册的账户
  • 已经提升过权限,不再是免费用户
  • 有xshell与xftp更加方便地进行图形化操作

参考

建立前查看gpu在哪里有 https://cloud.google.com/compute/docs/gpus/
上来先 (1条消息)用SSH工具XShell连接谷歌云 root用户或普通用户 - 干货 - CSDN博客
然后根据 在谷歌云服务器上搭建深度学习平台

申请compute engine

1574582404542

1574582419933

然后不出所料地出现

1574582433893

提高配额

首先全局添加gpu

1574585845393

然后修改每个地区

1574582451567

把配额都提升到1,然后第二天配额通过后再来

服务器配置

ssh配置

1574748770830

夺取新时代中国特色社会主义root账户所有权

sudo -i

禁用防火墙

sudo ufw disable

修改SSH配置文件

/etc/ssh/sshd_config

vi /etc/ssh/sshd_config

修改PermitRootLogin和PasswordAuthentication为yes

# Authentication:
PermitRootLogin yes //默认为no,需要开启root用户访问改为yes

# Change to no to disable tunnelled clear text passwords
PasswordAuthentication yes //默认为no,改为yes开启密码登陆

给root用户设置密码

passwd root

####重启SSH服务使修改生效

/etc/init.d/ssh restart

xshell 连接

光速配置深度学习环境

显卡驱动安装

apt -y install ubuntu-drivers-common
apt-get update
apt-get upgrade
ubuntu-drivers autoinstall

然后nvidia-smi暗中观察一下

1574749300805

安装anaconda

wget https://repo.anaconda.com/archive/Anaconda3-2019.07-Linux-x86_64.sh
cd ~
mkdir .conda
cd -
bash Anaconda3-2019.07-Linux-x86_64.sh
source ~/.bashrc

ps:感兴趣的同学可以考虑不创建.conda,然后欢乐踩坑

配置conda环境

用conda只为一个原因.不用自己搞cuda与cudnn,只要安装-gpu就可以自动根据tensorflow版本配置相应版本的cuda与cudnn

如果输入conda显示command not find,应该考虑重连

conda install -y tensorflow-gpu==1.14.0
conda install -y keras-gpu

部署项目过去

如果有github库直接git clone就行了.

通常需要使用xftp来传输文件到相应的位置

1574756196114

调用程序训练

利用screen防止xshell关进程亡

如果程序要花费很长时间训练,xshell会中途断掉,需要先

screen

生成新的窗口,然后训练
重新回到窗口

screen -ls

查看id

如果dettached用screen -r id如果attached用screen -rd id

tensorboard服务器在本地端查看

在谷歌云防火墙开放外部端口,然后运行

具体操作参考

https://www.jianshu.com/p/893d622d1b5a

tensorboard --logdir='logs' --port=6006

之后通过http://[服务器ip]:6006访问

设置python运行的工作路径

如果直接运行,会看到令人窒息的结果

1574584660714

这完全是因为工作路径PYTHONPATH下没有相关文件夹,需要设定工作路径

export PYTHONPATH=可以解忧

export PYTHONPATH="${PYTHONPATH}:/root/model_test(now)"

然后

python3.7 /root/model_test\(now\)/train_script/train.py

历史记录

k80配置完成后的history记录,中间先安装-gpu再装显卡驱动,因此产生很多波折

  1  wget https://repo.anaconda.com/archive/Anaconda3-2019.07-Linux-x86_64.sh
    2  bash Anaconda3-2019.07-Linux-x86_64.sh
    3  sudo bash Anaconda3-2019.07-Linux-x86_64.sh
    4  l
    5  ll
    6  cd /
    7  ll
    8  python
    9  pip
   10  conda
   11  conda config --set auto_activate_base false
   12  bash -u Anaconda3-2019.07-Linux-x86_64.sh
   13  cd ~
   14  bash -u Anaconda3-2019.07-Linux-x86_64.sh
   15  ll
   16  ./Anaconda3-2019.07-Linux-x86_64.sh
   17  sudo -u ./Anaconda3-2019.07-Linux-x86_64.sh
   18  passwd rppt
   19  passwd root
   20  vi /etc/ssh/sshd_config
   21  /etc/init.d/ssh restart
   22  ll
   23  mkdir .conda
   24  bash -u Anaconda3-2019.07-Linux-x86_64.sh
   25  ./Anaconda3-2019.07-Linux-x86_64.sh
   26  sudo -u ./Anaconda3-2019.07-Linux-x86_64.sh
   27  rm -r anaconda3/
   28  ll
   29  bash  Anaconda3-2019.07-Linux-x86_64.sh
   30  conda
   31  lspci | grep -i nvidia
   32  ubuntu-drivers autoinstall
   33  apt install ubuntu-drivers-common
   34  ubuntu-drivers autoinstall
   35  nvidia-smi
   36  history
   37  conda list
   38  pip install tqdm
   39  conda install -y tensorflow-gpu==1.14.0
   40  conda install -y keras-gpu
   41  pip install scikit-learn
   42  ll
   43  nvidia-smi
   44  git
   45  ll
   46  cd DGA-detector/
   47  conda info
   48  conda list
   49  conda env export --file DGA.yml
   50  cd DGA-detector/
   51  ll
   52  cd model_test\(now\)/
   53  ll
   54  python train_script/train.py
   55  python ./train_script/train.py
   56  pwd
   57  export PYTHONPATH="${PYTHONPATH}:/root/DGA-detector/model_test(now)"
   58  python ./train_script/train.py
   59  nvcc -v
   60  apt install nvidia-cuda-toolkit
   61  reboot
   62  nvidia-smi
   63  nvcc 0v
   64  nvcc -v
   65  nvcc
   66  conda list
   67  nvcc -v
   68  nvcc --help
   69  nvcc -V
   70  conda install -y tensorflow-gpu==1.14.0
   71  nvidia-smi
   72  nvcc --version
   73  cat /proc/driver/nvidia/version
   74  sudo add-apt-repository ppa:graphics-drivers/ppa
   75  apt update
   76  apt list --upgradable
   77  apt upgrade
   78  nvidia-smi
   79  sudo lshw -numeric -C display
   80  ubuntu-drivers devices
   81  apt install nvidia-430
   82  nvidia-smi
   83  nvcc -V
   84  apt install nvidia-cuda-toolkit
   85  apt uninstall nvidia-cuda-toolkit
   86  apt remove nvidia-cuda-toolkit
   87  apt install nvidia-cuda-toolkit
   88  nvidia-smi
   89  reboot
   90  cd DGA-detector/model_test\(now\)/train_script/
   91  ./ train.py
   92  python train.py
   93  export PYTHONPATH="${PYTHONPATH}:/root/DGA-detector/model_test(now)"
   94  python train.py
   95  test2forbaipiao
   96  ubuntu-drivers devices
   97  nvcc -v
   98  nvcc -V
   99  nvidia-smi
  100  history
  101  watch nvidia-smi
  102  history

转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 tianyilt@qq.com

文章标题:2019-11-24-谷歌云T4服务器配置

本文作者:tianyilt

发布时间:2019-12-07, 23:40:55

最后更新:2019-12-10, 08:53:01

原始链接:http://yoursite.com/2019/12/07/%E9%85%8D%E7%8E%AF%E5%A2%83_%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/2019-11-24-%E8%B0%B7%E6%AD%8C%E4%BA%91T4%E6%9C%8D%E5%8A%A1%E5%99%A8%E9%85%8D%E7%BD%AE/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
×

喜欢就点赞,疼爱就打赏