2019-11-24-谷歌云T4服务器配置
#2019-11-24-谷歌云T4服务器配置
categories: 配置深度学习环境大作战
辣鸡神经网络,本地挂个4天都跑不完,8G显存都能爆掉,我选择tesla T4服务器
环境
- 科学上网
- visa卡注册的账户
- 已经提升过权限,不再是免费用户
- 有xshell与xftp更加方便地进行图形化操作
参考
建立前查看gpu在哪里有 https://cloud.google.com/compute/docs/gpus/
上来先 (1条消息)用SSH工具XShell连接谷歌云 root用户或普通用户 - 干货 - CSDN博客
然后根据 在谷歌云服务器上搭建深度学习平台
申请compute engine
然后不出所料地出现
提高配额
首先全局添加gpu
然后修改每个地区
把配额都提升到1,然后第二天配额通过后再来
服务器配置
ssh配置
夺取新时代中国特色社会主义root账户所有权
sudo -i
禁用防火墙
sudo ufw disable
修改SSH配置文件
/etc/ssh/sshd_config
vi /etc/ssh/sshd_config
修改PermitRootLogin和PasswordAuthentication为yes
# Authentication:
PermitRootLogin yes //默认为no,需要开启root用户访问改为yes
# Change to no to disable tunnelled clear text passwords
PasswordAuthentication yes //默认为no,改为yes开启密码登陆
给root用户设置密码
passwd root
####重启SSH服务使修改生效
/etc/init.d/ssh restart
xshell 连接
光速配置深度学习环境
显卡驱动安装
apt -y install ubuntu-drivers-common
apt-get update
apt-get upgrade
ubuntu-drivers autoinstall
然后nvidia-smi
暗中观察一下
安装anaconda
wget https://repo.anaconda.com/archive/Anaconda3-2019.07-Linux-x86_64.sh
cd ~
mkdir .conda
cd -
bash Anaconda3-2019.07-Linux-x86_64.sh
source ~/.bashrc
ps:感兴趣的同学可以考虑不创建.conda,然后欢乐踩坑
配置conda环境
用conda只为一个原因.不用自己搞cuda与cudnn,只要安装-gpu就可以自动根据tensorflow版本配置相应版本的cuda与cudnn
如果输入conda显示command not find
,应该考虑重连
conda install -y tensorflow-gpu==1.14.0
conda install -y keras-gpu
部署项目过去
如果有github库直接git clone就行了.
通常需要使用xftp来传输文件到相应的位置
调用程序训练
利用screen防止xshell关进程亡
如果程序要花费很长时间训练,xshell会中途断掉,需要先
screen
生成新的窗口,然后训练
重新回到窗口
screen -ls
查看id
如果dettached用screen -r id
如果attached用screen -rd id
tensorboard服务器在本地端查看
在谷歌云防火墙开放外部端口,然后运行
具体操作参考
https://www.jianshu.com/p/893d622d1b5a
tensorboard --logdir='logs' --port=6006
之后通过http://[服务器ip]:6006访问
设置python运行的工作路径
如果直接运行,会看到令人窒息的结果
这完全是因为工作路径PYTHONPATH下没有相关文件夹,需要设定工作路径
用export PYTHONPATH=
可以解忧
export PYTHONPATH="${PYTHONPATH}:/root/model_test(now)"
然后
python3.7 /root/model_test\(now\)/train_script/train.py
历史记录
k80配置完成后的history记录,中间先安装-gpu再装显卡驱动,因此产生很多波折
1 wget https://repo.anaconda.com/archive/Anaconda3-2019.07-Linux-x86_64.sh
2 bash Anaconda3-2019.07-Linux-x86_64.sh
3 sudo bash Anaconda3-2019.07-Linux-x86_64.sh
4 l
5 ll
6 cd /
7 ll
8 python
9 pip
10 conda
11 conda config --set auto_activate_base false
12 bash -u Anaconda3-2019.07-Linux-x86_64.sh
13 cd ~
14 bash -u Anaconda3-2019.07-Linux-x86_64.sh
15 ll
16 ./Anaconda3-2019.07-Linux-x86_64.sh
17 sudo -u ./Anaconda3-2019.07-Linux-x86_64.sh
18 passwd rppt
19 passwd root
20 vi /etc/ssh/sshd_config
21 /etc/init.d/ssh restart
22 ll
23 mkdir .conda
24 bash -u Anaconda3-2019.07-Linux-x86_64.sh
25 ./Anaconda3-2019.07-Linux-x86_64.sh
26 sudo -u ./Anaconda3-2019.07-Linux-x86_64.sh
27 rm -r anaconda3/
28 ll
29 bash Anaconda3-2019.07-Linux-x86_64.sh
30 conda
31 lspci | grep -i nvidia
32 ubuntu-drivers autoinstall
33 apt install ubuntu-drivers-common
34 ubuntu-drivers autoinstall
35 nvidia-smi
36 history
37 conda list
38 pip install tqdm
39 conda install -y tensorflow-gpu==1.14.0
40 conda install -y keras-gpu
41 pip install scikit-learn
42 ll
43 nvidia-smi
44 git
45 ll
46 cd DGA-detector/
47 conda info
48 conda list
49 conda env export --file DGA.yml
50 cd DGA-detector/
51 ll
52 cd model_test\(now\)/
53 ll
54 python train_script/train.py
55 python ./train_script/train.py
56 pwd
57 export PYTHONPATH="${PYTHONPATH}:/root/DGA-detector/model_test(now)"
58 python ./train_script/train.py
59 nvcc -v
60 apt install nvidia-cuda-toolkit
61 reboot
62 nvidia-smi
63 nvcc 0v
64 nvcc -v
65 nvcc
66 conda list
67 nvcc -v
68 nvcc --help
69 nvcc -V
70 conda install -y tensorflow-gpu==1.14.0
71 nvidia-smi
72 nvcc --version
73 cat /proc/driver/nvidia/version
74 sudo add-apt-repository ppa:graphics-drivers/ppa
75 apt update
76 apt list --upgradable
77 apt upgrade
78 nvidia-smi
79 sudo lshw -numeric -C display
80 ubuntu-drivers devices
81 apt install nvidia-430
82 nvidia-smi
83 nvcc -V
84 apt install nvidia-cuda-toolkit
85 apt uninstall nvidia-cuda-toolkit
86 apt remove nvidia-cuda-toolkit
87 apt install nvidia-cuda-toolkit
88 nvidia-smi
89 reboot
90 cd DGA-detector/model_test\(now\)/train_script/
91 ./ train.py
92 python train.py
93 export PYTHONPATH="${PYTHONPATH}:/root/DGA-detector/model_test(now)"
94 python train.py
95 test2forbaipiao
96 ubuntu-drivers devices
97 nvcc -v
98 nvcc -V
99 nvidia-smi
100 history
101 watch nvidia-smi
102 history
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 tianyilt@qq.com
文章标题:2019-11-24-谷歌云T4服务器配置
本文作者:tianyilt
发布时间:2019-12-07, 23:40:55
最后更新:2019-12-10, 08:53:01
原始链接:http://yoursite.com/2019/12/07/%E9%85%8D%E7%8E%AF%E5%A2%83_%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/2019-11-24-%E8%B0%B7%E6%AD%8C%E4%BA%91T4%E6%9C%8D%E5%8A%A1%E5%99%A8%E9%85%8D%E7%BD%AE/版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。