Giter Club home page Giter Club logo

tsubame-4.0-hands-on's Introduction

TSUBAME-4.0-hands-on

はじめに

利用の前に

GitHub: 新しいSSHキーを生成するを参考にSSHキーを作成してください。 次にTSUBAMEポータルにログインします。 [利用者情報] > SSH公開鍵登録 から 公開鍵をuploadしてください。 (コピー&ペーストが上手くいかない場合は、uploadをお試しください)

ログインノードに接続

user-name, keyを置き換えて接続してください。

ssh [email protected] -i ~/.ssh/key

以下のように出れば成功です。

-----------------------------------------------------------------
Last modified: Mon Apr  1 10:00:09 JST 2024


    (The current TSUBAME 4.0 operational status)
https://www.t4.gsic.titech.ac.jp/      X(Twitter):@Titech_TSUBAME
-----------------------------------------------------------------

ssh configを設定されたい方は以下のようにして設定してください。

Host tsubame
  HostName login.t4.gsic.titech.ac.jp
  User <username>
  IdentityFile ~/.ssh/ssh-key

注意 : ログインノードは多数のユーザが同時に利用しているため、CPUを占有するプログラムを実行しないでください。llm-jpのmdxでは、login nodeにて処理をするユーザーが見受けられますが、そのような行為はやめてください。

詳しい禁止事項については以下をご覧ください https://www.t4.gsic.titech.ac.jp/docs/all/handbook.ja/start/#login_limit vscode, jupyter等でlogin nodeに接続することも厳禁です。(上述のリンクにもあるように)

ストレージについて

ホームディレクトリは25GiBが上限です。 cacheの保存先などにしていて、ジョブが実行できない等の現象が起きた場合は、保存先を変えたり、いらないファイルを削除したりしてください。

以下のコマンドでhome directoryの現在の使用状況が確認できます(最大1日程度の遅延が発生することがありますが、稀です)

$ t4-user-info disk home
  uid name         b_size(GB) b_quota(GB)    i_files    i_quota
---------------------------------------------------------------
 2011 TESTUSER              7          25     101446    2000000

NIIのプロジェクトには768,000GBのグループ領域が割り当てられています。 /gs/bs/tgh-NII-LLMがディレクトリになります。

こちらの領域は、大容量ストレージ領域と呼ばれるストレージになり、ソースコード、データセット、チェックポイント等の保存先として利用します。

ソフトウェア環境

Environment Modulesが導入されています。 使い慣れていない方は、こちらをご覧ください。

module avail

で利用可能なmodule環境が表示されます。

  • cuda/x.x.x : CUDA Toolkitのことを指します。(Driverではありません)
  • cudnn/x.x.x : 使用する CUDA Toolkit version に合ったversionを選択してください
  • nccl/x.x.x : 使用する nccl version に合ったversionを選択してください

TSUBAME環境のcudnn/8.9.7cuda/11.8.0に依存していますので、cuda versionがauto loadされます。 そのため以下のような組み合わせが可能です。

 1) cuda/11.8.0   2) cudnn/8.9.7   3) nccl/2.20.5

ジョブスケジューリング

利用可能な資源タイプは以下のとおりです。参考

image

CPUしか利用しないtokenize作業などはcpu_4-160をご利用ください。 また、install作業などでGPUが必要な場合もgpu_hまたは、gpu_1をご利用ください。

例えばインタラクティブジョブを取る例は以下のとおりです。

qrsh -g tgh-NII-LLM -q prior -l gpu_h=1 -l h_rt=1:00:00

注意: -q priorをつけるのをお忘れなく

バッチジョブを投入する場合は、以下のような job scriptを記載します。

#!/bin/sh
#$ -cwd
#$ -l [資源タイプ] =[個数]
#$ -l h_rt=[経過時間]
#$ -p [プライオリティ]

[module環境のロード]

[プログラム実行]

その後、qsubコマンドでにてジョブを投入してください。 以下は例です。

qsub -g tgh-NII-LLM -q prior scripts/tsubame/sample.sh

なお、-q priorは定額制ジョブを示すオプションです。詳細はこちらをご覧ください。

その他

TSUBAME-4.0 の使用状況

こちらから使用状況を確認することができます。

vscode 利用者の方へ

前述の通りTSUBAME では vscode を利用してlogin nodeにアクセスすることができません。 1ユーザーあたりのCPU使用量の制限により、実際につなごうとしてもつなげないようになっています。

vscode remoteに関する注意事項

tsubame-4.0-hands-on's People

Contributors

okoge-kaz avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.