[note] Daily Notes 2024-08-25 # 2

by - 8月 25, 2024

Daily Notes 2024-08-25 # 2

# of today's note: 2

  • 2024-08-25 15:17:25
    My productivity app is a never-ending .txt file https://jeffhuang.com/productivity_text_file/
  • 2024-08-25 22:01:21
    Meta披露他們用了16384張NVIDIA H100,才訓練出Meta Llama3大型語言模型 | T客邦 https://www.techbang.com/posts/117199-meat-revealed-that-it-took-them-16384-nvidia-h100s-to-train "為了訓練自己的Llama 3 4050億參數大型語言模型,使用了包含16384塊NVIDIA H100 80GB GPU的叢集,一共花了45天,期間居然出現了419次意外報錯,平均每3個小時就一次,而一半的錯誤都和GPU及其自帶的HBM3記憶體有關。 要知道,大型語言模型訓練的工作量異常龐大,而且需要高度同步,一次錯誤就可能導致整個訓練工作必須從頭再來。"

You May Also Like

0 意見