→ musie : 我倒覺得Mistral會把算力需求打下去 12/13 02:21
→ musie : 1. 他主打7B~10B model 強調小模型也可以達標 12/13 02:22
→ musie : 2. 他的MOE就表明 可以用8x7B 去Complete 40B 12/13 02:24
→ LDPC : 7B 也要接近千顆gpu耶。8,個agent就要上萬啊 12/13 02:51
→ musie : ?? ?你在講啥 一個H100就可以train GPT-3 175B mode 12/13 03:00
→ LDPC : 還有scaling law 算力只會要更多啊 12/13 03:04
→ LDPC : h100 80gb 單顆train 100B以上模型? 12/13 03:05
→ LDPC : llama 7b 是82432 hours 80gb A100單顆 12/13 03:07
→ LDPC : h100大概是a100兩倍 用千顆train 也要三天才能train 12/13 03:08
→ LDPC : 完整一次 12/13 03:08
→ LDPC : 7b現在最陽春做法training也要百顆啊 12/13 03:10
→ LDPC : 還沒說100b模型用1byte 方式load 要100gb ram 也超 12/13 03:13
→ LDPC : 過單顆h100 80gb 記憶體容量 12/13 03:13
推 musie : 我的意思是time/money trade-off 12/13 04:12
→ musie : 1024 A100 train GPT3 需要34d 但我也可以128 340d 12/13 04:14
→ musie : 我看7B model是不用一天就跑完.. 跑個2week也沒差 12/13 04:14
→ musie : 反正到最後都是卡在data quality 12/13 04:15
→ LDPC : 有差啊。你沒此調整一個參數 learing rate 或schedu 12/13 04:18
→ LDPC : le 就兩個裡拜看結果 12/13 04:18
→ musie : 而且現在fine-tune都用LORA 記憶體可以大砍 12/13 04:19
→ musie : 只有做foundation model的要整個model 12/13 04:19
→ musie : 現在做foundation model也才那幾家.. 12/13 04:20
→ LDPC : 等你找到對的data 架構和training。至少要數十次調 12/13 04:21
→ LDPC : 整 每次五天和每次一個月 差距就是被幹掉 12/13 04:21
→ musie : 大大做foundmaion model嗎 我們應用沒有這麼多錢 12/13 04:21
→ LDPC : 這也是為何meta有五萬張a100 就是搶縮減時間 12/13 04:22
→ LDPC : misra就是做pretrained llm 12/13 04:23
→ musie : 應用面就真的都卡在生資料和洗資料 我是不覺得 12/13 04:23
→ musie : 大家還會瘋狂搶GPU啦 12/13 04:23
→ LDPC : 現在不是只有大廠玩的起 很多學校也玩的起 12/13 04:23
→ Alwen : 推特有人說大概明年上半年就能看到有人把GPT4等級的 12/13 06:03
→ Alwen : 模型開源,大廠大模型還真的沒辦法獨佔惹 12/13 06:04
推 EvilSD : 上半年要把GPT4等級開源很難吧 誰要開第一槍 12/13 06:44
→ EvilSD : 哪個大廠願意開源給你fine-tune 12/13 06:45
→ Alwen : 很快阿 現在開源已經追上3.5惹 12/13 07:07
→ Alwen : 再花半年達到GPT4 蠻正常DER 12/13 07:07
→ Alwen : 這東西以後只會越更新越快而已 12/13 07:08
→ Alwen : 當然那時候GPT4.5已經推出惹八 12/13 07:09
推 cosmo7897 : 7b叫做小模型XD 真會凹 12/13 07:33