→ WYchuang: MI300應該沒有跟250差不多 … apu只是其218.164.221.191 07/03 10:54
→ WYchuang: 中一個型號 mi300x才是全部gpu218.164.221.191 07/03 10:54
噓 a000000000: mi300x我記得fp32沒輸h100多少喔 76.132.63.174 07/03 11:01
→ a000000000: 而且老黃是tensor core 76.132.63.174 07/03 11:01
→ a000000000: 現在也只有知道多少cu 不知道頻率 76.132.63.174 07/03 11:01
→ cor1os: 樓上射惹 125.227.5.157 07/03 11:08
推 E6300: 反正老黃就是拿遊戲卡來撐場子223.136.188.174 07/03 11:50
推 harry886901: 他計算速度主要是開大batch size 101.12.29.165 07/03 12:20
→ harry886901: 這樣確實不用算力也能有效加速運算效 101.12.29.165 07/03 12:20
→ harry886901: 率 101.12.29.165 07/03 12:20
→ CORYCHAN: 為何您會得出MI300跟MI250差不多的結論 223.139.79.158 07/03 12:26
→ CORYCHAN: 呢? 223.139.79.158 07/03 12:26
推 spfy: 先不管IA有沒有輸這麼多 那影片下面一堆人 202.173.43.202 07/03 13:02
→ spfy: 贊同蘋果要超越老黃 看的我好像走錯世界線 202.173.43.202 07/03 13:03
→ oopFoo: 現在一堆在講AI的都讓我覺得很莫名奇妙。 36.224.228.156 07/03 13:26
→ oopFoo: 也有跑ai模型理論很好的人,對硬體完全不 36.224.228.156 07/03 13:27
→ oopFoo: 懂,也是意見很奇杷。 36.224.228.156 07/03 13:28
推 iuytjhgf: 你怎麼會期待讀資訊科的人就會組電腦 111.252.228.72 07/03 13:35
→ iuytjhgf: 寫軟體只在意我的模型到底塞不塞的下去 111.252.228.72 07/03 13:36
噓 a000000000: 尼484沒看懂我在講啥 76.132.63.174 07/03 13:51
→ a000000000: h100 tf32 756 76.132.63.174 07/03 13:51
→ a000000000: mi250 384 76.132.63.174 07/03 13:52
→ a000000000: mi300x cu數4mi250的1.6倍 76.132.63.174 07/03 13:52
→ a000000000: 再加上頻率差 尼自己算一下 76.132.63.174 07/03 13:52
噓 a000000000: 等等我好像看錯惹 76.132.63.174 07/03 13:54
噓 a000000000: 384應該是mi300a的fp16 尷尬 76.132.63.174 07/03 13:58
推 Arbin: 不過就算目前mi300x有接近h100效能好了 111.71.218.44 07/03 14:48
→ Arbin: DL公司應該還是會對他觀望 111.71.218.44 07/03 14:48
→ Arbin: 主要目前你各位還是太黏NVDA 111.71.218.44 07/03 14:49
推 aegis43210: H100強在BF16和自己開發的TF32,這兩175.181.177.110 07/03 16:15
→ aegis43210: 種場景都比CDNA3強很多175.181.177.110 07/03 16:15
→ aegis43210: 但mi300在int8和int4相對mi250有4倍以175.181.177.110 07/03 16:16
→ aegis43210: 上的提升175.181.177.110 07/03 16:16
→ oopFoo: mi300有400tops,假設是int8好了,h100的 36.224.228.156 07/03 16:24
噓 a000000000: 我看惹一下 mi300在fp16含以下應該 76.132.63.174 07/03 16:27
→ a000000000: mi300x大概h100的一半附近 76.132.63.174 07/03 16:27
→ a000000000: 目前LLM運算應用效率4沒到50%才對 76.132.63.174 07/03 16:28
→ a000000000: 主要都卡ram 76.132.63.174 07/03 16:28
→ a000000000: 而且那是a100的狀態 76.132.63.174 07/03 16:28
→ a000000000: a100->h100 都是80GB hbm2e->hbm3 76.132.63.174 07/03 16:29
→ a000000000: tensor core運算效能多很多 76.132.63.174 07/03 16:30
→ a000000000: 能用到多少就很難說惹 76.132.63.174 07/03 16:30
→ oopFoo: 寫錯mi250大概400tops。mi300大概1600tops 36.224.228.156 07/03 16:32
→ oopFoo: h100是3026tops,350w。mi300要?800w? 36.224.228.156 07/03 16:33
→ oopFoo: int8/int4這種inference的東東,xilinx有 36.224.228.156 07/03 16:36
→ oopFoo: 比較划算的東東。MTL也有30?tops的vpu,這 36.224.228.156 07/03 16:39
→ oopFoo: 一塊還有空間給IA兩家機會搶。 36.224.228.156 07/03 16:40