โปรเจค Colossus (AI Supercomputer ที่ทรงพลังที่สุดในโลก)มีการ์ด AI ทั้งหมด 100,000 ใบ(100,000 ล้านบาท)

โปรเจค Colossus ของ xAI ได้กลายเป็นก้าวกระโดดครั้งยิ่งใหญ่ของวงการ AI ไปแล้วนะครับ โดยรอบนี้อีลอนลงเงินทุนไปประมาณ $3,000 – 4,000 ล้านเหรียญสหรัฐหรือมากกว่า 100,000 ล้านบาทในการนำ GPU Nvidia Hopper 100,000 ใบมาใส่ใน AI Supercomputer ของตนครับ และหลังจากที่ Server AI นี้ได้ทำงานจริง Nvidia ก็ยกให้ Server AI Supercomputer แห่งนี้กลายเป็น training system(ระบบเทรน AI) ที่ทรงพลังที่สุดในโลกครับ

ข้อมูลสำหรับ Colossus (Supercomputer AI) แห่งนี้ :

xAI ติดตั้ง Colossus เอาไว้ที่เมือง Memphis รัฐเทนเนสซี่ ประเทศอเมริกา
โปรเจค Colossusนั้นเริ่มต้นที่ GPU Nvidia Hopper ทั้งหมด 100,000 ใบ และวางแผนที่จะเพิ่มเป็น 200,000 ใบภายในเร็วๆ นี้
Colossus เป็น Supercomputer AI ที่ใช้ระบบ Liquid Cooling มากที่สุดในโลก
Rack นึงจะมี GPU ทั้งหมด 64 ตัวและ CPU ทั้งหมด 16 ตัว

Jensen (CEO nvidia) ชมว่า xAI ติดตั้ง GPU ลง Server ได้ไวที่สุดในโลก

งานติดตั้ง GPU 100,000 ตัวพร้อมการเดิน Nvidia’s Spectrum-X Ethernet นั้นไม่ใช่เรื่องง่ายนะครับ อีลอนทำจบภายใน 122 วันและใช้เวลาเพียง 19 วันก็สามารถ train AI ได้แล้ว(ถือว่าทำลายสถิติโลกในการติดตั้ง Server สำหรับ Train AI ไปเลยครับ) ระบบ NVIDIA Spectrum SN5600 Ethernet switches นั้นสามารถรองรับการส่งข้อมูลมากถึง 800 GBs ต่อวินาที

Spectrum-X platform ของ nvidia นั้นมีฟีเจอร์ต่างๆ เช่น adaptive routing, congestion control และ enhanced AI fabric visibility

Server ที่นี่ใช้ระบบ NVIDIA BlueField-3 SuperNIC ซึ่งถูกพัฒนาขึ้นมาเพื่อรองรับการใช้งาน AI Cloud data centers โดยเฉพาะโดยสถาปัตยกรรม BlueField-3 DPU นั้นช่วยเพื่อ bandwidth ให้กว้างขึ้นพร้อมทั้งลด latency(ระยะเวลาในการเดินทางของข้อมูลจากต้นทางไปยังปลายทาง) ผ่าน accelerators อีกด้วยครับ ถ้าเทียบกันเป็นตัวเลขคือระบบนี้สามารถส่งข้อมูล Bandwidth ระหว่าง GPU ด้ยวกันที่ 400 Gb ต่อวินาที

ระบบระบายความร้อนใช้ระบบ Manifold

ระบบการทำงานของ Manifold คือการใช้ liquid (ของเหลว)จาก Cooling Distribution Unit (CDU) โดยส่งความเย็นผ่านท่อสีน้ำเงินไปยัง GPU และ CPU และทำการ heat exchange(แลกเปลี่ยนความร้อน)ออกมาผ่านท่อสีแดง(ท่อที่ส่งความร้อนออกมา)

ประเภท Manifold ที่ Server xAI ใช้งานนั้นจะเป็น

Zero U Manifolds (แบบภาพด้านล่างนี้)

ตัวนี้จะทำการติดตั้งแบบแนวตั้งและมีท่อใหญ่ 2 ท่อในการแลกเปลี่ยนอุณหภูมิโดยท่อน้ำเงินคือท่อเย็นไหลเข้าไปยัง server, ท่อแดงคือท่อที่มีของเหลวร้อนไหลออก ระบบนี้ออกแบบมาเพื่อรองรับ Rack ที่มีการ์ดประมวลผลหนักๆ เช่น NVIDIA H100 ทั้งหมด 8 ตัวเป็นต้นโดยจะมีท่อใหญ่ 4 ท่อแบบนี้เพื่อทำการ heat extraction(เอาความร้อนออกมา) เหมาะสำหรับงานที่ training AI หนักๆ และเอาโหลดไฟฟ้าจ่ายมาที่เดียว (GPU server แบบกินไฟประมาณ 6 kW นะครับ, Rack นึงมีประมาณ 64 GPU ก็กินไฟประมาณ 48-60 kW ต่อ Rack ครับ)

2. Horizontal Manifolds หรือการติดตั้งท่อแบบแนวนอน

อันนี้ติดตั้งสำหรับ rack GPU Server ที่มีขนาดเล็กหรือประหยัดพื้นที่ซึ่ง xAI เลือกใช้ทั้งสองระบบนะครับ

โดยถ้า Horizontal Manifolds ประกอบเสร็จแล้วจะหน้าตาเป็นแบบด้านล่างนี้ครับ เค้าบอกว่ามันง่ายต่อการบำรุงรักษาเพราะท่อเหล่านี้เป็น plug and play ถอดออกง่ายมาก(แค่ดึงออก)

Great insights about @xai Colossus AI Supercomputer with over 100k H100 GPUs & @Supermicro_SMCI liquid-cooled cluster.pic.twitter.com/QWq2mcHdhl
— Tahreem Hussain (@tahreem57) October 28, 2024

BLINK DRIVE TAKE

อีลอนตั้งใจจะสร้าง xAI Server เอาไว้เพื่อเทรนข้อมูลต่างๆ ไม่ว่าจะเป็น LLM ของ Grok, และข้อมูลใน X.com และท้ายที่สุดนี้คือ Tesla FSD V.13 ที่กำลังจะเปิดตัวปีหน้า(ถ้าเปิดตัวแล้ว อีลอนบอกว่า อาจจะมีการเปิดตัว Robotaxi ใน V.13 นี้และ California และ Texas จะเป็นรัฐแรกๆที่สามารถเปิดให้ใช้ Robotaxi ผ่าน Model 3/Y โดยเจ้าของรถไม่ต้องขึ้นไปขับนะครับ)

Stay tune, stay with BLINK DRIVE

Share on Facebook

Blink Drive

โปรเจค Colossus (AI Supercomputer ที่ทรงพลังที่สุดในโลก)มีการ์ด AI ทั้งหมด 100,000 ใบ(100,000 ล้านบาท)

glassman555 - October 29, 2024October 29, 2024

Jensen (CEO nvidia) ชมว่า xAI ติดตั้ง GPU ลง Server ได้ไวที่สุดในโลก

ระบบระบายความร้อนใช้ระบบ Manifold

BLINK DRIVE TAKE

Stay tune, stay with BLINK DRIVE