Visit the creator : magazineasp
ในยุคที่ปัญญาประดิษฐ์ (AI) กำลังเปลี่ยนโฉมหน้าการวางแผนและเหตุผลในโลกเสมือนจริง “โมเดลโลกวิดีโอ” (Video World Models) ได้กลายเป็นหัวใจสำคัญของการพัฒนา AI ที่สามารถคาดการณ์ภาพในอนาคตจากการกระทำของตัวเองได้อย่างแม่นยำ อย่างไรก็ตาม อุปสรรคสำคัญที่ขวางทางความก้าวหน้าคือ การรักษาความจำระยะยาว ของโมเดลเหล่านี้
ปัญหา: ขีดจำกัดของความจำในโมเดลวิดีโอ
แม้โมเดลวิดีโอแบบ diffusion จะสร้างภาพอนาคตได้สมจริงมากขึ้นเรื่อย ๆ แต่เมื่อวิดีโอมีความยาวมากขึ้น กลไก “attention” แบบเดิมกลับมีต้นทุนการประมวลผลสูงขึ้นแบบทวีคูณ ทำให้โมเดลเริ่ม “ลืม” เหตุการณ์ในอดีต ส่งผลให้ขาดความต่อเนื่องและเหตุผลในระยะยาว
ทางออกใหม่: Long-Context State-Space Video World Model (LSSVWM)
ทีมนักวิจัยจาก Stanford, Princeton และ Adobe Research ได้เปิดตัวโมเดลสถาปัตยกรรมใหม่ Long-Context State-Space Video World Model (LSSVWM) ที่พลิกแนวคิดการประมวลผลลำดับเวลา ด้วยการนำ “State-Space Models (SSMs)” ซึ่งเชี่ยวชาญด้านการจัดการข้อมูลลำดับยาว มาใช้แทน attention แบบเดิม
หัวใจของนวัตกรรมนี้ประกอบด้วย
Block-wise SSM Scanning Scheme:
แทนที่จะสแกนวิดีโอทั้งเรื่องด้วย SSM เดียว ทีมวิจัยเลือกแบ่งวิดีโอเป็น “บล็อก” ย่อย ๆ แล้วสแกนทีละบล็อก พร้อมส่งต่อ “สถานะสรุป” ระหว่างบล็อก ช่วยยืดขอบเขตความจำระยะยาวโดยไม่ต้องใช้ทรัพยากรเกินจำเป็น
Dense Local Attention:
เพื่อรักษาความต่อเนื่องและรายละเอียดระหว่างเฟรมในแต่ละบล็อก โมเดลจึงเสริมกลไก attention เฉพาะจุด ทำให้เฟรมที่อยู่ใกล้เคียงกันยังคงสัมพันธ์กันแน่นแฟ้น สร้างวิดีโอที่สมจริงและลื่นไหล
กลยุทธ์การฝึกโมเดลแบบใหม่
Diffusion Forcing:
เทคนิคนี้บังคับให้โมเดลต้องสร้างเฟรมจากข้อมูลนำร่องเพียงบางส่วน หรือแม้แต่ไม่มีนำร่องเลย (prefix length = 0) เพื่อฝึกให้โมเดลเชื่อมโยงเหตุการณ์ในอดีตกับอนาคตได้ดีขึ้น
Frame Local Attention:
เพื่อเร่งความเร็วในการฝึกและประมวลผล ทีมวิจัยใช้ “FlexAttention” โดยแบ่งเฟรมเป็นกลุ่มย่อย ให้แต่ละกลุ่มสามารถสื่อสารกันทั้งในกลุ่มและกับกลุ่มก่อนหน้า ช่วยขยายขอบเขตการรับรู้โดยไม่เพิ่มภาระคำนวณ
ผลลัพธ์: ความจำระยะยาวเหนือชั้น พร้อมความเร็วที่ใช้งานได้จริง
โมเดล LSSVWM ถูกทดสอบกับชุดข้อมูลสุดหิน เช่น Memory Maze และ Minecraft ซึ่งออกแบบมาเพื่อทดสอบความสามารถด้านความจำและเหตุผลระยะยาวโดยเฉพาะ ผลลัพธ์ชี้ชัดว่าโมเดลนี้สามารถสร้างวิดีโอที่ต่อเนื่อง สมเหตุสมผล และแม่นยำในรายละเอียดได้ดีกว่าโมเดลเดิม ๆ อย่างเห็นได้ชัด
ในงาน reasoning (เหตุผล) โมเดลสามารถ “จำ” เหตุการณ์ที่เกิดขึ้นนานแล้วและนำมาใช้ตัดสินใจในอนาคตได้
ในงาน retrieval (ค้นหาข้อมูล) โมเดลแสดงให้เห็นถึงความสามารถในการดึงข้อมูลจากเฟรมที่อยู่ไกลออกไปได้อย่างมีประสิทธิภาพ
ที่สำคัญ โมเดลใหม่นี้ยังคงความเร็วในการประมวลผลที่เหมาะกับการใช้งานจริง ไม่ว่าจะเป็นงานวางแผนในเกมหรือการโต้ตอบกับผู้ใช้แบบเรียลไทม์
LSSVWM จึงถือเป็นก้าวกระโดดสำคัญของวงการ AI ด้านวิดีโอ ที่เปิดทางให้ปัญญาประดิษฐ์เข้าใจและจดจำโลกเสมือนจริงได้ลึกซึ้งกว่าเดิม พร้อมต่อยอดสู่แอปพลิเคชันที่ต้องการความต่อเนื่องและเหตุผลระยะยาวในอนาคต,
#โมเดลโลกวิดีโอ
#VideoWorldModel #ความจำระยะยาว
#Long-ContextState-SpaceVideoWorldModel
#LSSVWM
magazineasp