เอ็นเอฟทีโมเดลใหม่!

ทีมนักวิจัยจาก University of Illinois Urbana-Champaign และ University of Virginia ได้เปิดตัวสถาปัตยกรรมโมเดล AI แบบใหม่ที่ชื่อว่า Energy-Based Transformer (EBT) ซึ่งถูกออกแบบมาเพื่อให้ AI “คิด” ได้ลึกซึ้งและมีเหตุผลมากขึ้น โดยเฉพาะกับงานที่ต้องการการวิเคราะห์เชิงตรรกะหรือการแก้ปัญหาที่ซับซ้อน จุดเด่นของ EBT คือสามารถขยายขีดความสามารถในการคิด (inference-time scaling) เพื่อแก้โจทย์ที่ยากขึ้นได้อย่างมีประสิทธิภาพ และยังสามารถนำไปใช้กับงานจริงในองค์กรได้คุ้มค่ามากขึ้น เพราะโมเดลนี้ generalize หรือประยุกต์ใช้กับสถานการณ์ใหม่ๆ ได้ดีโดยไม่ต้องเทรนเพิ่มแบบเฉพาะทาง.

ทำไม EBT ถึงน่าสนใจ?

คิดแบบมนุษย์ (System 2 Thinking): โมเดล AI ทั่วไปเก่งกับงานที่ต้องใช้สัญชาตญาณ (System 1) เช่น การจดจำแพทเทิร์นหรือการตอบคำถามเร็วๆ แต่ EBT ถูกออกแบบให้คิดแบบ System 2 คือ คิดช้าๆ วิเคราะห์ลึกๆ เหมือนเวลามนุษย์แก้ปัญหายากๆ.

แก้ปัญหาข้อจำกัดของ RL: เทคนิคเดิมอย่าง reinforcement learning (RL) หรือ best-of-n อาจเก่งแค่โจทย์ที่ตรวจสอบได้ง่าย เช่น คณิตศาสตร์หรือโค้ด แต่ไม่เก่งกับงานสร้างสรรค์หรือโจทย์ที่ต้องสำรวจไอเดียใหม่ๆ EBT จึงตอบโจทย์นี้ได้ดีกว่า เพราะเน้น “การตรวจสอบคำตอบ” มากกว่าการ “สร้างคำตอบ”.

บทความที่เกี่ยวข้องและแนะนำ:

🔗 บทความที่เกี่ยวข้อง: ชุบตัวให้สุขภาพดีทั้งกายใจ
🔗 อ่านต่อ: อาชญากรรม 5.0 AI อาวุธใหม่ในสงครามไซเบอร์
🔥 ยอดนิยม: กัมพูชาปลุกแบนสินค้าไทย ไทยตอบโต้ปิดด่านชายแดน

Energy-Based Model (EBM) คืออะไร?

หลักการ: แทนที่จะสร้างคำตอบโดยตรง โมเดลจะ “ประเมิน” คำตอบที่เป็นไปได้แต่ละชุดด้วยฟังก์ชันพลังงาน (energy function) คำตอบที่เหมาะสมกับโจทย์จะได้คะแนนพลังงานต่ำ แล้วโมเดลจะค่อยๆ ปรับคำตอบเพื่อลดพลังงานลงเรื่อยๆ จนได้คำตอบที่ดีที่สุด.

ข้อดี:

จัดสรรทรัพยากรการประมวลผลได้ตามความยากของโจทย์

รับมือกับปัญหาที่ไม่มีคำตอบเดียวได้ดี

ไม่ต้องใช้โมเดลตรวจสอบแยกต่างหาก เพราะ EBT เป็นทั้งผู้สร้างและผู้ตรวจสอบในตัวเดียวกัน

ผลทดสอบ EBT

เทียบกับ Transformer++ และ Diffusion Transformer (DiT):

EBT เทรนได้เร็วและประหยัดกว่าถึง 35% ในแง่ของข้อมูล, batch size, จำนวนพารามิเตอร์ และ compute.

ในงาน reasoning (เช่น ภาษา) เมื่อให้ “คิดนานขึ้น” หรือ “self-verify” ผลลัพธ์ดีขึ้นกว่า Transformer++ ถึง 29%.

ในงาน image denoising EBT ใช้ forward pass น้อยกว่า DiT ถึง 99% แต่คุณภาพดีกว่า

จุดแข็งคือ generalization: แม้จะเทรนมาน้อยกว่าหรือเทรนได้ผลลัพธ์แย่กว่าในช่วงแรก EBT กลับทำงาน downstream ได้ดีกว่าโมเดลอื่น โดยเฉพาะกับข้อมูลที่ต่างจากที่เคยเทรน (out-of-distribution).

จุดเด่นสำหรับองค์กรและนักพัฒนา

ใช้แทน LLM เดิมได้ทันที: EBT ออกแบบมาให้เข้ากันได้กับเฟรมเวิร์กและฮาร์ดแวร์ที่ใช้กับ Transformer เดิม เช่น GPU, TPU, LPU หรือเทคนิคใหม่ๆ อย่าง FlashAttention-3

ประหยัดข้อมูล: ในยุคที่ข้อมูลคุณภาพสูงหายาก EBT ใช้ข้อมูลน้อยกว่าแต่ได้ผลลัพธ์ดีกว่า

เหมาะกับงานที่ต้องการความปลอดภัย การตัดสินใจสำคัญ หรือมีข้อมูลจำกัด

ข้อสังเกตและความท้าทาย

แม้ EBT จะมีประสิทธิภาพดีขึ้นมาก แต่การเทรนยังต้องใช้ compute มากกว่า Transformer เดิม 3-6 เท่าในบางเคส ซึ่งอาจเป็นอุปสรรคในงานขนาดใหญ่.

ผลลัพธ์ที่ได้ส่วนใหญ่ยังทดสอบกับโมเดลขนาดไม่ใหญ่มาก (หลักร้อยล้านพารามิเตอร์) จึงต้องติดตามว่าถ้า scale ใหญ่ขึ้นจะยังได้ผลดีแบบนี้หรือไม่.

สรุป

Energy-Based Transformer (EBT) กำลังเปลี่ยนแนวคิดการสร้าง AI จาก “การเดาคำตอบ” เป็น “การคิดและตรวจสอบคำตอบ” แบบเป็นขั้นเป็นตอน ทำให้ AI มีเหตุผลและรับมือกับโจทย์ใหม่ๆ ได้ดีขึ้น เหมาะกับยุคที่ AI ต้องฉลาดรอบด้านและประหยัดทรัพยากรในการเทรนมากขึ้น.

อ้างอิง

the-decoder.com

venturebeat.com

alexiglad.github.io

arxiv.org,

Intelligence Transformer

Thinking

Solving

magazineasp