รู้จัก Titans สมองใหม่ AI คิด-จำได้เหมือนสมองคนจาก Google

ในยุคที่ Language Model (LLM) หรือโมเดลภาษาขนาดใหญ่เป็นรากฐานสำคัญที่ช่วยให้ AI เข้าใจและสื่อสารกับมนุษย์ได้อย่างใกล้เคียงกับธรรมชาติที่สุด ไม่ว่าจะเป็นการแปลภาษา ตอบคำถาม สรุปข้อมูล หรือช่วยเขียนเนื้อหา

แต่ปัญหาใหญ่ของการพัฒนา LLM คือ ความต้องการทรัพยากรที่มหาศาล ทั้งด้านการประมวลผลและหน่วยความจำ การฝึกโมเดลขนาดใหญ่เหล่านี้ต้องใช้ข้อมูลจำนวนมหาศาลและฮาร์ดแวร์ที่มีพลังการประมวลผลสูง เช่น GPU และ TPU ขั้นสูง ยิ่งโมเดลมีขนาดใหญ่เท่าใด ต้นทุนในการพัฒนาก็ยิ่งสูงขึ้นตามไปด้วย

นักวิจัยจาก Google จึงได้พัฒนาโครงสร้างโมเดลประมวลผลภาษาแบบใหม่ (Neural-network architecture) ที่อาจช่วยแก้ปัญหาสำคัญของโมเดลภาษาขนาดใหญ่ในปัจจุบัน นั่นคือ การขยายหน่วยความจำขณะทำงานโดยไม่ทำให้ต้นทุนด้านหน่วยความจำและการประมวลผลพุ่งสูงขึ้น โดยโครงสร้างนี้มีชื่อว่า Titans มันสามารถจัดการข้อมูลได้อย่างชาญฉลาดขึ้น โดยเฉพาะเมื่อต้องทำงานกับข้อมูลจำนวนมากหรือข้อความที่ยาวมาก ๆ

รู้จัก Titans ทางออกใหม่ของการพัฒนา LLM

ก่อนจะไปรู้จัก Titans เรามาทำความเข้าใจปัญหาของการประมวลผล LLM ในปัจจุบันกันก่อน เนื่องจากโดยปกติแล้วโมเดลภาษาขนาดใหญ่จะใช้ attention layers เพื่อจับความสัมพันธ์ระหว่างคำ ( Tokens) ในข้อความ ระบบนี้มีประสิทธิภาพในการเข้าใจรูปแบบที่ซับซ้อน (เช่น Sky is Blue กระบวนการนี้ก็จะทำความเข้าใจว่าคำทั้ง 3 คำนี้เกี่ยวข้องกันยังไง) แต่มีข้อเสียคือ ใช้พลังประมวลผลและหน่วยความจำสูงมาก โดยเฉพาะเมื่อข้อความยาวขึ้น ก็สามารถดันต้นทุนในการคำนวณเพิ่มขึ้นแบบคูณสองได้เลยทีเดียว

ซึ่งก่อนหน้านี้ก็เคยมีนักวิจัยพยายามใช้ระบบที่ง่ายกว่า เช่น linear models ซึ่งออกแบบมาให้จัดการข้อความยาวๆ ได้ดีกว่า โดยใช้ทรัพยากรน้อยกว่า attention layers ซึ่งแน่นอนว่าข้อดีของ linear models คือสามารถประมวลผลข้อความยาวๆ ได้เร็วขึ้น และใช้พลังการประมวลผลน้อยลง

แต่ข้อเสียสำคัญคือมัน บีบอัดข้อมูลในข้อความมากเกินไป และการบีบอัดแบบนี้ทำให้โมเดลไม่สามารถเก็บรายละเอียดที่สำคัญในข้อความได้ ส่งผลให้โมเดลสูญเสียความเข้าใจที่เกี่ยวกับความสัมพันธ์ระหว่างคำในข้อความ (หรือพูดง่ายๆ ก็คือ แม้ประมวลผลเร็วขึ้น แต่ความสารถในการทำความเข้าใจจะลดลง)

ดังนั้น Titans ถูกพัฒนาขึ้นมาเพื่อแก้ปัญหานี้โดยเฉพาะ

Titans คือ โครงสร้างโมเดลประมวลผลภาษาแบบใหม่ (Neural-network architecture) ซึ่งมีการเพิ่มสิ่งที่เรียกว่า "neural memory" หรือหน่วยความจำประสาทเทียม ประโยชน์คือ การที่มันสามารถใช้ attention layers เพื่อเก็บรายละเอียดของข้อมูล และเพิ่ม neural memory layers เพื่อจัดการข้อมูลในระยะยาวได้อย่างมีประสิทธิภาพ

ด้วยวิธีนี้ Titans สามารถจัดการกับข้อความที่ยาวมากๆ นับล้านโทเค็น ได้โดยที่ยังคงคุณภาพสูง และใช้ทรัพยากรน้อยกว่า นักวิจัยเชื่อว่าโครงสร้างนี้คล้ายกับสมองมนุษย์ที่มีส่วนต่างๆ ทำงานร่วมกันเพื่อเรียนรู้ จดจำ และนำข้อมูลมาใช้งาน

ซึ่งหากลองเปรียบเทียบทั้ง 3 กระบวนการ กับการอ่านหนังสือเล่มใหญ่สักเล่ม

Attention Layers

  • เหมือนคนที่อ่านทุกหน้าของหนังสือแบบละเอียดและวิเคราะห์ความเชื่อมโยงของข้อมูลในแต่ละย่อหน้า
  • ข้อดี: เข้าใจทุกอย่างลึกซึ้ง
  • ข้อเสีย: ใช้เวลานานและพลังงานมาก โดยเฉพาะเมื่อหนังสือเล่มหนา

Linear Models

  • เหมือนคนที่อ่านแบบข้ามๆ เน้นแค่พาดหัวหรือสรุปท้ายบท
  • ข้อดี: อ่านจบเร็วและใช้พลังงานน้อย
  • ข้อเสีย: หลายครั้งพลาดรายละเอียดสำคัญและอาจเข้าใจผิดในเนื้อหา

Titans

  • เหมือนคนที่อ่านหนังสือทั้งเล่ม พร้อมจดโน้ตส่วนสำคัญไว้ในความจำระยะยาว
  • ข้อดี: เข้าใจรายละเอียดเหมือน Attention Layers และสามารถเชื่อมโยงข้อมูลตั้งแต่บทแรกถึงบทสุดท้ายโดยไม่ลืม ใช้พลังงานน้อยกว่าเมื่อเทียบกับการอ่านทุกหน้าอย่างละเอียด

เข้าใจหน่วยความจำในโมเดล AI ให้มากขึ้น

หน่วยความจำในโมเดล AI มีความคล้ายกับหน่วยความจำของมนุษย์ โดยแต่ละแบบมีหน้าที่ต่างกันและทำงานแยกจากกัน ซึ่งแบ่งได้เป็น:

  1. ความจำระยะสั้น (Short-term memory) ใช้เก็บข้อมูลในช่วงเวลาสั้นๆ สำหรับงานเฉพาะ เช่น การจำคำในประโยคที่กำลังอ่าน
  2. ความจำใช้งาน (Working memory) ใช้แก้ไขปัญหาหรือตัดสินใจ 
  3. ความจำระยะยาว (Long-term memory) ใช้เก็บข้อมูลสำคัญที่สามารถเรียกคืนมาใช้งานในภายหลังได้ เช่น การจำชื่อสถานที่หรือข้อเท็จจริง

นักวิจัยเชื่อว่าการสร้างหน่วยความจำใน AI ที่มีความสามารถคล้ายมนุษย์ จำเป็นต้องมีโมดูลที่แยกหน้าที่เหล่านี้อย่างชัดเจนและทำงานร่วมกันได้อย่างสมดุล

ในปัจจุบัน โมเดลภาษาที่เราใช้ เช่น ChatGPT หรือ GPT ต่างๆ อาศัยกลไกที่เรียกว่า attention mechanism ซึ่งเปรียบเสมือนความจำระยะสั้น ที่ช่วยโฟกัสกับข้อมูลในบริบทที่กำลังประมวลผล แต่โมเดลเหล่านี้มีข้อจำกัดสำคัญ คือไม่สามารถเก็บข้อมูลที่มีประโยชน์ในระยะยาวได้ดี หรือเรียนรู้สิ่งใหม่ขณะกำลังทำงานได้ ดังนั้น นักวิจัยจึงได้เสนอแนวคิดใหม่ที่เรียกว่า Neural Long-Term Memory เพื่อเติมเต็มช่องว่างนี้

โดยบทบาทของ Neural Long-Term Memory ต่อ LLM ไม่ได้มาแทนที่ Attention mechanism แต่ทำงานร่วมกันในลักษณะของทีมเวิร์ก ดังนี้

  • Attention mechanism: ทำหน้าที่เป็นความจำระยะสั้น โฟกัสกับข้อความที่กำลังประมวลผล
  • Neural long-term memory: ทำหน้าที่เป็นความจำระยะยาว เรียนรู้และเก็บข้อมูลใหม่ๆ เพื่อใช้งานในอนาคต

ประโยชน์ของ Neural Long-Term Memory ก็คือการเพิ่มความจำระยะยาวใน AI ช่วยให้โมเดลเรียนรู้ข้อมูลใหม่ได้ทันทีโดยไม่ต้องฝึกฝนซ้ำ ประมวลผลข้อความยาวได้ดีขึ้น และใช้ทรัพยากรอย่างมีประสิทธิภาพ ดังนั้น มันจึงอาจเป็นก้าวใหม่ที่ช่วยให้ AI ฉลาดขึ้น คล้ายมนุษย์มากขึ้น และสามารถจัดการข้อมูลได้อย่างมีประสิทธิภาพในระดับที่โมเดลเดิมไม่สามารถทำได้

อ้างอิง: venturebeat, forbes

ลงทะเบียนเข้าสู่ระบบ เพื่ออ่านบทความฟรีไม่จำกัด

No comment

RELATED ARTICLE

Responsive image

คอมตัมคอมพิวติ้ง ตอนนี้ไปถึงไหนแล้ว ? สรุปความก้าวหน้าควอนตัมจากงาน NVIDIA GTC 2025

งาน NVIDIA GTC 2025 เป็นปีแรกที่มีการจัดเวทีพูดคุยเกี่ยวกับควอนตัมคอมพิวติ้งโดยเฉพาะ (Quantum Day) ซึ่ง NVIDIA ในฐานะเจ้าภาพ และผู้ขับเคลื่อนการประมวลผลแบบ Accelerated Computing จึ...

Responsive image

ญี่ปุ่น ใช้ AI และเทคโนโลยีอะไร ในการรับมือแผ่นดินไหว ?

เหตุแผ่นดินไหวในเมียนมาที่ส่งผลกระทบมาถึงประเทศไทย สร้างความตระหนักถึงความเสี่ยงด้านแผ่นดินไหวที่อาจเกิดขึ้นในประเทศ แม้ประเทศไทยจะไม่ใช่พื้นที่ที่มีความเสี่ยงสูง แต่เหตุการณ์ดังกล...

Responsive image

AI วาดสไตล์ Ghibli : OpenAI แอบดึงข้อมูลมาเทรนด์หรือเปล่า ประเด็นที่โลกไม่ควรมองข้าม

ฟีเจอร์ใหม่จาก ChatGPT ที่สร้างภาพสไตล์ Ghibli ทำเอาโลกอินเทอร์เน็ตสะเทือน แต่คำถามใหญ่คือ...นี่คือวิวัฒนาการของเทคโนโลยี หรือการทำลายจิตวิญญาณของศิลปะที่ Ghibli ยึดถือมาทั้งชีวิต ...