Benchmark

A benchmark for AI in Thai.

Benchmark สากลอย่าง MMLU, SWE-bench, AIME วัด AI ในภาษาอังกฤษเป็นหลัก — ถ้ามีภาษาไทยก็มักจะเป็นแค่การแปลจากภาษาอังกฤษอีกที. ConnectHuman.ai กำลังสร้าง benchmark ของเราเอง เพื่อตอบคำถามที่เราอยากรู้จริงๆ ในฐานะคนไทยที่ใช้โมเดลทุกวัน.

ทำไมเราต้องวัดเอง

เพราะคำถามที่เราถาม AI ทุกวันไม่เคยถูกถามใน benchmark ตัวไหน — โมเดลเข้าใจภาษาไทยจริงไหม, รู้จักบริบทไทยแค่ไหน, ตอบเรื่องที่ละเอียดอ่อนทางวัฒนธรรมได้ดีพอไหม, อ่านเอกสารราชการรู้เรื่องไหม, แยกแยะภาษาพูดกับภาษาเขียนได้ไหม.

ตัวเลขจาก benchmark ที่มีอยู่ — ตอบคำถามเหล่านี้ไม่ได้.

สิ่งที่เราอยากวัด

  • ความเข้าใจภาษา — อ่านเอกสารไทยซับซ้อนได้แค่ไหน, แยกสำนวนกับภาษาตรงไปตรงมาได้ไหม
  • ความรู้บริบทไทย — ประวัติศาสตร์, กฎหมาย, วัฒนธรรม, สิ่งที่คนไทยน่าจะรู้
  • ความละเอียดอ่อน — คำพูดทางการ/ไม่ทางการ, การพูดกับผู้ใหญ่, เรื่องที่ต้องระวัง
  • การทำงานจริง — งานที่คนไทยใช้ AI ทำอยู่ทุกวัน ไม่ใช่งานที่แต่งขึ้นมาในห้องแล็บ
  • ภาษาถิ่นและสำเนียง — ใต้, อีสาน, เหนือ — โมเดลรู้จักหรือไม่

Coming soon

หน้านี้อยู่ระหว่างจัดทำ.

กำลังออกแบบ methodology และเก็บข้อสอบชุดแรก — รอเปิดให้ดูผลรอบแรกเร็วๆ นี้.

ConnectHuman.ai

ทีม AI lover ที่เขียนเรื่อง AI, การคิด, และชีวิตที่อยู่ตรงกลาง.

© 2026 ConnectHuman.ai. All rights reserved. Made with care · เขียนด้วยใจ