Benchmark

A benchmark for AI in Thai.

Benchmark สากลอย่าง MMLU, SWE-bench, AIME วัด AI ในภาษาอังกฤษเป็นหลัก — ถ้ามีภาษาไทยก็มักจะเป็นแค่การแปลจากภาษาอังกฤษอีกที. ConnectHuman.ai กำลังสร้าง benchmark ของเราเอง เพื่อตอบคำถามที่เราอยากรู้จริงๆ ในฐานะคนไทยที่ใช้โมเดลทุกวัน.

ทำไมเราต้องวัดเอง

เพราะคำถามที่เราถาม AI ทุกวันไม่เคยถูกถามใน benchmark ตัวไหน — โมเดลเข้าใจภาษาไทยจริงไหม, รู้จักบริบทไทยแค่ไหน, ตอบเรื่องที่ละเอียดอ่อนทางวัฒนธรรมได้ดีพอไหม, อ่านเอกสารราชการรู้เรื่องไหม, แยกแยะภาษาพูดกับภาษาเขียนได้ไหม.

ตัวเลขจาก benchmark ที่มีอยู่ — ตอบคำถามเหล่านี้ไม่ได้.

สิ่งที่เราอยากวัด

ความเข้าใจภาษา — อ่านเอกสารไทยซับซ้อนได้แค่ไหน, แยกสำนวนกับภาษาตรงไปตรงมาได้ไหม
ความรู้บริบทไทย — ประวัติศาสตร์, กฎหมาย, วัฒนธรรม, สิ่งที่คนไทยน่าจะรู้
ความละเอียดอ่อน — คำพูดทางการ/ไม่ทางการ, การพูดกับผู้ใหญ่, เรื่องที่ต้องระวัง
การทำงานจริง — งานที่คนไทยใช้ AI ทำอยู่ทุกวัน ไม่ใช่งานที่แต่งขึ้นมาในห้องแล็บ
ภาษาถิ่นและสำเนียง — ใต้, อีสาน, เหนือ — โมเดลรู้จักหรือไม่

Coming soon

หน้านี้อยู่ระหว่างจัดทำ.

กำลังออกแบบ methodology และเก็บข้อสอบชุดแรก — รอเปิดให้ดูผลรอบแรกเร็วๆ นี้.