Benchmark
A benchmark for AI in Thai.
Benchmark สากลอย่าง MMLU, SWE-bench, AIME วัด AI ในภาษาอังกฤษเป็นหลัก — ถ้ามีภาษาไทยก็มักจะเป็นแค่การแปลจากภาษาอังกฤษอีกที. ConnectHuman.ai กำลังสร้าง benchmark ของเราเอง เพื่อตอบคำถามที่เราอยากรู้จริงๆ ในฐานะคนไทยที่ใช้โมเดลทุกวัน.
ทำไมเราต้องวัดเอง
เพราะคำถามที่เราถาม AI ทุกวันไม่เคยถูกถามใน benchmark ตัวไหน — โมเดลเข้าใจภาษาไทยจริงไหม, รู้จักบริบทไทยแค่ไหน, ตอบเรื่องที่ละเอียดอ่อนทางวัฒนธรรมได้ดีพอไหม, อ่านเอกสารราชการรู้เรื่องไหม, แยกแยะภาษาพูดกับภาษาเขียนได้ไหม.
ตัวเลขจาก benchmark ที่มีอยู่ — ตอบคำถามเหล่านี้ไม่ได้.
สิ่งที่เราอยากวัด
- ความเข้าใจภาษา — อ่านเอกสารไทยซับซ้อนได้แค่ไหน, แยกสำนวนกับภาษาตรงไปตรงมาได้ไหม
- ความรู้บริบทไทย — ประวัติศาสตร์, กฎหมาย, วัฒนธรรม, สิ่งที่คนไทยน่าจะรู้
- ความละเอียดอ่อน — คำพูดทางการ/ไม่ทางการ, การพูดกับผู้ใหญ่, เรื่องที่ต้องระวัง
- การทำงานจริง — งานที่คนไทยใช้ AI ทำอยู่ทุกวัน ไม่ใช่งานที่แต่งขึ้นมาในห้องแล็บ
- ภาษาถิ่นและสำเนียง — ใต้, อีสาน, เหนือ — โมเดลรู้จักหรือไม่
Coming soon
หน้านี้อยู่ระหว่างจัดทำ.
กำลังออกแบบ methodology และเก็บข้อสอบชุดแรก — รอเปิดให้ดูผลรอบแรกเร็วๆ นี้.
