การประยุกต์ใช้การเรียนรู้เชิงลึก ในการตรวจจับข้อบกพร่องของการอ่านออกเสียง เพื่อเป็นพื้นฐานสำหรับการพัฒนาระบบคอมพิวเตอร์ช่วยฝึกออกเสียงภาษาไทย

ชื่อนักเรียนผู้จัดทำโครงงานวิทยาศาสตร์: นิธิวัฒน์ สิริรัตนชัยกุล
อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์: โกญจนาท คูณพูล
โรงเรียนที่กำกับดูแลโครงงานวิทยาศาสตร์: โรงเรียนสวนกุหลาบวิทยาลัย
ปีที่จัดทำโครงงานวิทยาศาสตร์: พ.ศ. 2565

บทคัดย่อโครงงานวิทยาศาสตร์

โครงงานนี้มีวัตถุประสงค์เพื่อพัฒนาและทดสอบประสิทธิภาพโมเดลการเรียนรู้เชิงลึก (Deep Learning) ในงานตรวจจับข้อบกพร่องของการอ่านออกเสียง ให้ครอบคลุมทุกหน่วยเสียงพยัญชนะและสระภาษาไทย ผู้วิจัยทดลองโดยเตรียมชุดข้อมูลสำหรับฝึกฝนโมเดล 3 รูปแบบ ได้แก่ i) ชุดข้อมูลที่มีเฉพาะไฟล์เสียงจากชุดข้อมูล LOTUS Corpus ii) ชุดข้อมูลที่ผสมไฟล์เสียงระหว่างชุดข้อมูล LOTUS Corpus กับ TSynC-2 และ iii) ชุดข้อมูลในข้อ ii. ที่เพิ่มการสังเคราะห์สัญญาณเสียงที่อ่านออกเสียงผิด ด้วยวิธีการ Text-to-Speech จากนั้นฝึกฝนโมเดลสำหรับรู้จำหน่วยเสียง (Phoneme Recognition) ได้แก่ Pretrained Allosaurus (uni2005) และ CNN-RNN-CTC แล้วนำมาโมเดลทดสอบกับชุดทดสอบที่ผู้วิจัยพัฒนาขึ้น โมเดลทำนายผลลัพธ์ออกมาเป็นลำดับชุดหน่วยเสียง (Phoneme Sequence) จากนั้นนำลำดับชุดหน่วยเสียงที่เป็นผลลัพธ์ของโมเดล (predicted phoneme) และลำดับชุดหน่วยเสียงที่เป็นป้ายกำกับ (label phoneme) มาจัดเรียงเทียบกับลำดับชุดหน่วยเสียงอ้างอิงตามหลักการอ่าน (canonical phoneme) โดยใช้ Needleman–Wunsch algorithm แล้วคำนวณประสิทธิภาพของโมเดล พบว่าประสิทธิภาพในด้านการรู้จำหน่วยเสียง โมเดล Pretrained Allosaurus (uni2005) มี Phoneme Error Rate เท่ากับ 12.27% ต่ำกว่าโมเดล CNN-RNN-CTC

ในด้านประสิทธิภาพในการตรวจจับและวินิจฉัยข้อบกพร่องของการออกเสียง โมเดล pretrained Allosaurus (uni2005) ที่ฝึกฝนกับชุดข้อมูลผสม Lotus+TSynC-2 ที่เพิ่มการสังเคราะห์สัญญาณเสียง มี F1 สูงสุดเท่ากับ 69.62% และพบว่าโมเดลที่ฝึกฝนกับชุดข้อมูลที่เพิ่มการสังเคราะห์สัญญาณเสียงที่อ่านออกเสียงผิด มี F1 สูงกว่าโมเดลที่ฝึกฝนกับข้อมูลชุดอื่น แต่ไม่พบความแตกต่างอย่างมีนัยสำคัญระหว่างประสิทธิภาพของโมเดลที่ฝึกฝนกับชุดข้อมูลที่มีเฉพาะ Lotus Corpus กับ โมเดลที่ฝึกในกับชุดข้อมูลที่ผสม Lotus และ TSynC-2