การระบุตำแหน่งขอบเขตของข้อความจากเสียงพูดโดยอัตโนมัติสำหรับการรู้จำเสียงพูดทางการแพทย์

ชื่อนักเรียนผู้จัดทำโครงงานวิทยาศาสตร์

พสิษฐ์ ชิงสกล, ธเรศ หนูนาค, ชยพล มงคล

อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์

จาตุรงค์ ตันติบัณฑิต

โรงเรียนที่กำกับดูแลโครงงานวิทยาศาสตร์

โรงเรียนสวนกุหลาบวิทยาลัย รังสิต

ปีที่จัดทำโครงงานวิทยาศาสตร์

พ.ศ. 2564

บทคัดย่อโครงงานวิทยาศาสตร์

โครงงานนี้จัดทำขึ้นเพื่อการระบุตำแหน่งขอบเขตของข้อความจากเสียงพูดโดยอัตโนมัติ (automatic speech-to-text alignment) สำหรับการรู้จำเสียงพูดทางการแพทย์ (medical speech recognition) โดยใช้ชุดเครื่องมือประมวลผลคำพูดแบบ end-to-end ชื่อ ESPnet (ESPnet: end-to-end speech processing toolkit) มีวัตถุประสงค์ในการทดแทนการระบุตำแหน่งขอบเขตของข้อความจากเสียงพูดโดยมนุษย์และนำมาสนับสนุนการทำงานร่วมกับระบบรู้จำเสียงพูดอัตโนมัติทางการแพทย์ที่พัฒนาขึ้นโดยเฉพาะสำหรับภาษาไทย โดยรวบรวมข้อมูลจากเสียงแพทย์และพยาบาลโรงพยาบาลมะเร็งอุดรธานีจำนวน 200 ชั่วโมงในบริบทการทำหมายเหตุแพทย์และพยาบาล (doctor and nurse note) และข้อมูลเสียงจากวิดิโอยูทูปในบริบททั่วไปจำนวน 100 ชั่วโมง รวมทั้งสิ้น 300 ชั่วโมง โดยสามารถเปรียบเทียบผลลัพธ์ได้ในรูปแบบของกราฟและตาราง การพัฒนาระบบการการระบุตำแหน่งขอบเขตของข้อความจากเสียงพูดโดยอัตโนมัติโดยใช้ ESPnet เพื่อรองรับการใช้งานแบบสองภาษา (bilingual; ภาษาไทยและอังกฤษ) จะช่วยให้สามารถจัดเตรียมข้อมูลสำหรับการพัฒนาระบบการรู้จำเสียงพูดทางการแพทย์ได้ง่ายขึ้น และสามารถนำไปประยุกต์เพื่อการใช้สำหรับงานอื่น ๆ เช่น การบรรยายตามเวลาจริง (real-time captioning) ได้อย่างมีประสิทธิภาพ