การพัฒนาการสร้างเสียงจากข้อความที่มีสไตล์และอารมณ์ของเสียงที่ต้องการ

ชื่อนักเรียนผู้จัดทำโครงงานวิทยาศาสตร์

วีรภัทร เลิศเจริญวรกุล

อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์

กอบชัย ดวงรัตนเลิศ, พิษณุ จันทรเสวต

โรงเรียนที่กำกับดูแลโครงงานวิทยาศาสตร์

โรงเรียนเตรียมอุดมศึกษา

ปีที่จัดทำโครงงานวิทยาศาสตร์

พ.ศ. 2564

บทคัดย่อโครงงานวิทยาศาสตร์

จากการสำรวจของ Peter Ackland และคณะ (2017) พบว่าในปี 2015 มีผู้ที่มีความบกพร่องทางสายตาประมาณ 253 ล้านคนทั่วโลก ในจำนวนนี้ 36 ล้านคนตาบอด และอีก 217 ล้านคนมีความบกพร่องทางสายตาในระดับปานกลางถึงรุนแรง (MSVI: moderate to severe vision impairment) โดยหนึ่งในอุปสรรคที่พบได้บ่อยคือ ไม่สามารถอ่านข้อความจากหนังสือ หรือสื่ออิเล็กทรอนิกส์ได้ ซึ่งในปัจจุบันก็มีวิธีต่างๆคอยอำนวยความสะดวกเช่นหนังสือสำหรับคนตาบอด โครงการอ่านหนังสือเพื่อนตาบอด อย่างไรก็ตามวิธีเหล่านี้อาจไม่ใช่วิธีที่ดีสุดเนื่องจากหนังสือคนตาบอด ไม่สามารถอ่านได้ง่ายเหมือนหนังสือปกติ ทางผู้จัดทำจึงเห็นว่าการสร้างสิ่งที่มาอำนวยความสะดวกในการอ่านหนังสือคงเป็นเรื่องที่ดีและมีประโยชน์อย่างมาก และในปัจจุบันได้มีการนำเทคโนโลยีปัญญาประดิษฐ์หรือ (AI - Artificial Intelligence) มาใช้ในการเปลี่ยนจากข้อความเป็นคำพูดอย่างแพร่หลาย โดยตัวอย่างหนึ่งที่หลายคนอาจรู้จักคือ Siri และ Google Assistant หรือจะเป็นงานวิจัย Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis ของ Ye Jia et al. (2018) ทำเรื่องเกี่ยวกับการเปลี่ยนจากข้อความเป็นเสียง โดยมีสไตล์จากเสียงที่รับเข้ามา ทางผู้จัดทำจึงอยากนำองค์ความรู้เหล่านี้มาสร้างเครื่องมือที่สามรถแปลงข้อความเป็นเสียงโดยมีสไตล์เสียงต้นแบบและสามารถปรับเปลี่ยนอารมณ์ได้ โดยประโยชน์ของสิ่งๆนี้เรียกได้ว่าสามารถนำไปใช้หลากหลายเช่นการนำไปทำสื่อการเรียนต่างๆ หรือจะเป็นการนำไปทำ podcast หรืออื่นๆล้วนแล้วขึ้นอยู่กับจุดประสงค์ของผู้ใช้

โดยโครงงานเราจึงทำขึ้นมาเพื่อสร้างโมเดลที่สามารถสร้างเสียงจากข้อความที่ต้องการที่มีสไตล์เสียงคล้ายกับเสียงที่เราใส่เข้ามาและยังสามารถปรับเปลี่ยนอารมณ์ได้ 5 รูปแบบได้แก่โกรธ เศร้า สุข หงุดหงิด ปกติ

โดยเราจึงได้เทรนโมเดลที่ทำการถอดสไตล์เสียงผ่านชุดข้อมูลจาก Thai Speech Emotion Dataset ( ที่มา : https://airesearch.in.th/releases/speech-emotion-dataset/ ) โดยชุดข้อมูลที่นำมาเทรน เป็นไฟล์เสียงที่พูดตามสคริปต์ โดยโมเดลที่ผ่านการเทรนชุดข้อมูลนี้ โดยเสียงที่ออกมาสามารถรับรู้ได้ถึงสไตล์การพูดและได้มีการวัดประสิทธิภาพด้วยค่า loss,validation loss โดยใช้ MeanSquredError ในการคำนวณโดยผลที่ได้

โดยรูปนี้เป็นกราฟระหว่างค่า loss,validion loss กับ epochs จากกราฟเห็นได้ว่าโมเดลเรามี Good Fit Learning Curve เพราะว่าความต่างของ loss กับ valiadation loss ค่อนข้องต่ำคิดว่าหากนำข้อมูลมาเทรนมากกว่านี้และจำนวนรอบในการเทรนอาจทำให้ loss,valiadation loss ลดลงได้อีก

โดยต่อมาทำการนำคลิปเสียงที่อัดแบบด้นสดมาทำ Speech-to-Text เพื่อเพิ่มชุดข้อมูลในการเทรนโมเดลในกาสร้างเสียงโดยได้มีการตรวจสอบการถอดเสียงของ Speech-to-Text โดยการจ้างผู้เชียวชาญในการถอดคลิปเสียงมาตรวงสอบความแม่นยำของ Speech-to-Text โดยวัดผลที่ได้เป็นคำที่ Text-to-Speech ตรงกับการถอดเสียงของผู้เชี่ยวชาญโดยเปอร์เซ็นที่ทำถูกคือ 78.5 เปอร์เซ็นต์โดยพอตรวจเช็คคำที่ Text-to-Speech ถอดผิดนั้น คำส่วนนั้นเป็นคำพ้องเสียงหรือเป็นข้อผิดพลาดของการแบ่งคำ ยกตัวอย่างเช่น คำว่า “หล่ะ” กับ ”ล่ะ” , “ไม่ๆ” กับ “ไม่ไม่”