การพัฒนาการสร้างเสียงจากข้อความที่มีสไตล์และอารมณ์ของเสียงที่ต้องการ

ชื่อนักเรียนผู้จัดทำโครงงานวิทยาศาสตร์: วีรภัทร เลิศเจริญวรกุล
อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์: กอบชัย ดวงรัตนเลิศ, พิษณุ จันทรเสวต
โรงเรียนที่กำกับดูแลโครงงานวิทยาศาสตร์: โรงเรียนเตรียมอุดมศึกษา
ปีที่จัดทำโครงงานวิทยาศาสตร์: พ.ศ. 2564

บทคัดย่อโครงงานวิทยาศาสตร์

จากการสำรวจของ Peter Ackland และคณะ (2017) พบว่าในปี 2015 มีผู้ที่มีความบกพร่องทางสายตาประมาณ 253 ล้านคนทั่วโลก ในจำนวนนี้ 36 ล้านคนตาบอด และอีก 217 ล้านคนมีความบกพร่องทางสายตาในระดับปานกลางถึงรุนแรง (MSVI: moderate to severe vision impairment) โดยหนึ่งในอุปสรรคที่พบได้บ่อยคือ ไม่สามารถอ่านข้อความจากหนังสือ หรือสื่ออิเล็กทรอนิกส์ได้ ซึ่งในปัจจุบันก็มีวิธีต่างๆคอยอำนวยความสะดวกเช่นหนังสือสำหรับคนตาบอด โครงการอ่านหนังสือเพื่อนตาบอด อย่างไรก็ตามวิธีเหล่านี้อาจไม่ใช่วิธีที่ดีสุดเนื่องจากหนังสือคนตาบอด ไม่สามารถอ่านได้ง่ายเหมือนหนังสือปกติ ทางผู้จัดทำจึงเห็นว่าการสร้างสิ่งที่มาอำนวยความสะดวกในการอ่านหนังสือคงเป็นเรื่องที่ดีและมีประโยชน์อย่างมาก และในปัจจุบันได้มีการนำเทคโนโลยีปัญญาประดิษฐ์หรือ (AI - Artificial Intelligence) มาใช้ในการเปลี่ยนจากข้อความเป็นคำพูดอย่างแพร่หลาย โดยตัวอย่างหนึ่งที่หลายคนอาจรู้จักคือ Siri และ Google Assistant หรือจะเป็นงานวิจัย Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis ของ Ye Jia et al. (2018) ทำเรื่องเกี่ยวกับการเปลี่ยนจากข้อความเป็นเสียง โดยมีสไตล์จากเสียงที่รับเข้ามา ทางผู้จัดทำจึงอยากนำองค์ความรู้เหล่านี้มาสร้างเครื่องมือที่สามรถแปลงข้อความเป็นเสียงโดยมีสไตล์เสียงต้นแบบและสามารถปรับเปลี่ยนอารมณ์ได้ โดยประโยชน์ของสิ่งๆนี้เรียกได้ว่าสามารถนำไปใช้หลากหลายเช่นการนำไปทำสื่อการเรียนต่างๆ หรือจะเป็นการนำไปทำ podcast หรืออื่นๆล้วนแล้วขึ้นอยู่กับจุดประสงค์ของผู้ใช้

โดยโครงงานเราจึงทำขึ้นมาเพื่อสร้างโมเดลที่สามารถสร้างเสียงจากข้อความที่ต้องการที่มีสไตล์เสียงคล้ายกับเสียงที่เราใส่เข้ามาและยังสามารถปรับเปลี่ยนอารมณ์ได้ 5 รูปแบบได้แก่โกรธ เศร้า สุข หงุดหงิด ปกติ

โดยเราจึงได้เทรนโมเดลที่ทำการถอดสไตล์เสียงผ่านชุดข้อมูลจาก Thai Speech Emotion Dataset ( ที่มา : https://airesearch.in.th/releases/speech-emotion-dataset/ ) โดยชุดข้อมูลที่นำมาเทรน เป็นไฟล์เสียงที่พูดตามสคริปต์ โดยโมเดลที่ผ่านการเทรนชุดข้อมูลนี้ โดยเสียงที่ออกมาสามารถรับรู้ได้ถึงสไตล์การพูดและได้มีการวัดประสิทธิภาพด้วยค่า loss,validation loss โดยใช้ MeanSquredError ในการคำนวณโดยผลที่ได้

โดยรูปนี้เป็นกราฟระหว่างค่า loss,validion loss กับ epochs จากกราฟเห็นได้ว่าโมเดลเรามี Good Fit Learning Curve เพราะว่าความต่างของ loss กับ valiadation loss ค่อนข้องต่ำคิดว่าหากนำข้อมูลมาเทรนมากกว่านี้และจำนวนรอบในการเทรนอาจทำให้ loss,valiadation loss ลดลงได้อีก

โดยต่อมาทำการนำคลิปเสียงที่อัดแบบด้นสดมาทำ Speech-to-Text เพื่อเพิ่มชุดข้อมูลในการเทรนโมเดลในกาสร้างเสียงโดยได้มีการตรวจสอบการถอดเสียงของ Speech-to-Text โดยการจ้างผู้เชียวชาญในการถอดคลิปเสียงมาตรวงสอบความแม่นยำของ Speech-to-Text โดยวัดผลที่ได้เป็นคำที่ Text-to-Speech ตรงกับการถอดเสียงของผู้เชี่ยวชาญโดยเปอร์เซ็นที่ทำถูกคือ 78.5 เปอร์เซ็นต์โดยพอตรวจเช็คคำที่ Text-to-Speech ถอดผิดนั้น คำส่วนนั้นเป็นคำพ้องเสียงหรือเป็นข้อผิดพลาดของการแบ่งคำ ยกตัวอย่างเช่น คำว่า “หล่ะ” กับ ”ล่ะ” , “ไม่ๆ” กับ “ไม่ไม่”