การพัฒนาโมเดลทำนายอัตราการกลายพันธุ์ลำดับเบสในเชื้อไวรัสโควิด-19 ด้วยเทคนิคการประมวลผลภาษาธรรมชาติ
- ชื่อนักเรียนผู้จัดทำโครงงานวิทยาศาสตร์
พงศ์อิทธิ์ ขันธวิสูตร, ภวัต รัตนโสม, คุณานนต์ สีหามาตย์
- อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์
ณัฐวัชร โตสัจจะ
- โรงเรียนที่กำกับดูแลโครงงานวิทยาศาสตร์
- ปีที่จัดทำโครงงานวิทยาศาสตร์
บทคัดย่อโครงงานวิทยาศาสตร์
โรคโควิด-19 เป็นโรคที่เกิดจากเชื้อไวรัสโควิด-19 เป็นโรคระบาดร้ายแรง มีการติดต่อโดยละอองเสมหะจากการไอ มีผู้ติดเชื้อสะสมมากถึง 224.61 ล้านคน และเสียชีวิตไปกว่า 4.62 ล้านคนทั่วโลก อาการของโรคนี้มีตั้งแต่ไม่แสดงอาการ อาการเหมือนไข้หวัดทั่วไป จนถึงอาการรุนแรงติดเชื้อในปอด ส่งผลให้อาจถึงขั้นเสียชีวิตได้ ทำให้ทั่วโลกมีการผลิตวัคซีนออกมาเพื่อช่วยลดโอกาสติดเชื้อไวรัส แต่ในไวรัสทุกชนิดสามารถกลายพันธุ์ได้และจะมีบางส่วนสามารถอยู่รอดได้และเพิ่มจำนวนขึ้น อีกทั้งยังมีความสามารถในการแพร่กระจายได้ง่ายขึ้น หลบหลีกภูมิคุ้มกันของร่างกายได้ดีขึ้น ทำให้จำเป็นต้องมีการเฝ้าระวังการกลายพันธุ์ของไวรัสเพื่อให้สามารถรับมือกับสถานการณ์ที่จะตามมาได้ อย่างไรก็ตามการกลายพันธุ์ของเชื้อไวรัสเกิดจากจุดเล็ก ๆ ซึ่งก็คือลำดับเบสของสิ่งมีชีวิต ทำให้ทางคณะผู้จัดทำมีแนวคิดที่จะนำเทคนิคในปัจจุบันมาพัฒนาโมเดลทำนายอัตราการกลายพันธุ์ลำดับเบสของเชื้อไวรัสโควิด-19 ในส่วนวิธีทำเริ่มจากการเตรียมข้อมูลลำดับเบส COVID-19 จาก NCBI และ GISAID มาทำ Data analysis เพื่อหาสายพันธ์ที่เหมาะสมต่อการทำโมเดล นำข้อมูลมาทำ Data Pre-Processsing โดยเริ่มจากการทำความสะอาดข้อมูล การแบ่งโดยใช้ K-mer embedding และ Tokenization เพื่อเปลี่ยนเป็นค่า vector จากนั้นนำข้อมูลมาพัฒนาโมเดล RNN รูปแบบ RightDirectional-LSTM ซึ่งได้ค่า MAE และ RMSE อยู่ที่ 1.71 และ 3.88 Bidirectional LSTM มีค่า MAE และ RMSE อยู่ที่ 1.68 และ 3.70 ตามลำดับ และ LSTM-CNN มีค่า MAE และ RMSE อยู่ที่ 0.66 และ 1.88 ตามลำดับ ซึ่งเป็นค่า Metric ที่ดีที่สุด เพื่อใช้ในการทำนายอัตราการกลายพันธุ์ลำดับเบสในเชื้อไวรัสโควิด-19 เพื่อเป็นประโยชน์ทางการแพทย์ในการรับมือกับสถานการณ์โควิด-19 ต่อไป