การพัฒนาโมเดลการเรียนรู้เชิงลึกด้วยเทคนิค Semi-Supervised Learning กับ Graph Neural Networks สำหรับการทำนายการตอบสนองของยา เพื่อนำไปสู่การค้นหาตัวยับยั้ง HIV

ชื่อนักเรียนผู้จัดทำโครงงานวิทยาศาสตร์

ธีรดณย์ ศักดิ์เพชร, พัณณ์เดชน์ สร้อยสมุทร

อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์

บัณฑิต บุญยฤทธิ์, ธนศานต์ นิลสุ

โรงเรียนที่กำกับดูแลโครงงานวิทยาศาสตร์

โรงเรียนกำเนิดวิทย์

ปีที่จัดทำโครงงานวิทยาศาสตร์

พ.ศ. 2564

บทคัดย่อโครงงานวิทยาศาสตร์

ในปัจจุบัน การแพร่ระบาดของเชื้อไวรัสเอชไอวี (HIV: Human Immunodeficiency Virus) ยังคงเพิ่มขึ้น ด้วยจำนวนผู้ติดเชื้อทั่วโลกกว่า 45.1 ล้านคน ความพยายามที่จะลดจำนวนผู้ติดเชื้อ HIV ยังถือเป็นหนึ่งในเป้าหมายของการพัฒนาอย่างยั่งยืนของโลก (SDG index) ในการรักษาอาการติดเชื้อ ยาต้านไวรัสจะเข้าไปยับยั้งการทำงานของเอมไซม์ที่มีความสำคัญในกระบวนการจำลองตัวเอง อย่างไรก็ตามการใช้ยาต้านไวรัสมีโอกาศทำให้ไวรัสเกิดการกลายพันธุ์ ซึ่งทำให้ยาต้านไวรัสที่ใช้อยู่ในปัจจุบันไม่สามารถใช้ในการรักษาได้ เพราะฉะนั้นกระบวนการค้นหา และพัฒนายาจึงเข้ามามีบทบาทสำคัญ อย่างไรก็ตามในปัจจุบัน กระบวนการค้นหา และพัฒนายาหนึ่งชนิด ต้องใช้เวลาโดยเฉลี่ย 11-16 ปี และมีค่าใช้จ่ายสูงถึง 2,800 ล้านเหรียญสหรัฐ อีกทั้งยังมีโอกาศสูงมากการพัฒนายาอาจล้มเหลวก่อนนำมาใช้รักษาได้จริง ดังนั้นวิธีการใหม่ที่จะช่วยพัฒนากระบวนการค้นหาและพัฒนายาให้มีประสิทธิภาพจึงมีความจำเป็นอย่างยิ่ง หนึ่งในวิธีการที่กำลังเป็นที่สนใจในอุตสาหกรรม คือโมเดลการเรียนรู้ของเครื่อง อย่างไรก็ตามโมเดลในปัจจุบันยังประสบปัญหาในการเรียนรู้จากชุดข้อมูลฤทธิ์ทางชีวภาพของ IC50 ที่มีขนาดเล็กเนื่องจากข้อจำกัดของการทดลองในห้องปฏิบัติการ การเลือกใช้เฉพาะข้อมูลที่มี IC50 มาพัฒนาโมเดลจึงทำให้มีชุดข้อมูลค่าฤทธิ์ทางชีวภาพอื่น ๆ ที่ไม่ได้ถูกนำมาใช้เป็นจำนวนมาก จากปัญหาต่อเนื่องที่ได้กล่าวมา ผู้พัฒนาจึงสนใจพัฒนาโมเดลการเรียนรู้เชิงลึกด้วยเทคนิคการเรียนรู้แบบกึ่งมีผู้สอนบนอัลกอริทึม graph neural networks (GNN) สำหรับการทำนายค่า pIC50 เพื่อค้นหาและพัฒนายาที่สามารถยับยั้งการทำงานของเอนไซม์โปรตีเอสของ HIV ที่สามารถใช้ประโยชน์จากชุดข้อมูลที่มีฉลากตัวบ่งชี้ทางชีวภาพอื่น ๆ ได้แก่ Ki, IC90, ED50, ED90 และ Inhibition เป็นข้อมูลที่ไม่มีฉลาก

จากการทดลองพบว่าโมเดลการเรียนรู้แบบกึ่งผู้สอนโดยใช้เทคนิค Co-training ให้ประสิทธิภาพการทำนายผลที่ดีที่สุด (RMSE= , R2= ,PCC=) ซึ่งแสดงให้เห็นว่าโมเดลสามารถใช้ประโยชน์จากชุดข้อมูลที่ไม่มีฉลากได้ดี ซึ่งในการทำ Co-training regression จะประกอบไปด้วยโมเดล Graph Neural Networks และโมเดล Classical Machine Learning โดยส่วนโมเดล Graph Neural Networks อัลกอริทึมที่ให้ผลลัพธ์ดีที่สุดคือ Message Passing Neural Network (MPNN: RMSE=0.866±0.024, R2=0.671±0.683, PCC=0.817±0.010) และโมเดล Classical Machine Learning ที่ให้ผลลัพธ์ดีที่สุดคือ Random Forest regression (RMSE=0.893±0.054, R2=0.714±0.033, PCC=0.860±0.076) โมเดลที่ถูกพัฒนาขึ้นมานี้จะช่วยลดระยะเวลา และค่าใช้จ่ายที่ใช้ในระหว่างกระบวนการค้นหาและพัฒนายา ซึ่งตัวยาที่หลากหลายจะช่วยเพิ่มทางเลือกในการรักษาให้กับผู้ติดเชื้อ รวมทั้งยังช่วยลดอัตราการดื้อยาที่อาจเกิดขึ้นในอนาคตของเชื้อไวรัสดังกล่าว