การประยุกต์ใช้เทคนิคการเรียนรู้ของเครื่องเพื่อทำนายฤทธิ์ทางชีวภาพของลิแกนด์ในกระบวนการค้นหายามุ่งเป้าของโรคมะเร็งปอด สำหรับโมเลกุลเป้าหมาย EGFR
- ชื่อนักเรียนผู้จัดทำโครงงานวิทยาศาสตร์
ณัฐกันต์ แสงนิล, ภูริ วิรการินทร์
- อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์
บัณฑิต บุญยฤทธิ์, ธนศานต์ นิลสุ
- โรงเรียนที่กำกับดูแลโครงงานวิทยาศาสตร์
- ปีที่จัดทำโครงงานวิทยาศาสตร์
บทคัดย่อโครงงานวิทยาศาสตร์
ในปัจจุบันโรคมะเร็งปอดเป็นโรคที่มีอุบัติการณ์เพิ่มสูงขึ้นในคนเอเชีย จากสถิติในปี พ.ศ. 2561 พบว่าโรคมะเร็งปอดเป็นโรคมะเร็งที่มีอุบัติการณ์มากที่สุดในโลก สำหรับในประเทศไทยนั้น มะเร็งปอดเป็นโรคที่พบมากที่สุดในกลุ่มโรคมะเร็ง โรคมะเร็งปอดเป็นโรคไม่ติดต่อชนิดเรื้อรังที่เกิดจากความผิดปกติของเซลล์ในเนื้อเยื่อปอดที่ไม่สามารถควบคุมการเพิ่มจำนวนได้ โดยหนึ่งในสาเหตุหลักที่เกิดในผู้ป่วยที่ไม่ได้สูบบุหรี่มาจากการเพิ่มจำนวน (Amplification) หรือเพิ่มการทำงาน (Hyperactivation) ของโปรตีน EGFR สำหรับปัญหาที่เกิดจากกระบวนการค้นหาและพัฒนายามุ่งเป้าของโรคมะเร็งปอด ได้แก่ เวลาในการค้นหาและพัฒนายาที่ใช้ระยะเวลา 15-20 ปี ต้นทุนในการพัฒนายาที่ใช้เงินมากกว่า 2,000 ล้านดอลลาร์ ข้อผิดพลาดในด้านการค้นหายาและประสิทธิภาพของตัวยาในระหว่างการวิจัยและพัฒนา ซึ่งเป็นการเพิ่มความเสี่ยงในแง่ของการรักษาให้กับผู้ป่วยโรคมะเร็งปอด ดังนั้น ในโครงงานนี้ผู้พัฒนาสนใจพัฒนาโมเดลสำหรับการทำนายค่า pIC50 ของ
ลิแกนด์ในกลุ่มตัวยับยั้งโปรตีนไคเนส (Kinase inhibitor) เพื่อการนำไปประยุกต์ใช้ในกระบวนการค้นหาและพัฒนายามุ่งเป้าของโรคมะเร็งปอด สำหรับโมเลกุลเป้าหมาย EGFR โดยใช้เทคนิคการเรียนรู้ของเครื่อง (Machine learning) ผ่านอัลกอริทึม Random Forest (RF) Convolutional Neural Network (CNN) Fully Convolutional Neural Network (FCN) และ Graph Convolutional Neural Network (GCN) นอกจากนี้ ผู้พัฒนาสนใจพัฒนาลายพิมพ์มือ (Fingerprint) โดยการลดหรือผสมตัวบ่งชี้โมเลกุล (Descriptor) หรือคุณลักษณะ (Feature) ที่สำคัญสำหรับอัลกอริทึม Random Forest และการทดลองแบ่งตัวบ่งชี้โมเลกุลหรือคุณลักษณะไปอยู่ที่ชั้นต่าง ๆ สำหรับอัลกอริทึมที่เป็น Deep Neural Network (DNN)
จากการทดลองพบว่า โมเดลจากอัลกอริทึม Random Forest โดยการเลือกใช้คุณลักษณะผสมที่เกิดจากการลบคุณลักษณะที่ไม่จำเป็นโดยใช้เทคนิคความแปรปรวนต่ำ (Low variance) และมีแนวโน้มเดียวกัน (Collinear) จนเหลือ 126 ตัวบ่งชี้ ซึ่งเกิดจากลายพิมพ์มือ Klekota-Roth + PubChem + FP2 + FP4 ร่วมกับเทคนิค Hyperparameter tuning ทำให้สามารถทำนายค่า pIC50 ของลิแกนด์ได้ดีที่สุด โดยให้ค่า "R" _"train" ^"2" = 0.959 (n=5,087) ค่า "Q" _"cross" ^"2" = 0.788 (n=509) และค่า "Q" _"test" ^"2" = 0.795 (n=1,272) โดยโมเดลดังกล่าวจะช่วยลดปัญหาที่เกิดจากกระบวนการค้นหาและพัฒนายามุ่งเป้าของโรคมะเร็งปอด ซึ่งถือเป็นการเพิ่มทางเลือกและลดความเสี่ยงในการรักษาผู้ป่วยโรคมะเร็งปอด
เว็บบริการ: https://ligegfr.vistec.ist