เทคนิคการเรียนรู้ของเครื่องสำหรับการค้นหาตัวบ่งชี้ทางชีวภาพสำหรับการวินิจฉัยโรคมะเร็งปอดโดยอาศัยข้อมูลพหุโอมิกส์
- ชื่อนักเรียนผู้จัดทำโครงงานวิทยาศาสตร์
ภานุวัฒน์ วงศ์พัฒนวุฒิ, ภูริเวศม์ เมธเมาลี
- อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์
บัณฑิต บุญยฤทธิ์, ธีระวุฒิ จันทะพันธ์
- โรงเรียนที่กำกับดูแลโครงงานวิทยาศาสตร์
- ปีที่จัดทำโครงงานวิทยาศาสตร์
บทคัดย่อโครงงานวิทยาศาสตร์
โรคมะเร็งจัดเป็นโรคไม่ติดต่อเรื้อรังที่เกิดจากการเจริญเติบโตของเซลล์อย่างผิดปกติ และมีอุบัติการณ์เพิ่มสูงขึ้น โดยในปี ค.ศ. 2020 พบว่ามีผู้ป่วยโรคมะเร็งรายใหม่ประมาณ 19.3 ล้านคน และมีผู้เสียชีวิตจากโรคมะเร็งเกือบ 10 ล้านคนทั่วโลก หนึ่งในนั้นคือโรคมะเร็งปอดที่เป็นสาเหตุหลักของการเสียชีวิต ซึ่งชนิดของเซลล์มะเร็งปอดหลักๆ คือ LUSC และ LUAD ปัจจุบันมีการใช้ตัวบ่งชี้ทางชีวภาพเข้ามามีส่วนร่วมในการวินัจฉัยโรค โดยใช้ข้อมูลพหุโอมิกส์ซึ่งประกอบไปด้วยข้อมูลการแสดงออกของยีน ข้อมูลการกลายพันธุ์ของยีน เพื่อใช้ในการที่หายีนสำคัญในการเกิดโรค แต่อย่างไรก็ตาม เทคนิคนี้ยังอาศัยเครื่องมือขั้นสูง ระยะเวลา และต้นทุนเป็นจำนวนมาก ดังนั้นการเรียนรู้เชิงลึก (deep learning) จึงเข้ามามีบทบาทสำคัญ โดยจะช่วยลดข้อผิดพลาดที่เกิดขึ้น อีกทั้งยังช่วยลดค่าใช้จ่าย และระยะเวลา ปัจจุบันมีรูปแบบแบบจำลองการเรียนรู้เชิงลึกหลากหลายรูปแบบที่สามารถวิเคราะห์ตัวบ่งชี้ทางชีวภาพได้ โดยใช้ข้อมูลพหุโอมิกส์ แต่อย่างไรก็ตาม ข้อมูลที่ยังมีความคลุมเครือระหว่างเซลล์มะเร็งปอด LUSC และ LUAD และข้อมูลที่มีปริมาณน้อย จากปัญหาที่กล่าวมาข้างต้น ผู้พัฒนาจึงสนใจพัฒนาแบบจำลอง U-OMICS ซึ่งเป็นแบบจำลองการเรียนรู้เชิงลึกชนิดแบบกึ่งผู้สอน (semi-supervised deep learning) สำหรับการค้นหาตัวบ่งชี้ทางชีวภาพของเซลล์มะเร็งปอดชนิด LUSC และ LUAD โดยใช้เทคนิคผสมผสาน unsupervised pretraining จากการประเมินแบบจำลองด้วยชุดข้อมูลทดสอบ พบว่าแบบจำลอง U-OMICS มีประสิทธิภาพที่ดีในการค้นหาตัวบ่งชี้ทางชีวภาพ โดยเซลล์มะเร็งปอดชนิด LUSC ใช้เทคนิค unsupervised pretraining ให้ค่า AUROC เท่ากับ 0.7982 ± 0.01745 และเซลล์มะเร็งปอดชนิด LUAD ไม่ใช้เทคนิค unsupervised pretraining ให้ค่า AUROC เท่ากับ 0.7529 ± 0.0106 ซึ่งมีค่าใกล้เคียงกับการใช้เทคนิค unsupervised pretraining