การวินิจฉัยโรคมะเร็งมัยอีโลมาโดยใช้แบบจำลองการเรียนรู้ด้วยเครื่อง Machine Learning Model

ชื่อนักเรียนผู้จัดทำโครงงานวิทยาศาสตร์

พงศ์ภรณ์ อินทร์พันธุ์, สุพิชฌาย์ ทวีธัญญ์, ณศิรา ชาญณรงค์

อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์

ภูภิภัทร ใจแก้ว

โรงเรียนที่กำกับดูแลโครงงานวิทยาศาสตร์

โรงเรียนสวนกุหลาบวิทยาลัย รังสิต

ปีที่จัดทำโครงงานวิทยาศาสตร์

พ.ศ. 2564

บทคัดย่อโครงงานวิทยาศาสตร์

โรคมะเร็ง Multiple Myeloma (MM) เป็นโรคมะเร็งที่มีความเกี่ยวข้องกับเลือดและกระดูก มีสถิติการเกิดโรค MM ทั่วโลกประมาณ 4 คน ต่อประชากร 100,000 คน ต่อปี และพบผู้ป่วยด้วยโรคดังกล่าวเป็นอัตรา 0.5 - 1% ของประชากรทั้งประเทศ

ปัญหาที่พบจากงานลักษณะเดียวกันนี้โรค Multiple Myeloma เป็นโรคที่มีความคล้ายคลึงกับโรคมะเร็งเม็ดเลือดประเภทอื่นๆและโรคกระดูก จึงทำให้การวินิจฉัยเป็นไปได้ยาก การวินิจฉัยโรค Multiple Myeloma ส่วนใหญ่จะพบในระยะที่ลุกลาม

จึงทำให้ผู้ป่วยมีโอกาสรอดชีวิตได้ยากและยังไม่มีการยืนยันว่ามีวิธีการรักษาที่สามารถรักษาให้หายขาดได้ดังนั้นวัตถุประสงค์ในการทำวิจัยคือต้องการสร้างแบบจำลองสำหรับใช้ในการแบ่งระยะของโรค เพื่อให้ผู้ป่วยสามารถเข้ารับการรักษาได้อย่างรวดเร็ว

มีขั้นตอนวิธีทดสอบเริ่มจาก วิธีการรวบรวมข้อมูลของผู้ป่วยทั้งหมด 995 ราย จากฐานข้อมูลของโครงการ MMRF-COMPASS นำข้อมูลที่ได้มาจัดเตรียม โดยมีการใช้ข้อมูล 2 ชนิด คือ ค่าข้อมูลการทดสอบทางการแพทย์และเครื่องหมาย SNP ซึ่งนำไปสร้าง

โมเดล 4 แบบ คือ Decision tree,K-Nearest Neighbors, Support Vector Machine และ Naive bayes และนำผลที่ได้เช่น ค่า accuracy , ค่า AUC และ กราฟ ROC จาก ผลการทดลองพบว่าในส่วนของค่า accuracy ใน binary 1 และ binary 2 โมเดลที่มีค่า accuracy สูงที่สุดคือ Support Vector Machineต่างจาก binary 3 โมเดลที่มีค่า accuracy สูงที่สุดคือ Decision tree ในส่วนค่า AUC หรือ พื้นที่ใต้กราฟ โมเดล decision tree เป็นโมเดลที่มีค่าสูงสุดใน binary 1 และ 2 ซึ่งแสดงให้เห็นว่าโมเดลที่เหมาะสมที่สุด คือ

Decision tree โดยวัดจากค่า accuracy และ ค่า AUC ซึ่งทางผู้วิจัยจะพัฒนางานวิจัยให้มีประสิทธิภาพมากขึ้นและสามารถนำงานวิจัยนี้ไปใช้ร่วมกับการวินิจฉัยของแพทย์ได้เพื่อเพิ่มโอกาสรอดชีวิตของผู้ป่วยมากขึ้นวิธีการรวบรวมข้อมูลของผู้ป่วยทั้งหมด

995 ราย จากฐานข้อมูลของโครงการ MMRF-COMPASS นำข้อมูลที่ได้มาจัดเตรียม โดยมีการใช้ข้อมูล 2 ชนิด คือ ค่าข้อมูลการทดสอบทางการแพทย์และเครื่องหมาย SNP ซึ่งนำไปสร้างโมเดล 4 แบบ คือ Decision tree,K-Nearest Neighbors, Support Vector Machine และ Naive bayes และนำผลที่ได้เช่น ค่า accuracy , ค่า AUC และ กราฟ ROC จาก ผลการทดลองพบว่าในส่วนของค่า accuracy ใน binary 1 และ binary 2 โมเดลที่มีค่า accuracy สูงที่สุดคือ Support Vector Machineต่างจาก binary 3 โมเดล

ที่มีค่า accuracy สูงที่สุดคือ Decision tree ในส่วนค่า AUC หรือ พื้นที่ใต้กราฟ โมเดล decision tree เป็นโมเดลที่มีค่าสูงสุดใน binary 1 และ 2 ซึ่งแสดงให้เห็นว่าโมเดลที่เหมาะสมที่สุดคือ Decision tree โดยวัดจากค่า accuracy และ ค่า AUC ซึ่งทางผู้วิจัยจะพัฒนางานวิจัยให้มีประสิทธิภาพมากขึ้นและสามารถนำงานวิจัยนี้ไปใช้ร่วมกับการวินิจฉัยของแพทย์ได้เพื่อเพิ่มโอกาสรอดชีวิตของผู้ป่วยมากขึ้น