การจำแนก hit compound ตามเป้าหมายยาโดยใช้เทคนิคการเรียนรู้แบบถ่ายโอนเชิงลึก (Deep Transfer Learning) ในการค้นหายาสำหรับโรคหัวใจล้มเหลว ด้วยชุดข้อมูลขนาดเล็ก

ชื่อนักเรียนผู้จัดทำโครงงานวิทยาศาสตร์

ปารจรีย์ อึ้งอุดรภักดี, ธนาสรรค์ คำดี

อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์

บัณฑิต บุญยฤทธิ์, ธนศานต์ นิลสุ

โรงเรียนที่กำกับดูแลโครงงานวิทยาศาสตร์

โรงเรียนกำเนิดวิทย์

ปีที่จัดทำโครงงานวิทยาศาสตร์

พ.ศ. 2563

บทคัดย่อโครงงานวิทยาศาสตร์

โรคหัวใจล้มเหลว เป็นเสมือนโรคปลายทางของโรคหัวใจและหลอดเลือดชนิดต่าง ๆ ซึ่งเป็นสาเหตุหลักของการเสียชีวิตของผู้คนทั่วโลก โดยเฉพาะอย่างยิ่งในผู้ที่มีอายุ 60 ปีขึ้นไป ในช่วงหลายปีที่ผ่านมามีอุบัติการณ์ของโรคหัวใจล้มเหลวที่เพิ่มสูงขึ้น จากสถิติในปี พ.ศ. 2557 มีผู้ป่วยโรคหัวใจล้มเหลวมากถึง 26 ล้านคนทั่วโลก โดยทั้งนี้ยังนำไปสู่ปัญหาค่าใช้จ่ายในการพยาบาลและรักษาคนไข้โรคหัวใจล้มเหลวทั่วโลกมีค่ามากถึง 108 พันล้านสหรัฐดอลลาร์ในปี พ.ศ. 2555 แต่ทั้งนี้ ยารักษาโรคหัวใจในปัจจุบันยังขาดประสิทธิภาพ พบกับปัญหาการไม่ผ่านเฟส 2 และ 3 รวมถึงปริมาณค่าใช้จ่ายเฉลี่ยที่สูงถึง 2.8 พันล้านดอลลาร์สหรัฐและระยะเวลาในกระบวนการค้นหาและพัฒนายาที่ใช้เวลานานถึง 16 ปี เพื่อที่จะแก้ปัญหาดังกล่าว ผู้พัฒนาจึงมีความสนใจที่จะสร้างโมเดลการทำนายสำหรับการจำแนก hit compound ที่มีความสามารถในการยับยั้งตามเป้าหมายยาชนิดตัวรับ (receptor) ได้แก่ angiotensin II type 1 (AGTR1), mineralocorticoid receptor (MCR) และ beta 1 adrenergic receptor (ADRB1) ซึ่งมีบทบาทในการควบคุมการทำงานของหัวใจ โดยพิจารณาจากค่า pX ซึ่งบ่งบอกฤทธิ์ทางชีวภาพของโมเลกุล โดยอาศัยเทคนิคการเรียนรู้แบบถ่ายโอนเชิงลึก (deep transfer learning) โดยทั้งนี้ โมเดลดังกล่าวสามารถนำไปใช้ต่อยอดในกระบวนการค้นหาและพัฒนายาในการรักษาโรคหัวใจล้มเหลว ซึ่งจะเป็นประโยชน์ต่อผู้ป่วยและอุตสาหกรรมยา

ในการทดลองนี้ ผู้พัฒนาได้ทำการฝึกโมเดลที่ผ่านการเรียนรู้ก่อนหน้า (pre-trained model) เพื่อที่จะนำ weight และ bias ไปใช้ต่อในการฝึกโมเดลเป้าหมาย (target model) โดยได้มีการแบ่งชุดข้อมูลออกเป็น Active compound และ Inactive compound โดยอาศัยเกณฑ์ค่าฤทธิ์ทางชีวภาพ pX ที่ค่าต่าง ๆ หลังจากนั้นจึงทำการแปลงลายพิมพ์มือรูปแบบ SMILES (Simplified Molecular-Input Line-Entry System) ของชุดข้อมูลลิแกนด์เป็นลายพิมพ์มือ (Molecular Fingerprint) โดยใช้ลายพิมพ์มือ circular ที่มี 1,024 bit ก่อนจะนำไปเข้ากระบวนการสกัดคุณลักษณะด้วย FP2VEC หลังจากนั้นเวกเตอร์ที่ได้จากกระบวนการสกัดคุณลักษณะจะถูกนำไปใช้ในการฝึกโมเดล โดยได้มีการปรับแต่งค่าไฮเปอร์พารามิเตอร์ อันได้แก่ embedding size (k), window size of filter (h) และ size of feature map (n) เพื่อที่ให้ได้โมเดลซึ่งมีประสิทธิภาพและความแม่นยำสูงที่สุด โดยจากผลการทดลองพบว่า โมเดลทำงานได้แม่นยำที่สุดที่ค่าไฮเปอร์พารามิเตอร์ โดยมี k =50, h = 5 และ n = 1024 และเมื่อใช้เกณฑ์ในการจำแนก active และ inactive compound ที่ X = 1000 nM โดยค่าคะแนน AUC เฉลี่ย เท่ากับ 0.858 และมีค่า F1 score ของโมเดลมีมากถึง 0.955 โดยหลังจากนี้โมเดลยังต้องเข้าสู่ขั้นตอนการถ่ายโอน weight และ bias ให้กับโมเดลเป้าหมาย (target model) เพื่อที่จะสามารถนำโมเดลไปประยุกต์ใช้กับชุดข้อมูลลิแกนด์ (ligand) ซึ่งมีความเกี่ยวข้องกับโรคหัวใจล้มเหลว โดยผู้พัฒนานั้นคาดหวังว่าโมเดลนี้จะสามารถช่วยแก้ปัญหา โอกาสการค้นพบยารักษาอาการโรคหัวใจล้มเหลวต่ำ และปัญหาจำนวนข้อมูลลิแกนด์มีน้อย ซึ่งเป็นอุปสรรคต่อการใช้เทคนิคทางคอมพิวเตอร์ในกระบวนการค้นหายารักษาโรคหัวใจล้มเหลวได้