ปัญญาประดิษฐ์เพื่อการอ่านชื่อสารประกอบอินทรีย์จากรูปภาพโครงสร้างแบบเส้นพันธะตามระบบ IUPAC
- ชื่อนักเรียนผู้จัดทำโครงงานวิทยาศาสตร์
ณัฏฐ์ ปรัชญกุล, พัชร์ธมน พงศกรพิสิฐ, ณรบดี สอนหลวย
- อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์
ธันยธร ตวงวาสนา
- โรงเรียนที่กำกับดูแลโครงงานวิทยาศาสตร์
- ปีที่จัดทำโครงงานวิทยาศาสตร์
บทคัดย่อโครงงานวิทยาศาสตร์
เนื่องจากสารประกอบอินทรีย์นั้นมีรูปแบบที่เยอะ สารบางชนิดมีสูตรโมเลกุลเหมือนกันแต่ไม่เหมือนกันเพราะมีคุณสมบัติต่างกัน การเรียกชื่อสารประกอบอินทรีย์ก็จึงต้องมีกฏในการอ่านตามระบบ IUPAC พบว่า การอ่านชื่อสารประกอบอินทรีย์ตามหลัก IUPAC นั้นมีความซับซ้อนเนื่องมาจาก 1.มีกฏเกณฑ์จำนวนมาก 2.โครงสร้างที่ซับซ้อนทั้งด้านจำนวนโมเลกุล, จำนวนและชนิดของหมู่ฟังก์ชัน ซึ่งหากโครงสร้างนั้นซับซ้อนอาจต้องใช้เวลาในการอ่านชื่อสารประกอบอินทรีย์ชนิดนั้นประมาณ 20-40 วินาที ผู้จัดทำได้การเรียนรู้ของเครื่อง (Deep Learning) ในการแก้ปัญหานี้ โดยได้จัดเตรียมชุดข้อมูลสำหรับการฝึกฝนโมเดลเป็นรูปภาพสารอินทรีย์และชื่อสารอินทรีย์ตัวนั้น โดยมีการแบ่งเป็น 70-15-15 มี training dataset 211,384 จำนวน, validation dataset 45,397 จำนวน, testing dataset 45,397 จำนวน รวบรวมจากฐานข้อมูล PubChem ผู้จัดทำได้ทำโมเดล AI 2 ชนิด 1. Word Segmentation Model ใช้สำหรับการตัดชื่อสารเคมีอินทรีย์ให้เป็นคำ เพื่อ preprocess ชื่อสารอินทรีย์ให้สามารถฝึกฝนโมเดลได้ โดยใช้ Bidirectional Long Short-Term Memory ได้ค่าความแม่นยำบน testing dataset ที่ 99.81% 2. Image Captioning Model ใช้สำหรับอ่านชื่อสารประกอบอินทรีย์โดยรับข้อมูลนำเข้าเป็นรูปภาพสารอินทรีย์ชนิดนั้น ใช้ EfficientNet-B1 เป็น Convolutional Neural Network เป็น Encoder สำหรับทำ Feature Extraction รูปภาพสารอินทรีย์ และใช้ Bahdanau Attention เปรียบเทียบกับ Luong Attention เป็น Decoder สำหรับอ่านชื่อสารประกอบอินทรีย์และฝึกฝนแบบ teacher forcing โดยได้ค่าความแม่นยำบน testing dataset ที่ 80.85% สำหรับ Bahdanau Attention และ ____ สำหรับ Luong Attention และโมเดล Image Captioning นี้ใช้เวลา 1 วินาทีในการทำนายชื่อสารประกอบอินทรีย์จากรูปภาพจำนวน 32 รูปภาพ