เหมืองข้อมูล ( Data Mining )

ชื่อผู้จัดทำโครงงานวิทยาศาสตร์
  • นพพร ด่านชัยนาม

อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์
  • สุรพันธ์ เมฆนาวิน

สถาบันการศึกษาที่กำกับดูแลโครงงานวิทยาศาสตร์

โรงเรียนจักรคำคณาทร

ระดับการศึกษา

โครงงานวิทยาศาสตร์ในระดับการศึกษาประกาศนียบัตรวิชาชีพ

หมวดวิชา

โครงงานวิทยาศาสตร์ในสาขาวิชาคอมพิวเตอร์

วันที่จัดทำโครงงานวิทยาศาสตร์

01 มกราคม 2541

บทคัดย่อโครงงานวิทยาศาสตร์

KDD ( Knowledge Discovery in Database ) เป็นกระบวนการที่สำคัญของการค้นหาความรู้ ( Knowledge) ใหม่ที่เป็นประโยชน์จากข้อมูลที่มีอยู่ ความรู้ที่จะระบุขึ้นมานั้น จะนำมาใช้เพื่ออธิบายข้อมูลเก่าที่มีอยู่ และช่วยในการติดสินใจ หรือแยกประเภทข้อมูลใหม่ที่เข้ามา รวมทั้งช่วยในการสรุป content ของฐานข้อมูลขนาดใหญ่ เพื่อช่วยในการตัดสินใจทำได้ง่ายขึ้นหรือเพื่อเสริมความรู้เดิมที่มีอยู่ เพื่อที่จะนำไปพัฒนาต่อไป ซึ่งสามารถที่จะนำไปประยุกต์ใช้ได้กับข้อมูลแทบทุกชนิดที่เราต้องการไม่ว่าจะเป็นงานเกี่ยวกับทางด้านธุรกิจ การเกษตร อุตสาหกรรม การแพทย์ หรือวิทยาศาสตร์ ขึ้นอยู่กับผู้ใช้ว่าต้องการจะนำเอาไปประยุกต์ใช้กับอะไรซึ่งการดึงเอาองศ์ความรู้ออกมาจากฐานข้อมูลที่มีอยู่นั้นอาจจะแบ่งลักษณะของการวิเคราะห์ได้หลายแบบโดยแบ่งออกเป็นหัวข้อหลักๆ คือ Associations , Classifications , Clusters , Sequence และ Text Mining ซึ่งการวิเคราะห์แต่ละอย่างนั้นก็จะให้ข้อมูลที่ต่างกันด้วยเช่นกันซึ่งการที่เราเลือกใช้วิเคราะห์แบบไหนก็ขึ้นอยู่กับความต้องการของผู้ใช้และข้อมูลที่จะนำเอาวิเคราะห์ว่าเป็นข้อมูลอย่างไร และอยากได้ผลลัพธ์แบบไหน ผู้วิจัยจึงได้พัฒนาเทคนิคที่จะนำมาใช้ในการหารูปแบบของข้อมูล ( Pattern and Rule ) ที่ใช้การวิเคราะห์แบบ Association และ Classification และยังพัฒนาให้ใช้สำหรับข้อมูลที่เกี่ยวกับตัวเลข ( Numeric ) ได้อีกด้วย ในโครงสร้างข้อมูลแบบ Decision Tree เหตุที่ผู้วิจัยได้พัฒนาการวิเคราะห์ข้อมูลที่เป็น Numeric ก็เพราะว่าข้อมูลต่างๆ ที่เราพบกันส่วนมากมักจะเป็นข้อมูลที่เป็นตัวเลขไม่ใช้ข้อมูลที่เป็นแค่ข้อความ เช่น รายการซื้อของ ( ราคาสินค้า ) การพยากรณ์อากาศ ( ค่าอุณหภูมิ ) เป็นต้น เทคนิคที่วิจัยได้ใช้ในการจัดหมวดหมู่ข้อมูลที่จะนำมาวิเคราะห์ คือ Decision Tree และเทคนิคที่ผู้วิจัยได้นำเอามาประยุกต์ใช้ในการวิเคราะห์ข้อมูลก็คือ Machine Learning ซึ่งจะช่วยให้ผลลัพธ์ที่ได้นั้นมีความถูกต้องและตรงความต้องการของผู้ใช้ โดยจะใช้ในการลด Noise ที่มีอยู่ในฐานข้อมูลที่ได้นำเอามาทดสอบ เช่น ข้อมูลจำพวก Numeric attributes, Missing values , Error rate เป็นต้น