ระบบคำถามคำตอบสำหรับวิกิพีเดียภาษาไทย

ชื่อผู้จัดทำโครงงานวิทยาศาสตร์
  • วิทวัส จิตกฤตธรรม

อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์
  • ธนารักษ์ ธีระมั่นคง

สถาบันการศึกษาที่กำกับดูแลโครงงานวิทยาศาสตร์

สถาบันเทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัยธรรมศาสตร์

ระดับการศึกษา

โครงงานในระดับการศึกษาปริญญาโทขึ้นไป

หมวดวิชา

โครงงานในสาขาวิชาคอมพิวเตอร์

วันที่จัดทำโครงงานวิทยาศาสตร์

01 มกราคม 2541

บทคัดย่อโครงงานวิทยาศาสตร์

เครื่องมือช่วยค้นหาข้อมูล (Search engine) ในปัจจุบันไม่ได้ตอบสนองคำค้นของผู้ใช้โดยตรง เพียงแต่แสดงให้ผู้ใช้เห็นว่า คำค้นของผู้ใช้นั้นเกี่ยวข้องและพบมากในเอกสารใดบ้าง ซึ่งผู้ใช้ต้องนำผลลัพธ์รายการเอกสารที่ได้มาอ่านและกรองข้อมูลด้วยตนเองเพื่อหาคำตอบที่ต้องการ ระบบคำถามคำตอบเป็นระบบที่รับคำถามที่อยู่ในรูปของประโยคภาษามนุษย์จากผู้ใช้และคืนคำตอบที่กระชับ ในระบบที่พัฒนาขึ้นนี้ได้ใช้สารานุกรมออนไลน์ วิกิพีเดียภาษาไทยเป็นฐานความรู้สำหรับตอบคำถาม โดยระบบสามารถสกัดข้อมูลที่มีโครงสร้างจากเอกสารต่างๆ ที่อยู่ในสารานุกรมและนำมาเก็บอยู่ในรูปของ Resource Description Framework (RDF) ระบบใช้วิธีค้นคืนคำตอบ 2 วิธี คือ 1. แปลงคำถามให้อยู่ในรูปคำค้นภาษา SPARQL โดยเทียบคำถามกับรูปแบบที่มีอยู่แล้วและดึงข้อมูลจากฐาน RDF โดยตรง ซึ่งคำตอบที่ได้มักจะเป็นคำสั้นๆ 2. ใช้เทคนิคการค้นคืนสารสนเทศ (Information Retrieval) เมื่อไม่สามารถแปลงคำถามให้เป็นคำค้น SPARQL ได้ ระบบจะสกัดคำสำคัญ (keyword) จากคำถามของผู้ใช้ และค้นคืนจากดัชนี (index) ของเอกสารวิกิพีเดียที่เตรียมไว้แล้ว โดยจะพยายามเลือกช่วงข้อความที่สั้นที่สุดและมีคำสำคัญในประโยคคำถามมาเป็นคำตอบ คำตอบที่ได้จากวิธีที่สองมักจะเป็นช่วงข้อความสั้นๆ ระบบที่พัฒนาขึ้นสนับสนุนคำถาม 5 ประเภท คือ คำถามเกี่ยวกับบุคคล คำถามเกี่ยวกับองค์กร คำถามเกี่ยวกับสถานที่ คำถามเกี่ยวกับตัวเลขเชิงปริมาณ และคำถามเกี่ยวกับเวลา