วจีวิภาคสมุทร SEA Parsing

ชื่อผู้จัดทำโครงงานวิทยาศาสตร์
  • ฉัตรชัย บวรธำรงชัย

  • ศรัณย์ เหล่าอยู่คง

  • ฑีฆรัตน์ อื๊อนุเคราะห์

อาจารย์ที่ปรึกษาโครงงานวิทยาศาสตร์
  • . สุกรี สินธุภิญโญ

สถาบันการศึกษาที่กำกับดูแลโครงงานวิทยาศาสตร์

จุฬาลงกรณ์มหาวิทยาลัย

ระดับการศึกษา

โครงงานวิทยาศาสตร์ในระดับการศึกษาปริญญาโทขึ้นไป

หมวดวิชา

โครงงานวิทยาศาสตร์ในสาขาวิชาคอมพิวเตอร์

วันที่จัดทำโครงงานวิทยาศาสตร์

01 มกราคม 2541

บทคัดย่อโครงงานวิทยาศาสตร์

การแบ่งคำ (Word Segmentation) ออกจากข้อความหรือประโยคนั้น เป็นพื้นฐานที่สำคัญและจำเป็นในการประมวลผลทางภาษา โดยเฉพาะอย่างยิ่งเมื่อคอมพิวเตอร์เข้ามามีบทบาทในชีวิตประจำวันของผู้คนมากขึ้น และมีการนำเทคโนโลยีเกี่ยวกับการประมวลผลทางภาษาเข้ามาใช้ในงานต่างๆ ทั้งการสร้างโปรแกรมที่เกี่ยวข้องกับการวิเคราะห์และสังเคราะห์ภาษา รวมทั้งการสร้างหุ่นยนต์และปัญญาประดิษฐ์ ดังนั้น การสอนให้คอมพิวเตอร์สามารถทำการแบ่งคำได้ด้วยตนเองก็จะนำไปสู่การสร้างโปรแกรมที่มีประสิทธิภาพ ทำให้มีการหาวิธีการแบ่งคำอัตโนมัติที่ถูกต้องสำหรับภาษาต่างๆทั่วโลก แต่สำหรับการแบ่งคำอัตโนมัติของภาษาไทยนั้นมีการพัฒนาที่ล่าช้าเมื่อเทียบกับภาษาอื่น เนื่องจากภาษาไทยเป็นภาษาที่มีความซับซ้อนทั้งด้านการโครงสร้างของภาษา รูปแบบของประโยคในภาษา รวมไปถึงการสะกดคำที่แตกต่างกันได้หลายแบบแม้ว่าจะมีการเขียนที่เหมือนกัน ซึ่งผลของการแบ่งคำย่อมต้องแตกต่างกัน อย่างไรก็ดี หากการแบ่งคำอัตโนมัติในภาษาไทยไม่ได้รับการพัฒนาก็จะนำไปสู่ความล่าช้าของการพัฒนาเทคโนโลยีทางด้านการประมวลผลทางภาษาไทยจนไม่สามารถทัดเทียมภาษาอื่นๆในโลกได้ จึงต้องมีการศึกษาเพื่อหาวิธีการที่ทำให้คอมพิวเตอร์สามารถแบ่งคำไทยได้อย่างถูกต้องสมบูรณ์ โดยมีความซับซ้อนของภาษาไทยเป็นความท้าทายสำหรับการพัฒนางานในครั้งนี้ Word Segmentation is the important basic for language processing, especially when computer takes major part in our daily life. The language processing technology is used in many works such as language analysis, language synthesis and robotic algorithm. So if computer can segment words itself, the making of efficiency program is possible. With this reason many automatic word segmentations program for many languages. But the development process of this program for Thai language is slow compare to the others because of the complex of language structure, sentence format and similar word spelling which same word can be written in different ways. Anyway, the lack of improvement on automatic word segmentation program of Thai language will lead to the tardiness of language processing technology and results in the scenario that Thai language is not tantamount to other languages in the world. So this project is formed to find the way to make the computer segment Thai words accurately provided Thai language complexness as a challenge.