Log in

View Full Version : ไพธ่อนมี library ตัดคำภาษาไทยหรือเปล่าครับ



Por
02-03-2007, 10:32 AM
สวัสดีครับ อย่างที่ทราบกันดีว่าภาษาไทยมีปัญหาทางด้านการตัดคำที่แตกต่างออกไปจากภาษาทางด้านตะวันตก เช่นภาษาอังกฤษที่มีการเว้นวรรคทุกคำทำให้สามารถตัดคำได้โดยการใช้เว้นวรรค แต่ภาษาไทยนั้นไม่ได้เป็นเช่นนั้น เพราะการเว้นวรรคของภาษาไทยหมายถึงขึ้นวลี หรือประโยคใหม่ ไม่ทราบว่า ไพธ่อน มี module หรือ function ที่สามารถทำงานคล้ายๆ กันหรือไม่ครับ ที่สามารถตัดคำได้ตามตัวอย่างข้างล่างนี้

====
ตัวอย่าง
====

บอร์ดนี้มีรูปแบบการใช้งานที่แตกต่างจากทั่วไป -> บอร์ด|นี้|มี|รูปแบบ|การ|ใช้|งาน|ที่|แตกต่าง|จาก|ทั่วไป|


========
โปรแกรมตัดคำ
========
http://www.arts.chula.ac.th/~ling/wordseg/setupThaiSeg.exe ที่สามารถตัดคำได้ดีมาก และ ู่ก็อย่างเช่น http://www.cs.cmu.edu/~paisarn/software.html เป็นต้นครับ

smith
02-03-2007, 08:59 PM
จะให้เป็นฟังก์ชันสำเร็จรูปคงไม่มีหรอกครับ คงต้องเขียนใช้เอาเองอ่ะ

ผมคิดว่านะครับ(ยังไม่ได้องเขียนดูนะครับ)
ถ้าจะเขียน คงต้องใส่ตัวแปรที่มีลักษณะเป็นพจนานุกรมเข้าไปเลยอ่ะครับ
เพราะว่าภาษาไทยไม่มีลักษณะอะไรที่แน่นอนพอที่จะทำเป็นกฎเกณฑ์ให้คอมฯเข้าใจได้ ต้องให้คอมมันดูทีละคำ แล้วตัดเอาตามที่เจอ

Por
03-03-2007, 07:19 AM
ผมว่าวิธีการคงไม่น่าใช้การตัดคำจากพจนานุกรมแต่เพียงอย่างเดียวครับ ผมจะยกตัวอย่างเพิ่มเติมที่โปรแกรม ThaiSeg.exe สร้างออกมานะครับ ซึ่ง ThaiSeg นี้ก็ได้รับการวิจัยมาอย่างดีมากๆ

====
ตัวอย่าง
====

สาวตากลมเอาขนมมาตากลม ตากลมๆ ของเธอน่ารักจริง



สาว<w>ตา<w>กลม<w>เอา<w>ขนม<w>มา<w>ตาก<w>ลม<s>ตา<w>กลม<w>ๆ<s>ของ<w>เธอ<w>น่ารัก<w>จริง<s>

ซึ่งเอกสารวิชาการเกี่ยวกับด้านนี้สามารถหาอ่านได้ที่ http://pioneer.chula.ac.th/~awirote/ling/wire.htm

ประเด็นก็คือมีใครนำมัน implement กับระบบไพท่อนเพื่อสร้าง library (อันแสนจะสำคัญ) อันนี้หรือยังครับ