ภาษาศาสตร์คลังข้อมูล

หนังสือภาษาศาสตร์คลังข้อมูลตีพิมพ์ครั้งแรกในปีพ.ศ.2545  ได้ใช้ประกอบการสอนในวิชาที่เกี่ยวข้อง เช่น ภาษาศาสตร์คลังข้อมูล ทรัพยากรการแปล   หลังจากที่หนังสือจำหน่ายหมดไปเมื่อ 2-3 ปีก่อน ผู้เขียนไม่ได้พิมพ์ใหม่ทันทีด้วยเห็นว่า  ในระยะเวลาที่ผ่านมาได้มีประเด็นการศึกษาที่เกี่ยวข้องกับคลังข้อมูลภาษาเพิ่มเติมมากขึ้น   อีกทั้งผู้เขียนตั้งใจจะเพิ่มในส่วนของการอธิบายและแสดงให้เห็นถึงการใช้โปรแกรมเครื่องมือต่างๆ ที่เกี่ยวข้องโดยละเอียดมากขึ้น  จึงเป็นที่มาของฉบับปรับปรุงใหม่ที่ได้เพิ่มจำนวนหน้าจากเดิม 250 หน้าเป็นกว่า 380 หน้า

            ด้วยเหตุนี้  หนังสือฉบับนี้จึงเปลี่ยนชื่อเรื่องใหม่เป็น ภาษาศาสตร์คลังข้อมูล: หลักการและการใช้  เพราะตั้งใจจะนำเสนอทั้งสองแนวทางคือเรื่องของหลักการและเรื่องวิธีการใช้   แนวทางแรกเป็นเรื่องหลักการความคิดต่างๆ ที่เกี่ยวข้องกับคลังข้อมูลภาษาและการใช้ประโยชน์จากคลังข้อมูลซึ่งเป็นเนื้อหาหลักของฉบับที่พิมพ์ครั้งแรก   โดยบทที่กล่าวถึงเรื่องประโยชน์ของการใช้คลังข้อมูลภาษาเดิมที่เป็นเรื่องการเรียนการสอนภาษา การวิจัยภาษา การแปล และการประมวลผลภาษา  ได้ถูกแยกออกมาเป็นแต่ละบทในฉบับนี้ให้ชัดเจนขึ้น  และได้เพิ่มประโยชน์ในการทำพจนานุกรม   ตลอดจนกล่าวถึงคลังข้อมูลภาษาผู้เรียนและการใช้ประโยชน์จากคลังข้อมูลภาษาผู้เรียนเพิ่มขึ้นมาอีกหนึ่งบท บทนี้เป็นผลที่ได้มาจากส่วนหนึ่งของงานวิจัยที่ผู้เขียนทำโครงการวิจัยเรื่องคลังข้อมูลภาษาผู้เรียนภายใต้การสนับสนุนทุนวิจัยของสภาวิจัยแห่งชาติในระหว่างปี 2551-2553   ส่วนบทที่ว่าด้วยการกำกับข้อมูลภาษา ได้ปรับให้เน้นที่มาตรฐาน XML เป็นหลักมากขึ้นแทนที่จะนำเสนอเฉพาะ SGML อย่างเดียว   และในบทสุดท้าย ได้ยกประเด็นที่ถกเถียงกันเรื่องของการใช้ประโยชน์จากเว็บว่าจะมาแทนที่คลังข้อมูลภาษาได้หรือไม่ และมีความเหมือนหรือความต่างกันอย่างไรระหว่างข้อมูลภาษาบนเว็บกับข้อมูลภาษาในคลังข้อมูล

ส่วนแนวทางที่สองที่เน้นเรื่องการใช้  ได้ปรับปรุงบทที่ว่าด้วยโปรแกรมคอนคอร์แด๊นซ์โดยแสดงให้เห็นถึงขั้นตอนและตัวอย่างการใช้โปรแกรมไปด้วย  และได้เพิ่มบทที่อธิบายเรื่องการนำข้อมูลภาษาเข้าในคอมพิวเตอร์เพื่อให้ผู้อ่านมีความเข้าใจที่ชัดเจนขึ้นว่า เมื่อนำข้อมูลภาษาเข้าไปในคอมพิวเตอร์แล้วข้อมูลภาษาจะถูกจัดเก็บอย่างไร เกี่ยวข้องกับเรื่องรหัสอักขระต่างๆ อย่างไร  จะนำข้อมูลเข้าได้ด้วยวิธีใดบ้าง และจะแปลงไฟล์ข้อมูลต่างๆที่มีอยู่ได้อย่างไรหากต้องการสร้างคัลงข้อมูลภาษามาใช้เอง  ตลอดจนได้แนะนำโปรแกรมที่ช่วยในการดาวน์โหลดข้อมูลจำนวนมากจากเว็บเพื่อความสะดวกในการรวบรวมข้อมูลภาษามาใช้ในงานวิจัย

            เดิมทีผู้เขียนตั้งใจจะรอปรับแก้ไขหนังสือเล่มนี้ต่อไปอีกระยะด้วยเห็นว่ายังมีเนื้อหาใหม่ๆ ทางภาษาศาสตร์คลังข้อมูลเกิดขึ้นอยู่เรื่อยๆ  แต่เนื่องจากหนังสือขาดตลาดมาเป็นเวลาพอสมควร  จึงคิดว่าควรจะนำเสนอเท่าที่รวบรวมได้ใหม่นี้เสียก่อน   หากมีเรื่องอื่นๆ ที่น่าสนใจพอก็อาจเขียนเป็นบทความหรือเป็นหนังสือต่างหากอีกเล่ม  ท้ายที่สุดนี้  ผู้เขียนขอขอบคุณโครงการในแผนพัฒนาวิชาการ จุฬาลงกรณ์มหาวิทยาลัย  (โครงการ จุฬาฯ 100 ปี) ที่ได้ให้ทุนสนันสนุนการจัดทำต้นฉบับหนังสือเล่มนี้  และโครงการเผยแพร่ผลงานวิชาการ ฝ่ายวิจัยคณะอักษรศาสตร์ที่ได้จัดพิมพ์และเผยแพร่หนังสือเล่มนี้

วิโรจน์ อรุณมานะกุล

21 มิถุนายน 2553

(พิมพ์ครั้งที่ 2)

ภาษาศาสตร์คลังข้อมูล (18 downloads )