สืบค้นคลังข้อมูล

TNC 3 (https://app.stichula.org/php/tnc3/)

ข้อมูล TNC4 สำหรับใช้กับโปรแกรม AntConc

TNC for AntConc (27 downloads )

วิธี set up AntConc ให้ใช้ข้อมูลภาษาไทย (read)


ความสำคัญของคลังข้อมูล

คลังข้อมูลภาษาไทยแห่งชาติ  (TNC)  คือข้อมูลภาษาไทยมาตรฐานจำนวนมากที่ถูกเก็บรวบรวมลงในคอมพิวเตอร์อย่างเป็นระบบ ตามหลักเกณฑ์การคัดเลือกข้อมูลที่ชัดเจน  เพื่อให้ได้ข้อมูลที่จะสามารถใช้เป็นตัวแทนของการใช้ภาษาไทยปัจจุบันในลักษณะต่างๆ และมีการกำกับข้อมูล (markup) ในลักษณะต่างๆตามมาตรฐานสากลเพื่อให้สามารถสืบค้นทางคอมพิวเตอร์ได้โดยสะดวก   คลังข้อมูลภาษาไทยแห่งชาตินี้ เมื่อใช้ร่วมกับโปรแกรมสืบค้นข้อมูลภาษาไทยที่จะจัดทำขึ้นจะเป็นทรัพยากรที่สำคัญในการศึกษาภาษาไทย  ทำให้ผู้ที่อยู่ในแวดวงการศึกษาภาษาไทยสามารถเข้าถึงและศึกษาภาษาไทยได้อย่างลึกซึ้ง   และเป็นประโยชน์อย่างยิ่งต่อการจัดทำพจนานุกรมภาษาไทย  เพราะทำให้สามารถปรับปรุงเปลี่ยนแปลงนิยามคำให้สอดคล้องกับการเปลี่ยนแปลงของภาษาได้โดยง่าย  นอกจากนี้  ยังเป็นแหล่งอ้างอิงสำหรับนักเรียนและอาจารย์ผู้สอนภาษาไทยทั้งในและต่างประเทศ

ปริมาณข้อมูลในคลัง

คลังข้อมูลภาษาไทยแห่งชาติมีเป้าหมายในการรวบรวมข้อมูลจำนวน 80 ล้านคำ เพื่อเฉลิมฉลองวโรกาสที่พระบาทสมเด็จพระเจ้าอยู่หัวฯ ทรงเจริญพระชนมพรรษาครบ 80 พรรษาในปี พ.ศ. 2550 และเนื่องในวันภาษาไทยแห่งชาติ 29 กรกฎาคม 2550 แต่เนื่องจากอุปสรรคและความยากในการขออนุญาติใช้ข้อมูลจากเจ้าของลิขสิทธิ์ ตลอดจนการตามหาต้นฉบับ จัดทำตัวบทและกำกับข้อมูล ทำให้ข้อมูลที่เก็บได้จริงมีประมาณ 33 ล้านคำ

โครงสร้างและการคัดเลือกข้อมูล

คลังข้อมูลภาษาไทยแห่งชาติได้รับการออกแบบเพื่อครอบคลุมภาษาไทยในลักษณะต่างๆให้ได้มากที่สุดเพื่อเป็นตัวแทน (representative) ของภาษาไทยมาตรฐานในปัจจุบัน และเพื่อให้สะดวกต่อการศึกษาเปรียบเทียบกับภาษาอื่น จึงวางโครงสร้างล้อไปกับคลังข้อมูลภาษาที่เป็นที่รู้จักและใช้กันแพร่หลายคือ British National Corpus แต่ก็มีการปรับรายละเอียดให้เหมาะสมกับลักษณะเฉพาะของงานเขียนภาษาไทย ดังนั้น ข้อมูลภาษาทั้งหมดในคลังข้อมูลมาจากภาษาเขียน ซึ่งประกอบด้วยข้อมูลภาษาเขียนที่มีเนื้อหา (domain) เป็นแนวสาระ (informative) ร้อยละ 75 และแนวจินตนาการหรืองานประพันธ์ (imaginative) ร้อยละ 25 ที่มาของตัวอย่างภาษานั้นมากจากงานเขียนที่หลากหลายโดยใช้เกณฑ์คัดเลือกจากมุมมองหลายมิติร่วมกันได้แก่ เกณฑ์สื่อ เกณฑ์เวลา และเกณฑ์ย่อยอื่นๆอีกเช่น  ขนาดของงานเขียนและขอบเขต (จุดเริ่มและจุดสุดท้าย)  หัวข้อของงานเขียน   อายุ เพศ และภูมิลำเนาของผู้แต่ง  อายุและเพศของกลุ่มเป้าหมาย  เป็นต้น  และยังมีการแยกประเภทย่อยของงานเขียนตามลักษณะรูปแบบการเขียน  เช่น  งานเขียนวิชาการประเภทต่างๆ  งานเขียนกึ่งวิชาการเรื่องต่างๆ  งานเขียนอัตชีวประวัติ  รายงานข่าวต่างๆ  บทความวารสารทั่วไป ข่าวซุบซิบบันเทิง  จดหมาย  เรียงความ  นิยาย  งานเขียนศาสนาปรัชญา  เอกสารทางการ  เป็นต้น

การคัดเลือกตัวอย่างข้อมูลภาษาไทย

เกณฑ์ที่ใช้ในเลือกข้อมูลจึงคล้ายคลึงกับเกณฑ์ที่ BNC ใช้  โดยใช้เกณฑ์ในการควบคุมการคัดเลือกข้อมูลภาษาเขียน  คือ เนื้อหา (domain)  เวลาที่สร้างงานเขียน (time)  และสื่อที่ใช้นำเสนอ (medium)  และเพื่อให้ได้ความหลากหลายของงานเขียน  แต่ละงานเขียนที่เลือกมาจะสุ่มข้อความต่อเนื่องมาไม่เกิน 40,000 คำ เนื้อหา : เป็นเกณฑ์ที่ใช้เพื่อแยกประเภทของงานเขียน โดยกำหนดให้ 75% ของงานเขียนเป็นแนวด้านสาระ (informative)  ซึ่งเลือกจากสาขาต่างๆเช่น วิทยาศาสตร์ วิทยาศาสตร์ประยุกต์ สังคมศาสตร์ ศิลปะและมนุษยศาสตร์ ศาสนาและความเชื่อ  การเงินการพาณิชย์ เรื่องระหว่างประเทศ นันทนาการ และอีก 25% ของงานเขียนเป็นงานประพันธ์ (imaginative) ซึ่งคืองานด้านวรรณกรรมและบทกวี

 สื่อ : เป็นเกณฑ์ที่ใช้เพื่อแยกประเภทของงานเขียนที่ปรากฏในสื่อประเภทต่างๆ โดยกำหนดให้ 60% ของงานเขียนเป็นหนังสือ 20% เป็นวารสาร และหนังสือพิมพ์ อีก 5-10% มาจากสิ่งพิมพ์อื่นๆ เช่น แผ่นพับ แผ่นโฆษณา อีก 5-10% มาจากงานเขียนที่ไม่ตีพิมพ์  เช่น จดหมายส่วนตัว บันทึกประจำวัน เรียงความ และบันทึกช่วยจำ และอีกน้อยกว่า 5% เก็บจากงานเขียนเผยแพร่บนอินเทอร์เน็ต

เวลา : เป็นเกณฑ์ที่ใช้เพื่อเก็บงานเขียนที่เป็นตัวแทนของภาษาปัจจุบัน  โดยกำหนดให้เป็นงานเขียนในช่วง  พ.ศ.2541-2550 เป็นหลัก  และยอมให้มีงานเขียนในช่วง พ.ศ.2531-2540 ได้ไม่เกิน 10%   ยกเว้นในกรณีของงานแต่งเช่น นิยาย ที่ยอมให้เก่ากว่านั้นได้  แต่มีข้อแม้ว่าต้องเป็นงานที่มีการตีพิพม์ซ้ำในช่วงพ.ศ. ที่กล่าวมา

ประเภทงานเขียนเป็นเกณฑ์ที่ใช้กำหนดประเภทงานแต่ละชิ้นที่ได้มา  ซึ่งไม่ได้กำหนดสัดส่วนไว้ตายตัว  แต่กำหนดขึ้นเพื่อเป็นเป้าหมายว่าในคลังข้อมูลภาษาไทยแห่งชาติควรจะมีงานเขียนทุกประเภทที่กำหนดนี้ในจำนวนพอสมควร   ประเภทงานเขียนที่กำหนดไว้เบื้องต้น   เช่น  งานวิชาการ  งานกึ่งวิชาการ  การบริหาร  โฆษณา  ชีวประวัติ  ข่าว  บทความนิตยสาร  กฎหมาย  คู่มือ  จดหมาย  เรียงความ  เป็นต้น

นอกจากเกณฑ์หลักทั้งสี่แล้ว ยังมีเกณฑ์ย่อยอื่นๆอีก ซึ่งไม่ได้กำหนดกฎเกณฑ์ไว้ตายตัวว่าต้องเป็นเช่นไร  เพียงแค่พยายามให้มีความหลากหลายเท่าที่จะเป็นไปได้ ในเกณฑ์นั้น ๆ เช่น ขนาดของงานเขียนและขอบเขต (จุดเริ่มและจุดสุดท้าย)  หัวข้อของงานเขียน อายุ เพศ และภูมิลำเนาของผู้แต่ง อายุและเพศของกลุ่มเป้าหมาย เป็นต้น