สืบค้นคลังข้อมูล
TNC 3 (https://app.stichula.org/php/tnc3/)
ข้อมูล TNC4 สำหรับใช้กับโปรแกรม AntConc
TNC for AntConc (27 downloads )วิธี set up AntConc ให้ใช้ข้อมูลภาษาไทย (read)
ความสำคัญของคลังข้อมูล
คลังข้อมูลภาษาไทยแห่งชาติ (TNC) คือข้อมูลภาษาไทยมาตรฐานจำนวนมากที่ถูกเก็บรวบรวมลงในคอมพิวเตอร์อย่างเป็นระบบ ตามหลักเกณฑ์การคัดเลือกข้อมูลที่ชัดเจน เพื่อให้ได้ข้อมูลที่จะสามารถใช้เป็นตัวแทนของการใช้ภาษาไทยปัจจุบันในลักษณะต่างๆ และมีการกำกับข้อมูล (markup) ในลักษณะต่างๆตามมาตรฐานสากลเพื่อให้สามารถสืบค้นทางคอมพิวเตอร์ได้โดยสะดวก คลังข้อมูลภาษาไทยแห่งชาตินี้ เมื่อใช้ร่วมกับโปรแกรมสืบค้นข้อมูลภาษาไทยที่จะจัดทำขึ้นจะเป็นทรัพยากรที่สำคัญในการศึกษาภาษาไทย ทำให้ผู้ที่อยู่ในแวดวงการศึกษาภาษาไทยสามารถเข้าถึงและศึกษาภาษาไทยได้อย่างลึกซึ้ง และเป็นประโยชน์อย่างยิ่งต่อการจัดทำพจนานุกรมภาษาไทย เพราะทำให้สามารถปรับปรุงเปลี่ยนแปลงนิยามคำให้สอดคล้องกับการเปลี่ยนแปลงของภาษาได้โดยง่าย นอกจากนี้ ยังเป็นแหล่งอ้างอิงสำหรับนักเรียนและอาจารย์ผู้สอนภาษาไทยทั้งในและต่างประเทศ
ปริมาณข้อมูลในคลัง
คลังข้อมูลภาษาไทยแห่งชาติมีเป้าหมายในการรวบรวมข้อมูลจำนวน 80 ล้านคำ เพื่อเฉลิมฉลองวโรกาสที่พระบาทสมเด็จพระเจ้าอยู่หัวฯ ทรงเจริญพระชนมพรรษาครบ 80 พรรษาในปี พ.ศ. 2550 และเนื่องในวันภาษาไทยแห่งชาติ 29 กรกฎาคม 2550 แต่เนื่องจากอุปสรรคและความยากในการขออนุญาติใช้ข้อมูลจากเจ้าของลิขสิทธิ์ ตลอดจนการตามหาต้นฉบับ จัดทำตัวบทและกำกับข้อมูล ทำให้ข้อมูลที่เก็บได้จริงมีประมาณ 33 ล้านคำ
โครงสร้างและการคัดเลือกข้อมูล
คลังข้อมูลภาษาไทยแห่งชาติได้รับการออกแบบเพื่อครอบคลุมภาษาไทยในลักษณะต่างๆให้ได้มากที่สุดเพื่อเป็นตัวแทน (representative) ของภาษาไทยมาตรฐานในปัจจุบัน และเพื่อให้สะดวกต่อการศึกษาเปรียบเทียบกับภาษาอื่น จึงวางโครงสร้างล้อไปกับคลังข้อมูลภาษาที่เป็นที่รู้จักและใช้กันแพร่หลายคือ British National Corpus แต่ก็มีการปรับรายละเอียดให้เหมาะสมกับลักษณะเฉพาะของงานเขียนภาษาไทย ดังนั้น ข้อมูลภาษาทั้งหมดในคลังข้อมูลมาจากภาษาเขียน ซึ่งประกอบด้วยข้อมูลภาษาเขียนที่มีเนื้อหา (domain) เป็นแนวสาระ (informative) ร้อยละ 75 และแนวจินตนาการหรืองานประพันธ์ (imaginative) ร้อยละ 25 ที่มาของตัวอย่างภาษานั้นมากจากงานเขียนที่หลากหลายโดยใช้เกณฑ์คัดเลือกจากมุมมองหลายมิติร่วมกันได้แก่ เกณฑ์สื่อ เกณฑ์เวลา และเกณฑ์ย่อยอื่นๆอีกเช่น ขนาดของงานเขียนและขอบเขต (จุดเริ่มและจุดสุดท้าย) หัวข้อของงานเขียน อายุ เพศ และภูมิลำเนาของผู้แต่ง อายุและเพศของกลุ่มเป้าหมาย เป็นต้น และยังมีการแยกประเภทย่อยของงานเขียนตามลักษณะรูปแบบการเขียน เช่น งานเขียนวิชาการประเภทต่างๆ งานเขียนกึ่งวิชาการเรื่องต่างๆ งานเขียนอัตชีวประวัติ รายงานข่าวต่างๆ บทความวารสารทั่วไป ข่าวซุบซิบบันเทิง จดหมาย เรียงความ นิยาย งานเขียนศาสนาปรัชญา เอกสารทางการ เป็นต้น
การคัดเลือกตัวอย่างข้อมูลภาษาไทย
เกณฑ์ที่ใช้ในเลือกข้อมูลจึงคล้ายคลึงกับเกณฑ์ที่ BNC ใช้ โดยใช้เกณฑ์ในการควบคุมการคัดเลือกข้อมูลภาษาเขียน คือ เนื้อหา (domain) เวลาที่สร้างงานเขียน (time) และสื่อที่ใช้นำเสนอ (medium) และเพื่อให้ได้ความหลากหลายของงานเขียน แต่ละงานเขียนที่เลือกมาจะสุ่มข้อความต่อเนื่องมาไม่เกิน 40,000 คำ เนื้อหา : เป็นเกณฑ์ที่ใช้เพื่อแยกประเภทของงานเขียน โดยกำหนดให้ 75% ของงานเขียนเป็นแนวด้านสาระ (informative) ซึ่งเลือกจากสาขาต่างๆเช่น วิทยาศาสตร์ วิทยาศาสตร์ประยุกต์ สังคมศาสตร์ ศิลปะและมนุษยศาสตร์ ศาสนาและความเชื่อ การเงินการพาณิชย์ เรื่องระหว่างประเทศ นันทนาการ และอีก 25% ของงานเขียนเป็นงานประพันธ์ (imaginative) ซึ่งคืองานด้านวรรณกรรมและบทกวี
สื่อ : เป็นเกณฑ์ที่ใช้เพื่อแยกประเภทของงานเขียนที่ปรากฏในสื่อประเภทต่างๆ โดยกำหนดให้ 60% ของงานเขียนเป็นหนังสือ 20% เป็นวารสาร และหนังสือพิมพ์ อีก 5-10% มาจากสิ่งพิมพ์อื่นๆ เช่น แผ่นพับ แผ่นโฆษณา อีก 5-10% มาจากงานเขียนที่ไม่ตีพิมพ์ เช่น จดหมายส่วนตัว บันทึกประจำวัน เรียงความ และบันทึกช่วยจำ และอีกน้อยกว่า 5% เก็บจากงานเขียนเผยแพร่บนอินเทอร์เน็ต
เวลา : เป็นเกณฑ์ที่ใช้เพื่อเก็บงานเขียนที่เป็นตัวแทนของภาษาปัจจุบัน โดยกำหนดให้เป็นงานเขียนในช่วง พ.ศ.2541-2550 เป็นหลัก และยอมให้มีงานเขียนในช่วง พ.ศ.2531-2540 ได้ไม่เกิน 10% ยกเว้นในกรณีของงานแต่งเช่น นิยาย ที่ยอมให้เก่ากว่านั้นได้ แต่มีข้อแม้ว่าต้องเป็นงานที่มีการตีพิพม์ซ้ำในช่วงพ.ศ. ที่กล่าวมา
ประเภทงานเขียนเป็นเกณฑ์ที่ใช้กำหนดประเภทงานแต่ละชิ้นที่ได้มา ซึ่งไม่ได้กำหนดสัดส่วนไว้ตายตัว แต่กำหนดขึ้นเพื่อเป็นเป้าหมายว่าในคลังข้อมูลภาษาไทยแห่งชาติควรจะมีงานเขียนทุกประเภทที่กำหนดนี้ในจำนวนพอสมควร ประเภทงานเขียนที่กำหนดไว้เบื้องต้น เช่น งานวิชาการ งานกึ่งวิชาการ การบริหาร โฆษณา ชีวประวัติ ข่าว บทความนิตยสาร กฎหมาย คู่มือ จดหมาย เรียงความ เป็นต้น
นอกจากเกณฑ์หลักทั้งสี่แล้ว ยังมีเกณฑ์ย่อยอื่นๆอีก ซึ่งไม่ได้กำหนดกฎเกณฑ์ไว้ตายตัวว่าต้องเป็นเช่นไร เพียงแค่พยายามให้มีความหลากหลายเท่าที่จะเป็นไปได้ ในเกณฑ์นั้น ๆ เช่น ขนาดของงานเขียนและขอบเขต (จุดเริ่มและจุดสุดท้าย) หัวข้อของงานเขียน อายุ เพศ และภูมิลำเนาของผู้แต่ง อายุและเพศของกลุ่มเป้าหมาย เป็นต้น
