การกำกับข้อมูลบทอ่าน

การกำกับข้อมูลบทอ่านเป็นกระบวนการที่ทำเพื่อให้ข้อมูลต่าง ๆ เกี่ยวกับตัวบทนั้น  เป็นประโยชน์สำหรับการจัดระบบคลังข้อมูลบทอ่านและใช้งานต่อไป  ข้อมูลที่กำกับมีตั้งแต่ข้อมูลเกี่ยวกับตัวบทที่กำกับประเภทบทอ่านตามเกณฑ์ต่าง ๆ และข้อมูลที่กำกับภายในตัวบทคือใจความสำคัญในย่อหน้าและตัวบ่งชี้ปริจเฉทต่าง ๆ    ข้อมูลที่กำกับแล้วนี้นอกจากจะเอื้อต่อการให้ผู้ใช้เลือกบทอ่านที่เหมาะสมกับที่ต้องการทั้งเรื่องเนื้อหา ความยาว ประเภทตัวบท  ยังเป็นประโยชน์ในการสอนการอ่าน และเป็นประโยชน์ในการศึกษาวิจัยเพื่อเข้าใจตัวบทประเภทต่าง ๆ รวมถึงให้เครื่องเรียนรู้ดัชนีปริจเฉทต่าง ๆ และสามารถกำกับดัชนีปริจเฉทในตัวบทอื่น ๆ ต่อไป และใช้เป็นส่วนหนึ่งในการจำแนกตัวบทโดยอัตโนมัติได้

แนวทางการกำกับข้อมูลบทอ่าน

บทอ่านที่จะได้รับการบรรจุเข้าสู่คลังข้อมูลจะได้รับการกำกับข้อมูลทั่วไปตามเกณฑ์การจำแนกมิติต่างๆ ซึ่งประกอบไปด้วยเนื้อหา ประเภทของเนื้อหา ประเภทของตัวบท กลุ่มเนื้อหา ความยาวของตัวบท รวมถึงชุดของข้อมูลที่ใช้ในการอธิบายลักษณะต่างๆ ของบทอ่านที่บรรจุอยู่ในชื่อเรื่อง ผู้แต่ง แหล่งที่มา เพื่อให้สามารถจัดระเบียบข้อมูลได้อย่างมีประสิทธิภาพ

การกำกับข้อมูลถือเป็นหัวใจสำคัญของกระบวนการนี้ เพราะเป็นขั้นตอนที่ช่วยให้คลังข้อมูลสามารถทำหน้าที่เป็นแหล่งข้อมูลที่มีความสมบูรณ์ น่าเชื่อถือ และสามารถใช้งานได้สะดวก การกำกับข้อมูลในที่นี้หมายถึงการจัดการและกำหนดลักษณะต่างๆ ของบทอ่านที่บรรจุเข้าไปในคลังข้อมูล ข้อมูลเหล่านี้จะถูกใช้เพื่อสร้างโครงสร้างของคลังข้อมูลที่เป็นระบบ สามารถรองรับการค้นคืนบทอ่านได้ตามความต้องการของผู้ใช้งาน ซึ่งรวมถึงนักวิจัย ครูผู้สอน และผู้สนใจทั่วไป

นอกจากนี้ การกำกับข้อมูลที่มีประสิทธิภาพยังช่วยให้ผู้ใช้งานสามารถเข้าถึงข้อมูลที่ต้องการได้อย่างรวดเร็วและแม่นยำ ยกตัวอย่างเช่น หากผู้ใช้งานต้องการค้นหาบทความเชิงวิชาการที่เกี่ยวข้องกับเรื่องใด ระบบการกำกับข้อมูลจะสามารถช่วยกรองและจัดลำดับบทอ่านที่ตรงกับเกณฑ์ที่ผู้ใช้งานระบุได้ทันที ซึ่งจะช่วยลดเวลาในการค้นหาและเพิ่มประสิทธิภาพในการใช้งานคลังข้อมูล

กำกับอภิบริบทข้อมูล (เมทาดาทา)

อภิบริบทข้อมูล (metadata) หมายถึงข้อมูลที่ใช้ในการอธิบายลักษณะเฉพาะต่างๆ ของบทอ่าน ไม่ว่าจะเป็นประเภทของเนื้อหา ผู้แต่ง ปีที่เผยแพร่ แหล่งที่มา หรือข้อมูลจำเพาะอื่นๆ อภิบริบทข้อมูลมีบทบาทสำคัญในการช่วยจัดระเบียบข้อมูลในคลังข้อมูลให้เป็นระบบและสะดวกต่อการค้นคืน โดยการใช้ชุดป้ายกำกับที่ครอบคลุมและเหมาะสมจะช่วยให้ผู้ใช้งานสามารถเข้าถึงข้อมูลที่ต้องการได้อย่างแม่นยำและรวดเร็ว นอกจากนี้ยังมีประโยชน์ในการวิเคราะห์และวิจัยเนื้อหาในบริบทที่กว้างขึ้น

เมทาดาตาที่ใช้กำกับข้อมูลทั่วไปได้แก่ title, author, source, genre และ domain เมทาดาตาที่กำกับลักษณะเฉพาะของตัวบท ได้แก่ text_level, text_structure, text_type, edition

กำกับข้อมูลภายในตัวบท

ข้อมูลภายในตัวบทมีการกำกับใจความสำคัญ main_idea และดัชนีปริจเฉท dms

main_idea แยกประเภทเป็น explicit และ implicit และกำกับภายในย่อหน้า (ดูแนวทางกำกับใจความสำคัญ) ส่วน dms แยกกำกับคำบ่งชี้แต่ละคำในย่อหน้านั้น และเลือกประเภทของดัชนีปริจเฉทในตำแหน่งนั้น ได้แก่ definition_marker | sequential | conclusion | additive | contrastive | cause-effect | purpose | problem-solving | elaborative | topic_shift | condition | supposition | stance | inferential | emphasis | topic_marker | interactive_marker | emotive_marker

การกำกับใจความสำคัญ

ใจความสำคัญ คือ ข้อความที่เป็นแก่นของเนื้อหาทั้งหมดของย่อหน้าหรือเรื่องนั้น ๆ ส่วนพลความ คือ ข้อความที่เป็นส่วนขยายหรือสนับสนุนใจความ ทำให้เกิดความชัดเจนยิ่งขึ้น เป็นรายละเอียดที่ประกอบเข้ามาในแต่ละย่อหน้า เช่น คำอธิบาย ขั้นตอน ข้อมูลเชิงสถิติเป็นต้น (สถาบันภาษาไทยสิรินธร, 2555)

การกำกับดัชนีปริจเฉท

การกำกับดัชนีปริจเฉทเป็นการให้ข้อมูลเพิ่มเติมในบทอ่านเพื่อใช้ประโยชน์ในภายหลัง  เพราะดัชนีปริจเฉทใช้บ่งชี้ความสัมพันธ์ของข้อความในบทอ่านได้  การเข้าใจดัชนีปริจเฉทที่ใช้ในบทอ่านจึงเป้ฯประโยชน์ต่อการเรียนการสอนการอ่าน และยังเป็นข้อมูลพื้นฐานสำหรับใช้พัฒนาให้เครื่องเรียนรู้และแยกประเภทตัวบทอ่านต่อไปได้