การกำกับข้อมูลบทอ่านเป็นกระบวนการที่ทำเพื่อให้ข้อมูลต่าง ๆ เกี่ยวกับตัวบทนั้น เป็นประโยชน์สำหรับการจัดระบบคลังข้อมูลบทอ่านและใช้งานต่อไป ข้อมูลที่กำกับมีตั้งแต่ข้อมูลเกี่ยวกับตัวบทที่กำกับประเภทบทอ่านตามเกณฑ์ต่าง ๆ และข้อมูลที่กำกับภายในตัวบทคือใจความสำคัญในย่อหน้าและตัวบ่งชี้ปริจเฉทต่าง ๆ ข้อมูลที่กำกับแล้วนี้นอกจากจะเอื้อต่อการให้ผู้ใช้เลือกบทอ่านที่เหมาะสมกับที่ต้องการทั้งเรื่องเนื้อหา ความยาว ประเภทตัวบท ยังเป็นประโยชน์ในการสอนการอ่าน และเป็นประโยชน์ในการศึกษาวิจัยเพื่อเข้าใจตัวบทประเภทต่าง ๆ รวมถึงให้เครื่องเรียนรู้ดัชนีปริจเฉทต่าง ๆ และสามารถกำกับดัชนีปริจเฉทในตัวบทอื่น ๆ ต่อไป และใช้เป็นส่วนหนึ่งในการจำแนกตัวบทโดยอัตโนมัติได้
แนวทางการกำกับข้อมูลบทอ่าน
บทอ่านที่จะได้รับการบรรจุเข้าสู่คลังข้อมูลจะได้รับการกำกับข้อมูลทั่วไปตามเกณฑ์การจำแนกมิติต่างๆ ซึ่งประกอบไปด้วยเนื้อหา ประเภทของเนื้อหา ประเภทของตัวบท กลุ่มเนื้อหา ความยาวของตัวบท รวมถึงชุดของข้อมูลที่ใช้ในการอธิบายลักษณะต่างๆ ของบทอ่านที่บรรจุอยู่ในชื่อเรื่อง ผู้แต่ง แหล่งที่มา เพื่อให้สามารถจัดระเบียบข้อมูลได้อย่างมีประสิทธิภาพ
การกำกับข้อมูลถือเป็นหัวใจสำคัญของกระบวนการนี้ เพราะเป็นขั้นตอนที่ช่วยให้คลังข้อมูลสามารถทำหน้าที่เป็นแหล่งข้อมูลที่มีความสมบูรณ์ น่าเชื่อถือ และสามารถใช้งานได้สะดวก การกำกับข้อมูลในที่นี้หมายถึงการจัดการและกำหนดลักษณะต่างๆ ของบทอ่านที่บรรจุเข้าไปในคลังข้อมูล ข้อมูลเหล่านี้จะถูกใช้เพื่อสร้างโครงสร้างของคลังข้อมูลที่เป็นระบบ สามารถรองรับการค้นคืนบทอ่านได้ตามความต้องการของผู้ใช้งาน ซึ่งรวมถึงนักวิจัย ครูผู้สอน และผู้สนใจทั่วไป
นอกจากนี้ การกำกับข้อมูลที่มีประสิทธิภาพยังช่วยให้ผู้ใช้งานสามารถเข้าถึงข้อมูลที่ต้องการได้อย่างรวดเร็วและแม่นยำ ยกตัวอย่างเช่น หากผู้ใช้งานต้องการค้นหาบทความเชิงวิชาการที่เกี่ยวข้องกับเรื่องใด ระบบการกำกับข้อมูลจะสามารถช่วยกรองและจัดลำดับบทอ่านที่ตรงกับเกณฑ์ที่ผู้ใช้งานระบุได้ทันที ซึ่งจะช่วยลดเวลาในการค้นหาและเพิ่มประสิทธิภาพในการใช้งานคลังข้อมูล
กำกับอภิบริบทข้อมูล (เมทาดาทา)
อภิบริบทข้อมูล (metadata) หมายถึงข้อมูลที่ใช้ในการอธิบายลักษณะเฉพาะต่างๆ ของบทอ่าน ไม่ว่าจะเป็นประเภทของเนื้อหา ผู้แต่ง ปีที่เผยแพร่ แหล่งที่มา หรือข้อมูลจำเพาะอื่นๆ อภิบริบทข้อมูลมีบทบาทสำคัญในการช่วยจัดระเบียบข้อมูลในคลังข้อมูลให้เป็นระบบและสะดวกต่อการค้นคืน โดยการใช้ชุดป้ายกำกับที่ครอบคลุมและเหมาะสมจะช่วยให้ผู้ใช้งานสามารถเข้าถึงข้อมูลที่ต้องการได้อย่างแม่นยำและรวดเร็ว นอกจากนี้ยังมีประโยชน์ในการวิเคราะห์และวิจัยเนื้อหาในบริบทที่กว้างขึ้น
เมทาดาตาที่ใช้กำกับข้อมูลทั่วไปได้แก่ title, author, source, genre และ domain เมทาดาตาที่กำกับลักษณะเฉพาะของตัวบท ได้แก่ text_level, text_structure, text_type, edition
กำกับข้อมูลภายในตัวบท
ข้อมูลภายในตัวบทมีการกำกับใจความสำคัญ main_idea และดัชนีปริจเฉท dms
main_idea แยกประเภทเป็น explicit และ implicit และกำกับภายในย่อหน้า (ดูแนวทางกำกับใจความสำคัญ) ส่วน dms แยกกำกับคำบ่งชี้แต่ละคำในย่อหน้านั้น และเลือกประเภทของดัชนีปริจเฉทในตำแหน่งนั้น ได้แก่ definition_marker | sequential | conclusion | additive | contrastive | cause-effect | purpose | problem-solving | elaborative | topic_shift | condition | supposition | stance | inferential | emphasis | topic_marker | interactive_marker | emotive_marker