การออกแบบคลังบทอ่าน

โครงสร้างคลังบทอ่าน

คลังบทอ่านที่สร้างขึ้นนี้ประกอบด้วยข้อมูลสามส่วน  ส่วนแรกเป็นบทอ่านที่ผ่านการตรวจแก้ให้เหมาะสมกับการนำไปสอนอ่านโดยผู้ทรงคุณวุฒิที่ทำหน้าที่สอนวิชาภาษาไทย จบการศึกษาสาขาภาษาไทยหรือภาษาศาสตร์  ทั้งนี้เพื่อให้ได้บทอ่านที่พร้อมใช้สำหรับครูสอนภาษาไทยทั่วไป  อย่างไรก็ดี เนื่องจากในชีวิตจริง นักเรียนต้องอ่านงานเขียนต่าง ๆ ที่พบจริงในสื่อต่าง ๆ  การเตรียมข้อมูลจริงไว้ส่วนหนึ่งเพื่อเป็นตัวอย่างให้เห็นการเขียนจริงก็มีความสำคัญต่อการเรียนรู้และพัฒนาการอ่านเช่นกัน  ส่วนที่สองของคลังบทอ่านจึงเป็นบทอ่านที่รวบรวมตามที่ปรากฏเผยแพร่จริงบนสื่อออนไลน์  นอกจากบทอ่านที่เขียนด้วยมนุษย์แล้ว  เนื่องจากเทคโนโลยีปัญญาประดิษฐ์มีความสามารถทางภาษาไทยเพิ่มมากขึ้น  ในโครงการจึงทดลองใช้ปัญญาประดิษฐ์รู้สร้าง (generative AI) ช่วยสร้างบทอ่านเพิ่มเติม  โดยศึกษาหาวิธีที่เหมาะสมเพื่อสั่งให้ AI สร้างบทอ่านที่มีคุณสมบัติตามที่ต้องการมากที่สุดได้

  • ข้อมูลที่ผ่านการตรวจแก้จากผู้ทรงคุณวุฒิ  ข้อมูลส่วนนี้ส่วนหนึ่งมาจากบทอ่านที่สถาบันภาษาไทยสิรินธรได้ใช้ในการอบรมครูนักเรียนในโครงการต่าง ๆ ที่เกี่ยวข้องกับการสอนอ่าน  เป็นข้อมูลที่ปรับแก้ไขให้มีภาษาและความยาวเหมาะสมกับที่ต้องการ    ข้อมูลอีกส่วนมาจากการหาเพิ่มเติมจากแหล่งต่าง ๆ นำมาให้ผู้ทรงคุณวุฒิตรวจแก้ไขภาษาก่อนนำเข้าในคลังบทอ่าน 
  • ข้อมูลตามจริงที่พบในสื่อออนไลน์  ข้อมูลส่วนนี้ได้จากการใช้โปรแกรมสกัดตัวบทจากอินเทอร์เน็ต  โดยเลือกบทความที่เผยแพร่ผ่านสื่อออนไลน์ตัวเอง  ได้แก่ The Matter, The Cloud, The People, A Day, Way, วารสารสารคดี, สำนักงานราชบัณฑิตยสถาน  ข้อมูลที่สกัดมามีจำนวนมากกว่า 5,878 บทอ่าน  ซึ่งจะนำมาคัดเลือกบทอ่านที่น่าสนใจอีกครั้งเพื่อนำเข้าคลังบทอ่าน
  • ข้อมูลที่ได้จากการเขียนของ AI. ส่วนนี้เป็นตัวบทที่ให้ AI เขียนให้  โดยมีการศึกษาวิจัยหาวิธีการที่เหมาะสมสำหรับใช้เขียน prompt เพื่อให้ AI เขียนบทอ่านให้ได้คุณภาพและคุณสมบัติตามที่ต้องการมากที่สุดก่อน  เมื่อศึกษาจนได้แนวทางแล้วจึงได้ให้ AI เขียนงานออกมาให้ ข้อมูลที่ได้จากการเขียนของเอไอมีการตรวจสอบและคัดเลือกว่าเหมาะสมที่จะใช้เป็นบทอ่านได้  

ไฟล์ข้อมูลบทอ่าน

ข้อมูลบทอ่านที่เป็น text หรือ word ไฟล์จะถูกแปลงเป็น json ไฟล์ที่แสดง attributes : values ต่าง ๆ ตามตัวอย่างนี้

{
"id": 0,
"text": "",
"Comments": [],
"text_type": "informative",
"text_struct": "non-fiction",
"domain": "Sci",
"file": "B002-019",
"source": "ดัดแปลงจาก รอสส์, แวล. (2552). กว่าจะเป็นแผนที่โลก. พิมพ์ครั้งที่ 2. กรุงเทพฯ: นานมีบุ๊คส์พับลิเคชั่นส์.",
"genre": [
"academic"
],
"text_level": "moderate",
"read_type": [
"detailed",
"comprehensive"
],
"edition": "edited",
"paras": [
{
"pid": 1,
"text": "ใน ค.ศ. 1790 สภาแห่งชาติได้มีคำสั่งให้สถาบันวิทยาศาสตร์แห่งฝรั่งเศส (French Academy of Science) คิดค้นระบบการวัดความยาว “ที่มีมาตรฐานคงที่” มีหน่วยวัดที่ได้จากธรรมชาติซึ่งสามารถนำมาจัดเป็นระบบที่แบ่งเป็นลำดับชั้นและเป็นผลคูณของเลขสิบ สถาบันวิทยาศาสตร์แห่งฝรั่งเศสกำหนดไว้ว่า หน่วยวัดใหม่ที่เรียกว่า “เมตร” นี้ต้องมีความยาวหนึ่งในสิบล้านส่วนของความยาวระหว่างขั้วโลกเหนือกับเส้นศูนย์สูตร",
"dms": [
{
"text": "ว่า",
"pos": [
295,
298
],
"type": "elaborative"
}
],
"main_idea": {
"type": "explicit",
"main": [
{
"pos": [
275,
385
],
"text": "หน่วยวัดใหม่ที่เรียกว่า “เมตร” นี้ต้องมีความยาวหนึ่งในสิบล้านส่วนของความยาวระหว่างขั้วโลกเหนือกับเส้นศูนย์สูตร"
}
]
}
},
{
"pid": 2,
"text": "ใน ค.ศ. 1791 นักวิทยาศาสตร์ 2 คนได้วัดค่าแบบตรีโกณมิติอีกครั้งเพื่อหาระยะห่างดังกล่าวแล้วแบ่งออกเป็นสิบล้านส่วน นักวิทยาศาสตร์ทั้งสองคือ ชอง เดอลองเบรอ (Jean Delambre) และปีแยร์ \nเมอแชง (Pierre Mechain) ออกไปทำการวัดระยะเป็นเวลา 7 ปี แต่เมื่อรัฐบาลเก่าถูกโค่นล้มลงในการปฏิวัติฝรั่งเศส ผู้ปกครองในระบอบใหม่ขู่ว่าจะล้มเลิกโครงการนี้เสีย ยิ่งกว่านั้นทั้งสองยังถูกจับแล้วต่างก็ล้มป่วย ที่เลวร้ายที่สุดคือ เมอแซงกลายเป็นโรคซึมเศร้าแล้วหายตัวไป ถึงกระนั้นในที่สุดภรรยาของเมอแชงก็ตามเขากลับมาได้ เมอแชงบอกว่าเขาไม่สามารถทำงานนี้ได้ ดังนั้นเดอลองเบรอกับภรรยาของเมอแชงจึงช่วยกันคำนวณจนแล้วเสร็จ ทำให้สามารถระบุค่าความยาวของ “เมตร” ได้ใน ค.ศ. 1799 และได้หล่อเป็นแท่งทองคำขาวบริสุทธิ์",
"dms": [
{
"text": "เพื่อ",
"pos": [
62,
67
],
"type": "purpose"
},
{
"text": "แต่",
"pos": [
234,
237
],
"type": "contrastive"
},
{
"text": "เมื่อ",
"pos": [
237,
242
],
"type": "sequential"
},
{
"text": "ยิ่งกว่านั้น",
"pos": [
335,
347
],
"type": "additive"
},
{
"text": "ถึงกระนั้น",
"pos": [
439,
449
],
"type": "contrastive"
},
{
"text": "ว่า",
"pos": [
498,
501
],
"type": "elaborative"
},
{
"text": "ดังนั้น",
"pos": [
525,
532
],
"type": "cause-effect"
},
{
"text": "จึง",
"pos": [
559,
562
],
"type": "cause-effect"
}
],
"main_idea": {
"type": "explicit",
"main": [
{
"pos": [
0,
111
],
"text": "ใน ค.ศ. 1791 นักวิทยาศาสตร์ 2 คนได้วัดค่าแบบตรีโกณมิติอีกครั้งเพื่อหาระยะห่างดังกล่าวแล้วแบ่งออกเป็นสิบล้านส่วน"
}
]
}
},
....
]
}

ข้อมูล attributes

text_type : text type 6 ประเภท descriptive, narrative, informative, argumentative, procedural, evaluative
text_struct : text structure ได้แก่ fiction, non-fiction; poetry;    figure, diagram, infographic
text_level : easy, moderate, difficult
domain : HSS (humanities and social science), Sci (sciences)
genre : academic, newspaper, non-academic, fiction, poetry, law, misc
source : แหล่งที่มาตัวบท
edition : modified, ai-generated, authentic
text : ข้อความต่อเนื่องในย่อหน้า
main_idea : ใจความสำคัญในย่อหน้า แยกเป็น explicit หรือ implicit
paras : list of paragraphs
pid : ลำดับของย่อหน้า
dms : discourse markers แต่ละตัวบอกใน “text”: รูปคำเชื่อม “pos”: [p1, p2], “type”: ประเภท dm