โครงสร้างคลังบทอ่าน
คลังบทอ่านที่สร้างขึ้นนี้ประกอบด้วยข้อมูลสามส่วน ส่วนแรกเป็นบทอ่านที่ผ่านการตรวจแก้ให้เหมาะสมกับการนำไปสอนอ่านโดยผู้ทรงคุณวุฒิที่ทำหน้าที่สอนวิชาภาษาไทย จบการศึกษาสาขาภาษาไทยหรือภาษาศาสตร์ ทั้งนี้เพื่อให้ได้บทอ่านที่พร้อมใช้สำหรับครูสอนภาษาไทยทั่วไป อย่างไรก็ดี เนื่องจากในชีวิตจริง นักเรียนต้องอ่านงานเขียนต่าง ๆ ที่พบจริงในสื่อต่าง ๆ การเตรียมข้อมูลจริงไว้ส่วนหนึ่งเพื่อเป็นตัวอย่างให้เห็นการเขียนจริงก็มีความสำคัญต่อการเรียนรู้และพัฒนาการอ่านเช่นกัน ส่วนที่สองของคลังบทอ่านจึงเป็นบทอ่านที่รวบรวมตามที่ปรากฏเผยแพร่จริงบนสื่อออนไลน์ นอกจากบทอ่านที่เขียนด้วยมนุษย์แล้ว เนื่องจากเทคโนโลยีปัญญาประดิษฐ์มีความสามารถทางภาษาไทยเพิ่มมากขึ้น ในโครงการจึงทดลองใช้ปัญญาประดิษฐ์รู้สร้าง (generative AI) ช่วยสร้างบทอ่านเพิ่มเติม โดยศึกษาหาวิธีที่เหมาะสมเพื่อสั่งให้ AI สร้างบทอ่านที่มีคุณสมบัติตามที่ต้องการมากที่สุดได้
- ข้อมูลที่ผ่านการตรวจแก้จากผู้ทรงคุณวุฒิ ข้อมูลส่วนนี้ส่วนหนึ่งมาจากบทอ่านที่สถาบันภาษาไทยสิรินธรได้ใช้ในการอบรมครูนักเรียนในโครงการต่าง ๆ ที่เกี่ยวข้องกับการสอนอ่าน เป็นข้อมูลที่ปรับแก้ไขให้มีภาษาและความยาวเหมาะสมกับที่ต้องการ ข้อมูลอีกส่วนมาจากการหาเพิ่มเติมจากแหล่งต่าง ๆ นำมาให้ผู้ทรงคุณวุฒิตรวจแก้ไขภาษาก่อนนำเข้าในคลังบทอ่าน
- ข้อมูลตามจริงที่พบในสื่อออนไลน์ ข้อมูลส่วนนี้ได้จากการใช้โปรแกรมสกัดตัวบทจากอินเทอร์เน็ต โดยเลือกบทความที่เผยแพร่ผ่านสื่อออนไลน์ตัวเอง ได้แก่ The Matter, The Cloud, The People, A Day, Way, วารสารสารคดี, สำนักงานราชบัณฑิตยสถาน ข้อมูลที่สกัดมามีจำนวนมากกว่า 5,878 บทอ่าน ซึ่งจะนำมาคัดเลือกบทอ่านที่น่าสนใจอีกครั้งเพื่อนำเข้าคลังบทอ่าน
- ข้อมูลที่ได้จากการเขียนของ AI. ส่วนนี้เป็นตัวบทที่ให้ AI เขียนให้ โดยมีการศึกษาวิจัยหาวิธีการที่เหมาะสมสำหรับใช้เขียน prompt เพื่อให้ AI เขียนบทอ่านให้ได้คุณภาพและคุณสมบัติตามที่ต้องการมากที่สุดก่อน เมื่อศึกษาจนได้แนวทางแล้วจึงได้ให้ AI เขียนงานออกมาให้ ข้อมูลที่ได้จากการเขียนของเอไอมีการตรวจสอบและคัดเลือกว่าเหมาะสมที่จะใช้เป็นบทอ่านได้
ไฟล์ข้อมูลบทอ่าน
ข้อมูลบทอ่านที่เป็น text หรือ word ไฟล์จะถูกแปลงเป็น json ไฟล์ที่แสดง attributes : values ต่าง ๆ ตามตัวอย่างนี้
{
"id": 0,
"text": "",
"Comments": [],
"text_type": "informative",
"text_struct": "non-fiction",
"domain": "Sci",
"file": "B002-019",
"source": "ดัดแปลงจาก รอสส์, แวล. (2552). กว่าจะเป็นแผนที่โลก. พิมพ์ครั้งที่ 2. กรุงเทพฯ: นานมีบุ๊คส์พับลิเคชั่นส์.",
"genre": [
"academic"
],
"text_level": "moderate",
"read_type": [
"detailed",
"comprehensive"
],
"edition": "edited",
"paras": [
{
"pid": 1,
"text": "ใน ค.ศ. 1790 สภาแห่งชาติได้มีคำสั่งให้สถาบันวิทยาศาสตร์แห่งฝรั่งเศส (French Academy of Science) คิดค้นระบบการวัดความยาว “ที่มีมาตรฐานคงที่” มีหน่วยวัดที่ได้จากธรรมชาติซึ่งสามารถนำมาจัดเป็นระบบที่แบ่งเป็นลำดับชั้นและเป็นผลคูณของเลขสิบ สถาบันวิทยาศาสตร์แห่งฝรั่งเศสกำหนดไว้ว่า หน่วยวัดใหม่ที่เรียกว่า “เมตร” นี้ต้องมีความยาวหนึ่งในสิบล้านส่วนของความยาวระหว่างขั้วโลกเหนือกับเส้นศูนย์สูตร",
"dms": [
{
"text": "ว่า",
"pos": [
295,
298
],
"type": "elaborative"
}
],
"main_idea": {
"type": "explicit",
"main": [
{
"pos": [
275,
385
],
"text": "หน่วยวัดใหม่ที่เรียกว่า “เมตร” นี้ต้องมีความยาวหนึ่งในสิบล้านส่วนของความยาวระหว่างขั้วโลกเหนือกับเส้นศูนย์สูตร"
}
]
}
},
{
"pid": 2,
"text": "ใน ค.ศ. 1791 นักวิทยาศาสตร์ 2 คนได้วัดค่าแบบตรีโกณมิติอีกครั้งเพื่อหาระยะห่างดังกล่าวแล้วแบ่งออกเป็นสิบล้านส่วน นักวิทยาศาสตร์ทั้งสองคือ ชอง เดอลองเบรอ (Jean Delambre) และปีแยร์ \nเมอแชง (Pierre Mechain) ออกไปทำการวัดระยะเป็นเวลา 7 ปี แต่เมื่อรัฐบาลเก่าถูกโค่นล้มลงในการปฏิวัติฝรั่งเศส ผู้ปกครองในระบอบใหม่ขู่ว่าจะล้มเลิกโครงการนี้เสีย ยิ่งกว่านั้นทั้งสองยังถูกจับแล้วต่างก็ล้มป่วย ที่เลวร้ายที่สุดคือ เมอแซงกลายเป็นโรคซึมเศร้าแล้วหายตัวไป ถึงกระนั้นในที่สุดภรรยาของเมอแชงก็ตามเขากลับมาได้ เมอแชงบอกว่าเขาไม่สามารถทำงานนี้ได้ ดังนั้นเดอลองเบรอกับภรรยาของเมอแชงจึงช่วยกันคำนวณจนแล้วเสร็จ ทำให้สามารถระบุค่าความยาวของ “เมตร” ได้ใน ค.ศ. 1799 และได้หล่อเป็นแท่งทองคำขาวบริสุทธิ์",
"dms": [
{
"text": "เพื่อ",
"pos": [
62,
67
],
"type": "purpose"
},
{
"text": "แต่",
"pos": [
234,
237
],
"type": "contrastive"
},
{
"text": "เมื่อ",
"pos": [
237,
242
],
"type": "sequential"
},
{
"text": "ยิ่งกว่านั้น",
"pos": [
335,
347
],
"type": "additive"
},
{
"text": "ถึงกระนั้น",
"pos": [
439,
449
],
"type": "contrastive"
},
{
"text": "ว่า",
"pos": [
498,
501
],
"type": "elaborative"
},
{
"text": "ดังนั้น",
"pos": [
525,
532
],
"type": "cause-effect"
},
{
"text": "จึง",
"pos": [
559,
562
],
"type": "cause-effect"
}
],
"main_idea": {
"type": "explicit",
"main": [
{
"pos": [
0,
111
],
"text": "ใน ค.ศ. 1791 นักวิทยาศาสตร์ 2 คนได้วัดค่าแบบตรีโกณมิติอีกครั้งเพื่อหาระยะห่างดังกล่าวแล้วแบ่งออกเป็นสิบล้านส่วน"
}
]
}
},
....
]
}