สาระสำคัญ
เมื่อเลือกแหล่งข้อมูลและรวบรวมข้อมูลได้แล้ว ขั้นตอนถัดไปคือการเตรียมข้อมูลเพื่อเตรียมพร้อมสำหรับการประมวลผลซึ่งข้อมูลที่จะใช้ในการประมวลผลนี้จะต้องมีความถูกต้องครบถ้วนสมบูรณ์และไม่มีข้อมูลที่มีค่าผิดปกติ ดังนั้นก่อนจะนำข้อมูลไปใช้จะต้องมีการจัดเตรียมข้อมูลและทำความสะอาดข้อมูล
2.2 การเตรียมข้อมูล (data preparation)
2.2.1 การทำความสะอาดข้อมูล (data cleansing)
ข้อมูลที่รวบรวมมานั้นอาจมีข้อผิดพลาดซึ่งไม่เหมาะสมที่จะนำไปประมวลผล เช่น มีค่าว่าง มีค่าที่อยู่นอกขอบเขตค่าที่เป็นไปได้ หน่วยนับไม่ตรงกัน ค่าผิดปกติ (outlier) ตลอดจนมีรูปแบบที่ต่างกัน
ข้อผิดพลาดเหล่านี้เกิดจากหลายสาเหตุ เช่น ผู้ให้ข้อมูลกรอกข้อมูลไม่ครบถ้วนผู้บันทึกข้อมูลพิมพ์ข้อมูลผิดพลาดหรือการขาดข้อกำหนดในการบันทึกข้อมูลที่ตรงกัน
การแก้ไขข้อมูลเมื่อพบว่ามีข้อผิดพลาดหากสามารถทำการแก้ไขได้ให้ดำเนินการแก้ไขให้ถูกต้อง หรือลบข้อมูลนั้นออกไปถ้าไม่ส่งผลกระทบต่อการประมวลผลซึ่งการจัดเตรียมข้อมูลที่มีจำนวนไม่มากอาจจะใช้คนดำเนินการตรวจสอบและแก้ไขข้อมูลได้ หากข้อมูลมีจำนวนมากอาจจะต้องใช้โปรแกรมคอมพิวเตอร์ดำเนินการจัดเตรียมข้อมูลให้สอดคล้องกับเงื่อนไขและรูปแบบของข้อมูลที่กำหนดในโปรแกรม เมื่อได้ข้อมูลที่ผ่านการตรวจสอบและทำความสะอาดแล้ว นักเรียนอาจประมวลผลข้อมูลด้วยการเขียนโปรแกรมหรือใช้โปรแกรมสำเร็จรูป ขั้นตอนการนำเข้าอาจมีการคัดลอกแฟ้มข้อมูลและจัดให้เป็นระบบอย่างไรก็ตามถ้านักเรียนประมวลผลข้อมูลด้วยโปรแกรมตารางทำงาน เช่น Microsoft Excel หรือ Google Sheet นักเรียนจะต้องจัดการข้อมูลที่มากจากหลายแหล่งให้เป็นระเบียบในรูปแบบเดียวกันเพื่อให้สามารถประมวลผลข้อมูลได้ถูกต้อง
จากการตรวจสอบข้อมูลระเบียนผู้ป่วยของโรงพยาบาลแห่งหนึ่ง เมื่อวันที่ 6 มีนาคม 2560 พบว่า ข้อมูลผิดพลาด 4 รายการ ดังตาราง ให้ระบุข้อผิดพลาดของข้อมูลพร้อมอธิบายเหตุผล
2.2.2 การแปลงข้อมูล (data transformation)
เป้าหมายของการแปลงข้อมูล (Data Transformation) คือเตรียมข้อมูลในรูปแบบที่พร้อมสำหรับการประมวลผล โดยรูปแบบของข้อมูลที่พร้อมประมวลผลในโปรแกรมตารางทำงานจะเป็นตารางที่แต่ละแถวคือข้อมูลหนึ่งตัวอย่างและแต่ละคอลัมน์คือข้อมูลแอตทริบิวต์ของตัวอย่างนั้น ควรเก็บข้อมูลคำอธิบายถึงชื่อหรือความหมายของแต่ละแอตทริบิวต์ นักเรียนสามารถแปลงข้อมูลได้หลายแบบขึ้นกับความสนใจว่าต้องการหาคำตอบเกี่ยวกับอะไร ดังต่อไปนี้
1. การลดจำนวนข้อมูล การลดจำนวนข้อมูลเป็นเลือกเฉพาะข้อมูลที่สนใจ เพื่อจัดเตรียมข้อมูลก่อนการ
ประมวลผล ตัวอย่างเช่น จากชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือนสังเกตว่าตารางดังกล่าวแต่ละแถวเป็นข้อมูลของแต่ละจังหวัดและแต่ละคอลัมน์แสดงรายได้เฉลี่ยต่อครัวเรือนในปี พ.ศ. ต่าง ๆ อย่างไรก็ตามยังมีแถวข้อมูลที่เป็นข้อมูลสรุปแยกตามภาคและข้อมูลรวมทั่วราชอาณาจักรด้วย
ถ้านักเรียนต้องการเปรียบเทียบรายได้เฉลี่ยต่อครัวเรือนของทุกจังหวัด โดยสนใจเฉพาะรายได้ปี พ.ศ. 2558 นักเรียนต้องเลือกข้อมูลเฉพาะที่เป็นรายจังหวัด โดยตัดแถวที่เป็นข้อมูลรวมรายภาคและรวมทั้งประเทศและตัดคอลัมน์ (แอตทริบิวต์) อื่น ๆ ที่ไม่ใช่ปี พ.ศ. 2558 สังเกตว่าในกรณีนี้ตัวอย่างคือการเลือกเฉพาะข้อมูลจังหวัดและข้อมุลปี พ.ส. 2558 ดังรูป 2.2.2 ก (เฉพาะแถวและคอลัมน์ที่ไม่ได้ระบายสี)
รูป 2.2.2 ก ข้อมูลรายได้เฉลี่ยแต่ละจังหวัดเฉพาะปี พ.ศ. 2558
? ถ้านักเรียนต้องการ เปรียบเทียบข้อมูลรายภาค ปี พ.ศ. 2558 นักเรียนต้องเลือกเก็บข้อมูลสรุปรายภาคไว้ และตัดข้อมูลอื่นออกดังรูป 2.2.2 ข (เฉพาะแถวและคอมลัมน์ที่ไม่ได้ระบายสี) จะคู่กับภาพ 2.5 ข
รูป 2.2.2 ข ข้อมูลรายได้เฉลี่ยรายภาค ปี พ.ศ. 2558
? หรือถ้านักเรียนต้องการ พิจารณาการเปลี่ยนแปลงของรายได้เฉลี่ยในภาพรวมของทั้งประเทศ ตั้งแต่ปี พ.ศ. 2541 - 2558 นักเรียนจะใช้ข้อมูลแถวแรกเท่านั้น ดังรูป 2.2.2 ค ข้อมูลรายได้เฉลี่ยในภาพรวมของทั้งประเทศ ตั้งแต่ปี พ.ศ. 2541 - 2558
รูป 2.2.2 ค ข้อมูลรายได้เฉลี่ยในภาพรวมของทั้งประเทศ ตั้งแต่ปี พ.ศ. 2541 - 2558
2. การเพิ่มจำนวนข้อมูล จากชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือนจำแนกตามภาคและจังหวัด สามารถจัดระเบียบข้อมูล โดยแยกข้อมูลภาคและจังหวัดออกเป็น 2 คอลัมน์ จะช่วยให้การนำไปประมวลผลได้ง่ายยิ่งขึ้น
3. การรวมข้อมูล การรวมข้อมูลเป็นการจัดกลุ่มข้อมูลที่มีค่าสอดคล้องกับเงื่อนไขที่กำหนดในแอตทริบิวต์ที่สนใจ เช่น นักเรียนต้องการตั้งคำถามว่า "จังหวัดใดมีรายได้เฉลี่ยต่อครัวเรือนอยู่ในระดับต่ำ ปานกลาง และสูง" ในกรณีนี้นักเรียนอาจกำหนดเงื่อนไขรายได้เฉลี่ยต่อครัวเรือนในแต่ละระดับ เป็นดังนี้
ระดับต่ำ หมายถึง มีรายได้อยู่ระหว่าง 15,001 - 20,000 บาท
ระดับปานกลาง หมายถึง มีรายได้อยู่ระหว่าง 20,001 - 25,000 บาท
ระดับสูง หมายถึง มีรายได้อยู่ระหว่าง 25,001 - 30,000 บาท
2.2.3 การเชื่อมโยงข้อมูล
ในกรณีที่ต้องการใช้ข้อมูลของกลุ่มตัวอย่างที่มีการเผยแพร่จากหลายแหล่งหรือไฟล์ข้อมูลที่ต่างกัน เช่น ต้องการใช้ข้อมูลรายได้และรายจ่ายของครัวเรือนในแต่ละจังหวัด ที่มีการเผยแพร่จากแหล่งข้อมูลต่างกัน
การเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกันทำได้โดยใช้แอตทริบิวต์เดียวกันจากทั้งสองแหล่งเป็นตัวเชื่อม เช่น ข้อมูลรายจ่ายเฉลี่ยต่อครัวเรือนและข้อมูลรายได้เฉลี่ยต่อครัวเรือนมีแอตทริวบิวต์ที่เหมือนกันคือ จังหวัด ดังนั้นจะใช้จังหวัดเป็นตัวเชื่อมโยงข้อมูลจากทั้งสองแหล่ง
กิจกรรมที่ 2.2 ดาวน์โหลดไฟล์ รายได้เฉลี่ยต่อเดือนต่อครัวเรือน 41-58.xls