สาระสำคัญ
เมื่อเลือกแหล่งข้อมูลและรวบรวมข้อมูลได้แล้ว ขั้นตอนถัดไปคือการเตรียมข้อมูล เพื่อเตรียมพร้อมสำหรับการประมวลผล ซึ่งข้อมูลที่จะใช้ในการประมวลผลนี้จะต้องมีความถูกต้อง ครบถ้วน สมบูรณ์ และไม่มีข้อมูลที่มีค่าผิดปกติ ดังนั้นก่อนจะนำข้อมูลไปใช้ จะต้องมีการจัดเตรียมข้อมูล และทำความสะอาดข้อมูล
2.2 การเตรียมข้อมูล (data preparation)
2.2.1 การทำความสะอาดข้อมูล (data cleansing)
ข้อมูลที่รวบรวมมานั้น อาจมีข้อผิดพลาด ซึ่งไม่เหมาะสมที่จะนำไปประมวลผล เช่น มีค่าว่าง มีค่าที่อยู่นอกขอบเขตค่าที่เป็นไปได้ หน่วยนับไม่ตรงกัน ค่าผิดปกติ (outlier) ตลอดจนมีรูปแบบที่ต่างกัน
ข้อผิดพลาดเหล่านี้เกิดจากหลายสาเหตุ เช่น ผู้ให้ข้อมูลกรอกข้อมูลไม่ครบถ้วน ผู้บันทึกข้อมูลพิมพ์ข้อมูลผิดพลาด หรือการขาดข้อกำหนดในการบันทึกข้อมูลที่ตรงกัน
การแก้ไขข้อมูลเมื่อพบว่ามีข้อผิดพลาดหากสามารถทำการแก้ไขได้ให้ดำเนินการแก้ไขให้ถูกต้อง หรือลบข้อมูลนั้นออกไปถ้าไม่ส่งผลกระทบต่อการประมวลผล ซึ่งการจัดเตรียมข้อมูลที่มีจำนวนไม่มากอาจจะใช้คนดำเนินการตรวจสอบและแก้ไขข้อมูลได้ หากข้อมูลมีจำนวนมากอาจจะต้องใช้โปรแกรมคอมพิวเตอร์ดำเนินการจัดเตรียมข้อมูลให้สอดคล้องกับเงื่อนไขและรูปแบบของข้อมูลที่กำหนดในโปรแกรม เมื่อได้ข้อมูลที่ผ่านการตรวจสอบและทำความสะอาดแล้ว นักเรียนอาจประมวลผลข้อมูลด้วยการเขียนโปรแกรมหรือใช้โปรแกรมสำเร็จรูป ขั้นตอนการนำเข้าอาจมีการคัดลอกแฟ้มข้อมูลและจัดให้เป็นระบบ อย่างไรก็ตามถ้านักเรียนประมวลผลข้อมูลด้วยโปรแกรมตารางทำงาน เช่น Microsoft Excel , LibreOffice Calc หรือ Google Sheet นักเรียนจะต้องจัดการข้อมูลที่มากจากหลายแหล่งให้เป็นระเบียบในรูปแบบเดียวกันเพื่อให้สามารถประมวลผลข้อมูลได้ถูกต้อง
จากการตรวจสอบข้อมูลระเบียนผู้ป่วยของโรงพยาบาลแห่งหนึ่ง เมื่อวันที่ 6 มีนาคม 2560 พบว่า ข้อมูลผิดพลาด 4 รายการ ดังตาราง ให้ระบุข้อผิดพลาดของข้อมูลพร้อมอธิบายเหตุผล
2.2.2 การแปลงข้อมูล (data transformation)
เป้าหมายของการแปลงข้อมูล (Data Transformation) คือเตรียมข้อมูลในรูปแบบที่พร้อมสำหรับการประมวลผล โดยรูปแบบของข้อมูลที่พร้อมประมวลผลในโปรแกรมตารางทำงานจะเป็นตารางที่แต่ละแถวคือข้อมูลหนึ่งตัวอย่าง และแต่ละคอลัมน์คือข้อมูลแอตทริบิวต์ของตัวอย่างนั้น ควรเก็บข้อมูลคำอธิบายถึงชื่อหรือความหมายของแต่ละแอตทริบิวต์ นักเรียนสามารถแปลงข้อมูลได้หลายแบบขึ้นกับความสนใจว่าต้องการหาคำตอบเกี่ยวกับอะไร ดังต่อไปนี้
1. การลดจำนวนข้อมูล การลดจำนวนข้อมูลเป็นเลือกเฉพาะข้อมูลที่สนใจ เพื่อจัดเตรียมข้อมูลก่อนการ
ประมวลผล ตัวอย่างเช่น จากชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือน สังเกตว่าตารางดังกล่าวแต่ละแถวเป็นข้อมูลของแต่ละจังหวัด และแต่ละคอลัมน์แสดงรายได้เฉลี่ยต่อครัวเรือนในปี พ.ศ. ต่าง ๆ อย่างไรก็ตาม ยังมีแถวข้อมูลที่เป็นข้อมูลสรุปแยกตามภาคและข้อมูลรวมทั่วราชอาณาจักรด้วย
ถ้านักเรียนต้องการ เปรียบเทียบรายได้เฉลี่ยต่อครัวเรือนของทุกจังหวัด โดยสนใจเฉพาะรายได้ปี พ.ศ. 2558 นักเรียนต้องเลือกข้อมูลเฉพาะที่เป็นรายจังหวัด โดยตัดแถวที่เป็นข้อมูลรวมรายภาคและรวมทั้งประเทศ และตัดคอลัมน์ (แอตทริบิวต์) อื่น ๆ ที่ไม่ใช่ปี พ.ศ. 2558 สังเกตว่าในกรณีนี้ตัวอย่างคือการเลือกเฉพาะข้อมูลจังหวัด และข้อมุลปี พ.ส. 2558 ดังรูป 2.2.2 ก (เฉพาะแถวและคอลัมน์ที่ไม่ได้ระบายสี)
รูป 2.2.2 ก ข้อมูลรายได้เฉลี่ยแต่ละจังหวัดเฉพาะปี พ.ศ. 2558
? ถ้านักเรียนต้องการ เปรียบเทียบข้อมูลรายภาค ปี พ.ศ. 2558 นักเรียนต้องเลือกเก็บข้อมูลสรุปรายภาคไว้ และตัดข้อมูลอื่นออกดังรูป 2.2.2 ข (เฉพาะแถวและคอมลัมน์ที่ไม่ได้ระบายสี) จะคู่กับภาพ 2.5 ข
รูป 2.2.2 ข ข้อมูลรายได้เฉลี่ยรายภาค ปี พ.ศ. 2558
? หรือถ้านักเรียนต้องการ พิจารณาการเปลี่ยนแปลงของรายได้เฉลี่ยในภาพรวมของทั้งประเทศ ตั้งแต่ปี พ.ศ. 2541 - 2558 นักเรียนจะใช้ข้อมูลแถวแรกเท่านั้น ดังรูป 2.2.2 ค ข้อมูลรายได้เฉลี่ยในภาพรวมของทั้งประเทศ ตั้งแต่ปี พ.ศ. 2541 - 2558
รูป 2.2.2 ค ข้อมูลรายได้เฉลี่ยในภาพรวมของทั้งประเทศ ตั้งแต่ปี พ.ศ. 2541 - 2558
2. การเพิ่มจำนวนข้อมูล จากชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือนจำแนกตามภาคและจังหวัด สามารถจัดระเบียบข้อมูล โดยแยกข้อมูลภาคและจังหวัดออกเป็น 2 คอลัมน์ จะช่วยให้การนำไปประมวลผลได้ง่ายยิ่งขึ้น
3. การรวมข้อมูล การรวมข้อมูลเป็นการจัดกลุ่มข้อมูลที่มีค่าสอดคล้องกับเงื่อนไขที่กำหนดในแอตทริบิวต์ที่สนใจ เช่น นักเรียนต้องการตั้งคำถามว่า "จังหวัดใดมีรายได้เฉลี่ยต่อครัวเรือนอยู่ในระดับต่ำ ปานกลาง และสูง" ในกรณีนี้ นักเรียนอาจกำหนดเงื่อนไขรายได้เฉลี่ยต่อครัวเรือนในแต่ละระดับ เป็นดังนี้
ระดับต่ำ หมายถึง มีรายได้อยู่ระหว่าง 15,001 - 20,000 บาท
ระดับปานกลาง หมายถึง มีรายได้อยู่ระหว่าง 20,001 - 25,000 บาท
ระดับสูง หมายถึง มีรายได้อยู่ระหว่าง 25,001 - 30,000 บาท
2.2.3 การเชื่อมโยงข้อมูล
ในกรณีที่ต้องการใช้ข้อมูลของกลุ่มตัวอย่างที่มีการเผยแพร่จากหลายแหล่ง หรือไฟล์ข้อมูลที่ต่างกัน เช่น ต้องการใช้ข้อมูลรายได้และรายจ่ายของครัวเรือนในแต่ละจังหวัด ที่มีการเผยแพร่จากแหล่งข้อมูลต่างกัน
การเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน ทำได้โดยใช้แอตทริบิวต์เดียวกันจากทั้งสองแหล่งเป็นตัวเชื่อม เช่น ข้อมูลรายจ่ายเฉลี่ยต่อครัวเรือนและข้อมูลรายได้เฉลี่ยต่อครัวเรือน มีแอตทริวบิวต์ที่เหมือนกันคือ จังหวัด ดังนั้นจะใช้จังหวัดเป็นตัวเชื่อมโยงข้อมูลจากทั้งสองแหล่ง
3. การรวมข้อมูล การรวมข้อมูลเป็นการจัดกลุ่มข้อมูลที่มีค่าสอดคล้องกับเงื่อนไขที่กำหนดในแอตทริบิวต์ที่สนใจ เช่น นักเรียนต้องการตั้งคำถามว่า "จังหวัดใดมีรายได้เฉลี่ยต่อครัวเรือนอยู่ในระดับต่ำ ปานกลาง และสูง" ในกรณีนี้ นักเรียนอาจกำหนดเงื่อนไขรายได้เฉลี่ยต่อครัวเรือนในแต่ละระดับ เป็นดังนี้
ระดับต่ำ หมายถึง มีรายได้อยู่ระหว่าง 15,001 - 20,000 บาท
ระดับปานกลาง หมายถึง มีรายได้อยู่ระหว่าง 20,001 - 25,000 บาท
ระดับสูง หมายถึง มีรายได้อยู่ระหว่าง 25,001 - 30,000 บาท
กิจกรรมที่ 2.2 ดาวน์โหลดไฟล์ รายได้เฉลี่ยต่อเดือนต่อครัวเรือน 41-58.xls