สาระสำคัญ
2.3 การสำรวจข้อมูล (data exploration) ขั้นตอนหลักของกระบวนการการสำรวจข้อมูล คือการทดลองวาดแผนภาพ หรือกราฟของข้อมูลในรูปแบบต่าง ๆ เพื่อพิจารณาภาพรวมของข้อมูล ระหว่างการสำรวจอาจจะพบข้อผิดพลาดหรือปัญหาอื่นๆ จากการตั้งคำถาม หรือการรวบรวมข้อมูล ซึ่งทำให้ต้องกลับไปดำเนินการแก้ไขให้ถูกต้อง เช่น พบว่ามีข้อมูลสูญหาย ข้อมูลผิดรูปแบบ ข้อมูลมีค่าผิดปกติ เครื่องมือพื้นฐานในการสำรวจข้อมูล เช่น กราฟเส้น ฮิสโทแกรม แผนภาพกล่อง หรือแผนภาพการกระจาย
ไฟล์รายได้เฉลี่ยต่อครัวเรือน คลิก
2.3.1 การสำรวจข้อมูลโดยใช้กราฟเส้น
เมื่อพิจารณาชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือน อาจใช้กราฟเส้น เพื่อแสดงรายได้เฉลี่ยต่อครัวเรือนแต่ละปีจำแนกตามภาค ซึ่งผลจากการสำรวจข้อมูลโดยใช้กราฟเส้น จะเห็นว่ารายได้เฉลี่ยต่อครัวเรือนนั้นแตกต่างกันตามภูมิภาค โดยภาพรวมแล้วรายได้เฉลี่ยต่อครัวเรือนมีแนวโน้มเพิ่มขึ้นในทุกภาคจนถึงปี พ.ศ. 2556 แต่สำหรับภาคกลางตอนพิเศษ (รวมกรุงเทพมหานครและจังหวัดใกล้เคียง) และภาคใต้ รายได้มีแนวโน้มลดลงหลังปี พ.ศ. 2556
2.3.2 การสำรวจข้อมูลโดยใช้ฮิสโทแกรม
การสำรวจข้อมูลเพื่อแสดงความถี่ของสิ่งที่สนใจ อาจใช้ฮิสโทแกรม ตัวอย่างเช่น ในชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือน ถ้าต้องการสำรวจรายได้เฉลี่ยของประชากรในแต่ละจังหวัด ฮิสโทแกรมจะแสดงผลข้อมูลความถี่
2.3.3 การสำรวจข้อมูลโดยใช้แผนภาพการกระจาย
การใช้แผนภาพการกระจาย (scatter plot) เพื่อแสดงความสัมพันธ์ระหว่าง 2 แอตทริบิวต์ ตัวอย่างเช่น รายได้เฉลี่ยต่อครัวเรือน 41-58 ถ้าต้องการสำรวจว่า ทั้ง 2 แอตทริบิวต์นี้มีความสัมพันธ์กันหรือไม่ การสำรวจข้อมูลด้วยแผนภาพการกระจาย จะแสดงให้เห็นว่ามีความสัมพันธ์ระหว่างรายได้และรายจ่าย โดยมีแน้วโน้มถ้ารายได้เพิ่มขึ้น รายจ่ายก็จะเพิ่มขึ้นด้วย
2.3.4 การสำรวจข้อมูลโดยใช้แผนภาพกล่อง
บางครั้งภายในข้อมูลชุดเดียวอาจประกอบไปด้วยกลุ่มย่อยหลาย ๆ กลุ่ม ซึ่งทำให้สามารถพิจารณาข้อมูลแต่ ละกลุ่มแยกกันได้ และอาจเห็นลักษณะพิเศษบางอย่าง ตัวอย่างเช่น ในกรณีของข้อมูลรายได้ในแต่ละจังหวัด มีการ นำเสนอรายได้เฉลี่ยต่อครัวเรือนรายภาค
ถ้าพิจารณารายละเอียดในแต่ละภาค โดยหาค่าสูงสุด ต่ำสุด และค่าควอไทล์ต่าง ๆ ของแต่ละภาคจะเห็นรายละเอียดข้อมูลมากขึ้น และเมื่อนำค่าเหล่านี้มาวาดแผนภาพกล่อง (box plot) จะเห็นว่า ภาคกลางนั้นแม้จะมีความแตกต่างของรายได้ระหว่างควอไทล์ที่ 1 และ 3 ไม่มากนัก แต่จะมีความแตกต่างระหว่างรายได้สูงสุดกับรายได้ต่ำสุดมาก นอกจากนี้จังหวัดที่มีรายได้สูงสุดของภาคกลาง ยังมีรายได้ใกล้เคียงกับรายได้สูงสุดของกลุ่มจังหวัดภาคกลางตอนพิเศษด้วย
2.3.5 การสำรวจข้อมูลด้วยการเขียนโปรแกรม
การสำรวจข้อมูลด้วยการเขียนโปรแกรม จะต้องนำเข้าข้อมูลสู่โปรแกรมที่ใช้สำหรับการประมวลผล โดยถ้าข้อมูลมีปริมาณไม่มาก ในขั้นตอนการเตรียมข้อมูล นักเรียนสามารถเตรียมข้อมูลจากไฟล์ที่อยู่ในรูปแบบ xls หรือ cvs ก่อนเริ่มการนำเข้าข้อมูล จากนั้นจึงเลือกใช้การประมวลผลด้วยโปรแกรมสำเร็จรูป หรือการเขียนโปรแกรม แต่หากข้อมูลมีปริมาณมากเกินกว่าที่โปรแกรมสำเร็จรูปจะสามารถจัดเก็บหรือประมวลผลได้ นักเรียนจำเป็นต้องใช้วิธีการนำเข้าและประมวลผลข้อมูลด้วยโปรแกรมภาษา หรือใช้โปรแกรมสำเร็จรูปเฉพาะสำหรับงานด้านวิทยาการข้อมูล ซึ่งในกรณีนี้ นักเรียนไม่จำเป็นต้องดำเนินการจัดเตรียมข้อมูลตามขั้นตอนที่กล่าวมาแล้วข้างต้น 1.สสวท ได้จัดเตรียมวิดีโอสำหรับศึกษาการสำรวจข้อมูลโดยใช้เครื่องมืออื่น ๆ เช่น Tableau, Python, R โดยผู้เรียนสามารถเข้าไปศึกษาได้ที่ https://data.programming.in.th/ ให้เลือกศึกษาตามความสนใจและความถนัดของตนเอง
2.การติดตั้งและใช้งานโปรแกรมภาษา Python >>คลิก
3.การติดตั้งการใช้งาน Jupyter notebook >> คลิก