หลังจากที่เราทำความรู้จักกับ Population และ Sample ในความหมายทางสถิติกันแล้ว ต่อมาเรามาทำความรู้จักกับประเภทของข้อมูลกันดีกว่าครับ ในบางที่อาจจะมีการแบ่งประเภทของข้อมูลมากกว่านี้ แต่บทความนี้จะเน้นไปกับข้อมูลที่เจอ และ ใช้ใน Machine Learning มากกว่าครับ
โดยข้อมูลจะถูกแบ่งออกเป็นสองประเภทหลักๆ นั่นก็คือ ข้อมูลแบบตัวอักษรอักขระ (Categorical) และ ข้อมูลแบบตัวเลขที่มีความหมายในทางคณิตศาสตร์ (Numerical) และข้อมูลแบบตัวเลขนั้นถูกแบ่งออกอีกเป็น 2 ประเภทย่อยนั่นคือ Discrete และ Continuous ต่อมา เรามาทำความรู้จักกับข้อมูลแต่ละประเภทกัน แบบแรก Categorical คือข้อมูลประเภทอักขระ หรือ ตัวหนังสือ เช่น ข้อมูลประเทศ เชื้อชาติ กรุ๊ปเลือด แต่ ข้อมูลตัวเลขก็สามารถเป็น Categorical ได้เช่นกัน แต่ตัวเลขนั้นจะไม่มีความหมายในทางคณิตศาสตร์ เช่น ข้อมูลอยู่ในลักษณะนี้
ในกรณีนี้ เราจะเห็นว่า เพศเป็นตัวเลขไม่ว่า ผู้หญิง = 0 แล้วผู้ชาย = 1 หรือ ผู้ชาย = 1 แล้ว ผู้หญิง = 0 แต่ตัวเลขเหล่านี้ไม่มีความหมายในทางคณิตศาสตร์เป็นแค่การบอกเลขใดแทนด้วยเพศใดเท่านั้น (ใช้ใน Machine Learning บ่อยมากๆครับ) ต่อมาข้อมูลแบบตัวเลขที่มีความหมายในทางคณิตศาสตร์ (Numerical) นั่นคือเหตุผลที่ผมย้ำว่า ต้องเป็นตัวเลขที่มีความหมายในทางคณิตศาสตร์เท่านั้น คือ เลขใดก็ได้เช่น 1 2 10 10.5 11.223 102.34 เราจะแบ่งข้อมูลประเภท Numerical ได้เป็นสองประเภทคือ Discrete คือเลขที่ลงตัว 1 2 3 10 15 50 80 100 120 122 155 180 200 เช่น จำนวนคน จำนวนวัน แต่ Continuous จะหมายช่วงของตัวเลข หรือ ตัวเลขที่มีทศนิยม เช่น 10.4 11.22 502.69852 เช่นความสูง สามารถเป็น 180 176 174.5 168.5653 หรือย่อยลงไปได้อีกเรื่อยๆ
หากเราเขียนแทนด้วยสัญลักษณ์ทางคณิตศาสตร์ เช่น [5,8] ถ้าเป็น Discrete จะมี 4 จำนวนหมายถึง 5,6,7,8 แต่ถ้าเป็น Continuous จะไม่สามารถนับได้ เพราะเป็นไปได้เยอะมากเช่น 5 5.1 5.11 5.112 5.1123 5.13456 ….. 7.112 …… 8 ดังนั้นเห็นความแตกต่างระหว่าง Discrete และ Continuous กันแล้ว การเรียนรู้ประเภทของข้อมูลจะมีประโยชน์มากๆเลยทีเดียวสำหรับผู้ที่สนใจด้านการเขียนโปรแกรม หรือ Machine Learning
Sources:
https://sites.google.com/site/wichuda0po/khxmul-hmay-thung-xar
machinelearningmastery.com/what-is-data-preparation-in-machine-learning/