ทำความรู้จักกับข้อมูล (Data) ให้มากขึ้น ตอน 1

ข้อมูล (Data) หมายถึง ข้อเท็จจริงหรือเรื่องราวที่เกี่ยวข้องกับสิ่งต่าง ๆ เช่น คน สัตว์ สิ่งของสถานที่ โดยอยู่ในรูปแบบที่ เหมาะสมต่อการสื่อสาร การแปลความหมายและการประมวลผล ซึ่งข้อมูลอาจจะได้มาจากการสังเกต การรวบรวม การวัด ข้อมูลเป็นได้ทั้งข้อมูลตัวเลขหรือสัญญลักษณ์ใด ๆ ที่สำคัญจะต้องมีความเป็นจริงและต่อเนื่องตัวอย่างของข้อมูล เช่น คะแนนสอบ ชือนักเรียน  เพศ  อายุ เป็นต้น

ข้อมูลคือสิ่งที่สำคัญที่สุดในกระบวนการของ Machine Learning เลยก็ว่าได้ หากเราไม่มีข้อมูล เราจะสร้าง AI ให้เรียนรู้อะไร? หากเราไม่มีหนังสือ ไม่มีคุณครู เราจะไปโรงเรียนทำไมกัน? ดังนั้น ในบทความนี้เรามารู้จักกับข้อมูลให้มากขึ้นดีกว่าครับ

คนที่เคยเรียนสถิติ (หรือยังไม่เคยเรียนก็ตาม) อาจจะเคยได้ยินคำว่า Population กับ Sample ซึ่งทั้งสองคำนี้ก็หมายถึงจำนวนคน หรือ จำนวนของ หรือ จำนวนนับอะไรก็ตาม เช่น คน 10 คน เค้ก 20 ก้อน วัน 35 วัน ผมเชื่อว่าหลายๆคนคงจะคิดว่า คำว่า Population กับ Sample เป็นคำๆเดียวกัน หรือ หมายถึงสิ่งเดียวกัน หากคุณคิดเช่นนั้น เป็นคำตอบที่ ผิดถนัด ครับ

คำว่า Population กับ Sample หมายถึงจำนวนก็จริง แต่มีความแตกต่างกันแบบมีนัยยะสำคัญ โดย Population หมายถึง ประชากรที่เราสนใจทั้งหมด และ Sample หมายถึง ประชากรที่เราสุ่มเลือกมาจากประชากรทั้งหมด ซึ่งจะเป็น Sample ได้นั้นจะต้องผ่านกฎสองข้อดังนี้

1. Randomness หมายถึง Sample จะต้องถูกสุ่มเลือกมาเท่านั้น (ไม่สามารถล็อกสเป็คได้)

2. Representativeness หมายถึง Sample ที่เลือกมานั้นจะต้องเป็นตัวแทนจากประชากรทั้งหมดเท่านั้น

หากฟังดูจากทั้งสองข้อ ก็พบว่า Sample นั้นเป็น Subset ของประชากรนั่นเอง เพื่อความเข้าใจที่มากขึ้น เรามาดูตัวอย่างกันดีกว่าครับ ตัวอย่าง เช่น เราสนใจความสูงเฉลี่ยของผู้ชายไทย เราจะพบว่า Population นั้นคือ ผู้ชายไทยทั่วประเทศ อาจจะมีประมาณ 30 ล้านคน แล้วเราสามารถไปหาความสูงของคน 30 ล้านคนได้ไหม? คำตอบคือ ได้ แต่ ยากมาก และ ใช้เวลานาน เรียกว่าเป็นไปไม่ได้คงดีกว่า ดังนั้น เราจะหาความสูงเฉลี่ยของผู้ชายไทยสัก 500 คนละกัน เราเลือกผู้ชายตัวเล็กๆแถวบ้านมาวัดความสูง 500 คนแล้วสรุปว่าเป็นความสูงเฉลี่ยของผู้ชายไทยเลยได้ไหม ? คำตอบคือไม่ได้ครับ และจะไม่ใกล้เคียงเลย ดังนั้น เป็นสาเหตุว่า ทำไม Sample ถึงเกิดขึ้นมา เนื่องจากเราไม่สามารถวัดความสูงคน 30 ล้านคนใด ดังนั้น เราจะเลือก Sample มาสัก 500 คน ก็น่าจะบอกความสูงเฉลี่ยได้ในระดับหนึ่ง (อาจจะไม่เป๊ะมาก) แต่เราก็ไม่สามารถเลือกใครก็ได้ยังไงล่ะครับ เราจึงต้องมีกฎเข้ามา

1. Randomness เราจะต้องเลือกแบบสุ่มเท่านั้น ไม่สามารถเลือกเฉพาะคนตัวเตี้ย หรือ คนตัวสูง หรือ คนที่เราชอบได้

2. Representativeness เราจะต้องเลือกคนที่เป็นตัวแทนของกลุ่มเท่านั้น เช่น เราไม่สามารถเลือกผู้ชายพม่าได้ เพราะเราสนใจแต่คนไทย เราไม่สามารถเลือกเฉพาะพื้นที่ได้ เช่น เลือกเฉพาะกรุงเทพ ผู้ชายกรุงเทพอาจจะมีความสูงมากกว่าจังหวัดอื่นๆก็ได้ ดังนั้นควรจะเลือกให้ครอบคลุมจังหวัดอื่นๆ หรือ พื้นที่อื่นๆ เช่นกัน

ทั้งหมดนี้ก็เพื่อให้ค่าเฉลี่ยความสูงที่เราหามีความน่าเชื่อถือนั่นเอง

Sources:

https://sites.google.com/site/wichuda0po/khxmul-hmay-thung-xar

http://pibul2.psru.ac.th/~buncha/Chp1_2.htmi

Write a comment