หลังจากที่เราได้เรียนรู้เกี่ยวกับ Data เบื้องต้นกันไปแล้วในตอนที่ 1 2 นะครับ เราก็ได้ทราบแล้วว่า Population กับ Sample นั้น แตกต่างกันอย่างมีนัยยะสำคัญเลยทีเดียว บางคนอาจจะคิดว่า มันคงต่างกันแค่วิธีการเลือกเท่านั้น แต่จริงๆแล้ว ในบทนี้ เราจะพูดถึงความแตกต่างของมันในเชิงคำนวณกันบ้างครับ สำหรับวิชาสถิตินั้น สิ่งที่สำคัญที่สุดที่จะขาดไม่ได้เลยนั่นก็คือ การวัดค่าต่างๆ (Measurement) โดยในบทนี้นะครับเราจะพูดถึง ความสำคัญของการวัดค่าต่างๆ สูตรการคำนวณ และตัวอย่างการใช้งานกัน สำหรับตัวอย่างแรกนะครับ นั่นก็คือ
1. Mean (Average) ก็คือค่าเฉลี่ยของข้อมูลนั่นเอง ซึ่งทุกคนน่าจะทำกันเป็นอยู่แล้ว เพียงแค่นำค่าของสมาชิกทุกตัวมารวมกันแล้วหารได้จำนวนทั้งหมด สำหรับค่าเฉลี่ยของ Population และ Sample นั่นจะถูกเรียกต่างกัน โดย Population Mean จะเรียกว่า มิว และ Sample Mean จะถูกเรียกว่า เอ็กซ์บาร์ ดังที่แสดงในรูปด้านล่างครับ แต่สำหรับการคำนวณแล้ว ทั้งมิวและเอ็กซ์บาร์จะได้ค่าเท่ากันเนื่องจาก สูตรเหมือนกันครับ
โดย มีชื่อว่าซิกม่า คือผลรวมของค่า X และ N คือ จำนวนสมาชิกทั้งหมด
ตัวอย่างเช่น มีข้อมูลคะแนนของเด็กห้องหนึ่ง มีเด็กทั้งหมด 6 คน โดยได้คะแนน 5,6,5,8,9,10
คะแนนเฉลี่ยทั้งมิวและเอ็กซ์บาร์ จะได้ 8.6
2. Median หรือค่ากลางของข้อมูล โดย Median จะแตกต่างจาก Mean ที่ เราจะไม่ได้คิดผลรวม แต่เราจะหาค่าที่อยู่ตรงกลางแทน เช่น หากเราใช้ข้อมูลชุดเดิม มีสมาชิก 6 ตัว เราจะได้ค่ากลางเท่ากับ ตำแหน่งที่ 3 และ ตำแหน่งที่ 4 แต่เราต้องเรียงค่าจากน้อยไปมากก่อน เราจะได้ 5 5 6 8 9 10 ค่ากลางของตำแหน่งที่สามและสี่จะได้ 6+8 / 2 = 7 นั่นเองครับ และหากมีค่าสมาชิกเป็นเลขคี่ เราก็จะสามารถหาค่ากลางได้เลย โดยไม่ต้องหาค่าเฉลี่ยของสองตัวตรงกลาง
3. Variance หรือค่าความแปรปรวนของข้อมูล สำหรับค่า Variance ของ Population และ Mean จะใช้คนละสูตร นั่นหมายความว่าเราจะไม่ได้ค่าที่เท่ากัน
โดยสูตร Variance ของ Population นั้นคือ ผลรวมของค่าของสมาชิกนั้นลบด้วยค่าเฉลี่ย ยกกำลังสอง และ หารด้วยจำนวนสมาชิกทั้งหมด สำหรับ Sample จะหารด้วยจำนวนสมาชิกทั้งหมดลบหนึ่ง ทีนี้เรามาดูตัวอย่างด้วยข้อมูลชุดเดิมครับ
5,6,5,8,9,10 หากนำมาเรียงจากน้อยไปมาก (ไม่จำเป็นต้องทำ) >>> 5 5 6 8 9 10
ดังนั้น เราจะได้ ( 5 – 8.6 )^2 + ( 5 – 8.6 )^2 + ( 6 – 8.6 )^2 + ( 8 – 8.6 )^2 + ( 9 – 8.6 )^2 + ( 10 – 8.6 )^2 = 35.16 เมื่อนำไปหารจำนวนสมาชิกทั้งหมด 35.16/6 = 5.86
เราจะได้ว่า 5.86 คือ ค่า Population Variance ของข้อมูลชุดนี้ และ หากเป็น Sample Variance ก็เพียงแค่เปลี่ยนตัวหารเป็น n-1 = 5 เราจะได้ Sample Variance เป็น 35.16/5 = 7.032
โดยความสำคัญของ Variance ก็จะบอกเราว่า ข้อมูลมีการกระจายห่างจากกันมากเพียงใดนั่นเองครับ
4. Standard Deviation (STD) หรือส่วนเบี่ยงเบนมาตรฐาน สำหรับค่านี้เป็นเพียงแค่ค่า Variance ใส่ Square root นั่นเองครับ
โดยคิดจากตัวอย่างข้อ 3 เราจะได้ Population STD = Square root ของ 5.86 = 2.42 และ Sample STD = Square root ของ 7.032 = 2.652 นั่นเองครับ โดย STD ต่างจาก Variance เพียงแค่ STD มีหน่วยเป็นหน่วยเดียวกับข้อมูลต้นฉบับ เช่น คะแนน เราจะมองได้ว่า ข้อมูลชุดนี้มีการเบี่ยงเบนประมาณ 2 กว่าๆ แต่หาก Variance จะเป็นหน่วยยกกำลังสองทำให้มองยากกว่านั่นเองครับ