กลับมาต่อกันกับบทความ Box Plot กันนะครับ สำหรับในบทความนี้เราจะมาดูกันว่า Box Plot เกี่ยวข้องอันใดกับ Normal Distribution นะครับ
ก่อนอื่นเลย เรามาต่อกันที่ส่วนประกอบสุดท้ายของ Box Plot ที่เราค้างในในตอนนี้ที่แล้วนะครับ ส่วนนั้นก็คือ ค่าผิดปกติ หรือ Outliers นั่นเองครับ
9. ข้อมูลค่าผิดปกติ (Outliers) ซึ่งก็คือ ข้อมูลที่ผิดปกติ (Anomaly) กล่าวคือ ข้อมูลที่แตกต่างจากข้อมูลในชุดนั้นๆมากจนเกินไป โดย Outliers นั้น ไม่จำเป็นต้องมีเสมอไป ซึ่งบางชุดข้อมูลอาจจะมี บางชุดข้อมูลอาจจะไม่มีสำหรับการคำนวณหา Outliers นั้น สามารถหาได้โดยหาค่าที่น้อยกว่า 25% Percentile – 1.5*IQR และ ค่าที่มากกว่า 75% Percentile + 1.5*IQR
เมื่อพิจารณา Outleirs สำหรับชุดข้อมูลด้านบน เราไม่พบ Outliers เนื่องจาก 25% Percentile = 29 และ 1.5*IQR = 9 ดังนั้น 25% Percentile – 1.5*IQR = 29 – 9 = 20 และ 75% Percentile = 35 ดังนั้น 75% Percentile + 1.5*IQR = 35 + 9 = 44. เราจะเห็นได้ว่าในข้อมูลชุดดังกล่าว ไม่มีสมาชิกตัวใดมีค่าน้อย 20 และ ไม่มีสมาชิกตัวใดมีค่ามากกว่า 44 ดังนั้น เราจึงสรุปได้ว่า ชุดข้อมูลดังกล่าวไม่มี Outliers.
**Note: ในกรณีที่ชุดข้อมูลมี Outliers ค่า Min Max จะเปลี่ยนไป เนื่องจาก Outliers ไม่นับว่าเป็นค่า Min Max ดังนั้น เมื่อมีค่า Outliers ที่น้อยผิดปกติ ค่า Min ของข้อมูลชุดนั้นจะเท่ากับ 25% Percentile – 1.5*IQR หรือ ขอบเขตล่าง (เส้นขีดขวางข้างล่าง) และเมื่อมีค่า Outliers ที่มากผิดปกติ ค่า Max ของข้อมูลชุดนั้นจะกลายเป็น 75% Percentile + 1.5*IQR หรือ ขอบเขตบน (เส้นขีดขวางข้างบน)
อย่างที่ผมบอกไว้เมื่อ Box Plot ตอนที่ 1 Box Plot นั่นมีความหมายกับทางสถิติมาก บอกข้อมูลทางสถิติหลายอย่าง อีกทั้งยังมีความสัมพันธ์กับการแจกแจงแบบปกติ (Normal Distribution) อีกด้วย
เมื่อพิจาณาจาก Box Plot (ที่เป็น Normal Distribution) ด้านบน เราจะมีเห็นว่ามันมีบางสิ่งบางอย่างที่คล้ายคลึงกับ Normal Distribution อยู่พอสมควร โดยกราฟด้านล่างนั้นคือ Probability Density Function (PDF) ของการกระจายตัวอย่างปกติ (Normal Distribution) โดยเจ้า PDF นี้แหละครับที่เชื่อมความสัมพันธ์ของ Box Plot กับการมี Normal Distribution. ก่อนอื่นเรามาดูว่า PDF คืออะไร PDF คือฟังก์ชั่นบอกว่าเหตุการณ์มีโอกาสเกิดขึ้นมากน้อยเพียงใด (บอกความน่าจะเป็นของเหตุการณ์สุ่ม) และค่าของ Probability density function จะไม่มีทางเป็นลบ และพื้นที่ใต้โค้งทั้งหมดมีค่าเท่ากับ 1 เสมอ. โดยสิ่งที่พิเศษก็คือ ความน่าจะเป็นที่ได้มา (Probability) มาจากการทำอินทิกรัล Integral ของช่วงในกราฟ
สมการด้านบนเป็นสมการของ PDF แบบ Normal Distribution
เมื่อเป็น Normal Distribution เราจึงสมมติค่า Mean (μ) = 0 และค่า Standard Deviation (σ) = 1
เราจึงได้สมการนี้มา ซึ่งเป็นสมเดียวกับด้านบนแต่แทนค่า Mean = 0 และ STD = 1
เมื่อพิจาณาจากกราฟด้านบน เมื่อเราอินทิกรัลในช่วง -0.6746 ถึง 0.6745 จะได้ผลลัพธ์ = 0.5
จะได้ผลลัพธ์ = 0.5
ดังนั้น เราจะเห็นได้ว่า เมื่อเราทำอินทิกรัลของช่วง -0.6745 ถึง 0.6745 เราจะบอกได้ว่าเหตุการณ์สุ่มมีโอกาสเกิดมากถึง 50% จากภาพ Normal Distribution และ เป็นช่วง Q1 – Q3 ของ Box Plot พอดี หรือเราสามารถพูดได้ว่าระหว่างช่วง -0.6745 ของ STD และ 0.6745 ของ STD จะมีความหนาแน่นของความน่าจะเป็น 50% (ข้อมูล 50% จะอยู่บริเวณนี้ ซึ่งอยู่ระหว่าง Q1 – Q3 ของ Box Plot)
ในบทความหน้าเราจะมาต่อกันในเรื่องของ Box Plot กับ Normal Distribution ในส่วนที่เหลือ ตัวอย่างของการตีความ Normal Distribution กับ Box Plot ในบริบทของ Normal Distribution และ กล่าวถึงการนำ Box Plot ไปใช้จริงอย่างไร รอติดตามกันนะครับ
Sources:
https://www.simplypsychology.org/boxplots.html
https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51