มาต่อกันในเรื่องของ Box Plot กับความเกี่ยวข้องของ Normal Distribution โดยในบทความนี้นะครับ จะมาต่อกันที่ Normal Distribution.
เมื่อพิจารณาจากกราฟนี้เมื่อตอนที่แล้ว
ประโยคข้างบนอาจจะฟังแล้วงง เรามาลองฟังตัวอย่างกันดีกว่าครับ
สมมติว่า ค่าเฉลี่ยความสูงของเอเลี่ยนกลุ่มหนึ่ง = 200 เซนติเมตร และมี Standard Deviation = 10 (แต่งเลขให้ดูง่าย) เราจะได้ว่า 200 – 10×0.6745 = 193.255 และ 200 + 10×0.6745 = 206.745 นั่นหมายความว่า เอเลี่ยนที่สูงระหว่าง 193.255 ถึง 206.745 มีจำนวน 50% จาก จำนวนเอเลี่ยนทั้งหมด และ 193.255 คือ Q1 หรือ 25% Percentile ของ Box Plot และ 206.745 คือ 75% Percentile หรือ Q3 ของ Box Plot นั่นเองครับ เห็นแล้วใช่ไหมล่ะครับทั้ง Box Plot และ Normal Distribution มีความสัมพันธ์กัน
ทีนี้เรามาดูที่เหลือกันต่อครับ ก่อนอื่นย้อนกลับไปดูที่กราฟฉบับเต็ม
ต่อมาเราจะพิจารณาช่วงต่อมานั่นคือ 24.65 + 50 + 24.65 = 99.3% แล้วเราจะเหลือพื้นที่ของ Probability Density ที่ยังไม่พิจาณา แค่ 0.7% ซึ่งจะกลายมาเป็น Outliers ทีหลัง (ตอนนี้ขออุ๊ปไว้ก่อน)
ดังนั้นเราจึงทำการอินทิกรัลในส่วนที่เราสนใจ
เมื่อเราพิจารณาอินทิกรัลช่วง -2.698 ถึง 2.698 แทน เราจะได้ผลลัพธ์เท่ากับ 0.99
นั่นหมายความว่าเหตุการณ์สุ่มมีโอกาสเกิดมากถึง 99.3% จากภาพ Normal Distribution และ เป็นช่วง Min – Max ของ Box Plot พอดี หรือเราสามารถพูดได้ว่าระหว่างช่วง -2.698 ของ STD และ 2.698 ของ STD จะมีความหนาแน่นของความน่าจะเป็น 99.3% (ข้อมูล 99.3% จะอยู่บริเวณนี้ ซึ่งอยู่ระหว่าง Min – Max ของ Box Plot) ถ้าใช้ตัวอย่างอันเดิมว่า ค่าเฉลี่ยความสูงของเอเลี่ยนกลุ่มหนึ่ง = 200 เซนติเมตร และมี Standard Deviation = 10 (แต่งเลขให้ดูง่าย) เราจะได้ว่า 200 – 10×2.698 = 173.02 และ 200 + 10×2.698 = 226.98 นั่นหมายความว่า เอเลี่ยนที่สูงระหว่าง 173.02 ถึง 226.98 มีจำนวน 99.3% จาก จำนวนเอเลี่ยนทั้งหมด และ 173.02 คือ ค่า Min หรือ Whisker ล่าง ของ Box Plot และ 226.98 คือ ค่า Max หรือ Whisker บน ของ Box Plot นั่นเองครับ ซึ่งในเหตุการณ์นี้ก็ได้บอกเราด้วยว่า ค่าใดก็ตามที่น้อยกว่า 173.02 และ มากกว่า 226.98 จะกลายเป็นข้อมูลผิดปกติ (Outliers) ซึ่งก็คือ 0.7% ที่เหลือในตอนแรก (0.35% ด้านซ้าย และ 0.35% ด้านขวา) ก็ไม่สมควรเป็นเอเลี่ยนสายพันธ์นี้อะเนอะ ดันไม่เข้าพวกเองนี่ ?
เห็นแล้วใช่ไหมละครับว่า Normal Distribution นั้นมีความสัมพันธ์อันแน่นแฟ้นกับ Box Plot ดังนั้น ถ้าใครเข้าสองอย่างนี้ก็จะเข้าใจวิชาสถิติมากขึ้นโขเลยทีเดียว สำหรับตอนนี้ก็มีเพียงเท่านี้ ตอนหน้าเราจะพูดถึงการเปรียบเทียบ และการนำไปใช้งานจริงของ Box Plot กันนะครับ
Sources:
https://www.simplypsychology.org/boxplots.html
https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51