การแจกแจงปกติ (Normal Distribution)

- การแจกแจงปกติเรียกอีกอย่างว่าการแจกแจงเกาส์ (Gaussian distribution)
- การแจกแจงปกติเป็นหนึ่งในรูปแบบการแจกแจงความน่าจะเป็นที่สำคัญและมีการใช้งานอย่างแพร่หลายในหลายสาขาของวิทยาศาสตร์และสถิติ
- การแจกแจงปกติมีกราฟรูปร่างเหมือนระฆังคว่ำ (bell curve) หมายความว่าข้อมูลส่วนใหญ่กระจุกตัวอยู่รอบๆ ค่าเฉลี่ยและลดน้อยลง
- ค่าเฉลี่ย คือ จุดกลางของข้อมูล มันคือจุดที่มีข้อมูลมากที่สุด
- ค่าเฉลี่ยของการแจกแจงปกติกำหนดตำแหน่งของจุดกึ่งกลางบนกราฟ ในการแจกแจงปกติค่าเฉลี่ยนี้ยังเป็นค่ามัธยฐานและฐานนิยม
- ค่าเบี่ยงเบนมาตรฐาน บอกการกระจายตัวข้อมูลรอบค่าเฉลี่ย ถ้าค่าเบี่ยงเบนมาตรฐานมีค่าสูงแสดงถึงข้อมูลมีการกระจายไกลจากค่าเฉลี่ยมาก ถ้าค่าเบี่ยงเบนมาตรฐานมีค่าต่ำแสดงถึงข้อมูลมีการกระจายที่น้อย คือมีค่าใกล้ ๆ กับค่าเฉลี่ย
- การรู้ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานช่วยให้สามารถทำนายว่าข้อมูลห่างจากค่าปกติมากหรือน้อย ช่วยให้ระบุค่าที่ไม่ปกติหรือเอาท์ไลเออร์
- กฎ Empirical Rule ช่วยให้คำนวณความน่าจะเป็นที่อยู่ในช่วง 1, 2, 3 ของส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย
- สำหรับชุดข้อมูลที่มีค่าเฉลี่ย (mean, μ) เท่ากับ 80 และส่วนเบี่ยงเบนมาตรฐาน (standard deviation, σ) เท่ากับ 10 กฎของเอมไพริคัล (Empirical Rule) ในการแจกแจงปกติสามารถอธิบายได้ดังนี้:
   - ประมาณ 68% ของข้อมูล จะอยู่ในช่วงระหว่าง 70 ถึง 90. นี้เป็นเพราะช่วงนี้อยู่ภายในหนึ่งส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย (80 - 10 ถึง 80 + 10)
   - ประมาณ 95% ของข้อมูล จะอยู่ในช่วงระหว่าง 60 ถึง 100. ช่วงนี้ครอบคลุมสองส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย (80 - (2x10) ถึง 80 + 20)
   - ประมาณ 99.7% ของข้อมูล จะอยู่ในช่วงระหว่าง 50 ถึง 110. ช่วงนี้ครอบคลุมสามส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย (80 - (3x10) ถึง 80 + 30)
- ด้วยกฎของเอมไพริคัล, เราสามารถทำนายได้ว่าข้อมูลส่วนใหญ่จะกระจุกตัวอยู่ในช่วงเหล่านี้, และการหาข้อมูลที่อยู่นอกช่วงเหล่านี้จะมีโอกาสน้อย. ช่วงข้อมูลที่กล่าวมาข้างต้นช่วยให้เราเข้าใจการกระจายตัวของข้อมูลในแง่ของความน่าจะเป็นและความถี่ในการเกิดขึ้นของค่าต่างๆ ในชุดข้อมูล.

;
วิทยาการข้อมูลและนวัตกรรมดิจิทัล