ความถนัดแพทย์ MEDDENT
เข้าสู่ระบบ
ปรึกษาแอดมิน
สถิติ

สถิติ

มกราคม 10, 2026

สวัสดีค้าบบ สำหรับบทนี้พี่แม็คจะมาสรุปเนื้อหาในเรื่องสถิติครบทุกเรื่อง ตั้งแต่ความรู้พื้นฐานของสถิติศาสตร์ การแบ่งประเภทของข้อมูล การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพและข้อมูลเชิงปริมาณ ตัวแปรสุ่มและการแจกแจงความน่าจะเป็น ซึ่งพี่แม็คได้สรุปสูตรพื้นฐานและตัวอย่างสั้น ๆ สำหรับทบทวนก่อนสอบให้เข้าใจได้ง่าย ดังนี้ค้าบบ

สถิติศาสตร์

สถิติศาสตร์ (Statistics) เป็นวิชาที่ว่าด้วยการเก็บรวบรวมข้อมูล การวิเคราะห์ข้อมูล และสรุปผลจากข้อมูลที่เกี่ยวข้อง เพื่อนำมาตอบคำถามและประเด็นที่สนใจ

คำสำคัญในสถิติศาสตร์

ประชากร (population) คือ กลุ่มที่สนใจศึกษาทั้งหมด
ตัวอย่าง (sample) คือ กลุ่มย่อยของประชากร

Ex. ถ้ากำหนดให้ประชากรเป็นนักเรียนระดับชั้นมัธยมศึกษาปีที่ 66 แล้วต้องการทราบว่า นักเรียนชอบเรียนวิชาใดมากที่สุด อาจจะกำหนดตัวอย่างได้เป็น

  • นักเรียนระดับชั้นมัธยมศึกษาปีที่ 66 ที่เป็นนักเรียนชาย
  • นักเรียนระดับชั้นมัธยมศึกษาปีที่ 6/26/2
Post

ตัวแปร (variable) คือ สิ่งที่สนใจศึกษา เช่น เพศ อายุ ระดับการศึกษา รายได้
ข้อมูล (data) คือ ค่าของตัวแปรที่สนใจศึกษา (จะเป็นตัวเลขหรือไม่ก็ได้)

Ex. จากการสอบถามนักเรียนระดับชั้นมัธยมศึกษาปีที่ 66 ว่า นักเรียนชอบเรียนวิชาใดมากที่สุด จะเห็นว่า
ตัวแปร คือ วิชาที่น้อง ๆ ชอบเรียน
ข้อมูล จะเป็นวิชาที่น้อง ๆ เรียน เช่น คณิตศาสตร์ วิทยาศาสตร์ ภาษาไทย ภาษาอังกฤษ สังคมศึกษา เป็นต้น

พารามิเตอร์ (parameter) คือ ค่าวัดที่แสดงลักษณะของประชากร ซึ่งเป็นค่าคงตัวที่คำนวณ หรือประมวลจากข้อมูลทั้งหมดของประชากร
ค่าสถิติ (statistic) คือ เป็นค่าคงตัวที่พิจารณาจากข้อมูลของตัวอย่าง โดยมีวัตถุประสงค์เพื่ออธิบายลักษณะของตัวอย่างนั้นหรือเพื่อประมาณค่าของพารามิเตอร์แล้วนำไปใช้ในการอธิบายลักษณะของประชากร

Ex. อาจารย์เก็บคะแนนเรื่องสถิติโดยการสอบย่อย 1010 คะแนน พบว่า นักเรียนทั้งระดับชั้นมัธยมศึกษาปีที่ 66
สอบได้คะแนนเฉลี่ยอยู่ที่ 66 คะแนน และนักเรียน ม.6/16/1 และ ม.6/26/2 สอบได้คะแนนเฉลี่ยอยู่ที่ 77 และ 5.55.5 คะแนน
ตามลำดับ จะได้ว่า
พารามิเตอร์ คือ คะแนนเฉลี่ยของนักเรียนทั้งระดับชั้นมัธยมศึกษาปีที่ 66
ค่าสถิติ คือ คะแนนเฉลี่ยของนักเรียน ม.6/16/1 และ ม.6/26/2

ประเภทของข้อมูล

1. แบ่งตามแหล่งที่มา
ข้อมูลปฐมภูมิ (primary data) คือ ข้อมูลที่ได้เก็บมาเองโดยตรง
ข้อมูลทุติยภูมิ (secondary data) คือ ข้อมูลที่ได้เก็บมาจากคนอื่น หรือหน่วยงานอื่นอีกที

Ex. อาจารย์เก็บคะแนนเรื่องสถิติโดยการสอบย่อย 1010 คะแนน
ถ้าอาจารย์นำคะแนนสอบของนักเรียนแต่ละคนมาหาค่าเฉลี่ยซึ่งได้ 77 คะแนน จะได้ว่า ข้อมูลนี้เป็นข้อมูลปฐมภูมิ
แต่ถ้าเติร์ดเป็นนักเรียนที่นำคะแนนสอบของตัวเองเปรียบเทียบกับค่าเฉลี่ยแล้วพบว่า เติร์ดเป็นคนที่ได้คะแนนมากกว่าค่าเฉลี่ยอยู่ 22 คะแนน จะได้ว่า ข้อมูลนี้เป็นข้อมูลทุติยภูมิ

2. แบ่งตามระยะเวลาที่จัดเก็บ
ข้อมูลอนุกรมเวลา (time series data) คือ ข้อมูลที่เกิดขึ้นและจัดเก็บตามลำดับเวลาต่อเนื่องกันไป
ข้อมูลตัดขวาง (cross-sectional data) คือ ข้อมูล ณ จุดหนึ่งของเวลา

Ex. กรมควบคุมมลพิษได้เก็บข้อมูลปริมาณฝุ่น PM2.5 ตั้งแต่ปี พ.ศ.25602560 จนถึงปัจจุบัน จะได้ว่า ข้อมูลนี้เป็นข้อมูลอนุกรมเวลา
ถ้ากรมควบคุมมลพิษได้นำเสนอข้อมูลปริมาณฝุ่น PM2.5 ในวันที่ 11 ธันวาคม 25682568 จะได้ว่า ข้อมูลนี้เป็นข้อมูลตัดขวาง

3. แบ่งตามลักษณะของข้อมูล
ข้อมูลเชิงปริมาณ (quantitative data) คือ ข้อมูลที่ได้จากการวัดค่า แสดงเป็นตัวเลขหรือปริมาณที่สามารถนำไป บวก ลบ คูณ หรือหาร และเปรียบเทียบ (มากกว่า/น้อยกว่า) กันได้
ข้อมูลเชิงคุณภาพ (qualitative data) คือ ข้อมูลที่แสดงลักษณะ ประเภท สมบัติ ไม่สามารถวัดค่าเป็นตัวเลขที่นำมาบวก ลบ คูณ หรือหารกันได้

Ex. อาจารย์เก็บคะแนนเรื่องสถิติโดยการสอบย่อย 1010 คะแนน พบว่า นักเรียนทั้งระดับชั้นมัธยมศึกษาปีที่ 66 ในที่นี้ข้อมูลที่ได้จะเป็นตัวเลขที่อยู่ในช่วงปิด [0,10][0,10] ดังนั้น ข้อมูลนี้เป็นข้อมูลเชิงปริมาณ

จากการสอบถามนักเรียนระดับชั้นมัธยมศึกษาปีที่ 66 ว่า นักเรียนชอบเรียนวิชาใดมากที่สุด ในที่นี้ข้อมูลที่ได้จะเป็นวิชาที่ชอบเรียน เช่น คณิตศาสตร์ ภาษาอังกฤษ สังคมศึกษา เป็นต้น ดังนั้น ข้อมูลนี้เป็นข้อมูลเชิงคุณภาพ

การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพ

ฐานนิยม (mode) นั่นคือ ข้อมูลที่มีจำนวนครั้งของการเกิดซ้ำกันมากที่สุด
ความถี่ (frequency) คือ จำนวนครั้งของการเกิดข้อมูลข้อมูลหนึ่ง
ความถี่สัมพัทธ์ (relative frequency) คือ สัดส่วนของความถี่ของแต่ละข้อมูลเทียบกับความถี่ทั้งหมด

Ex. จากการสอบถามนักเรียนระดับชั้นมัธยมศึกษาปีที่ 66 จำนวน 2020 คน เกี่ยวกับความชอบเรียนวิชาใดมากที่สุด ซึ่งผลการสำรวจเป็นดังนี้

คณิตศาสตร์ภาษาไทยภาษาอังกฤษคณิตศาสตร์ภาษาอังกฤษวิทยาศาสตร์คณิตศาสตร์คณิตศาสตร์ภาษาอังกฤษภาษาอังกฤษภาษาไทยคณิตศาสตร์คณิตศาสตร์วิทยาศาสตร์ภาษาไทยวิทยาศาสตร์สังคมศึกษาวิทยาศาสตร์สังคมศึกษาคณิตศาสตร์ \begin{array}{ccccc} \text{คณิตศาสตร์} & \text{ภาษาไทย} & \text{ภาษาอังกฤษ} & \text{คณิตศาสตร์} & \text{ภาษาอังกฤษ} \\ \text{วิทยาศาสตร์} & \text{คณิตศาสตร์} & \text{คณิตศาสตร์} & \text{ภาษาอังกฤษ} & \text{ภาษาอังกฤษ} \\ \text{ภาษาไทย} & \text{คณิตศาสตร์} & \text{คณิตศาสตร์} & \text{วิทยาศาสตร์} & \text{ภาษาไทย} \\ \text{วิทยาศาสตร์} & \text{สังคมศึกษา} & \text{วิทยาศาสตร์} & \text{สังคมศึกษา} & \text{คณิตศาสตร์} \end{array}

จากข้อมูลข้างต้นสามารถนำเสนอข้อมูลด้วยตารางความถี่ ดังนี้

Post

ข้อมูลต่าง ๆ ของข้อมูลเชิงคุณภาพที่จะนำมาวิเคราะห์ส่วนใหญ่แล้วจะวิเคราะห์โดยพิจารณาจากความถี่สัมพัทธ์ แล้วนำมาคิดเป็นเปอร์เซ็นต์ตามที่น้อง ๆ เห็นได้ในตารางเลยคั้บ^^

นอกจากการวิเคราะห์ข้อมูลด้วยความถี่สัมพัทธ์แล้วเรายังสามารถวิเคราะห์ข้อมูลโดยใช้ฐานนิยม ซึ่งจากตารางน้อง ๆ สามารถสรุปได้เลยทันทีว่า วิชาคณิตศาสตร์เป็นวิชาที่นักเรียนที่ชอบมากที่สุดนั่นเองคร้าบบ

การนำเสนอข้อมูลเชิงคุณภาพสามารถทำได้หลายรูปแบบดังนี้

PostPostPost

การวิเคราะห์และนำเสนอข้อมูลเชิงปริมาณ

Ex. การเก็บคะแนน Mock Test ของน้อง ๆ ที่เรียนกับพี่เหม่อสุดแล็ค พบว่าเป็นไปตามตารางดังนี้

Post

ตารางที่แสดงให้เห็นข้างต้นนี้ เรียกว่า ตารางความถี่แบบแบ่งข้อมูลเป็นช่วง
และเรียกคะแนนในแต่ละช่วงว่า อันตรภาคชั้น (class interval)

การนำเสนอข้อมูลเชิงปริมาณสามารถทำได้หลายรูปแบบดังนี้

1. ฮิสโทแกรม

Post

Ex. การสอบเก็บคะแนนวิชาสถิติของนักเรียนห้องหนึ่ง เป็นดังนี้

2729162281211291251611201422572210 \begin{array}{cccccccccc} 27 & 29 & 16 & 22 & 8 & 12 & 11 & 29 & 12 & 5 \\ 16 & 11 & 20 & 14 & 22 & 5 & 7 & 22 & 10 \end{array}

2. แผนภาพจุด เป็นแผนภาพที่แสดงจุดหรือวงกลมเล็ก ๆ แทนข้อมูลแต่ละตัว เหนือเส้นจำนวนแนวนอน

Post

3. แผนภาพลำต้นและใบ เป็นแผนภาพที่ประกอบไปด้วย 2 ส่วนหลัก ๆ ได้แก่ ใบ ที่แทนหลักหน่วย และ ลำต้น แทนหลักสิบ, หลักร้อย, หลักพัน, …

Post

4. แผนภาพกล่อง เป็นแผนภาพที่แสดงตำแหน่งของข้อมูลค่าสูงสุด ค่าต่ำสุด และควอร์ไทล์ต่าง ๆ

Post

หากน้อง ๆ กำลังสงสัยว่า ควอร์ไทล์คืออะไร พี่แม็คสรุปให้เรียบร้อยแล้ว ดังนี้คั้บ ควอร์ไทล์ (quartile) : แบ่งข้อมูลที่เรียงจากน้อยไปมากออกเป็น 4 ส่วนเท่า ๆ กัน
STEPs การหาควอร์ไทล์
1. เรียงข้อมูลจากน้อยไปหามาก
2. ตำแหน่งของควอร์ไทล์ที่ rr คือ r4(จำนวนข้อมูลทั้งหมด+1)\displaystyle\frac{r}{4}(\text{จำนวนข้อมูลทั้งหมด} + 1) เมื่อ r=1,2,3r=1,2,3
3. ควอร์ไทล์ที่ rr จะอยู่ในตำแหน่งที่คิดมาได้

จากโจทย์สามารถหาควอร์ไทล์ที่ 1,21,2 และ 33 ได้ดังนี้

  1. เรียงข้อมูลจากน้อยไปหามาก จะได้ว่า
    5,5,7,8,10,11,11,12,12,14,16,16,20,22,22,22,27,29,29 \begin{align*} 5, 5, 7, 8, 10, 11, 11, 12, 12, 14, 16, 16, 20, 22, 22, 22, 27, 29, 29 \end{align*}
  2. ตำแหน่งของควอร์ไทล์ที่ 11 คือ 14(19+1)=5\displaystyle\frac{1}{4}(19 + 1) = 5
    ตำแหน่งของควอร์ไทล์ที่ 22 คือ 24(19+1)=10\displaystyle\frac{2}{4}(19 + 1) = 10
    ตำแหน่งของควอร์ไทล์ที่ 33 คือ 34(19+1)=15\displaystyle\frac{3}{4}(19 + 1) = 15
  3. ดังนั้น ควอร์ไทล์ที่ 11 จะมีค่าเท่ากับข้อมูลตัวที่ 55 นั่นคือ 1010
    ควอร์ไทล์ที่ 22 จะมีค่าเท่ากับข้อมูลตัวที่ 1010 นั่นคือ 1414
    และควอร์ไทล์ที่ 33 จะมีค่าเท่ากับข้อมูลตัวที่ 1515 นั่นคือ 2222

ในการวาดแผนภาพกล่องน้อง ๆ จะต้องตรวจสอบค่าหนึ่งที่เรียกว่า ค่านอกเกณฑ์ (outlier) ซึ่งเป็นข้อมูลที่แตกต่างไปจากข้อมูลส่วนใหญ่มาก ๆ ดังนั้น ถ้าน้อง ๆ มีข้อมูลที่มีค่าน้อยกว่า Q11.5(Q3Q1)Q_1-1.5(Q_3-Q_1) หรือมีข้อมูลที่มีค่ามากกว่า Q3+1.5(Q3Q1)Q_3+1.5(Q_3-Q_1) ข้อมูลเหล่านี้จะถือว่าเป็นค่านอกเกณฑ์ทันทีเลยค้าบบ

จากแผนภาพกล่องจะเห็นว่า Q1=10Q_1 = 10 และ Q3=22Q_3 = 22
จะได้ว่า Q11.5(Q3Q1)=101.5(2210)=1018=8Q_1-1.5(Q_3-Q_1) = 10-1.5(22-10) = 10 - 18 = -8
และ Q3+1.5(Q3Q1)=22+1.5(2210)=22+18=40Q_3+1.5(Q_3-Q_1) = 22+1.5(22-10) = 22 + 18 = 40
นั่นคือ ข้อมูลที่มีค่าน้อยกว่า 8-8 หรือข้อมูลที่มีค่ามากกว่า 4040 จะเป็นค่านอกเกณฑ์
ทำให้ได้ว่า ข้อมูลชุดนี้ไม่มีค่านอกเกณฑ์นั่นเองค้าบบ^^

5. แผนภาพการกระจาย เป็นแผนภาพที่แสดงความสัมพันธ์ของข้อมูลเชิงปริมาณ 22 ข้อมูล

Post

ค่าวัดทางสถิติ

ค่าวัดทางสถิติเป็นสิ่งที่ช่วยทำให้เห็นภาพรวมของข้อมูลและทำให้จดจำข้อสรุปเกี่ยวกับข้อมูลได้ง่ายมากยิ่งขึ้น

1. ค่ากลางของข้อมูล

ค่ากลางของข้อมูลจะเป็นตัวแทนของข้อมูลทั้งหมด ได้แก่

1.1 ค่าเฉลี่ยเลขคณิต

ค่าเฉลี่ยเลขคณิต (arithmetic mean) : การนำข้อมูลทุกตัวมารวมกัน แล้วหารด้วยจำนวนข้อมูลทั้งหมด

ค่าเฉลี่ยเลขคณิตสามารถแบ่งได้เป็น 2 ประเภท คือ
(i) ค่าเฉลี่ยเลขคณิตที่เป็นพารามิเตอร์ เขียนแทนด้วย μ\mu ซึ่งเป็นค่าเฉลี่ยที่คำนวณจากข้อมูลของประชากร
ทั้งหมด NN ตัว นั่นคือ

μ=i=1NxiN \begin{align*} \mu = \displaystyle\frac{\displaystyle\sum_{i=1}^N x_i}{N} \end{align*}

(ii) ค่าเฉลี่ยเลขคณิตที่เป็นค่าสถิติ เขียนแทนด้วย xˉ\bar{x} ซึ่งเป็นค่าเฉลี่ยที่คำนวณจากข้อมูลของตัวอย่างทั้งหมด nn ตัว นั่นคือ

xˉ=i=1nxin \begin{align*} \bar{x} = \displaystyle\frac{\displaystyle\sum_{i=1}^n x_i}{n} \end{align*}

1.2 มัธยฐาน

มัธยฐาน (median) : ค่าที่อยู่ในตำแหน่งกึ่งกลาง ต้องเรียงลำดับจากน้อยไปมากเสมอ!!
STEPs การหามัธยฐาน
1. เรียงข้อมูลจากน้อยไปหามาก
2. ตำแหน่งของมัธยฐาน คือ จำนวนข้อมูลทั้งหมด+12\displaystyle\frac{\text{จำนวนข้อมูลทั้งหมด} + 1}{2}
3. มัธยฐานจะอยู่ในตำแหน่งที่คิดมาได้

1.3 ฐานนิยม

ฐานนิยม (mode) : ค่าที่ข้อมูลมีการซ้ำกันมากที่สุด

Ex. จากการสุ่มสอบถามนักเรียน 77 คนที่สอบเก็บคะแนนวิชาสถิติของนักเรียนห้องหนึ่ง เป็นดังนี้

15,12,20,12,16,12,18 \begin{align*} 15, \quad 12, \quad 20, \quad 12, \quad 16, \quad 12, \quad 18 \end{align*}

จงหาค่าเฉลี่ยเลขคณิต มัธยฐาน และฐานนิยมของข้อมูลชุดนี้
วิธีทำ (1) จะหาค่าเฉลี่ยเลขคณิต
เนื่องจากข้อมูลชุดนี้เป็นข้อมูลที่ได้จากการสุ่มสอบถามนักเรียนในห้องจำนวน 77 คน ซึ่งเป็นข้อมูลที่เป็นตัวอย่าง ดังนั้น ค่าเฉลี่ยเลขคณิตของข้อมูลชุดนี้ คือ

xˉ=15+12+20+12+16+12+187=1057=15 \begin{align*} \bar{x} &= \displaystyle\frac{15+12+20+12+16+12+18}{7}\\ &= \displaystyle\frac{105}{7}= 15 \end{align*}

(2) จะหามัธยฐาน

  1. เรียงข้อมูลจากน้อยไปหามาก จะได้ว่า
    12,12,12,15,16,18,20 \begin{align*} 12, \quad 12, \quad 12, \quad 15, \quad 16, \quad 18, \quad 20 \end{align*}
  2. ตำแหน่งของมัธยฐาน คือ จำนวนข้อมูลทั้งหมด+12=7+12=82=4\displaystyle\frac{\text{จำนวนข้อมูลทั้งหมด} + 1}{2} = \displaystyle\frac{7+1}{2} = \displaystyle\frac{8}{2} = 4
  3. ดังนั้น มัธยฐานจะมีค่าเท่ากับข้อมูลตัวที่ 44 นั่นคือ 1515

(3) ฐานนิยมมีค่าเท่ากับ 1212 เพราะว่า 1212 เป็นข้อมูลมีการซ้ำกันมากที่สุด

ดังนั้น ค่าเฉลี่ยเลขคณิตและมัธยฐานของข้อมูลชุดนี้เท่ากับ 1515 คะแนน และฐานนิยมมีค่าเท่ากับ 1212

2. ค่าวัดการกระจาย

ค่าวัดการกระจายเป็นการดูการกระจายตัวของข้อมูล สามารถแบ่งได้เป็น

2.1 การกระจายสัมบูรณ์

การกระจายสัมบูรณ์ (absolute variation) : ใช้วัดข้อมูลแต่ละตัวมีความแตกต่างกันมากหรือน้อยอย่างไร ซึ่งมีดังนี้
(1) พิสัย (range) == ค่ามากสุด - ค่าน้อยสุด
(2) พิสัยระหว่างควอร์ไทล์ (interquartile range: IQR) =Q3Q1= Q_3-Q_1
(3) ส่วนเบี่ยงเบนมาตรฐาน (standard deviation: SD) : ใช้วัดการกระจายของข้อมูลที่บอกว่าข้อมูลแต่ละตัวอยู่ห่างจากค่าเฉลี่ยเลขคณิตประมาณเท่าใด

ส่วนเบี่ยงเบนมาตรฐานสามารถแบ่งได้เป็น 2 ประเภท คือ
(i) ส่วนเบี่ยงเบนมาตรฐานที่เป็นพารามิเตอร์ เขียนแทนด้วย σ\sigma ซึ่งจะคิดจากข้อมูลของประชากร
ทั้งหมด NN ตัว นั่นคือ

σ = i=1N(xiμ)2N \begin{align*} \sigma\ =\ \sqrt{\displaystyle\frac{\displaystyle\sum_{i=1}^N (x_i-\mu)^2}{N}} \end{align*}


(ii) ส่วนเบี่ยงเบนมาตรฐานที่เป็นค่าสถิติ เขียนแทนด้วย ss ซึ่งเป็นค่าเฉลี่ยที่คำนวณจากข้อมูลของตัวอย่าง
ทั้งหมด nn ตัว นั่นคือ

s = i=1n(xixˉ)2n1 \begin{align*} s\ =\ \sqrt{\displaystyle\frac{\displaystyle\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}} \end{align*}

(4) ความแปรปรวน (variance) : กำลังสองของส่วนเบี่ยงเบนมาตรฐาน ความแปรปรวนสามารถแบ่งได้เป็น 2 ประเภท คือ
(i) ความแปรปรวนที่เป็นพารามิเตอร์ เขียนแทนด้วย σ2\sigma^2
(ii) ความแปรปรวนที่เป็นค่าสถิติ เขียนแทนด้วย s2s^2

Ex. จากการสอบถามอายุของผู้ที่เข้าใช้บริการในสนามเด็กเล่นแห่งหนึ่งในวันศุกร์ที่ 11 สิงหาคม 25682568 เวลา 16.0016.00 น. พบว่ามีผู้ที่เข้าใช้บริการในสนามเด็กเล่นทั้งหมด 77 คน ซึ่งมีอายุเป็นดังนี้

12, 8, 7, 9, 16,2,9 \begin{align*} 12, \quad\ 8, \quad\ 7, \quad\ 9, \quad\ 16, \quad 2, \quad 9 \end{align*}

จงหาพิสัย พิสัยระหว่างควอร์ไทล์ ส่วนเบี่ยงเบนมาตรฐาน และความแปรปรวนของข้อมูลชุดนี้

วิธีทำ เรียงข้อมูลจากน้อยไปหามาก จะได้ว่า

2,7,8,9,9,12,16 \begin{align*} 2, \quad 7, \quad 8, \quad 9, \quad 9, \quad 12, \quad 16 \end{align*}
(1) จะหาพิสัย
เนื่องจากพิสัยคือผลต่างระหว่างข้อมูลที่มีค่าสูงสุดและข้อมูลที่มีค่าต่ำสุด
ดังนั้น พิสัย =xmaxxmin=162=14= x_{\text{max}} - x_{\text{min}} = 16 - 2 = 14

(2) จะหาพิสัยระหว่างควอร์ไทล์ (IQR)(IQR)

  1. หาตำแหน่งของควอร์ไทล์ที่ 11 (Q1)(Q_1) และควอร์ไทล์ที่ 33 (Q3)(Q_3)
    ตำแหน่งของ Q1=1(7+1)4=84=2ตำแหน่งของ Q3=3(7+1)4=244=6 \begin{align*} \text{ตำแหน่งของ } Q_1 &= \displaystyle\frac{1(7+1)}{4} = \displaystyle\frac{8}{4} = 2 \\ \text{ตำแหน่งของ } Q_3 &= \displaystyle\frac{3(7+1)}{4} = \displaystyle\frac{24}{4} = 6 \end{align*}
  2. ดังนั้น Q1Q_1 คือข้อมูลตัวที่ 22 มีค่าเท่ากับ 77 และ Q3Q_3 คือข้อมูลตัวที่ 66 มีค่าเท่ากับ 1212
  3. จะได้พิสัยระหว่างควอร์ไทล์ คือ IQR=Q3Q1=127=5IQR = Q_3 - Q_1 = 12 - 7 = 5

(3) จะหาส่วนเบี่ยงเบนมาตรฐาน
เนื่องจากข้อมูลเป็นการสอบถามผู้เข้าใช้บริการสนามเด็กเล่นทั้งหมด 77 คน นั่นคือ ข้อมูลชุดนี้เป็นข้อมูลของประชากร ทำให้ได้ว่า เราต้องหาค่าเฉลี่ยเลขคณิต (μ)(\mu) ก่อน

μ=2+7+8+9+9+12+167=637=9 \begin{align*}\mu &= \displaystyle\frac{2+7+8+9+9+12+16}{7} = \displaystyle\frac{63}{7} = 9 \end{align*}

จากสูตรส่วนเบี่ยงเบนมาตรฐานของประชากร σ=i=1N(xiμ)2N\sigma = \sqrt{\displaystyle\frac{\displaystyle\sum_{i=1}^N (x_i-\mu)^2}{N}}
จะได้

σ=(29)2+(79)2+(89)2+(99)2+(99)2+(129)2+(169)27=(7)2+(2)2+(1)2+(0)2+(0)2+(3)2+(7)27=49+4+1+0+0+9+497=1127=16=4 \begin{align*} \sigma &= \sqrt{\frac{(2-9)^2+(7-9)^2+(8-9)^2+(9-9)^2+(9-9)^2+(12-9)^2+(16-9)^2}{7}} \\ &= \sqrt{\frac{(-7)^2+(-2)^2+(-1)^2+(0)^2+(0)^2+(3)^2+(7)^2}{7}} \\ &= \sqrt{\frac{49+4+1+0+0+9+49}{7}} \\ &= \sqrt{\frac{112}{7}} \\ &= \sqrt{16} \\ &= 4 \end{align*}

(4) จะหาความแปรปรวน
เนื่องจากความแปรปรวนคือส่วนเบี่ยงเบนมาตรฐานยกกำลังสอง (σ2)(\sigma^2) จะได้ว่า σ2=(4)2=16\sigma^2 = (4)^2 = 16

เพราะฉะนั้น ข้อมูลชุดนี้มีพิสัยเท่ากับ 1414 ปี พิสัยระหว่างควอร์ไทล์เท่ากับ 55 ปี
ส่วนเบี่ยงเบนมาตรฐานเท่ากับ 44 ปี และความแปรปรวนเท่ากับ 1616 ปี

2.2 การกระจายสัมพัทธ์

การกระจายสัมพัทธ์ (relative variation) : ใช้เปรียบเทียบการกระจายของข้อมูล 2 ชุดขึ้นไป
\bullet สัมประสิทธิ์การแปรผัน (coefficient of variation: C.V.) สามารถแบ่งได้เป็น 2 ประเภท คือ
(i) สัมประสิทธิ์การแปรผันที่เป็นพารามิเตอร์ คิดจาก σμ\displaystyle\frac{\sigma}{|\mu|} เมื่อ μ0\mu \neq 0
(ii) สัมประสิทธิ์การแปรผันที่เป็นค่าสถิติ คิดจาก sxˉ\displaystyle\frac{s}{|\bar{x}|} เมื่อ xˉ0\bar{x} \neq 0

Ex. จากการสอบถามอายุของผู้ที่เข้าใช้บริการทั้งหมดในสนามเด็กเล่นแห่งหนึ่ง พบว่าในวันศุกร์ที่ 11 สิงหาคม 25682568 เวลา 16.0016.00 น. มีผู้ที่เข้าใช้บริการในสนามเด็กเล่นแห่งนี้ 77 คน ซึ่งมีอายุเป็นดังนี้

2, 7, 8, 9, 9,12,16 \begin{align*} 2, \quad\ 7, \quad\ 8, \quad\ 9, \quad\ 9, \quad 12, \quad 16 \end{align*}

และวันเสาร์ที่ 22 สิงหาคม 25682568 เวลา 16.0016.00 น. พบว่ามีผู้ที่เข้าใช้บริการในสนามเด็กเล่นแห่งเดียวกันนี้ทั้งหมด 1010 คน ซึ่งมีอายุเป็นดังนี้

4, 4, 8, 8,10,10,12,12,16,16 \begin{align*} 4, \quad\ 4, \quad\ 8, \quad\ 8, \quad 10, \quad 10, \quad 12, \quad 12, \quad 16, \quad 16 \end{align*}

จงเปรียบเทียบการกระจายของข้อมูล 2 ชุดนี้
วิธีทำ กำหนดให้ μ1,μ2\mu_1, \mu_2 เป็นอายุเฉลี่ยของผู้เข้าใช้บริการในวันที่ 11 และ 22 ตามลำดับ
และให้ σ1,σ2\sigma_1, \sigma_2 เป็นส่วนเบี่ยงเบนมาตรฐานของผู้เข้าใช้บริการในวันที่ 11 และ 22 ตามลำดับ

จากตัวอย่างที่ผ่านมา พบว่า μ1=9\mu_1 = 9 และ σ1=4\sigma_1 = 4
ดังนั้น สัมประสิทธิ์การแปรผันของอายุผู้ใช้บริการในวันที่ 11 เท่ากับ σ1μ1=490.44\displaystyle\frac{\sigma_1}{|\mu_1|} = \displaystyle\frac{4}{9} \approx 0.44

ต่อไปจะหาสัมประสิทธิ์การแปรผันของอายุผู้ใช้บริการในวันที่ 22 ดังนี้

  1. หาค่าเฉลี่ยเลขคณิต (μ2)(\mu_2)
    μ2=4+4+8+8+10+10+12+12+16+1610=10010=10 \begin{align*} \mu_2 = \frac{4+4+8+8+10+10+12+12+16+16}{10} = \frac{100}{10} = 10\end{align*}
  2. หาส่วนเบี่ยงเบนมาตรฐาน (σ2)(\sigma_2)
    σ2=2(410)2+2(810)2+2(1010)2+2(1210)2+2(1610)210=2(36)+2(4)+0+2(4)+2(36)10=72+8+0+8+7210=16010=16=4 \begin{align*} \sigma_2 &= \sqrt{\frac{2(4-10)^2+2(8-10)^2+2(10-10)^2+2(12-10)^2+2(16-10)^2}{10}} \\ &= \sqrt{\frac{2(36)+2(4)+0+2(4)+2(36)}{10}} = \sqrt{\frac{72+8+0+8+72}{10}} = \sqrt{\frac{160}{10}} = \sqrt{16} = 4\end{align*}

ดังนั้น สัมประสิทธิ์การแปรผันของอายุผู้ใช้บริการในวันที่ 22 เท่ากับ σ2μ2=410=0.4\displaystyle\frac{\sigma_2}{|\mu_2|} = \displaystyle\frac{4}{10} = 0.4

จะเห็นว่า สัมประสิทธิ์การแปรผันของอายุผู้ใช้บริการในวันที่ 11 มากกว่าวันที่ 22
เพราะฉะนั้น ข้อมูลอายุผู้ใช้บริการในวันที่ 11 จะมีการกระจายของข้อมูลอายุมากกว่าวันที่ 22

Post

ต่อไปพี่แม็คจะพูดถึงเรื่องตัวแปรสุ่มและการแจกแจงความน่าจะเป็น ซึ่งพี่แม็คแนะนำว่าให้น้อง ๆ ทบทวนความรู้เรื่องการทดลองสุ่ม ปริภูมิตัวอย่าง เหตุการณ์ และความน่าจะเป็น สามารถกดได้ที่นี่เลยคร้าบบ แต่ถ้าเกิดว่าน้องแม่นเนื้อหาเรื่องความน่าจะเป็นแล้ว น้องลุยเรื่องตัวแปรสุ่มและการแจกแจงความน่าจะเป็นต่อได้เลยค้าบบ

ตัวแปรสุ่ม

ตัวแปรสุ่ม (random variable) : ฟังก์ชันจากปริภูมิตัวอย่างของการทดลองสุ่มไปยังเซตของจำนวนจริง
ตัวแปรสุ่ม มักใช้ตัวอักษรภาษาอังกฤษตัวพิมพ์ใหญ่ ex. X,Y,ZX,Y,Z
ค่าของตัวแปรสุ่ม มักใช้ตัวอักษรภาษาอังกฤษตัวพิมพ์เล็ก ex. x,y,zx,y,z

Ex. ให้ XX เป็นตัวแปรสุ่มของจำนวนเหรียญที่ออกก้อยจากการโยนเหรียญ 11 เหรียญ 22 ครั้ง จะได้ว่า

X(HH)=0,X(HT)=1,X(TH)=1,X(TT)=2 \begin{align*} X(HH) = 0, \quad X(HT) = 1, \quad X(TH) = 1, \quad X(TT) = 2 \end{align*}

โดยปกติแล้วจะใช้สัญลักษณ์ X=xX=x แทนเหตุการณ์ที่โยนเหรียญแล้วออกก้อย xx ครั้ง
และ P(X=x)P(X=x) แทนความน่าจะเป็นของเหตุการณ์ที่โยนเหรียญแล้วออกก้อย xx ครั้ง นั่นคือ

  • X=0X=0 คือ เหตุการณ์ที่โยนเหรียญแล้วออกก้อย 00 ครั้ง (นั่นคือ โยนเหรียญแล้วได้เป็น HHHH)
    และ P(X=0)P(X=0) แทนความน่าจะเป็นที่โยนเหรียญแล้วออกก้อย 00 ครั้ง จะได้ว่า P(X=0)=14P(X=0) = \displaystyle\frac{1}{4}
  • X=1X=1 คือ เหตุการณ์ที่โยนเหรียญแล้วออกก้อย 11 ครั้ง (นั่นคือ โยนเหรียญแล้วได้เป็น HTHT และ THTH)
    และ P(X=1)P(X=1) แทนความน่าจะเป็นที่โยนเหรียญแล้วออกก้อย 11 ครั้ง จะได้ว่า P(X=1)=24=12P(X=1) = \displaystyle\frac{2}{4} = \displaystyle\frac{1}{2}
  • X=2X=2 คือ เหตุการณ์ที่โยนเหรียญแล้วออกก้อย 22 ครั้ง (นั่นคือ โยนเหรียญแล้วได้เป็น TTTT)
    และ P(X=2)P(X=2) แทนความน่าจะเป็นที่โยนเหรียญแล้วออกก้อย 22 ครั้ง จะได้ว่า P(X=2)=14P(X=2) = \displaystyle\frac{1}{4}

นอกจากนี้ยังสามารถเขียนการแจกแจงความน่าจะเป็นได้ดังนี้

Post

จากตัวอย่างข้างต้นจะเรียกตัวแปรสุ่ม XX ว่าตัวแปรสุ่มไม่ต่อเนื่อง
ต่อไปพี่แม็คจะให้น้อง ๆ มาทำความรู้จักกับตัวแปรสุ่มต่อเนื่องกันบ้าง ตามนี้เลยค้าบบ

Ex. ให้ YY เป็นตัวแปรสุ่มของคะแนนสอบของนักเรียนที่สอบในวิชาสถิติ ซึ่งสามารถเขียนการแจกแจงความน่าจะเป็นได้ดังนี้

Post

จะสังเกตเห็นว่า เส้นตรง X=11X=11 จะเป็นเส้นตรงที่ผ่านจุดสูงสุดของกราฟและแบ่งกราฟออกเป็น 22 ส่วนที่เท่ากัน ทำให้เส้นตรง X=11X=11 เป็นแกนสมมาตรของกราฟนี้ เมื่อคำนวณหาค่าเฉลี่ยนเลขคณิตแล้ว μ=11\mu = 11 ด้วยเช่นกัน จะเรียกการแจกแจงความน่าจะเป็นนี้ว่า การแจกแจงปกติ (normal distribution) และเรียกกราฟนี้ว่า เส้นโค้งปกติ

สำหรับการแจกแจงความน่าจะเป็นของตัวแปรสุ่ม YY สามารถเขียนอยู่ในรูปของฟังก์ชันได้เป็น

f(x)=1σ2πe12(xμσ)2 \begin{align*} f(x) = \frac{1}{\sigma\sqrt{2\pi}} \cdot e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2} \end{align*}

ถ้าตัวแปรสุ่ม YY มีการแจกแจงปกติ จะเรียก YY ว่า ตัวแปรสุ่มปกติ
และสัญลักษณ์ YN(μ,σ2)Y\sim N(\mu,\sigma^2) เพื่อแสดงว่าเป็นการแจกแจงปกติ โดยเรียก μ,σ2\mu,\sigma^2 ว่า พารามิเตอร์ของการแจกแจงปกติ

TIPS

  1. มีเส้นตั้งฉากกับแกน XX ที่ลากผ่านค่าเฉลี่ยเป็นแกนสมมาตร ทำให้พื้นที่ใต้เส้นโค้งทางด้านซ้าย == ด้านขวา
  2. ปลายเส้นโค้งทั้งสองด้านเข้าใกล้แกน XX แต่จะไม่ตัดแกน XX
  3. ค่าเฉลี่ยเลขคณิต μ\mu จะกำหนดลักษณะของเส้นโค้งว่ามีแกนสมมาตรอยู่ที่ใด
    และส่วนเบี่ยงเบนมาตรฐาน σ\sigma จะกำหนดลักษณะของเส้นโค้งว่ามีการกระจายมากน้อยเพียงใด

Ex. ให้ ZZ เป็นตัวแปรสุ่มของคะแนนสอบของนักเรียนที่สอบในวิชาสถิติ ซึ่งเป็นการปรับค่าของตัวแปรสุ่ม YY ที่ทำให้ μ=0\mu=0 และ σ=1\sigma=1 ดังนี้

Post

การแจกแจกความน่าจะเป็นในข้างต้นจะเรียกว่า การแจกแจกปกติมาตรฐาน และเรียกตัวแปรสุ่มที่มีการแจกแจงปกติมาตรฐานว่า ตัวแปรสุ่มปกติมาตรฐาน โดยทั่วไปนิยมใช้ ZZ
ถ้า YY คือตัวแปรสุ่มปกติ แล้ว Z=xμσZ=\displaystyle\frac{x-\mu}{\sigma} คือ ตัวแปรสุ่มปกติมาตรฐาน

โดยปกติแล้วถ้าน้อง ๆ ทราบว่าการแจกแจกความน่าจะเป็นใดเป็นการแจกแจงแบบปกติ จากข้อที่เป็นตัวแปรสุ่ม YY ที่เป็นตัวแปรสุ่มปกติ น้อง ๆ สามารถแปลงค่าให้ได้เป็นตัวแปรสุ่ม ZZ ได้ซึ่งเป็นตัวแปรสุ่มปกติมาตรฐาน แล้วทีนี้น้อง ๆ จะสามารถหาค่าความน่าจะเป็นที่จะเกิดเหตุการณ์ที่สนใจได้โดยการเปิดตารางค่า ZZ หรือตารางการแจกแจงปกติมาตรฐาน ดังนี้ค้าบบ

Post

Ex. คะแนนสอบวิชาสถิติของนักเรียนห้องหนึ่งเป็นการแจกแจงแบบปกติ เมื่อหาค่าเฉลี่ยเลขคณิตได้ 5050 คะแนน และส่วนเบี่ยงเบนมาตรฐานเท่ากับ 1010 คะแนน เมื่อสุ่มนักเรียน 11 คน จงหา
(1) ความน่าจะเป็นที่นักเรียนคนนั้นได้คะแนนน้อยกว่า 6565 คะแนน
(2) ความน่าจะเป็นที่นักเรียนคนนั้นได้คะแนนมากกว่าหรือเท่ากับ 4040 คะแนน
(3) ความน่าจะเป็นที่นักเรียนคนนั้นได้คะแนนน้อยกว่า 3232 คะแนนหรือมากกว่า 72.572.5 คะแนน

วิธีทำ เนื่องจากคะแนนสอบเป็นการแจกแจงแบบปกติ ดังนั้นในแต่ละข้อจะต้องปรับค่าก่อน
โดยใช้สูตร z=xμσz=\displaystyle\frac{x-\mu}{\sigma} ก่อน เพื่อให้สามารถเปิดตารางแล้วหาความน่าจะเป็นต่อไปได้นั่นเองค้าบบ

กำหนดให้ XX เป็นตัวแปรสุ่มปกติซึ่งมี μ=50\mu = 50 และ σ=10\sigma = 10
และให้ ZZ เป็นตัวแปรสุ่มปกติมาตรฐาน

(1) เนื่องจากเหตุการณ์ที่นักเรียนคนนั้นได้คะแนนน้อยกว่า 6565 คะแนน คือ X<65X<65
เมื่อปรับค่าจะได้เป็นเหตุการณ์ที่ Z=655010=1510=1.50Z=\displaystyle\frac{65-50}{10} = \displaystyle\frac{15}{10} = 1.50

Post

และดูค่าจากตารางแล้วพบว่า P(Z<1.50)=0.9332P(Z<1.50) = 0.9332
ดังนั้น ความน่าจะเป็นที่นักเรียนคนนั้นได้คะแนนน้อยกว่า 6565 คะแนน เท่ากับ 0.93320.9332

(2) เนื่องจากเหตุการณ์ที่นักเรียนคนนั้นได้คะแนนมากกว่าหรือเท่ากับ 4040 คะแนน คือ X40X\geq 40
เมื่อปรับค่าจะได้เป็นเหตุการณ์ที่ Z=405010=1010=1.00Z=\displaystyle\frac{40-50}{10} = \displaystyle\frac{-10}{10} = -1.00

Post

และดูค่าจากตารางแล้วพบว่า P(Z<1.00)=0.1587P(Z < -1.00) = 0.1587 แต่เราต้องการหา P(Z1.00)P(Z\geq -1.00)
จากสมบัติความน่าจะเป็น P(E)=1P(E)P(E)=1-P(E^\prime) ดังนั้นทำให้เราสามารถหา P(Z1.00)P(Z\geq -1.00)
ได้จาก P(Z1.00)=1P(Z<1.00)=10.1587=0.8413P(Z\geq -1.00) = 1- P(Z < -1.00) = 1- 0.1587 = 0.8413
ดังนั้น ความน่าจะเป็นที่นักเรียนคนนั้นได้คะแนนมากกว่าหรือเท่ากับ 4040 คะแนน เท่ากับ 0.84130.8413

จะสังเกตว่าความน่าจะเป็นนั่นคือเป็นการพิจารณาจากพื้นที่ใต้เส้นโค้งปกติกับแกน XX ซึ่งจะเห็นว่าพื้นที่จะนับเพียงแค่ส่วนที่เป็นบริเวณข้างในเท่านั้น ซึ่งจะไม่รวมกับเส้นขอบของพื้นที่ที่กำลังจะพิจารณาครับ

(3) เนื่องจากเหตุการณ์ที่ความน่าจะเป็นที่นักเรียนคนนั้นได้คะแนนน้อยกว่า 3232 คะแนนหรือมากกว่า 72.572.5 คะแนน คือ X<32X<32 หรือ X>72.5X>72.5 ซึ่งสามารถแบ่งกรณีคิดได้ดังนี้
สำหรับเหตุการณ์ X<32X<32 เมื่อปรับค่าจะได้เป็นเหตุการณ์ที่ Z=325010=1810=1.80Z=\displaystyle\frac{32-50}{10} = \displaystyle\frac{-18}{10} = -1.80

Post

และดูค่าจากตารางแล้วพบว่า P(Z<1.80)=0.0359P(Z < -1.80) = 0.0359
และสำหรับเหตุการณ์ X>72.5X>72.5 เมื่อปรับค่าจะได้เป็นเหตุการณ์ที่ Z=72.55010=22.510=2.25Z=\displaystyle\frac{72.5-50}{10} = \displaystyle\frac{22.5}{10} = 2.25

Post

และดูค่าจากตารางแล้วพบว่า P(Z<2.25)=0.9878P(Z < 2.25) = 0.9878 แต่เราต้องการหา P(Z>2.25)P(Z > 2.25)
ดังนั้น P(Z>2.25)=1P(Z<2.25)=10.9878=0.0122P(Z > 2.25) = 1-P(Z < 2.25) = 1-0.9878 = 0.0122

เนื่องจากเหตุการณ์ที่ X<32X<32 และ X>72.5X>72.5 ไม่เป็นเหตุการณ์ที่เกิดขึ้นร่วมกัน
จากสมบัติความน่าจะเป็น P(EF)=P(E)+P(F)P(E\cup F)=P(E)+P(F)
ทำให้เราสามารถหาความน่าจะเป็นของทั้ง 22 เหตุการณ์โดยนำความน่าจะเป็นของแต่ละเหตุการณ์มาบวกกัน
ดังนั้น ความน่าจะเป็นที่นักเรียนคนนั้นได้คะแนนน้อยกว่า 3232 คะแนนหรือมากกว่า 72.572.5 คะแนน
เท่ากับ 0.0359+0.0122=0.04810.0359+0.0122 = 0.0481

ข้อสอบจริง A-Level คณิตศาสตร์ประยุกต์ 1
เรื่องสถิติ (ปี 68)

ให้ x1,x2,,x10x_1, x_2, \dots, x_{10} เป็นข้อมูลชุดหนึ่งที่มีค่าเฉลี่ยเลขคณิตคือ 7878
ถ้าตัด x1x_1 และ x2x_2 ออกไป จะทำให้ค่าเฉลี่ยเลขคณิตของข้อมูลชุดนี้เหลือ 7070
ถ้าตัดเพียง x1x_1 ออกไป จะทำให้ค่าเฉลี่ยเลขคณิตของข้อมูลชุดนี้เหลือ 7575
จงหาว่า x1x2\left|x_1-x_2\right| มีค่าเท่ากับข้อใดต่อไปนี้

  1. 55
  2. 88
  3. 1010
  4. 1212
  5. 1515

วิธีทำ เนื่องจาก xˉall=x1+x2+(x3++x10)10=78\bar{x}_{\text{all}} = \displaystyle\frac{x_1+x_2+(x_3+\cdots+x_{10})}{10} = 78 จะได้ว่า

x1+x2+(x3++x10)=78×10=780 \begin{align*} x_1+x_2+(x_3+\cdots+x_{10}) = 78\times 10 = 780 \end{align*}

เนื่องจาก xˉallx1=x2+(x3++x10)9=75\bar{x}_{\text{all}-x_1} = \displaystyle\frac{x_2+(x_3+\cdots+x_{10})}{9} = 75 จะได้ว่า

x2+(x3++x10)=75×9=675 \begin{align*} x_2+(x_3+\cdots+x_{10}) = 75\times 9 = 675 \end{align*}

นำสมการ (1) ลบกับสมการ (2) จะได้ว่า x1=105x_1 = 105

เนื่องจาก xˉallx1x2=(x3++x10)8=70\bar{x}_{\text{all}-x_1-x_2} = \displaystyle\frac{(x_3+\cdots+x_{10})}{8} = 70 จะได้ว่า

(x3++x10)=70×8=560 \begin{align*} (x_3+\cdots+x_{10}) = 70\times 8 = 560 \end{align*}

นำสมการ (1) ลบกับสมการ (3) จะได้ว่า x1+x2=220x_1+x_2 = 220
เนื่องจาก x1=105x_1 = 105 ดังนั้น x2=220x1=220105=115x_2 = 220 - x_1 = 220 - 105 = 115

ดังนั้น x1x2=105115=10=10\left|x_1-x_2\right| = \left|105-115\right| = \left|-10\right| = 10

ตอบ ข้อ 3. 1010