Trong bài viết này, bạn sẽ tìm hiểu về khái niệm phân bố xác suất, khái niệm này tạo thành cốt lõi cho nhiều phép tính thống kê. Chúng được sử dụng như các mô hình toán học để biểu diễn một số hiện tượng ngẫu nhiên và sau đó trả lời các câu hỏi thống kê về hiện tượng đó.
Mục Tiêu
- Giải thích các thuộc tính của phân phối xác suất.
- Cho biết một biến ngẫu nhiên có phân phối xác suất tương ứng có các đặc trưng như thế nào.
- Giới thiệu và giải thích thêm về phân phối chuẩn và phân phối nhị thức.
Nội Dung
1. Giới thiệu về phân phối xác suất
1.1 Biến ngẫu nhiên và phân phối xác suất
Bài học giải thích khái niệm biến ngẫu nhiên chính là đầu ra của một phép
thử ngẫu nhiên, các biến này có thể có giá trị số hoặc không, từ đó phân
loại thành biến ngẫu nhiên rời rạc (biến ngẫu nhiên nhận giá trị trong một
tập hữu hạn hoặc đếm được) và biến ngẫu nhiên liên tục (biến ngẫu nhiên nhận
giá trị trong tập vô hạn, thường có dạng (a,b hay a.b)).
👉
Biến ngẫu nhiên dùng để chuyển kết quả “chữ” thành số để dễ tính
toán.
📌 Ví dụ: Tung đồng xu
Không gian mẫu:
Định nghĩa biến ngẫu nhiên 𝑋:
- 𝑋=1 nếu ra Ngửa
- 𝑋=0 nếu ra Sấp
➡️ 𝑋 là biến ngẫu nhiên
🔎 Phân loại biến ngẫu nhiên
| Loại | Đặc điểm | Ví dụ |
|---|---|---|
| Rời rạc | Đếm được | Số mặt ngửa, số lỗi |
| Liên tục | Nhận vô hạn giá trị | Chiều cao, thời gian |
Bài học cũng minh họa việc tổng hợp mỗi loại biến ngẫu nhiên:
-
Biến ngẫu nhiên rời rạc: nên dùng bảng phân bố xác suất (liệt kê các giá
trị có thể có của biến ngẫu nhiên X và các xác suất tương ứng) với chú
ý:
-
Biến ngẫu nhiên liên tục: nên dùng hàm mật độ f(x) với chú ý:
và
Biến ngẫu nhiên và Phân phối xác suất
1.2 Hàm phân phối tích lũy - (Cumulative Distribution Function – CDF)
Bài học cung cấp cho bạn đặc trưng thứ nhất của một biến ngẫu nhiên, đó là
hàm phân phối tích lũy F(x):
- Biến ngẫu nhiên rời rạc:
- Biến ngẫu nhiên liên tục:
đó chính là tổng số phần trăm giá trị dữ liệu nhỏ hơn hoặc bằng giá trị a
cho trước nào đó.
👉 Nghĩa là:
Xác suất để 𝑋 nhận giá trị không vượt quá 𝑥
Bài học chỉ ra rằng bạn có thể mô tả hàm số này bằng bảng, đồ thị hoặc
phương trình. Hơn thế nữa, thông qua một ví dụ cụ thể, bài học còn chỉ ra
rằng: dựa vào hàm phân phối tích lũy bạn cũng tìm được một cách dễ
dàng các đại lượng đặc trưng như trung vị và các tứ phân vị của dữ liệu.
Hàm phân bố tích lũy F(x)
Tính xác suất nhờ CDF
2. Giá trị trung bình và phương sai của một biến ngẫu nhiên
Đặc trưng thứ hai của một biến ngẫu nhiên, đó là giá trị trung bình:
🔹 Công thức
- Biến ngẫu nhiên rời rạc:
- Biến ngẫu nhiên liên tục:
🎯 Ví dụ rời rạc
Tung 1 xúc xắc công bằng
| X | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| P(X) | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
Nghĩa là: Tung rất nhiều lần → trung bình ra khoảng 3.5 chấm
Ngoài ra, thông qua một ví dụ cụ thể, bài học còn chỉ ra cách tính giá trị
trung bình khi ta cộng các biến ngẫu nhiên:
Đặc trưng thứ ba của một biến ngẫu nhiên, đó là phương sai V(X) và độ lệch
chuẩn (căn của phương sai):
Từ đó, áp dụng công thức tính giá trị trung bình, bài học chỉ ra công thức
cụ thể để tính phương sai của từng loại biến ngẫu nhiên
-
Biến ngẫu nhiên rời rạc:
-
Biến ngẫu nhiên liên tục:
🎯 Ví dụ tiếp xúc xắc
Ta đã có:
Ngoài ra, bài học cung cấp cho bạn công thức tính phương sai khi cộng các
biến ngẫu nhiên độc lập:
Phương sai và độ lệch chuẩn của biến ngẫu nhiên
3. Phân phối chuẩn
Thông qua việc biểu diễn các phân phối có thể của một biến ngẫu nhiên, bài
học chỉ ra rằng một trong các phân phối thường gặp nhất là phân phối chuẩn.
Phân phối chuẩn là phân phối xác suất:
- Có dạng hình chuông
- Đối xứng qua giá trị trung bình
- Phần lớn giá trị tập trung quanh trung bình, càng xa trung bình thì xác suất càng nhỏ
Hàm mật độ xác suất của phân phối chuẩn
Nếu 𝑋 tuân theo phân phối chuẩn với:
- Trung bình 𝜇
- Độ lệch chuẩn 𝜎>0
hàm mật độ có dạng hình chuông và đối xứng với nhau qua giá trị trung bình
𝜇, cụ thể:
Hàm số này được đặc trưng bới hai tham số: giá trị trung bình 𝜇 và độ lệch
chuẩn 𝜎. Điểm phân phối cao nhất đạt được ở 𝜇 và chiều rộng của phân phối
được xác định bởi 𝜎. Và do tổng diện tích hình bên dưới hàm mật độ và bên
trên trục Ox bằng 1 không thay đổi, đường cong càng rộng thì đỉnh của nó
càng thấp:
|
| Hàm mật độ xác suất của phân phối chuẩn |
Dạng hàm của phân phối chuẩn
3.1 Xác suất của biến ngẫu nhiên có phân phối chuẩn
Bài học cung cấp cách tính xác suất của một biến ngẫu nhiên mang phân phối
chuẩn bằng cách sử dụng hàm mật độ:
hoặc dựa vào giá trị của hàm phân phối tích lũy:
Tuy nhiên, bạn sẽ gặp khó khăn hơn nếu tính bằng cách dùng hàm mật độ vì
chúng ta không tìm được nguyên hàm của hàm này để tính giá trị của tích
phân. Bài học sau sẽ chỉ cho bạn cách xác định xác suất theo công thức này.
Xác suất của biến ngẫu nhiên có phân phối chuẩn
3.2 Phân phối chuẩn tắc
Để trả lời câu hỏi của mục trước: Làm thế nào để tính được P(X<a) trong
trường hợp tổng quát (không thể dùng được quy tắc 68-95-99.7), trong
đó
Bài học chỉ ra rằng:
là một biến ngẫu nhiên mang phân phối chuẩn với giá trị trung bình
và phương sai
, ký hiệu
(phân phối chuẩn tắc)
Bài học cũng chỉ ra rằng
và bạn có thể dùng bảng phân phối chuẩn tắc để tra ra giá trị xác suất
này.
Phân phối chuẩn tắc
4. Phân phối nhị thức
Bài học bắt đầu bằng cách đặt vấn đề về sự tồn tại của các thử nghiệm
Bernoulli:
Thực hiện các phép thử độc lập (n phép thử)
Mỗi phép thử chỉ có hai khả năng thành công (với xác suất p) và thất bại
(với xác suất q=1-p)
Từ đó định nghĩa biến ngẫu nhiên có phân phối nhị thức
là số lần thành công của một thử nghiện Bernoulli.
Hơn thế nữa, bài học cung cấp cho bạn các đặc trưng của biến ngẫu nhiên
rời rạc này:
👉 Ý nghĩa từng phần:
- : số cách chọn 𝑘 lần thành công trong 𝑛 lần
- : xác suất 𝑘 lần thành công
- : xác suất 𝑛−𝑘 lần thất bại
🎯 Ví dụ 1: Tung đồng xu
- Tung 10 lần, mặt ngửa là “thành công”
- 𝑝 = 0.5
Xác suất đúng 6 lần ngửa:
🎯 Ví dụ 2: Trắc nghiệm đoán mò
12 câu, mỗi câu 4 đáp án
Đoán đúng 𝑝 = 0.25
Xác suất qua bài (≥7 câu đúng):
Phân phối nhị thức
Tổng Kết
Trong bài học này, bạn đã được học về Phân phối xác suất:
- Đối với một biến ngẫu nhiên rời rạc, phân phối xác suất được gọi là hàm khối xác suất, cho xác suất, trong khi đối với biến ngẫu nhiên liên tục, phân phối xác suất được gọi là hàm mật độ xác suất, cho xác suất trên một đơn vị của biến ngẫu nhiên.
- Khi phân phối xác suất được xác định, bạn có thể tính toán các thống kê đặc trưng như giá trị trung bình và độ lệch chuẩn cho một biến ngẫu nhiên, ngay cả khi bạn không có các quan sát thực tế cho biến đó.
- Dạng hàm của phân phối chuẩn và vai trò của hai tham số trong việc xác định vị trí (giá trị trung bình) và mức chênh lệch (độ lệch chuẩn) của phân phối. Ngoài ra, chúng ta có thể áp dụng phép biến đổi z cho một biến phân phối chuẩn. Do đó, có thể được thực hiện các báo cáo xác suất với bất kỳ giá trị nào của biến ngẫu nhiên trên cơ sở kết quả điểm số z.
- Phân phối xác suất nhị thức cũng được giới thiệu với chỉ hai kết quả xung khắc và xác suất p cố định để thu được một trong hai kết quả (phép thử Bernoulli).
Nguồn: Funix, University Of Amsterdam, AI (ChatGPT)

