Trong bài học này, bạn sẽ được giới thiệu các phương pháp thống kê mô tả. Bạn sẽ tìm hiểu các trường hợp và biến số là gì, làm thế nào bạn có thể tính toán các tham số đo lường xu hướng tập trung của dữ liệu (mean, median và mode) và phân tán (độ lệch chuẩn và phương sai). Sau đó, bạn sẽ học cách đánh giá mối quan hệ giữa các biến.
Mục tiêu
- Tìm hiểu các phương pháp thống kê mô tả.
- Tìm hiểu các trường hợp và biến số là gì
- Tính toán các tham số đo lường xu hướng tập trung của dữ liệu (mean, median và mode) và mức độ phân tán của dữ liệu (độ lệch chuẩn và phương sai).
Nội dung
1. Dữ liệu và mô hình hóa
Phần đầu tiên giới thiệu những điều cơ bản về thống kê mô tả.
1.1 Phân loại dữ liệu thống kê
Phân biệt biến số (variable) và trường hợp (case):
- Biến số là những đặc điểm của ai đó hay cái gì đó.
- Trường hợp (hay quan sát) là ai đó hay cái gì đó.
Hay nói cách khác biến là đặc điểm của trường hợp. VD: Trường hợp là
các học sinh. Biến số là màu tóc, chiều cao, điểm số của học sinh đó.
Biến là một dấu hiệu ta đang quan tâm nghiên cứu trên tổng thể, nó thay đổi
từ cá thể này sang cá thể khác. Biến có 2 loại:
Biến định tính (qualitative variables) và Biến định lượng (quantitative variables).
Biến định tính là biến dạng đối tượng. Giá trị của nó trên mỗi cá thể
nhằm mô tả một thuộc tính, một phạm trù về cá thể đó. Ngoài ra biến này còn
được gọi là biến phân loại (categorial variable). Tập hợp các giá trị của
biến định tính trên toàn bộ tổng thể được gọi là dữ liệu định tính
(qualitative data). Loại dữ liệu này thường được chia theo 2 mức:
- Dữ liệu định danh (nominal data) chỉ là tên gọi, nhãn mác, không sắp xếp được theo thứ tự. Đối với dữ liệu định danh, các thuộc tính của biến chỉ dùng để phân loại các cá thể. VD: tên laptop: “asus”. “lenovo”, “dell”; tên khu vực: “Tp.HCM”, “HN”.
- Dữ liệu có thứ bậc (Ordinal data) trên dữ liệu định danh một bậc, dữ liệu có thể sắp xếp được theo một thứ tự nào đó, nhưng sự khác nhau giữa các giá trị dữ liệu không có ý nghĩa. VD: dữ liệu có thứ bậc: phân loại độ tuổi: “trẻ”, “trung niên”, “già”.
Biến định lượng là biến có thể đo lường trên mỗi cá thể và có
giá trị là một số. Tập hợp các giá trị của biến định lượng trên toàn bộ tổng
thể được gọi là dữ liệu định lượng (quantitative data). Bởi vậy dữ liệu định
lượng phản ánh rõ ràng về sự hơn kém của các sự vật hiện tượng với
nhau. VD: chiều cao, cân nặng, số sinh viên,... Thang đo (hay đơn vị đo) của
dữ liệu định lượng có hai loại là thang đo khoảng (interval scale) và thang
đo tỉ lệ (ratio scale). Ngoài ra, dữ liệu định lượng còn phân biệt 2
loại:
- Dữ liệu rời rạc (discrete data) là dữ liệu đếm được có thể hữu hạn hoặc vô hạn phần tử.
- Dữ liệu liên tục (continuous data) có thể đo được, dữ liệu thường có giá trị lấp đầy một khoảng thực.
Phân loại dữ liệu thống kê
1.2 Bảng phân bố tần suất
Video sẽ cung cấp cho bạn những lưu ý sau khi lấy xong dữ liệu thống kê. Như
bạn đã biết để giải quyết những bài toán thực tế chúng ta phải làm việc với
lượng dữ liệu khổng lồ, vì vậy bạn phải biết tổng hợp lại dữ liệu cho thuận
tiện nhất.
Ngoài ra, chúng ta cũng cần biết khi nào thì dùng bảng
phân bố tần suất (dữ liệu dạng Qualitative),
bảng phân bố tần suất theo lớp (dữ liệu dạng Quantitative) tùy theo
số lượng giá trị chúng ta phải phân tích.
Video cũng hướng dẫn bạn cách xây dựng các loại bảng phân bố dựa trên dữ
liệu thô bạn lấy được từ quần thể.
Bảng phân bố tần suất
1.3 Biểu đồ mô tả dữ liệu
Bảng phân bố tần suất tốt để tóm tắt dữ liệu. Một trong những loại biểu đồ
cơ bản và phổ biến dùng trong thống kê có thể kể đến như:
- Pie chart (Biểu đồ tròn)
- Bar graph (biểu đồ cột)
- Dot plot (biểu đồ điểm)
- Histogram (biểu đồ tần suất)
Hơn thế nữa bài học còn cung cấp các ví dụ minh họa về việc dùng biểu đồ để
đưa ra dự đoán tổng quan về phân bố của dữ liệu
- Bell-shaped (biểu đồ hình chuông)
- Skew (biểu đồ lệch)
- Unimodal (biểu đồ đơn đỉnh)
- Bimodal (biểu đồ song đỉnh)
Đồ thị và hình dạng của các phân bố
2. Các thước đo cho khuynh hướng trung tâm và khuynh hướng phân tán
Phần trước cung cấp cho bạn cách tổng hợp dữ liệu bằng bảng biểu hoặc đồ thị
để có dự đoán tổng quan về dữ liệu, nhưng chúng ta vẫn cần có cơ sở khoa học
để kiểm nghiệm lại xem dự đoán đó về dữ liệu đã đúng chưa. Trong các bài học
tiếp theo sẽ cung cấp cho các bạn các kiến thức cơ bản về xác suất để xử lý
các số liệu nhằm tìm ra các đặc trưng cơ bản của dữ liệu.
2.1 Mode, Mean và Median
Video này cung cấp các tham số đo lường xu hướng tập trung của dữ liệu:
- Mean (giá trị trung bình): trung bình số học được tính đơn giản
bằng tổng tất cả các giá trị của dữ liệu chia cho tổng số dữ
liệu. Cụ thể:
+ Giá trị trung bình trong quần thể:
Trong đó:
-
: giá trị trung bình của quần thể (population mean)
-
: giá trị của từng phần tử trong quần thể
-
: tổng số phần tử trong quần thể
-
: tổng tất cả giá trị dữ liệu
Trong đó:
-
: giá trị trung bình mẫu (sample mean)
-
: giá trị của từng phần tử trong mẫu
-
: số lượng phần tử trong mẫu
-
: tổng tất cả giá trị dữ liệu của mẫu
Để tìm số trung vị của một danh sách hữu hạn các số, ta sắp xếp tăng dần tất cả các quan sát, rồi lấy giá trị nằm giữa danh sách. Nếu số quan sát là chẵn, người ta thường lấy trung bình của hai giá trị nằm giữa.
- Mode: dữ liệu có tần suất xuất hiện nhiều nhất, nếu không có dữ liệu nào xuất hiện lặp lại thì không có mode.
Khác với giá trị trung bình, mode không nhất thiết phải là duy nhất.
Mode đặc biệt hữu dụng khi các giá trị của các quan sát không có thứ tự dễ thấy (thường khi dữ liệu không phải là số) do giá trị trung bình và trung vị có thể không được xác định.
Mean, Median và Mode là đại lượng khác nhau biểu thị xu hướng trung tâm của dữ liệu. Tùy theo tình huống thực tế mà bạn có sự lựa chọn sao cho phù hợp nhất.
Mode, Trung vị và Giá trị trung bình
2.2 Biên độ, Độ trải giữa và Box-plot
Bài học cung cấp cho bạn các đặc trưng đầu tiên cho sự phân tán của dữ liệu,
bao gồm
- Range (Biên độ): chỉ phạm vi chênh lệch giữa giá trị lớn nhất và
giá trị nhỏ nhất trong tập dữ liệu, từ đó giúp bạn có kết luận tổng quan về
độ trải rộng của dữ liệu.
Công thức tính: Range = max value - min value
- Quartile (Tứ phân vị): là đại lượng mô tả sự phân bố và phân tán
của tập dữ liệu.
Tứ phân vị bao gồm 3 giá trị Q1, Q2, Q3 chia tập hợp dữ liệu (đã được sắp
xếp theo trật tự từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau.
Như vậy, tứ phân vị thứ hai chính là giá trị trung vị, tứ phân vị thứ nhất
chính là trung vị của nửa đầu của tập dữ liệu và tứ phân vị thứ ba là
trung vị của nửa sau của tập dữ liệu (chú ý phải sắp xếp tập dữ liệu
theo thứ tự tăng dần).
Tại sao lại cần tứ phân vị/boxplot khi đã có mean, mode và median là để
tránh bị ảnh hưởng bởi outlier (mean bị ảnh hưởng rất mạnh khi có
outlier).
- Interquartile range IQR (Độ trải giữa): Đây cũng là một thước đo
sự phân tán của các dữ liệu, thuật ngữ này được định nghĩa như sự chênh
lệch giữa giá trị cao nhất và giá trị thấp nhất của các tứ phân vị, và vì
vậy nó chứa 50% giá trị dữ liệu.
Công thức tính:
- Chuẩn để lọc các dữ liệu outlier (dữ liệu ở xa so với phần lớn
các giá trị dữ liệu còn lại) để không bị ảnh hưởng đến các đặc trưng khi
phân tích:
Các dữ liệu nằm bên trái giá trị:
và bên phải giá trị:
đều được xếp vào outliers, bạn cần phải loại bỏ các giá trị này trước khi
tiến hành phân tích dữ liệu.
- Đồng thời hướng dẫn bạn cách xây dựng Boxplot - Biểu đồ hộp bao gồm
5 tham số đặc trưng của dứ liệu: giá trị nhỏ nhất, giá trị lớn nhất và các
tứ phân vị một cách trực quan, dễ hiểu, từ đó giúp bạn có cái nhìn tổng quan
về sự phân bố của dữ liệu.
Biên độ, Độ trải giữa và Box-plot
2.3 Phương sai và Độ lệch chuẩn
Bài học cung cấp cho bạn đại lượng hay dùng nhất trong thống kê để đại
diện cho sự phân tán của dữ liệu, đó là:
- Variance (Phương sai): trung bình tổng bình phương các độ lệch
của các giá trị dữ liệu so với giá trị trung bình. Cụ thể:
+ Phương sai trong quần thể:
Trong đó:
- 𝑁 = kích thước quần thể (tổng số dữ liệu trong quần thể)
- = giá trị thứ i
- 𝜇 = giá trị trung bình của quần thể
+ Phương sai trong mẫu:
Trong đó:
- 𝑛 = kích thước mẫu
- = giá trị thứ i
- = giá trị trung bình của mẫu
- Standard deviation (Độ lệch chuẩn): căn của phương sai
+ Độ lệch chuẩn trong quần thể:
+ Độ lệch chuẩn trong mẫu:
Phương sai là tham số rất tốt để đo lường sự phân tán của dữ liệu vì nó
quan tâm đến độ lệch của mỗi quan sát so với giá trị trung bình, chỉ có
một chú ý nhỏ là đơn vị của phương sai và giá trị trung bình là
không giống nhau, thế nên mới dẫn đến việc khai căn phương sai để định
nghĩa độ lệch chuẩn.
Đơn vị của phương sai là bình phương đơn vị của giá trị trung bình.
Phương sai và Độ lệch chuẩn
3. Z-scores
Đôi khi các nhà nghiên cứu muốn biết liệu một quan sát cụ thể là phổ biến
hay ngoại lệ. Để trả lời câu hỏi đó, họ biểu thị điểm số theo số độ lệch
chuẩn mà nó được loại bỏ khỏi giá trị trung bình. Con số này được chúng ta
gọi là Z- score.
Bài học cung cấp cho bạn khái niệm về Z-score (số lần độ lệch chuẩn
một điểm dữ liệu nhất định so với mức trung bình). Để tính điểm Z, chỉ cần
lấy giá trị dữ liệu trừ đi giá trị trung bình và chia kết quả theo
độ lệch chuẩn.
- z-score trong quần thể:
- z-score trong mẫu:
Trong đó:
- 𝑥: giá trị quan sát
- 𝜇: trung bình quần thể
- 𝜎: độ lệch chuẩn quần thể
- : trung bình mẫu
- 𝑠: độ lệch chuẩn mẫu
Đối với các điểm dữ liệu dưới mức trung bình, điểm Z là âm.
Bài học còn giới thiệu ra quy tắc trong thực tế 68-95-99.7, giúp bạn
ước lượng được có bao nhiêu phần trăm giá trị dữ liệu nằm trong 1 (hoặc 2
hoặc 3 ) lần độ lệch chuẩn so với giá trị trung bình. Từ đó phân loại dữ
liệu thành usual (nếu |z|<2) và unusual (nếu |z|>2)
Z-scores
Tiếp theo, chúng ta sẽ đến với một ví dụ thực tế, với đầy đủ các bước của
miêu tả dữ liệu thống kê một cách chi tiết:
- Xác định dạng dữ liệu
- Lập bảng phân bố
- Tính toán các đại lượng đặc trưng cho xu hướng tập trung
- Tính toán các đại lượng đặc trưng cho sụ phân tán
- Xây dựng đồ thị (Boxplot)
- Tính z-score của một dữ liệu nào đó trong bảng dữ liệu
Ví dụ
Tổng kết
Trong bài học này, bạn đã được giới thiệu về các khái niệm cơ bản của thống
kê mô tả, giải thích về các trường hợp và biến, cách bạn có thể sắp xếp
chúng trong một ma trận dữ liệu. Chúng ta đã thảo luận về các thang đo khác
nhau và cách bạn có thể trình bày dữ liệu của mình bằng bảng và biểu đồ. Bạn
cũng đã được giới thiệu các tham số đo lường xu hướng tập trung của dữ liệu
(mean, median và mode) và độ phân tán (như biên, khoảng tứ phân vị, phương
sai và độ lệch chuẩn), cách hiểu chúng; giải thích cách bạn có thể tính toán
chúng. Cuối cùng, bạn tìm hiểu thêm về z-score. Trong phần này, chúng ta sẽ
chỉ phân tích các tình huống có một biến duy nhất.
Nguồn: Funix, University Of Amsterdam, AI (ChatGPT)


