Thống kê mô tả


Trong bài học này, bạn sẽ được giới thiệu các phương pháp thống kê mô tả. Bạn sẽ tìm hiểu các trường hợp và biến số là gì, làm thế nào bạn có thể tính toán các tham số đo lường xu hướng tập trung của dữ liệu (mean, median và mode) và phân tán (độ lệch chuẩn và phương sai). Sau đó, bạn sẽ học cách đánh giá mối quan hệ giữa các biến.

Mục tiêu

  • Tìm hiểu các phương pháp thống kê mô tả.
  • Tìm hiểu các trường hợp và biến số là gì
  • Tính toán các tham số đo lường xu hướng tập trung của dữ liệu (mean, median và mode) và mức độ phân tán của dữ liệu (độ lệch chuẩn và phương sai).

Nội dung

1. Dữ liệu và mô hình hóa

Phần đầu tiên giới thiệu những điều cơ bản về thống kê mô tả.

1.1 Phân loại dữ liệu thống kê

Phân biệt biến số (variable) và trường hợp (case):
  • Biến số là những đặc điểm của ai đó hay cái gì đó. 
  • Trường hợp (hay quan sát) là ai đó hay cái gì đó. 
Hay nói cách khác biến là đặc điểm của trường hợp. VD: Trường hợp là các học sinh. Biến số là màu tóc, chiều cao, điểm số của học sinh đó.

Biến là một dấu hiệu ta đang quan tâm nghiên cứu trên tổng thể, nó thay đổi từ cá thể này sang cá thể khác. Biến có 2 loại: Biến định tính (qualitative variables) và Biến định lượng (quantitative variables).

Biến định tính là biến dạng đối tượng. Giá trị của nó trên mỗi cá thể nhằm mô tả một thuộc tính, một phạm trù về cá thể đó. Ngoài ra biến này còn được gọi là biến phân loại (categorial variable). Tập hợp các giá trị của biến định tính trên toàn bộ tổng thể được gọi là dữ liệu định tính (qualitative data). Loại dữ liệu này thường được chia theo 2 mức: 

  • Dữ liệu định danh (nominal data) chỉ là tên gọi, nhãn mác, không sắp xếp được theo thứ tự. Đối với dữ liệu định danh, các thuộc tính của biến chỉ dùng để phân loại các cá thể. VD: tên laptop: “asus”. “lenovo”, “dell”; tên khu vực: “Tp.HCM”, “HN”.
  • Dữ liệu có thứ bậc (Ordinal data) trên dữ liệu định danh một bậc, dữ liệu có thể sắp xếp được theo một thứ tự nào đó, nhưng sự khác nhau giữa các giá trị dữ liệu không có ý nghĩa. VD: dữ liệu có thứ bậc: phân loại độ tuổi: “trẻ”, “trung niên”, “già”.
Biến định lượng là biến có thể đo lường trên mỗi cá thể và có giá trị là một số. Tập hợp các giá trị của biến định lượng trên toàn bộ tổng thể được gọi là dữ liệu định lượng (quantitative data). Bởi vậy dữ liệu định lượng phản ánh rõ ràng  về sự hơn kém của các sự vật hiện tượng với nhau. VD: chiều cao, cân nặng, số sinh viên,... Thang đo (hay đơn vị đo) của dữ liệu định lượng có hai loại là thang đo khoảng (interval scale) và thang đo tỉ lệ (ratio scale).  Ngoài ra, dữ liệu định lượng còn phân biệt 2 loại:
  • Dữ liệu rời rạc (discrete data) là dữ liệu  đếm được có thể hữu hạn hoặc vô hạn phần tử.
  • Dữ liệu liên tục (continuous data) có thể đo được, dữ liệu thường có giá trị lấp đầy một khoảng thực.
Phân loại dữ liệu thống kê

1.2 Bảng phân bố tần suất

Video sẽ cung cấp cho bạn những lưu ý sau khi lấy xong dữ liệu thống kê. Như bạn đã biết để giải quyết những bài toán thực tế chúng ta phải làm việc với lượng dữ liệu khổng lồ, vì vậy bạn phải biết tổng hợp lại dữ liệu cho thuận tiện nhất. 

Ngoài ra, chúng ta cũng cần biết khi nào thì dùng bảng phân bố tần suất (dữ liệu dạng Qualitative), bảng phân bố tần suất theo lớp (dữ liệu dạng Quantitative) tùy theo số lượng giá trị chúng ta phải phân tích.

Video cũng hướng dẫn bạn cách xây dựng các loại bảng phân bố dựa trên dữ liệu thô bạn lấy được từ quần thể.

Bảng phân bố tần suất

1.3 Biểu đồ mô tả dữ liệu

Bảng phân bố tần suất tốt để tóm tắt dữ liệu. Một trong những loại biểu đồ cơ bản và phổ biến dùng trong thống kê có thể kể đến như:
  • Pie chart (Biểu đồ tròn)
  • Bar graph (biểu đồ cột)
  • Dot plot (biểu đồ điểm)
  • Histogram (biểu đồ tần suất)
Hơn thế nữa bài học còn cung cấp các ví dụ minh họa về việc dùng biểu đồ để đưa ra dự đoán tổng quan về phân bố của dữ liệu
  • Bell-shaped (biểu đồ hình chuông)
  • Skew (biểu đồ lệch)
  • Unimodal (biểu đồ đơn đỉnh)
  • Bimodal (biểu đồ song đỉnh)
Đồ thị và hình dạng của các phân bố

2. Các thước đo cho khuynh hướng trung tâm và khuynh hướng phân tán

Phần trước cung cấp cho bạn cách tổng hợp dữ liệu bằng bảng biểu hoặc đồ thị để có dự đoán tổng quan về dữ liệu, nhưng chúng ta vẫn cần có cơ sở khoa học để kiểm nghiệm lại xem dự đoán đó về dữ liệu đã đúng chưa. Trong các bài học tiếp theo sẽ cung cấp cho các bạn các kiến thức cơ bản về xác suất để xử lý các số liệu nhằm tìm ra các đặc trưng cơ bản của dữ liệu.

2.1 Mode, Mean và Median

Video này cung cấp các tham số đo lường xu hướng tập trung của dữ liệu:
- Mean (giá trị trung bình): trung bình số học được tính đơn giản bằng tổng  tất cả các giá trị của dữ liệu  chia cho tổng số dữ liệu. Cụ thể:
+ Giá trị trung bình trong quần thể: 
μ=i=1NxiN\mu = \frac{\sum_{i=1}^{N} x_i}{N}

Trong đó:

  • μ: giá trị trung bình của quần thể (population mean)

  • xix_i : giá trị của từng phần tử trong quần thể

  • NN : tổng số phần tử trong quần thể

  • xi\sum x_i : tổng tất cả giá trị dữ liệu

+ Giá trị trung bình trong mẫu: 
xˉ=i=1nxin\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}

Trong đó:

  • xˉ\bar{x} : giá trị trung bình mẫu (sample mean)

  • xix_i : giá trị của từng phần tử trong mẫu

  • nn : số lượng phần tử trong mẫu

  • xi\sum x_i : tổng tất cả giá trị dữ liệu của mẫu

- Median (trung vị): giá trị ở vị trí chính giữa dãy dữ liệu (sau khi được sắp xếp), điều đó có nghĩa là một nửa quần thể hoặc mẫu sẽ có giá trị nhỏ hơn hoặc bằng số trung vị, và một nửa còn lại sẽ có giá trị lớn hơn hoặc bằng số trung vị.
Để tìm số trung vị của một danh sách hữu hạn các số, ta sắp xếp tăng dần tất cả các quan sát, rồi lấy giá trị nằm giữa danh sách. Nếu số quan sát là chẵn, người ta thường lấy trung bình của hai giá trị nằm giữa.
- Mode: dữ liệu có tần suất xuất hiện nhiều nhất, nếu không có dữ liệu nào xuất hiện lặp lại thì không có mode.
Khác với giá trị trung bình, mode không nhất thiết phải là duy nhất.
Mode đặc biệt hữu dụng khi các giá trị của các quan sát không có thứ tự dễ thấy (thường khi dữ liệu không phải là số) do giá trị trung bình và trung vị có thể không được xác định.
Mean, Median và Mode là đại lượng khác nhau biểu thị xu hướng trung tâm của dữ liệu. Tùy theo tình huống thực tế mà bạn có sự lựa chọn sao cho phù hợp nhất.

Mode, Trung vị và Giá trị trung bình

2.2 Biên độ, Độ trải giữa và Box-plot

Bài học cung cấp cho bạn các đặc trưng đầu tiên cho sự phân tán của dữ liệu, bao gồm 

- Range (Biên độ): chỉ phạm vi chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất trong tập dữ liệu, từ đó giúp bạn có kết luận tổng quan về độ trải rộng của dữ liệu.
Công thức tính: Range = max value - min value

- Quartile (Tứ phân vị): là đại lượng mô tả sự phân bố và phân tán của tập dữ liệu.
Tứ phân vị bao gồm 3 giá trị Q1, Q2, Q3 chia tập hợp dữ liệu (đã được sắp xếp theo trật tự từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau.
Như vậy, tứ phân vị thứ hai chính là giá trị trung vị, tứ phân vị thứ nhất chính là trung vị của nửa đầu của tập dữ liệu và tứ phân vị thứ ba là trung vị của nửa sau của tập dữ liệu (chú ý  phải sắp xếp tập dữ liệu theo thứ tự tăng dần).
Tại sao lại cần tứ phân vị/boxplot khi đã có mean, mode và median là để tránh bị ảnh hưởng bởi outlier (mean bị ảnh hưởng rất mạnh khi có outlier).

- Interquartile range IQR (Độ trải giữa): Đây cũng là một thước đo sự phân tán của các dữ liệu, thuật ngữ này được định nghĩa như sự chênh lệch giữa giá trị cao nhất và giá trị thấp nhất của các tứ phân vị, và vì vậy nó chứa 50% giá trị dữ liệu.

Công thức tính:  IQR=Q3Q1\text{IQR} = Q3 - Q1

- Chuẩn để lọc các dữ liệu outlier (dữ liệu ở xa so với phần lớn các giá trị dữ liệu còn lại) để không bị ảnh hưởng đến các đặc trưng khi phân tích:

Các dữ liệu nằm bên trái giá trị:  Lower fence=Q11.5×IQR\text{Lower fence} = Q1 - 1.5 \times IQR

và bên phải giá trị:  Upper fence=Q3+1.5×IQR\text{Upper fence} = Q3 + 1.5 \times IQR

đều được xếp vào outliers, bạn cần phải loại bỏ các giá trị này trước khi tiến hành phân tích dữ liệu.
- Đồng thời hướng dẫn bạn cách xây dựng Boxplot - Biểu đồ hộp bao gồm 5 tham số đặc trưng của dứ liệu: giá trị nhỏ nhất, giá trị lớn nhất và các tứ phân vị một cách trực quan, dễ hiểu, từ đó giúp bạn có cái nhìn tổng quan về sự phân bố của dữ liệu.

Biên độ, Độ trải giữa và Box-plot

2.3 Phương sai và Độ lệch chuẩn

Bài học cung cấp cho bạn đại lượng hay dùng nhất trong thống kê để đại diện cho sự phân tán của dữ liệu, đó là:

- Variance (Phương sai): trung bình tổng bình phương các độ lệch của các giá trị dữ liệu so với giá trị trung bình. Cụ thể:
      + Phương sai trong quần thể:  σ2=i=1N(xiμ)2N\sigma^2 = \frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}
Trong đó:
  • 𝑁 = kích thước quần thể (tổng số dữ liệu trong quần thể)
  • xix_i = giá trị thứ i
  • 𝜇 = giá trị trung bình của quần thể
      + Phương sai trong mẫu:  s2=i=1n(xixˉ)2n1s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1}
Trong đó:
  • 𝑛 = kích thước mẫu
  • xix_i = giá trị thứ i
  • xˉ\bar{x} = giá trị trung bình của mẫu
- Standard deviation (Độ lệch chuẩn): căn của phương sai
         + Độ lệch chuẩn trong quần thể: σ=i=1N(xiμ)2N\sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}}
         + Độ lệch chuẩn trong mẫu:  s=i=1n(xixˉ)2n1s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1}}
Phương sai là tham số rất tốt để đo lường sự phân tán của dữ liệu vì nó quan tâm đến độ lệch của mỗi quan sát so với giá trị trung bình, chỉ có một chú ý nhỏ là đơn vị của phương sai  và giá trị trung bình là không giống nhau, thế nên mới dẫn đến việc khai căn phương sai để định nghĩa độ lệch chuẩn.
Đơn vị của phương sai là bình phương đơn vị của giá trị trung bình.

Phương sai và Độ lệch chuẩn

3. Z-scores 

Đôi khi các nhà nghiên cứu muốn biết liệu một quan sát cụ thể là phổ biến hay ngoại lệ. Để trả lời câu hỏi đó, họ biểu thị điểm số theo số độ lệch chuẩn mà nó được loại bỏ khỏi giá trị trung bình. Con số này được chúng ta gọi là Z- score.
Bài học cung cấp cho bạn khái niệm về  Z-score (số lần độ lệch chuẩn một điểm dữ liệu nhất định so với mức trung bình). Để tính điểm Z, chỉ cần lấy giá trị dữ liệu trừ đi giá trị trung bình  và chia kết quả theo độ lệch chuẩn.
  • z-score trong quần thể: z=xμσz = \frac{x - \mu}{\sigma}
  • z-score trong mẫu: z=xxˉsz = \frac{x - \bar{x}}{s}
Trong đó:
  • 𝑥: giá trị quan sát
  • 𝜇: trung bình quần thể
  • 𝜎: độ lệch chuẩn quần thể
  • xˉ\bar{x} : trung bình mẫu
  • 𝑠: độ lệch chuẩn mẫu
Đối với các điểm dữ liệu dưới mức trung bình, điểm Z là âm. 

Bài học còn giới  thiệu ra quy tắc trong thực tế 68-95-99.7, giúp bạn ước lượng được có bao nhiêu phần trăm giá trị dữ liệu nằm trong 1 (hoặc 2 hoặc 3 ) lần độ lệch chuẩn so với giá trị trung bình. Từ đó phân loại dữ liệu thành usual (nếu |z|<2)  và unusual (nếu |z|>2)

Z-scores

Tiếp theo, chúng ta sẽ đến với một ví dụ thực tế, với đầy đủ các bước của miêu tả dữ liệu thống kê một cách chi tiết:
- Xác định dạng dữ liệu 
- Lập bảng phân bố
- Tính toán các đại lượng đặc trưng cho xu hướng tập trung
- Tính toán các đại lượng đặc trưng cho sụ phân tán
- Xây dựng đồ thị (Boxplot)
- Tính z-score của một dữ liệu nào đó trong bảng dữ liệu

Ví dụ

Tổng kết

Trong bài học này, bạn đã được giới thiệu về các khái niệm cơ bản của thống kê mô tả, giải thích về các trường hợp và biến, cách bạn có thể sắp xếp chúng trong một ma trận dữ liệu. Chúng ta đã thảo luận về các thang đo khác nhau và cách bạn có thể trình bày dữ liệu của mình bằng bảng và biểu đồ. Bạn cũng đã được giới thiệu các tham số đo lường xu hướng tập trung của dữ liệu (mean, median và mode) và độ phân tán (như biên, khoảng tứ phân vị, phương sai và độ lệch chuẩn), cách hiểu chúng; giải thích cách bạn có thể tính toán chúng. Cuối cùng, bạn tìm hiểu thêm về z-score. Trong phần này, chúng ta sẽ chỉ phân tích các tình huống có một biến duy nhất.

Nguồn: Funix, University Of Amsterdam, AI (ChatGPT)

Đăng nhận xét

Mới hơn Cũ hơn

POST ADS BOTTOM