Trong bài học này, bạn sẽ được giới thiệu về phân tích song biến: nghiên cứu với hai biến. Bạn sẽ khám phá khái niệm về sự tương quan (colerration). Sau đó, bạn cũng học cách hiểu và tính toán một trong những thước đo tương quan thường được sử dụng nhất: hệ số tương quan Pearson. Tiếp theo, bạn sẽ được giới thiệu về phương pháp phân tích hồi quy, cách tìm đường hồi quy, cách mô tả đường này bằng phương trình. Bạn có thể đánh giá mức độ phù hợp của đường hồi quy với dữ liệu của mình bằng hệ số r².
Mục tiêu
- Giải thích khái niệm về tương quan.
- Học cách hiểu và tính toán một trong những thước đo tương quan thường được sử dụng nhất.
- Giải thích cách bạn (hoặc máy tính) tìm thấy đường hồi quy và cách mô tả đường này bằng phương trình.
- Giải thích lý do tại sao bạn phải luôn rất cẩn thận khi giải thích kết quả của phân tích hồi quy.
Nội dung
1. Tương quan
1.1 Bảng hai chiều và Scatter-plots
Bài học hướng dẫn bạn cách tổng hợp cho dữ liệu dạng cặp dựa theo cách phân loại dữ liệu theo thang đo đã học ở các mục trước đó:
- Với dữ liệu dạng nominal, ordinal: sử dụng Crosstable (bảng tương quan)
- Với dữ liệu dạng interval, ratio: sử dụng Scatter plot (biểu đồ phân tán)
Đồng thời hướng dẫn bạn cách chuyển đổi từ số đếm sang phần trăm để phân tích Crosstable và sử dụng tính trực quan của đồ thì Scatter plot để dự đoán về mối quan hệ tương quan giữa hai biến ngẫu nhiên phụ thuộc.
1.2. Hệ số tương quan r
Bài học cung cấp cho bạn công thức tính hệ số tương quan r - hệ số biểu thị độ mạnh yếu của tương quan tuyến tính giữa hai biến ngẫu nhiên và các tính chất của hệ số này.
Công thức tính hệ số tương quan r:
Trong đó và n là số cặp dữ liệu (x,y) trong mẫu
- r>0 tương ứng với tương quan dương.
- r<0 tương ứng với tương quan âm.
- r chỉ nhận giá trị trong đoạn [-1;1]; giá trị tuyệt đối của r càng gần 1 thì tương quan tuyến tính biểu thị càng mạnh và khi |r|=1 thì mẫu dữ liệu có tương quan tuyến tính mạnh nhất (tất cả dữ liệu nằm trên một đường thẳng).
- r=0 tương ứng với trường hợp mẫu dữ liệu không có tương quan.
- Nếu bạn đổi vai trò của x và y cho nhau thì giá trị của r không thay đổi.
Một chú ý quan trọng trong thực tế là bạn nên kiểm tra scatter plot trước khi đi tính hệ số tương quan để tránh trường hợp dữ liệu không có tương quan tuyến tính.
Công thức hệ số tương quan của tổng thể:
Trong đó:
- : hệ số tương quan Pearson của tổng thể
- : trung bình của quần thể X và Y
- : độ lệch chuẩn quần thể của X và Y
- : số phần tử của quần thể
2. Bài toán hồi quy
2.1 Phương pháp Bình phương tối thiểu
Bài học này hướng dẫn bạn:
- Cách xây dựng cũng như cách sử dụng Scatter plot để xác định được sự phân bố của dữ liệu là tương quan tuyến tính âm, tương quan tuyến tính dương hay không có tương quan tuyến tính giữa x và y.
- Chỉ ra khó khăn trong việc tìm xem đường thẳng nào chính xác là đường hồi quy tuyến tính mà chúng ta có thể dùng để dự đoán giá trị của dữ liệu. Từ đó giới thiệu phương pháp Bình phương tối thiểu để có thể tìm được phương trình đường hồi quy dựa vào dữ liệu mẫu.
2.2 Phương trình đường hồi quy tuyến tính
Bài học cung cấp cho bạn công thức chính xác để tính hệ số góc (hay còn gọi là hệ số độ dốc của đường hồi quy) b và giao với trục Oy a để xây dựng được phương trình đường hồi quy tuyến tính y = a + bx. Cụ thể:
Hệ số góc của đường hồi quy:
Giao của đường hồi quy với trục tung:
Từ đó chỉ ra rằng hệ số tương quan r và hệ số góc của đường hồi quy là luôn luôn cùng dấu với nhau, hay nói cách khác bạn có thể khẳng định rằng:
- r>0 ứng với đường hồi quy đồng biến
- r<0 ứng với đường hồi quy nghịch biến
Ngoài ra, bài học cũng đặt ra vấn đề dự đoán giá trị của biến phụ thuộc y khi biết giá trị của biến độc lập x.
2.3 Đánh giá mô hình/đường hồi quy tuyến tính
Bài học trước đặt cho bạn vấn đề về việc dùng đường hồi quy để dự đoán giá trị của biến phụ thuộc y khi cho trước giá trị của biến độc lập x. Nhưng vấn đề này cũng đặt ra cho bạn 2 câu hỏi:
1. Nếu dùng đường hồi quy để dự đoán thì độ chính xác của kết quả là bao nhiêu? Vì rõ ràng nếu bạn dùng đường hồi quy thì chắc chắc sẽ có sai số:
2. Trong trường hợp dữ liệu có tương quan chưa đủ mạnh (độ chính xác khi dùng đường hồi quy để dự đoán là thấp) thì bạn phải ước lượng giá trị của biến phụ thuộc như thế nào?
Trong bài học này, chúng ta sẽ giúp bạn trả lời được câu hỏi thứ nhất thông qua việc phân tích hệ số xác định r2, chính xác là bạn chỉ cần bình phương hệ số tương quan r để tìm được giá trị này.
Hơn thế nữa, bài học chỉ ra rằng r2 chính là phần trăm biến động của y được giải thích bởi mối quan hệ tuyến tính của y đối với x.
Thông thường ngưỡng của r2 phải trên 50%.
3. Cảnh báo và các ví dụ
3.1 Tương quan không phải là quan hệ nguyên nhân - hệ quả
Khi các bạn gặp vấn đề liên qua đến dữ liệu dạng cặp (x,y), bạn đã biết làm cách nào để nhận ra tương quan giữa hai biến x và y.
Trong thực tế, có rất nhiều người ngộ nhận tương quan (mối quan hệ) giữa biến phụ thuộc y và biến độc lập x là nguyên nhân - hệ quả (tức là nếu có biến độc lập thì mới có biến phụ thuộc). Bạn phải chú ý rằng sự phân tích tương quan chỉ giúp chúng ta ước lượng giá trị của biến phụ thuộc theo biến độc lập mà thôi.
Hơn nữa, bài học cũng chỉ ra rằng giá trị của các Outliers ảnh hưởng rất nhiều đến hình dạng (*) của đường hồi quy, vì thế khi phân tích dữ liệu phải lọc các outliers thì kết quả thu được mới đáng tin cậy.
3.2 Ví dụ về hệ số tương quan và hồi quy tuyến tính
Bài học cung cấp cho bạn ví dụ cụ thể cho việc phân tích dữ liệu dạng cặp theo từng bước:
- Tổng hợp dữ liệu
- Xây dựng Scatter plot
- Tính hệ số tương quan
- Xây dựng đường hồi quy tuyến tính
- Nhận xét sơ bộ về sự phụ thuộc của 2 biến ngẫu nhiên
Tổng kết
Trong bài viết này, bạn đã được giới thiệu về khái niệm tương quan. Bạn cũng đã được học cách hiểu và tính toán một trong những thước đo tương quan thường được sử dụng nhất, phương pháp phân tích hồi quy OLS(Ordinary Least Square). Giải thích cách tìm và mô tả đường hồi quy bằng phương trình. Bạn có thể đánh giá mức độ phù hợp của đường hồi quy với dữ liệu của mình bằng r².
Nguồn: Funix, University Of Amsterdam, AI (ChatGPT)
