Giải tích đa biến - Quy tắc dây chuyền và Bài toán tối ưu


Nhận thấy rằng phép tính đa biến thực sự không phức tạp hơn trường hợp đơn biến, bây giờ chúng ta tập trung vào các ứng dụng của quy tắc chuỗi (chain rule). Nếu chúng ta muốn tìm điểm cực tiểu và cực đại của một hàm thì chúng ta có thể sử dụng phép tính đa biến để làm điều này, chẳng hạn như để tối ưu hóa các tham số (không gian) của một hàm để phù hợp với một số dữ liệu.

Mục tiêu:

  • Kiểm tra các bài toán hai chiều bằng Jacobian.
  • Áp dụng quy tắc chuỗi đa biến để phân biệt các hàm lồng nhau.
  • Nhận biết các nguyên tắc của gradient descent (giảm độ dốc).
  • Thực hiện tối ưu hóa bằng cách sử dụng phép tính đa biến.
  • Kiểm tra các trường hợp mà phương pháp không trả lại kết quả tốt nhất.
  • Giải quyết các vấn đề gradient descent có hạn chế bằng cách sử dụng Phương pháp nhân tử Lagrange.

Nội dung

1. Jacobians - Vectơ của đạo hàm

Chúng ta sẽ giới thiệu các cấu trúc đại số tuyến tính cần thiết để lưu trữ các kết quả của phép phân tích tính toán đa biến của chúng tôi một cách có trật tự - Jacobian. Nếu bạn có một hàm có nhiều biến f(x1, x2, x3,...) thì Jacobian chỉ đơn giản là một vector mà mỗi phần tử là đạo hàm từng phần của f đối với từng biến.

Jacobian

Ứng dụng của Jacobian

2. The Sandpit

Để hiểu rõ hơn về mục tiêu và vấn đề tối ưu hóa của hệ thống đa biến, cùng nhau tìm hiểu về một mặt phẳng chứa các gradient thông qua Jacobian vectơ - Sanpid.

The Sandpit

Chúng ta sẽ tìm một khái niệm bổ sung, liên quan đến hệ thống đa biến gọi là Hessian. Hiểu đơn giản Hessian có thể được coi như là một phần mở rộng đơn giản của Jacobian vector. Đối với Jacobian, chúng ta đã thu thập lại tất cả các đạo hàm bậc nhất của một hàm số theo từng biến thành một vectơ. Bây giờ, chúng ta sẽ thu thập tất cả các đạo hàm thứ hai với nhau thành một ma trận đối với một hàm theo từng biến.


The Hessian

Các khó khăn với bài toán tối ưu hóa trong giải tích đa biến:

  • Trong các bài toán về mạng nơron, số chiều có thể lên đến hàng nghìn.
  • Tốn kém trong mô phỏng và tính toán điểm cực trị.
  • Đạo hàm sẽ xuất hiện nhiều điểm gián đoạn, gây khó khăn cho mô phỏng.
  • Chúng ta có thể tiếp cận với 2 phương pháp giải: Phương pháp số và phương pháp xấp xỉ.


Reality is hard

3. Quy tắc dây chuyền trong giải tích đa biến

Áp dụng quy tắc dây chuyền trong tính toán đạo hàm tổng cho hàm đa biến, chúng ta thấy rằng phép tính đạo hàm đa biến thực sự không phức tạp hơn trường hợp đơn biến.

Quy tắc dây chuyền cho hàm đa biến - Phần 1

Quy tắc dây chuyền cho hàm đa biến - Phần 2

4. Bài toán tìm cực trị

Nếu chúng ta muốn tìm điểm cực tiểu và cực đại của một hàm thì chúng ta có thể sử dụng phép tính đạo hàm tổng đa biến để làm điều này, chẳng hạn như để tối ưu hóa các tham số (không gian) của một hàm để phù hợp với một số dữ liệu. Quá trình tính toán và áp dụng đạo hàm vào đây được gọi là Gradient Descent - hạ Gradient.


Gradient Descent

Gradient Descent Part 2

5. Tài liệu đọc

Cùng ôn lại một số kiến thức cơ bản về giải tích vi phân ở bài đọc dưới đây.

Tài liệu đọc: Giải tích - deepai-book

Chú ý: Các bạn chỉ cần đọc từ phần 2.2 đến hết phần 2.7 và 2.10 của tài liệu đọc. Phần 2.8 và 2.9 sẽ được giới thiệu và giảng dạy chi tiết hơn ở môn MLP302x.

6. Bài tập

Hãy chạy các notebook sau để hiểu Jacobian và Đạo hàm là gì:

Tổng kết

Sau bài học này, bạn đã nắm được:

  • Cách áp dụng Jacobian, Sandpit và Hessian.
  • Các ứng dụng của quy tắc chuỗi trong phép tính đa biến.
  • Tối ưu hóa các tham số của một hàm trên một chiều và sử dụng gradient để đưa ra ước tính về vị trí mà hàm đó có giá trị bằng 0, sau đó lặp lại trong phương pháp Newton-Raphson.
  • Mở rộng ý tưởng ra nhiều chiều bằng cách tìm vectơ gradient, Grad, là vectơ Jacobian.
  • Tìm đường đến cực tiểu và cực đại trong phương pháp được gọi là phương pháp gradient descent.
  • Dành một chút thời gian sử dụng Grad để tìm cực tiểu và cực đại cùng với một giới hạn trong không gian, đó là phương pháp cấp số nhân Lagrange.

Nguồn: FunixImperial College, AI (ChatGPT)

Đăng nhận xét

Mới hơn Cũ hơn

POST ADS BOTTOM