Như chúng ta đã tìm hiểu, phân lớp bằng k-NN, mặc dù là một mô hình đơn giản, không thực sự học dựa trên data. Chúng ta chỉ đơn giản là phải lưu trữ dữ liệu đào tạo bên trong mô hình và sau đó dự đoán được thực hiện tại thời điểm thử nghiệm bằng cách so sánh các điểm dữ liệu thử nghiệm với dữ liệu đào tạo của chúng ta.
Trong trường hợp dữ liệu có kích thước lớn, k-NN gặp phải vấn đề lớn nhất của nó. Trong khi đào tạo có thể đơn giản, thử nghiệm khá chậm, với nút cổ chai là sự tính toán khoảng cách giữa các vectơ. Tính toán khoảng cách giữa các điểm đào tạo và kiểm tra quy mô tuyến tính với K số điểm trong tập dữ liệu của chúng tôi, làm cho phương pháp này không thực tế khi bộ dữ liệu của chúng tôi trở nên khá lớn. Và trong khi chúng ta có thể áp dụng các phương pháp nâng cao hơn, để tăng tốc tìm kiếm, điều đó vẫn không làm giảm bớt vấn đề mà k-NN phải duy trì một bản sao dữ liệu bên trong khởi tạo.
Để xem tại sao lưu trữ một bản sao chính xác của dữ liệu đào tạo trong mô hình là một vấn đề, hãy xem xét việc đào tạo mô hình k-NN và sau đó triển khai nó tới cơ sở khách hàng 100, 1.000 hoặc thậm chí 1.000.000 người dùng. Nếu tập huấn luyện của bạn chỉ có vài megabyte, điều này có thể không thành vấn đề - nhưng nếu tập luyện của bạn thiết lập được đo bằng gigabyte đến terabyte (như trường hợp của nhiều bộ dữ liệu mà chúng tôi áp dụng sâu học để), bạn có một vấn đề thực sự.
Thay vào đó, một cách tiếp cận hấp dẫn hơn sẽ là xác định mô hình học máy có thể học
các mẫu từ dữ liệu đầu vào của chúng tôi trong thời gian đào tạo (yêu cầu chúng tôi ta nhiều thời gian hơn cho việc đào tạo quá trình), nhưng có lợi ích được xác định bởi một số lượng nhỏ các tham số có thể dễ dàng được.
Được sử dụng để đại diện cho mô hình, bất kể quy mô đào tạo. Kiểu học máy này được gọi là Parameterized Learning.
Giới thiệu về Phân lớp tuyến tính
4 thành phần của Parameterized Learning
Nói một cách đơn giản: tham số hóa là quá trình xác định các tham số cần thiết của một
mô hình nhất định. Trong nhiệm vụ học máy, parameterization bao gồm xác định một vấn đề trong
các điều khoản của bốn thành phần chính: dữ liệu, scoring function, hàm mất mát và trọng số.
Chúng ta sẽ xem xét từng thứ dưới đây.
Dữ liệu
Thành phần này là dữ liệu đầu vào của chúng ta mà chúng ta sẽ học hỏi. Dữ liệu này bao gồm cả dữ liệu điểm (tức là, cường độ điểm ảnh thô từ hình ảnh, tính năng được trích xuất, v.v.) và lớp liên kết của chúng nhãn. Thông thường, chúng tôi biểu thị dữ liệu của mình theo ma trận thiết kế đa chiều. Mỗi hàng trong ma trận thiết kế biểu thị một điểm dữ liệu trong khi mỗi cột (có thể là chính nó một mảng nhiều chiều) của ma trận tương ứng với một tính năng khác
Hàm scoring
Hàm tính điểm chấp nhận dữ liệu của chúng ta làm đầu vào và ánh xạ dữ liệu tới nhãn lớp. Ví dụ,
với tập hợp các hình ảnh đầu vào của chúng tôi, chức năng chấm điểm lấy các điểm dữ liệu này, áp dụng một số chức năng f (chức năng chấm điểm của chúng ta), và sau đó trả về các nhãn lớp dự đoán, tương tự như mã giả phía dưới:
INPUT_IMAGES => F(INPUT_IMAGES) => OUTPUT_CLASS_LABELS
Hàm mất mát
Hàm mất định lượng xác định mức độ nhãn dự đoán của chúng ta đồng ý với nhãn thực tế của chúng tôi. Mức độ phù hợp giữa hai bộ nhãn này càng cao, loss của chúng tôi càng thấp (và càng cao trong khả năng phân loại chính xác, ít nhất là trên tập huấn luyện).
Mục tiêu của chúng tôi khi đào tạo một mô hình học máy là để giảm thiểu hàm mất mát, từ đó
tăng độ chính xác phân loại.
Trọng số
Ma trận trọng số, thường được ký hiệu là W và vectơ sai lệch b được gọi là trọng số hoặc
các tham số của trình phân loại mà chúng tôi thực sự sẽ tối ưu hóa. Dựa trên kết quả tính điểm của chúng ta, chúng ta sẽ tinh chỉnh và thay đổi giá trị của trọng số và độ lệch
để tăng độ chính xác phân loại.
Tùy thuộc vào loại mô hình của bạn, có thể tồn tại nhiều tham số hơn, nhưng ở mức cơ bản nhất
cấp độ, đây là bốn thành phần của việc học được tham số hóa mà bạn thường gặp. Khi chúng ta xác định bốn thành phần chính này, chúng ta có thể áp dụng các phương thức tối ưu hóa cho phép chúng ta tìm một tập hợp các tham số W và b để giảm thiểu hàm mất mát liên quan đến việc ghi điểm của chúng ta.
Tiếp theo, hãy cùng xem xét cách các thành phần này có thể phối hợp với nhau để xây dựng bộ phân loại tuyến tính, biến đổi dữ liệu đầu vào thành dự đoán thực tế.
Phân lớp tuyến tính: từ hình ảnh đến lớp ảnh
Trong phần này, chúng ta sẽ xem xét một động lực toán học hơn của mô hình được tham số hóa
tiếp cận học máy.
Để bắt đầu, chúng ta cần dữ liệu. Hãy giả sử rằng tập dữ liệu đào tạo của chúng ta được ký hiệu là xi trong đó mỗi tập dữ liệu hình ảnh có một nhãn lớp liên quan yi. Chúng ta có N điểm dữ liệu theo chiều D, được tách thành K loại duy nhất.
Với các biến này, bây giờ chúng ta phải xác định hàm tính điểm f ánh xạ các hình ảnh tới
điểm nhãn lớp. Một phương pháp để thực hiện việc ghi điểm này là thông qua ánh xạ tuyến tính đơn giản
Nhìn vào hình và phương trình trên, bạn có thể thuyết phục bản thân rằng xi và yi đầu vào là
cố định và không phải cái gì chúng ta có thể sửa đổi. Chắc chắn, chúng ta có thể có được xi khác nhau bằng cách áp dụng khác nhau biến đổi thành hình ảnh đầu vào - nhưng một khi chúng ta chuyển hình ảnh vào chức năng chấm điểm, những điều này giá trị không thay đổi. Trong thực tế, các tham số duy nhất mà chúng tôi có bất kỳ quyền kiểm soát nào (về mặt
học tập tham số) là ma trận trọng số W và vectơ sai lệch b. Do đó, mục tiêu của chúng ta là
sử dụng cả chức năng ghi điểm và chức năng mất của chúng ta để tối ưu hóa (nghĩa là sửa đổi một cách có hệ thống) trọng lượng và vectơ thiên vị sao cho độ chính xác phân loại của chúng tôi tăng lên.
Độ chính xác cách chúng tôi tối ưu hóa ma trận trọng số phụ thuộc vào hàm mất mát, nhưng thường liên quan đến một số phương pháp Gradient Descent. Tối ưu hóa
các phương thức như Gradient Descent(và các biến thể của nó) sẽ được thảo luận trong các bài tiếp theo. Tuy nhiên, đối với thời gian hiện tại, hiểu đơn giản là được cung cấp chức năng cho điểm, chúng ta cũng sẽ xác định hàm mất mát để dự đoán về dữ liệu đầu vào.
Kết luận
Parameterized Learning là một đặc điểm cơ bản trong học sâu, trong các bài tiếp thep, chúng ta sẽ tìm hiểu thêm về các phương pháp tối ưu trong học sâu
Chúc bạn thành đạt trong công việc và hạnh phúc trong cuộc sống !
Hotline / Zalo: 0903 666 014
Website: https://uniduc.com/vi
-------------////--------------------------------------------////------------
HUMANOID ROBOT CỦA CÔNG TY UNIDUC SẢN XUẤT PHÁT TRIỂN.