TÌM HIỂU VỀ PARAMETERIZED

TÌM HIỂU VỀ PARAMETERIZED

Uniduc JSC - 2020-03-26 03:19:22 | 777 lượt xem

Mục lục

Như chúng ta đã tìm hiểu, phân lớp bằng k-NN, mặc dù là một mô hình đơn giản, không thực sự học dựa trên data. Chúng ta chỉ đơn giản là phải lưu trữ dữ liệu đào tạo bên trong mô hình và sau đó dự đoán được thực hiện tại thời điểm thử nghiệm bằng cách so sánh các điểm dữ liệu thử nghiệm với dữ liệu đào tạo của chúng ta.

Trong trường hợp dữ liệu có kích thước lớn, k-NN gặp phải vấn đề lớn nhất của nó. Trong khi đào tạo có thể đơn giản, thử nghiệm khá chậm, với nút cổ chai là sự tính toán khoảng cách giữa các vectơ. Tính toán khoảng cách giữa các điểm đào tạo và kiểm tra quy mô tuyến tính với K số điểm trong tập dữ liệu của chúng tôi, làm cho phương pháp này không thực tế khi bộ dữ liệu của chúng tôi trở nên khá lớn. Và trong khi chúng ta có thể áp dụng các phương pháp nâng cao hơn, để tăng tốc tìm kiếm, điều đó vẫn không làm giảm bớt vấn đề mà k-NN phải duy trì một bản sao dữ liệu bên trong khởi tạo.

Để xem tại sao lưu trữ một bản sao chính xác của dữ liệu đào tạo trong mô hình là một vấn đề, hãy xem xét việc đào tạo mô hình k-NN và sau đó triển khai nó tới cơ sở khách hàng 100, 1.000 hoặc thậm chí 1.000.000 người dùng. Nếu tập huấn luyện của bạn chỉ có vài megabyte, điều này có thể không thành vấn đề - nhưng nếu tập luyện của bạn thiết lập được đo bằng gigabyte đến terabyte (như trường hợp của nhiều bộ dữ liệu mà chúng tôi áp dụng sâu học để), bạn có một vấn đề thực sự.

Thay vào đó, một cách tiếp cận hấp dẫn hơn sẽ là xác định mô hình học máy có thể học
các mẫu từ dữ liệu đầu vào của chúng tôi trong thời gian đào tạo (yêu cầu chúng tôi ta nhiều thời gian hơn cho việc đào tạo quá trình), nhưng có lợi ích được xác định bởi một số lượng nhỏ các tham số có thể dễ dàng được.
Được sử dụng để đại diện cho mô hình, bất kể quy mô đào tạo. Kiểu học máy này được gọi là Parameterized Learning.

Giới thiệu về Phân lớp tuyến tính

4 thành phần của Parameterized Learning

Nói một cách đơn giản: tham số hóa là quá trình xác định các tham số cần thiết của một
mô hình nhất định. Trong nhiệm vụ học máy, parameterization bao gồm xác định một vấn đề trong
các điều khoản của bốn thành phần chính: dữ liệu, scoring function, hàm mất mát và trọng số.
Chúng ta sẽ xem xét từng thứ dưới đây.

Dữ liệu

Thành phần này là dữ liệu đầu vào của chúng ta mà chúng ta sẽ học hỏi. Dữ liệu này bao gồm cả dữ liệu điểm (tức là, cường độ điểm ảnh thô từ hình ảnh, tính năng được trích xuất, v.v.) và lớp liên kết của chúng nhãn. Thông thường, chúng tôi biểu thị dữ liệu của mình theo ma trận thiết kế đa chiều. Mỗi hàng trong ma trận thiết kế biểu thị một điểm dữ liệu trong khi mỗi cột (có thể là chính nó một mảng nhiều chiều) của ma trận tương ứng với một tính năng khác

Hàm scoring

Hàm tính điểm chấp nhận dữ liệu của chúng ta làm đầu vào và ánh xạ dữ liệu tới nhãn lớp. Ví dụ,
với tập hợp các hình ảnh đầu vào của chúng tôi, chức năng chấm điểm lấy các điểm dữ liệu này, áp dụng một số chức năng f (chức năng chấm điểm của chúng ta), và sau đó trả về các nhãn lớp dự đoán, tương tự như mã giả phía dưới:

INPUT_IMAGES => F(INPUT_IMAGES) => OUTPUT_CLASS_LABELS

Hàm mất mát

Hàm mất định lượng xác định mức độ nhãn dự đoán của chúng ta đồng ý với nhãn thực tế của chúng tôi. Mức độ phù hợp giữa hai bộ nhãn này càng cao, loss của chúng tôi càng thấp (và càng cao trong khả năng phân loại chính xác, ít nhất là trên tập huấn luyện).
Mục tiêu của chúng tôi khi đào tạo một mô hình học máy là để giảm thiểu hàm mất mát, từ đó
tăng độ chính xác phân loại.

Trọng số

Ma trận trọng số, thường được ký hiệu là W và vectơ sai lệch b được gọi là trọng số hoặc
các tham số của trình phân loại mà chúng tôi thực sự sẽ tối ưu hóa. Dựa trên kết quả tính điểm của chúng ta, chúng ta sẽ tinh chỉnh và thay đổi giá trị của trọng số và độ lệch
để tăng độ chính xác phân loại.
Tùy thuộc vào loại mô hình của bạn, có thể tồn tại nhiều tham số hơn, nhưng ở mức cơ bản nhất
cấp độ, đây là bốn thành phần của việc học được tham số hóa mà bạn thường gặp. Khi chúng ta xác định bốn thành phần chính này, chúng ta có thể áp dụng các phương thức tối ưu hóa cho phép chúng ta tìm một tập hợp các tham số W và b để giảm thiểu hàm mất mát liên quan đến việc ghi điểm của chúng ta.
Tiếp theo, hãy cùng xem xét cách các thành phần này có thể phối hợp với nhau để xây dựng bộ phân loại tuyến tính, biến đổi dữ liệu đầu vào thành dự đoán thực tế.

Phân lớp tuyến tính: từ hình ảnh đến lớp ảnh

Trong phần này, chúng ta sẽ xem xét một động lực toán học hơn của mô hình được tham số hóa
tiếp cận học máy.
Để bắt đầu, chúng ta cần dữ liệu. Hãy giả sử rằng tập dữ liệu đào tạo của chúng ta được ký hiệu là xi trong đó mỗi tập dữ liệu hình ảnh có một nhãn lớp liên quan yi. Chúng ta có N điểm dữ liệu theo chiều D, được tách thành K loại duy nhất.
Với các biến này, bây giờ chúng ta phải xác định hàm tính điểm f ánh xạ các hình ảnh tới
điểm nhãn lớp. Một phương pháp để thực hiện việc ghi điểm này là thông qua ánh xạ tuyến tính đơn giản

Nhìn vào hình và phương trình trên, bạn có thể thuyết phục bản thân rằng xi và yi đầu vào là
cố định và không phải cái gì chúng ta có thể sửa đổi. Chắc chắn, chúng ta có thể có được xi khác nhau bằng cách áp dụng khác nhau biến đổi thành hình ảnh đầu vào - nhưng một khi chúng ta chuyển hình ảnh vào chức năng chấm điểm, những điều này giá trị không thay đổi. Trong thực tế, các tham số duy nhất mà chúng tôi có bất kỳ quyền kiểm soát nào (về mặt
học tập tham số) là ma trận trọng số W và vectơ sai lệch b. Do đó, mục tiêu của chúng ta là
sử dụng cả chức năng ghi điểm và chức năng mất của chúng ta để tối ưu hóa (nghĩa là sửa đổi một cách có hệ thống) trọng lượng và vectơ thiên vị sao cho độ chính xác phân loại của chúng tôi tăng lên.
Độ chính xác cách chúng tôi tối ưu hóa ma trận trọng số phụ thuộc vào hàm mất mát, nhưng thường liên quan đến một số phương pháp Gradient Descent. Tối ưu hóa
các phương thức như Gradient Descent(và các biến thể của nó) sẽ được thảo luận trong các bài tiếp theo. Tuy nhiên, đối với thời gian hiện tại, hiểu đơn giản là được cung cấp chức năng cho điểm, chúng ta cũng sẽ xác định hàm mất mát để dự đoán về dữ liệu đầu vào.

Kết luận

Parameterized Learning là một đặc điểm cơ bản trong học sâu, trong các bài tiếp thep, chúng ta sẽ tìm hiểu thêm về các phương pháp tối ưu trong học sâu

Chúc bạn thành đạt trong công việc và hạnh phúc trong cuộc sống !

Hotline / Zalo: 0903 666 014

Website: https://uniduc.com/vi

-------------////--------------------------------------------////------------

HUMANOID ROBOT CỦA CÔNG TY UNIDUC SẢN XUẤT PHÁT TRIỂN.

Đăng kí nhận tin mới



Đánh giá bài viết

0%

0 Tổng người đánh giá
5
0%
4
0%
3
0%
2
0%
1
0%
THÔNG TIN LIÊN HỆ

Công ty Cổ phần Uniduc

Địa Chỉ: 22 Đường Số 54, Phường Thảo Điền, Quận 2

Hotline: 086 567 7939 (Phòng Kinh Doanh / HTKT)

Email: [email protected]

Website: https://uniduc.com/vi

 

 
TỔNG QUAN

Công ty Cổ Phần Uniduc chuyên cung cấp các loại robot phục vụ, Agv Robot, hệ thống tự động. Với kinh nghiệm nghiên cứu lâu năm và đội ngũ kỹ sư năng động sáng tạo. Hi vọng Uniduc là điếm đến công nghệ là nơi khách hàng luôn gửi trọn niềm tin. Chúng tôi sẽ luôn luôn phấn đấu cung cấp cho bạn giải pháp, máy móc, dịch vụ tốt nhất.

TIN MỚI
ĐĂNG KÝ NHẬN TIN

Nhận bản tin thường xuyên để cập nhật giá bán và các chương trình khuyến mãi.


©2018 - 2022 Copyright Uniduc., Jsc. Sitemap