Phân loại ảnh cơ bản trong thuật toán Computer vision

Phân loại ảnh cơ bản trong thuật toán Computer vision

Uniduc JSC - 2020-03-25 04:05:50 | 3142 lượt xem

Mục lục

Một cách thực tế, cho dù kiểm tra biểu đồ đầu tư danh mục đầu tư chứng khoán hoặc nhìn vào sự lan tỏa của một trận bóng đá sắp tới, hoặc đơn giản là tham gia vào nghệ thuật, chúng ta liên tục phân tích nội dung trực quan, diễn giải ý nghĩa và lưu trữ các kiến ​​thức để sử dụng sau này.

Tuy nhiên, đối với máy tính, việc diễn giải nội dung của hình ảnh khó hơn - tất cả máy tính thấy là một ma trận lớn của các con số. Nó không có bất kì ý tưởng nào liên quan đến những suy nghĩ, kiến ​​thức, hoặc ý nghĩa hình ảnh đang cố gắng truyền tải.
Để hiểu nội dung của hình ảnh, chúng ta phải áp dụng phân loại hình ảnh, trong đó
là nhiệm vụ của việc sử dụng thị giác máy tính và thuật toán học máy để rút ra ý nghĩa từ
một tấm ảnh. Hành động này có thể đơn giản như gán nhãn cho những gì hình ảnh hoặc như
nâng cao như diễn giải nội dung của một hình ảnh và trả về một câu có thể đọc được.

Phân loại hình ảnh là một lĩnh vực nghiên cứu rất lớn, bao gồm rất nhiều kỹ thuật - và với sự phổ biến của học tập sâu, nó đang tiếp tục phát triển.
Bây giờ là lúc để tìm hiểu học sâu và phân loại hình ảnh. Phân loại hình ảnh và hiểu hình ảnh hiện đang là lĩnh vực phụ phổ biến của Computer Vision trong mười năm tới. Chúng ta sẽ thấy ngày càng nhiều ứng dụng tiêu dùng trên điện thoại thông minh có thể hiểu được và giải thích nội dung của một hình ảnh.

Trong bài này, tôi sẽ cung cấp một cái nhìn tổng quan cấp cao về phân loại hình ảnh, cùng với
nhiều thách thức mà một thuật toán phân loại hình ảnh phải vượt qua. Chúng ta cũng sẽ xem xét ba các loại hình học tập khác nhau liên quan đến phân loại hình ảnh và học máy. Cuối cùng, chúng tôi sẽ kết thúc bằng cách thảo luận về bốn bước đào tạo học tập sâu mạng để phân loại hình ảnh và cách đường ống bốn bước này so với phương pháp truyền thống.

Phân loại ảnh là gì?

Phân loại hình ảnh, ở cốt lõi của nó, là nhiệm vụ gán nhãn cho hình ảnh từ một định nghĩa. Thực tế, điều này có nghĩa là nhiệm vụ của chúng ta là phân tích một hình ảnh đầu vào và trả lại một nhãn phân loại hình ảnh. Nhãn luôn từ một tập hợp các danh mục có thể được xác định trước.

Thách thức trong phân loại ảnh

Để bắt đầu, chúng ta có viewpoint variation, trong đó một đối tượng có thể được định hướng hoặc xoay theo nhiều kích thước liên quan đến cách chụp đối tượng và chụp. Ví dụ, cho dù góc chụp là gì khi chụp Raspberry Pi này, nó vẫn là Raspberry Pi.
Chúng tôi cũng phải tính đến scale variation. Bạn đã bao giờ đặt hàng một cao, grande, hoặc
cốc cà phê venti từ Starbucks? Về mặt kỹ thuật, tất cả chúng đều giống nhau - một tách cà phê.
Nhưng tất cả chúng đều có kích cỡ khác nhau của một tách cà phê. Hơn nữa, cùng một loại cà phê venti sẽ nhìn khác biệt đáng kể khi nó được chụp gần hơn so với khi nó được chụp từ xa hơn
xa. Phương pháp phân loại hình ảnh của chúng tôi phải bất biến đối với các loại biến thể tỷ lệ này.
Một trong những biến thể khó nhất để giải thích là deformation. Dành cho những bạn quen thuộc với phim truyền hình Gumby, nhân vật này có tính đàn hồi, có thể co giãn và có khả năng chống lại cơ thể của anh ta trong nhiều tư thế khác nhau. Chúng ta có thể xem những hình ảnh này của Gumby như một dạng biến dạng của vật thể - tất cả hình ảnh chứa nhân vật Gumby; tuy nhiên, tất cả chúng đều khác biệt đáng kể với nhau.

Phân loại hình ảnh của chúng ta cũng sẽ có thể xử lý occlusions, trong đó các phần lớn của đối tượng chúng ta muốn phân loại được ẩn khỏi trong ảnh.

Những hình thức học sâu

Học có giám sát

Hãy tưởng tượng điều này: bạn vừa mới tốt nghiệp đại học với bằng Cử nhân Khoa học về Máy tính Khoa học. Bạn còn trẻ. Và tìm kiếm một công việc trong lĩnh vực này - có lẽ bạn thậm chí cảm thấy lạc lõng với tìm kiếm công việc của bạn.
Nhưng trước khi bạn biết điều đó, một nhà tuyển dụng Google tìm thấy bạn trên LinkedIn và cung cấp cho bạn một vị trí làm việc trên phần mềm Gmail của họ. Bạn sẽ lấy nó? Nhiều khả năng.
Vài tuần sau, bạn kéo lên khuôn viên ngoạn mục của Google, ở Mountain View, California,
Bị choáng ngợp bởi cảnh quan ngoạn mục, đội tàu Teslas trong bãi đậu xe, và gần như
hàng thực phẩm không bao giờ kết thúc trong nhà ăn.
Cuối cùng bạn ngồi xuống bàn làm việc trong một không gian làm việc rộng mở giữa hàng trăm nhân viên khác. . . và sau đó bạn tìm ra vai trò của bạn trong công ty. Bạn đã được thuê để tạo ra một phần của phần mềm để tự động phân loại email là thư rác hoặc không phải thư rác.
Làm thế nào để thực hiện mục tiêu này? Một cách tiếp cận dựa trên quy tắc sẽ làm việc? Bạn có thể viết một một loạt các câu lệnh if / other tìm kiếm một số từ nhất định và sau đó xác định xem email có phải là thư rác không dựa trên những quy tắc này? Điều đó có thể làm việc. . . đến một mức độ. Nhưng cách tiếp cận này cũng sẽ dễ dàng bị đánh bại và gần như không thể duy trì.
Thay vào đó, những gì bạn thực sự cần là học máy. Bạn cần một bộ đào tạo bao gồm
tự gửi email cùng với nhãn của họ, trong trường hợp này là thư rác hoặc không phải thư rác. Đưa ra dữ liệu này, bạn có thể phân tích văn bản (nghĩa là phân phối các từ) trong email và sử dụng nhãn thư rác / không phải thư rác để dạy một trình phân loại học máy những từ nào xuất hiện trong email spam và những từ nào không - tất cả mà không phải tự tạo một chuỗi các câu lệnh if / other dài và phức tạp.
Ví dụ về việc tạo một hệ thống lọc thư rác là một ví dụ về học tập có giám sát. Giám sát
học được cho là loại máy học được biết đến và nghiên cứu nhiều nhất. Được đào tạo từ dữ liệu của chúng ta, một mô hình được tạo ra thông qua quy trình đào tạo nơi dự đoán được thực hiện
dữ liệu đầu vào và sau đó sửa chữa khi dự đoán sai. Quá trình đào tạo này tiếp tục
cho đến khi mô hình đạt được một số tiêu chí dừng mong muốn, chẳng hạn như tỷ lệ lỗi thấp hoặc tối đa số lần lặp đào tạo.

Học tập không giám sát

Ngược lại với học tập có giám sát, học tập không giám sát (đôi khi được gọi là học tự học)
không có nhãn liên quan đến dữ liệu đầu vào và do đó chúng tôi không thể sửa mô hình của mình nếu nó tạo ra một dự đoán không chính xác.
Quay trở lại ví dụ về bảng tính, chuyển đổi một vấn đề học tập có giám sát sang một việc học một cách không giám sát cũng đơn giản như việc loại bỏ cột nhãn.
Việc học tập không giám sát đôi khi được coi là thật sự quan trọng trong dữ liệu trực tuyến. Khi chúng ta xem xét số lượng hình ảnh trên Flickr hoặc số lượng video trên YouTube, chúng ta nhanh chóng nhận ra có một lượng lớn dữ liệu chưa được gắn nhãn có sẵn trên internet. Nếu
chúng ta có thể có được thuật toán của mình để tìm hiểu các mẫu từ dữ liệu chưa được gắn nhãn, sau đó chúng tôi sẽ phải chi tiêu một lượng lớn thời gian (và tiền bạc) dán nhãn hình ảnh một cách khó khăn cho các nhiệm vụ được giám sát.
Hầu hết các thuật toán học tập không giám sát đều thành công nhất khi chúng ta có thể học cơ bản cấu trúc của một tập dữ liệu và sau đó, lần lượt, áp dụng các tính năng đã học của chúng tôi cho một vấn đề học tập có giám sát nơi có quá ít dữ liệu được dán nhãn sẽ được sử dụng

Học bán giám sát

Điều gì xảy ra nếu chúng ta chỉ có một số nhãn được liên kết với dữ liệu của mình và không có nhãn cho khác? Có cách nào để chúng ta có thể áp dụng một số kết hợp giữa học tập có giám sát và không giám sát mà vẫn có thể phân loại từng điểm dữ liệu? Hóa ra câu trả lời là có - chúng ta chỉ cần áp dụng học bán giám sát.
Quay trở lại ví dụ về bảng tính của chúng ta, chúng ta chỉ có nhãn cho một phần nhỏ dữ liệu của chúng ta. Thuật toán học bán giám sát của chúng ta sẽ lấy các phần dữ liệu đã biết, phân tích chúng và cố gắng gắn nhãn cho từng điểm dữ liệu chưa được gắn nhãn để sử dụng làm dữ liệu đào tạo bổ sung. Quá trình này có thể lặp lại cho nhiều lần lặp khi thuật toán bán giám sát tìm hiểu cấu trúc của YouTube của dữ liệu để đưa ra dự đoán chính xác hơn và tạo ra dữ liệu đào tạo đáng tin cậy hơn.
Học bán giám sát đặc biệt hữu ích trong thị giác máy tính, nơi nó thường mang tính thời gian, tẻ nhạt và tốn kém (ít nhất là theo giờ làm việc) để dán nhãn cho từng người hình ảnh trong tập đào tạo của chúng tôi. Trong trường hợp đơn giản là chúng ta không có thời gian hoặc tài nguyên để dán nhãn cho mỗi hình ảnh cá nhân, chúng tôi chỉ có thể gắn nhãn một phần nhỏ dữ liệu của chúng tôi và sử dụng học tập bán giám sát để dán nhãn và phân loại phần còn lại của hình ảnh.
Các thuật toán học bán giám sát thường giao dịch các bộ dữ liệu đầu vào có nhãn nhỏ hơn để giảm độ chính xác phân loại. Thông thường, đào tạo được dán nhãn chính xác hơn một giám sát
thuật toán học tập có, dự đoán chính xác hơn nó có thể thực hiện (điều này đặc biệt đúng với sâu
thuật toán học tập). Khi số lượng dữ liệu đào tạo giảm, độ chính xác chắc chắn bị ảnh hưởng. 

Kết luận

Trong bài này, ta đã tìm hiểu các phần cơ bản của Học sâu và thị giác máy tính. Trong các bài tiếp theo, chúng ta sẽ tìm hiểu những ứng dụng của học sâu lên thị giác máy tính

Mời bạn có thể tham gia cộng đồng robotic để đặt câu hỏi cũng như tìm hiểu về robot.

Chúc bạn thành đạt trong công việc và hạnh phúc trong cuộc sống !

Hotline / Zalo: 0903 666 014

Website: https://uniduc.com/vi

-------------////--------------------------------------------////------------

HUMANOID ROBOT CỦA CÔNG TY UNIDUC SẢN XUẤT PHÁT TRIỂN.

Đăng kí nhận tin mới



Đánh giá bài viết

0%

0 Tổng người đánh giá
5
0%
4
0%
3
0%
2
0%
1
0%
THÔNG TIN LIÊN HỆ

Công ty Cổ phần Uniduc

Địa Chỉ: 22 Đường Số 54, Phường Thảo Điền, Quận 2

Hotline: 086 567 7939 (Phòng Kinh Doanh / HTKT)

Email: [email protected]

Website: https://uniduc.com/vi

 

 
TỔNG QUAN

Công ty Cổ Phần Uniduc chuyên cung cấp các loại robot phục vụ, Agv Robot, hệ thống tự động. Với kinh nghiệm nghiên cứu lâu năm và đội ngũ kỹ sư năng động sáng tạo. Hi vọng Uniduc là điếm đến công nghệ là nơi khách hàng luôn gửi trọn niềm tin. Chúng tôi sẽ luôn luôn phấn đấu cung cấp cho bạn giải pháp, máy móc, dịch vụ tốt nhất.

TIN MỚI
ĐĂNG KÝ NHẬN TIN

Nhận bản tin thường xuyên để cập nhật giá bán và các chương trình khuyến mãi.


©2018 - 2022 Copyright Uniduc., Jsc. Sitemap