Human Vision Concept 2
Thông tin công nghệ

Hệ thống trí tuệ nhân tạo mới cho phép máy móc nhìn thế giới giống con người hơn

Human Vision Concept

Một cách tiếp cận “thông thường” mới đối với thị giác máy tính cho phép trí tuệ nhân tạo diễn giải các cảnh một cách chính xác hơn các hệ thống khác.

Hệ thống thị giác máy tính đôi khi đưa ra suy luận về một cảnh bay theo lẽ thường. Ví dụ: nếu một rô bốt đang xử lý cảnh bàn ăn, nó có thể hoàn toàn bỏ qua một chiếc bát mà bất kỳ người quan sát nào có thể nhìn thấy, ước tính rằng một chiếc đĩa đang lơ lửng trên bàn hoặc nhận thức sai một chiếc nĩa đang đâm vào bát hơn là tựa vào nó.

Di chuyển hệ thống thị giác máy tính đó sang ô tô tự lái và tiền đặt cọc sẽ cao hơn nhiều – ví dụ: các hệ thống như vậy đã không phát hiện được các phương tiện khẩn cấp và người đi bộ băng qua đường.

Để khắc phục những lỗi này, các nhà nghiên cứu của MIT đã phát triển một khuôn khổ giúp máy móc nhìn thế giới giống như con người hơn. Hệ thống trí tuệ nhân tạo mới của họ để phân tích cảnh học cách nhận thức các đối tượng trong thế giới thực chỉ từ một vài hình ảnh và nhận thức các cảnh dưới dạng các đối tượng đã học này.

Các nhà nghiên cứu đã xây dựng khung bằng cách sử dụng lập trình xác suất, một phương pháp tiếp cận AI cho phép hệ thống kiểm tra chéo các đối tượng được phát hiện với dữ liệu đầu vào, để xem liệu hình ảnh được ghi lại từ máy ảnh có khớp với bất kỳ cảnh ứng viên nào hay không. Suy luận xác suất cho phép hệ thống suy ra xem liệu có khả năng không khớp là do nhiễu hoặc do lỗi trong diễn giải cảnh cần được sửa chữa bằng cách xử lý thêm hay không.

Hình ảnh này cho thấy cách 3DP3 (hàng dưới cùng) đưa ra các ước tính tư thế chính xác hơn của các đối tượng từ hình ảnh đầu vào (hàng trên) so với hệ thống học sâu (hàng giữa). Tín dụng: Được phép của các nhà nghiên cứu

Biện pháp bảo vệ thông thường này cho phép hệ thống phát hiện và sửa nhiều lỗi mắc phải các phương pháp “học sâu” cũng đã được sử dụng cho thị giác máy tính. Lập trình xác suất cũng giúp bạn có thể suy ra các mối quan hệ tiếp xúc có thể xảy ra giữa các đối tượng trong cảnh và sử dụng lý luận thông thường về các liên hệ này để suy ra vị trí chính xác hơn cho các đối tượng.

“Nếu bạn không biết về các mối quan hệ liên lạc, thì bạn có thể nói rằng một vật thể đang lơ lửng trên mặt bàn – đó sẽ là một lời giải thích hợp lệ. Là con người, rõ ràng đối với chúng ta rằng điều này là không thực tế về mặt vật lý và đối tượng nằm trên đầu bàn là một tư thế có nhiều khả năng hơn của đối tượng. Bởi vì hệ thống lý luận của chúng ta nhận thức được loại kiến thức này, nó có thể suy ra các tư thế chính xác hơn. Đó là cái nhìn sâu sắc về công trình này, ”tác giả chính Nishad Gothoskar, một nghiên cứu sinh về kỹ thuật điện và khoa học máy tính (EECS) với Dự án Máy tính Xác suất, cho biết.

Ngoài việc cải thiện độ an toàn của ô tô tự lái, công việc này có thể nâng cao hiệu suất của hệ thống nhận thức máy tính vốn phải giải thích các cách sắp xếp phức tạp của các đối tượng, giống như một robot có nhiệm vụ dọn dẹp một căn bếp lộn xộn.

Các đồng tác giả của Gothoskar bao gồm Marco Cusumano-Towner tốt nghiệp Tiến sĩ EECS gần đây; kỹ sư nghiên cứu Ben Zinberg; thăm sinh viên Matin Ghavamizadeh; Falk Pollok, một kỹ sư phần mềm tại Phòng thí nghiệm Watson AI của MIT-IBM; Austin Garrett tốt nghiệp thạc sĩ EECS; Dan Gutfreund, một điều tra viên chính trong Phòng thí nghiệm AI Watson của MIT-IBM; Joshua B. Tenenbaum, Giáo sư Phát triển Sự nghiệp Paul E. Newton về Khoa học Nhận thức và Tính toán tại Khoa Khoa học Não bộ và Nhận thức (BCS) và là thành viên của Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo; và tác giả cấp cao Vikash K. Mansinghka, nhà khoa học nghiên cứu chính và là nhà lãnh đạo của Dự án tính toán xác suất trong BCS. Nghiên cứu đang được trình bày tại Hội nghị về các hệ thống xử lý thông tin thần kinh vào tháng 12.

Một vụ nổ từ quá khứ

Để phát triển hệ thống, được gọi là “Nhận thức cảnh 3D thông qua Lập trình xác suất (3DP3)”, các nhà nghiên cứu đã dựa trên một khái niệm từ những ngày đầu nghiên cứu AI, đó là thị giác máy tính có thể được coi là “nghịch đảo” của đồ họa máy tính.

Đồ họa máy tính tập trung vào việc tạo ra hình ảnh dựa trên sự thể hiện của một cảnh; thị giác máy tính có thể được coi là nghịch đảo của quá trình này. Gothoskar và các cộng sự của ông đã làm cho kỹ thuật này dễ học và có thể mở rộng hơn bằng cách kết hợp nó vào một khuôn khổ được xây dựng bằng cách sử dụng lập trình xác suất.

“Lập trình xác suất cho phép chúng ta viết ra kiến thức của mình về một số khía cạnh của thế giới theo cách mà máy tính có thể giải thích, nhưng đồng thời, nó cho phép chúng ta thể hiện những gì chúng ta không biết, sự không chắc chắn. Vì vậy, hệ thống có thể tự động học hỏi từ dữ liệu và cũng tự động phát hiện khi các quy tắc không được tuân thủ, ”Cusumano-Towner giải thích.

Trong trường hợp này, mô hình được mã hóa với kiến thức trước đó về cảnh 3D. Ví dụ: 3DP3 “biết” rằng các cảnh bao gồm các đối tượng khác nhau và các đối tượng này thường nằm chồng lên nhau – nhưng chúng có thể không phải lúc nào cũng ở trong các mối quan hệ đơn giản như vậy. Điều này cho phép người mẫu suy luận về một cảnh với cảm giác chung hơn.

Học hình và cảnh

Để phân tích hình ảnh của một cảnh, trước tiên 3DP3 sẽ tìm hiểu về các đối tượng trong cảnh đó. Sau khi chỉ được hiển thị năm hình ảnh của một vật thể, mỗi hình ảnh được chụp từ một góc độ khác nhau, 3DP3 sẽ tìm hiểu hình dạng của vật thể đó và ước tính thể tích nó sẽ chiếm trong không gian.

“Nếu tôi cho bạn xem một vật thể từ năm góc độ khác nhau, bạn có thể xây dựng một hình ảnh đại diện khá tốt về vật thể đó. Bạn sẽ hiểu màu sắc, hình dạng của nó và bạn có thể nhận ra vật thể đó trong nhiều cảnh khác nhau, ”Gothoskar nói.

Mansinghka cho biết thêm, “Đây là cách ít dữ liệu hơn các phương pháp học sâu. Ví dụ, hệ thống phát hiện đối tượng thần kinh Dense Fusion yêu cầu hàng nghìn ví dụ đào tạo cho mỗi loại đối tượng. Ngược lại, 3DP3 chỉ yêu cầu một vài hình ảnh cho mỗi đối tượng và báo cáo sự không chắc chắn về các phần hình dạng của mỗi đối tượng mà nó không biết ”.

Hệ thống 3DP3 tạo ra một đồ thị để biểu diễn cảnh, trong đó mỗi đối tượng là một nút và các đường nối các nút cho biết đối tượng nào đang tiếp xúc với nhau. Điều này cho phép 3DP3 đưa ra ước tính chính xác hơn về cách các đối tượng được sắp xếp. (Các phương pháp tiếp cận học sâu dựa vào hình ảnh chiều sâu để ước tính tư thế đối tượng, nhưng các phương pháp này không tạo ra cấu trúc biểu đồ của các mối quan hệ liên hệ, vì vậy ước tính của chúng kém chính xác hơn.)

Làm tốt hơn các mô hình cơ sở

Các nhà nghiên cứu đã so sánh 3DP3 với một số hệ thống học sâu, tất cả đều có nhiệm vụ ước tính tư thế của các đối tượng 3D trong một cảnh.

Trong hầu hết các trường hợp, 3DP3 tạo ra các tư thế chính xác hơn so với các mô hình khác và hoạt động tốt hơn nhiều khi một số vật thể cản trở một phần những vật thể khác. Và 3DP3 chỉ cần xem năm hình ảnh của mỗi đối tượng, trong khi mỗi mô hình cơ sở mà nó vượt trội hơn cần hàng nghìn hình ảnh để đào tạo.

Khi được sử dụng cùng với một mô hình khác, 3DP3 có thể cải thiện độ chính xác của nó. Ví dụ: mô hình học sâu có thể dự đoán rằng một cái bát hơi lơ lửng trên mặt bàn, nhưng vì 3DP3 có kiến thức về các mối quan hệ liên hệ và có thể thấy rằng đây là một cấu hình khó xảy ra, nó có thể thực hiện điều chỉnh bằng cách căn chỉnh cái bát. với bảng.

“Tôi thấy thật ngạc nhiên khi thấy các lỗi từ học sâu đôi khi có thể lớn đến mức nào – tạo ra các biểu diễn cảnh trong đó các đối tượng thực sự không khớp với những gì mọi người sẽ cảm nhận. Tôi cũng thấy ngạc nhiên khi chỉ một chút suy luận dựa trên mô hình trong chương trình xác suất nhân quả của chúng tôi là đủ để phát hiện và sửa những lỗi này. Tất nhiên, vẫn còn một chặng đường dài phía trước để làm cho nó đủ nhanh và mạnh để thách thức các hệ thống thị giác thời gian thực – nhưng lần đầu tiên, chúng ta thấy lập trình xác suất và mô hình nhân quả có cấu trúc cải thiện tính mạnh mẽ so với học sâu trên 3D cứng tiêu chuẩn thị lực, ”Mansinghka nói.

Trong tương lai, các nhà nghiên cứu muốn đẩy mạnh hệ thống hơn nữa để nó có thể tìm hiểu về một đối tượng từ một hình ảnh hoặc một khung hình duy nhất trong phim và sau đó có thể phát hiện đối tượng đó một cách mạnh mẽ trong các cảnh khác nhau. Họ cũng muốn khám phá việc sử dụng 3DP3 để thu thập dữ liệu đào tạo cho mạng nơ-ron. Con người thường khó gắn nhãn hình ảnh bằng hình học 3D theo cách thủ công, vì vậy 3DP3 có thể được sử dụng để tạo các nhãn hình ảnh phức tạp hơn.

Hệ thống 3DP3 “kết hợp mô hình đồ họa có độ trung thực thấp với suy luận thông thường để sửa các lỗi diễn giải cảnh lớn do mạng thần kinh học sâu tạo ra. Loại phương pháp tiếp cận này có thể có khả năng ứng dụng rộng rãi vì nó giải quyết các phương thức thất bại quan trọng của học sâu. Thành tựu cũng cho thấy cách công nghệ lập trình xác suất phát triển trước đây dưới DARPA ‘Các nhà nghiên cứu MIT xác suất Lập trình s cho chương trình Machine Learning (PPAML) Thúc đẩy có thể được áp dụng để giải quyết các vấn đề trung tâm của chung cảm giác AI theo chương trình hiện hành Máy Common Sense (MCS) của DARPA, ”Matt Turek, Giám đốc Chương trình DARPA của Chương trình Nhận thức chung về Máy móc, người không tham gia vào nghiên cứu này cho biết, mặc dù chương trình đã tài trợ một phần cho nghiên cứu.

Tham khảo: “3DP3: Nhận thức cảnh 3D thông qua lập trình xác suất” của Nishad Gothoskar, Marco Cusumano-Towner, Ben Zinberg, Matin Ghavamizadeh, Falk Pollok, Austin Garrett, Joshua B. Tenenbaum, Dan Gutfreund và Vikash K. Mansinghka, ngày 30 tháng 10 năm 2021, Khoa học máy tính> Thị giác máy tính và nhận dạng mẫu .
arXiv: 2111.00312

Các nhà tài trợ bổ sung bao gồm sự hợp tác của Cơ quan Khoa học và Công nghệ Quốc phòng Singapore với Trường Cao đẳng Máy tính MIT Schwarzman, Trung tâm Máy tính Xác suất của Intel, Phòng thí nghiệm MIT-IBM Watson AI, Tổ chức Aphorism và Tổ chức Gia đình Siegel.

Theo Scitechdaily

What's your reaction?

Excited
0
Happy
0
In Love
0
Not Sure
0

You may also like

Leave a reply

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.