Machine Learning Model That Understands Object Relationships 777x518 1 2
Thông tin công nghệ

Trí tuệ nhân tạo hiểu mối quan hệ đối tượng – Cho phép máy móc tìm hiểu thêm giống như con người đã làm

Các nhà nghiên cứu của MIT đã phát triển một mô hình học máy giúp hiểu mối quan hệ cơ bản giữa các đối tượng trong một cảnh và có thể tạo ra hình ảnh chính xác về cảnh từ mô tả văn bản. Nhà cung cấp hình ảnh: Jose-Luis Olivares, MIT và iStockphoto

Một mô hình học máy mới có thể cho phép robot hiểu các tương tác trên thế giới theo cách con người làm.

Khi con người nhìn vào một cảnh vật, họ nhìn thấy các đối tượng và mối quan hệ giữa chúng. Trên bàn làm việc của bạn, có thể có một máy tính xách tay được đặt bên trái điện thoại, phía trước màn hình máy tính.

Nhiều mô hình học sâu gặp khó khăn trong việc nhìn thế giới theo cách này vì họ không hiểu mối quan hệ vướng mắc giữa các đối tượng riêng lẻ. Nếu không có kiến thức về các mối quan hệ này, một robot được thiết kế để giúp ai đó trong nhà bếp sẽ gặp khó khăn khi thực hiện một lệnh như “nhấc thìa ở bên trái của bếp và đặt nó lên trên thớt.”

Trong nỗ lực giải quyết vấn đề này, các nhà nghiên cứu của MIT đã phát triển một mô hình hiểu được các mối quan hệ cơ bản giữa các đối tượng trong một cảnh. Mô hình của họ đại diện cho từng mối quan hệ riêng lẻ tại một thời điểm, sau đó kết hợp các đại diện này để mô tả cảnh tổng thể. Điều này cho phép mô hình tạo ra hình ảnh chính xác hơn từ mô tả văn bản, ngay cả khi cảnh bao gồm một số đối tượng được sắp xếp theo các mối quan hệ khác nhau với nhau.

Công việc này có thể được áp dụng trong các tình huống mà rô bốt công nghiệp phải thực hiện các công việc phức tạp, thao tác nhiều bước, như xếp đồ đạc trong nhà kho hoặc lắp ráp các thiết bị. Nó cũng đưa lĩnh vực này tiến gần hơn đến việc cho phép máy móc có thể học hỏi và tương tác với môi trường của chúng giống như con người.

Khung mà các nhà nghiên cứu đã phát triển có thể tạo ra hình ảnh của một cảnh dựa trên mô tả văn bản về các đối tượng và mối quan hệ của chúng. Trong hình này, hình ảnh cuối cùng của các nhà nghiên cứu nằm ở bên phải và theo đúng mô tả văn bản. Tín dụng: Được phép của các nhà nghiên cứu

“Khi tôi nhìn vào một cái bàn, tôi không thể nói rằng có một vật thể ở vị trí XYZ. Tâm trí của chúng ta không hoạt động như vậy. Trong tâm trí của chúng ta, khi chúng ta hiểu một cảnh, chúng ta thực sự hiểu nó dựa trên mối quan hệ giữa các đối tượng. Chúng tôi nghĩ rằng bằng cách xây dựng một hệ thống có thể hiểu được mối quan hệ giữa các đối tượng, chúng tôi có thể sử dụng hệ thống đó để thao tác và thay đổi môi trường của chúng tôi một cách hiệu quả hơn ”, Yilun Du, một nghiên cứu sinh tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) và đồng -lead tác giả của bài báo.

Du đã viết bài báo với các tác giả đồng chính là Shuang Li, một nghiên cứu sinh về CSAIL, và Nan Liu, một nghiên cứu sinh tại Đại học Illinois ở Urbana-Champaign; cũng như Joshua B. Tenenbaum, Giáo sư Phát triển Sự nghiệp Paul E. Newton về Khoa học Nhận thức và Tính toán tại Khoa Khoa học Trí não và Nhận thức và là thành viên của CSAIL; và tác giả cao cấp Antonio Torralba, Giáo sư Kỹ thuật Điện và Khoa học Máy tính của Delta Electronics và là thành viên của CSAIL. Nghiên cứu sẽ được trình bày tại Hội nghị về các hệ thống xử lý thông tin thần kinh vào tháng 12.

Một mối quan hệ tại một thời điểm

Khung mà các nhà nghiên cứu đã phát triển có thể tạo ra hình ảnh của một cảnh dựa trên mô tả văn bản về các đối tượng và mối quan hệ của chúng, chẳng hạn như “Một chiếc bàn gỗ bên trái chiếc ghế đẩu màu xanh lam. Một chiếc ghế dài màu đỏ bên phải một chiếc ghế đẩu màu xanh lam. ”

Hệ thống của họ sẽ chia những câu này thành hai phần nhỏ hơn mô tả từng mối quan hệ riêng lẻ (“một chiếc bàn gỗ ở bên trái chiếc ghế đẩu màu xanh” và “một chiếc ghế dài màu đỏ ở bên phải chiếc ghế đẩu màu xanh”), rồi lập mô hình từng phần riêng biệt . Những mảnh đó sau đó được kết hợp thông qua một quá trình tối ưu hóa để tạo ra hình ảnh của cảnh.

Trong hình này, những hình ảnh cuối cùng của nhà nghiên cứu được gắn nhãn “của chúng tôi”. Tín dụng: Được phép của các nhà nghiên cứu

Các nhà nghiên cứu đã sử dụng một kỹ thuật máy học được gọi là các mô hình dựa trên năng lượng để thể hiện các mối quan hệ đối tượng riêng lẻ trong một mô tả cảnh. Kỹ thuật này cho phép họ sử dụng một mô hình dựa trên năng lượng để mã hóa từng mô tả quan hệ, sau đó tổng hợp chúng lại với nhau theo cách suy ra tất cả các đối tượng và mối quan hệ.

Bằng cách chia nhỏ các câu thành các đoạn ngắn hơn cho mỗi mối quan hệ, hệ thống có thể kết hợp chúng lại theo nhiều cách khác nhau, do đó, nó có khả năng thích ứng tốt hơn với các mô tả cảnh mà nó chưa từng thấy trước đây, Li giải thích.

“Các hệ thống khác sẽ xem xét tất cả các mối quan hệ một cách tổng thể và tạo ra hình ảnh một lần từ mô tả. Tuy nhiên, các cách tiếp cận như vậy không thành công khi chúng ta có các mô tả không được phân phối, chẳng hạn như các mô tả có nhiều mối quan hệ hơn, vì mô hình này không thể thực sự điều chỉnh một lần để tạo ra hình ảnh chứa nhiều mối quan hệ hơn. Tuy nhiên, khi chúng tôi tổng hợp các mô hình nhỏ hơn, riêng biệt này lại với nhau, chúng tôi có thể lập mô hình cho một số lượng lớn các mối quan hệ hơn và thích ứng với các kết hợp mới lạ, ”Du nói.

Hệ thống cũng hoạt động ngược lại – với một hình ảnh, nó có thể tìm thấy các mô tả văn bản phù hợp với mối quan hệ giữa các đối tượng trong cảnh. Ngoài ra, mô hình của họ có thể được sử dụng để chỉnh sửa hình ảnh bằng cách sắp xếp lại các đối tượng trong cảnh để chúng khớp với mô tả mới.

Hiểu các cảnh phức tạp

Các nhà nghiên cứu đã so sánh mô hình của họ với các phương pháp học sâu khác được cung cấp các mô tả văn bản và được giao nhiệm vụ tạo ra các hình ảnh hiển thị các đối tượng tương ứng và các mối quan hệ của chúng. Trong mỗi trường hợp, mô hình của họ hoạt động tốt hơn các đường cơ sở.

Họ cũng yêu cầu con người đánh giá xem các hình ảnh được tạo ra có khớp với mô tả cảnh gốc hay không. Trong các ví dụ phức tạp nhất, nơi các mô tả chứa ba mối quan hệ, 91% người tham gia kết luận rằng mô hình mới hoạt động tốt hơn.

“Một điều thú vị mà chúng tôi phát hiện ra là đối với mô hình của mình, chúng tôi có thể tăng câu của mình từ việc có một mô tả mối quan hệ thành có hai hoặc ba hoặc thậm chí bốn mô tả và phương pháp của chúng tôi tiếp tục có thể tạo ra hình ảnh được mô tả chính xác bởi những Du nói.

Các nhà nghiên cứu cũng hiển thị hình ảnh mô hình của những cảnh mà họ chưa từng thấy trước đây, cũng như một số mô tả văn bản khác nhau của mỗi hình ảnh và nó có thể xác định thành công mô tả phù hợp nhất với các mối quan hệ đối tượng trong hình ảnh.

Và khi các nhà nghiên cứu cung cấp cho hệ thống hai mô tả cảnh quan hệ mô tả cùng một hình ảnh nhưng theo những cách khác nhau, mô hình có thể hiểu rằng các mô tả là tương đương.

Các nhà nghiên cứu đã bị ấn tượng bởi sự mạnh mẽ của mô hình của họ, đặc biệt là khi làm việc với các mô tả mà nó chưa từng gặp trước đây.

“Điều này rất hứa hẹn vì nó gần với cách con người làm việc hơn. Con người có thể chỉ nhìn thấy một vài ví dụ, nhưng chúng ta có thể trích xuất thông tin hữu ích chỉ từ một vài ví dụ đó và kết hợp chúng lại với nhau để tạo ra sự kết hợp vô hạn. Và mô hình của chúng tôi có một đặc tính như vậy cho phép nó học hỏi từ ít dữ liệu hơn nhưng tổng quát hóa thành các cảnh hoặc thế hệ hình ảnh phức tạp hơn, ”Li nói.

Mặc dù những kết quả ban đầu này rất đáng khích lệ, nhưng các nhà nghiên cứu muốn xem mô hình của họ hoạt động như thế nào trên các hình ảnh trong thế giới thực phức tạp hơn, với nền nhiễu và các đối tượng nằm chắn lẫn nhau.

Họ cũng quan tâm đến việc cuối cùng kết hợp mô hình của họ vào các hệ thống rô bốt, cho phép rô bốt suy ra các mối quan hệ đối tượng từ video và sau đó áp dụng kiến thức này để điều khiển các đối tượng trên thế giới.

“Phát triển các hình ảnh đại diện có thể đối phó với bản chất cấu tạo của thế giới xung quanh chúng ta là một trong những vấn đề mở quan trọng trong thị giác máy tính. Bài báo này đạt được tiến bộ đáng kể về vấn đề này bằng cách đề xuất một mô hình dựa trên năng lượng mô hình hóa rõ ràng nhiều mối quan hệ giữa các đối tượng được mô tả trong hình ảnh. Kết quả thực sự ấn tượng, ”Josef Sivic, một nhà nghiên cứu xuất sắc tại Viện Tin học, Người máy và Điều khiển học Séc tại Đại học Kỹ thuật Séc, người không tham gia nghiên cứu này, cho biết.

Tham khảo: “Học cách tạo quan hệ bằng hình ảnh” của Nan Liu, Shuang Li, Yilun Du, Joshua B. Tenenbaum và Antonio Torralba, NeurIPS 2021 (Spotlight).
GitHub

Nghiên cứu này một phần được hỗ trợ bởi Raytheon BBN Technologies Corp., Phòng thí nghiệm Nghiên cứu Mitsubishi Electric, Quỹ Khoa học Quốc gia, Văn phòng Nghiên cứu Hải quân và Trung tâm Nghiên cứu Thomas J. Watson của IBM.

Theo Scitechdaily

What's your reaction?

Excited
0
Happy
0
In Love
0
Not Sure
0

You may also like

Leave a reply

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.