Peripheral Vision For Machines 777x437 1
Thông tin công nghệ

Mạnh mẽ đối nghịch: Lợi ích của Tầm nhìn ngoại vi cho Máy móc

Nghiên cứu mới từ MIT cho thấy rằng một loại mô hình thị giác máy tính nhất định được đào tạo để có khả năng chống nhiễu không thể nhận thấy được thêm vào dữ liệu hình ảnh sẽ mã hóa các biểu diễn hình ảnh tương tự như cách con người sử dụng thị giác ngoại vi. Nhà cung cấp hình ảnh: Jose-Luis Olivares, MIT

Các nhà nghiên cứu tìm thấy những điểm tương đồng giữa cách một số hệ thống thị giác máy tính xử lý hình ảnh và cách con người nhìn ra khỏi khóe mắt của chúng ta.

Có lẽ thị giác máy tính và thị giác con người có nhiều điểm chung hơn là giao tiếp bằng mắt?

Nghiên cứu từ MIT cho thấy rằng một loại mô hình thị giác máy tính mạnh nhất định nhận thức các hình ảnh tương tự như cách con người sử dụng thị giác ngoại vi. Các mô hình này, được gọi là mô hình mạnh mẽ đối nghịch, được thiết kế để khắc phục các bit nhiễu tinh vi đã được thêm vào dữ liệu hình ảnh.

Các nhà nghiên cứu nhận thấy cách các mô hình này học để biến đổi hình ảnh tương tự như một số yếu tố liên quan đến quá trình xử lý ngoại vi của con người. Tác giả cấp cao Arturo Deza, một postdoc tại Trung tâm Trí não, Tư duy và Máy móc cho biết, vì máy móc không có ngoại vi thị giác nên rất ít nghiên cứu về mô hình thị giác máy tính tập trung vào xử lý ngoại vi.

“Có vẻ như tầm nhìn ngoại vi, và các biểu diễn kết cấu đang diễn ra ở đó, đã được chứng minh là khá hữu ích cho thị giác của con người. Vì vậy, suy nghĩ của chúng tôi là, OK, có lẽ máy móc cũng có thể có một số công dụng, ”tác giả chính Anne Harrington, một nghiên cứu sinh tại Khoa Kỹ thuật Điện và Khoa học Máy tính, cho biết.

Các nhà nghiên cứu bắt đầu với một tập hợp các hình ảnh và sử dụng ba mô hình thị giác máy tính khác nhau để tổng hợp các biểu diễn của những hình ảnh đó khỏi nhiễu: một mô hình học máy “bình thường”, một mô hình đã được đào tạo để trở nên mạnh mẽ đối đầu và một mô hình đã được thiết kế đặc biệt để giải thích một số khía cạnh của quá trình xử lý ngoại vi của con người, được gọi là Textorms. Tín dụng: Được phép của các nhà nghiên cứu

Kết quả cho thấy rằng việc thiết kế một mô hình học máy để bao gồm một số dạng xử lý ngoại vi có thể cho phép mô hình tự động học các biểu diễn trực quan mạnh mẽ đối với một số thao tác tinh vi trong dữ liệu hình ảnh. Công trình này cũng có thể giúp làm sáng tỏ các mục tiêu của quá trình xử lý ngoại vi ở người, điều mà người ta vẫn chưa hiểu rõ, Deza cho biết thêm.

Nghiên cứu sẽ được trình bày tại Hội nghị Quốc tế về Đại diện Học tập.

Nhìn đôi

Con người và hệ thống thị giác máy tính đều có cái được gọi là thị giác con người, được sử dụng để xem xét các vật thể có độ chi tiết cao. Con người cũng sở hữu tầm nhìn ngoại vi, được sử dụng để tổ chức một cảnh không gian, rộng lớn. Deza cho biết, các phương pháp tiếp cận thị giác máy tính điển hình cố gắng mô hình hóa tầm nhìn của con người – đó là cách máy móc nhận biết các vật thể – và có xu hướng bỏ qua tầm nhìn ngoại vi.

Nhưng hệ thống thị giác máy tính của foveal dễ bị nhiễu đối phương, được thêm vào dữ liệu hình ảnh bởi kẻ tấn công. Trong một cuộc tấn công đối nghịch, tác nhân độc hại sửa đổi hình ảnh một cách tinh vi để mỗi pixel bị thay đổi rất nhẹ – con người sẽ không nhận thấy sự khác biệt, nhưng tiếng ồn đủ để đánh lừa một cỗ máy. Ví dụ: một hình ảnh có thể trông giống như một chiếc ô tô đối với con người, nhưng nếu nó bị ảnh hưởng bởi tiếng ồn đối phương, mô hình thị giác máy tính có thể tự tin phân loại nhầm nó thành một chiếc bánh, điều này có thể có tác động nghiêm trọng đến một phương tiện tự hành.

Các nhà nghiên cứu đã thiết kế một loạt các thí nghiệm về tâm sinh lý con người, trong đó những người tham gia được yêu cầu phân biệt giữa hình ảnh gốc và hình ảnh đại diện được tổng hợp bởi mỗi mô hình. Ảnh này cho thấy một ví dụ về việc thiết lập thử nghiệm. Tín dụng: Được sự cho phép của các nhà nghiên cứu

Để khắc phục lỗ hổng này, các nhà nghiên cứu tiến hành những gì được gọi là đào tạo đối phương, trong đó họ tạo ra các hình ảnh đã được thao tác với nhiễu đối phương, đưa chúng vào mạng nơ-ron, sau đó sửa lỗi của nó bằng cách gắn nhãn lại dữ liệu và sau đó đào tạo lại mô hình.

Deza nói: “Chỉ cần thực hiện quy trình đào tạo và gắn nhãn lại bổ sung đó dường như sẽ mang lại nhiều sự liên kết về mặt tri giác với quá trình xử lý của con người.

Ông và Harrington tự hỏi liệu các mạng được đào tạo đối nghịch này có mạnh mẽ không vì chúng mã hóa các biểu diễn đối tượng tương tự như tầm nhìn ngoại vi của con người. Vì vậy, họ đã thiết kế một loạt các thí nghiệm về tâm sinh lý con người để kiểm tra giả thuyết của họ.

Thời gian sử dụng

Họ bắt đầu với một tập hợp các hình ảnh và sử dụng ba mô hình thị giác máy tính khác nhau để tổng hợp các đại diện của những hình ảnh đó khỏi nhiễu: một mô hình học máy “bình thường”, một mô hình đã được đào tạo để trở nên mạnh mẽ đối đầu và một mô hình được thiết kế đặc biệt để giải thích cho một số khía cạnh của quá trình xử lý ngoại vi của con người, được gọi là Texforms.

Nhóm nghiên cứu đã sử dụng những hình ảnh được tạo ra này trong một loạt các thử nghiệm, nơi những người tham gia được yêu cầu phân biệt giữa hình ảnh gốc và hình ảnh đại diện được tổng hợp bởi mỗi mô hình. Một số thí nghiệm cũng cho phép con người phân biệt giữa các cặp hình ảnh được tổng hợp ngẫu nhiên khác nhau từ các mô hình giống nhau.

Những người tham gia giữ mắt tập trung vào tâm màn hình trong khi hình ảnh được chiếu ở các phía xa của màn hình, tại các vị trí khác nhau ở ngoại vi của họ. Trong một thử nghiệm, những người tham gia phải xác định hình ảnh kỳ quặc trong một loạt các hình ảnh chỉ được nhấp nháy trong mili giây tại một thời điểm, trong khi thử nghiệm kia, họ phải khớp với một hình ảnh được trình bày ở fovea của họ, với hai hình ảnh mẫu ứng viên được đặt ở ngoại vi của chúng. .

Trong các thí nghiệm, những người tham gia giữ mắt tập trung vào tâm màn hình trong khi hình ảnh được chiếu ở các phía xa của màn hình, tại các vị trí khác nhau ở ngoại vi của chúng, như những ảnh gif động này. Trong một thử nghiệm, những người tham gia phải xác định hình ảnh kỳ quặc trong một loạt hình ảnh chỉ được nhấp nháy trong mili giây tại một thời điểm. Tín dụng: Được sự cho phép của các nhà nghiên cứu
Trong thí nghiệm này, các nhà nghiên cứu đã cho con người khớp mẫu trung tâm với một trong hai mẫu ngoại vi mà không di chuyển mắt khỏi tâm màn hình. Tín dụng: Được sự cho phép của các nhà nghiên cứu

Khi các hình ảnh tổng hợp được hiển thị ở vùng ngoại vi xa, những người tham gia phần lớn không thể phân biệt được sự khác biệt giữa hình ảnh gốc dành cho mô hình mạnh mẽ đối nghịch hay mô hình Texform. Đây không phải là trường hợp của mô hình học máy tiêu chuẩn.

Tuy nhiên, điều có lẽ là kết quả nổi bật nhất là mô hình sai lầm mà con người mắc phải (như một chức năng của vị trí các kích thích tiếp đất ở vùng ngoại vi) được liên kết chặt chẽ trên tất cả các điều kiện thử nghiệm sử dụng các kích thích thu được từ mô hình Texform và ngược lại. mô hình mạnh mẽ. Những kết quả này cho thấy rằng các mô hình mạnh mẽ đối nghịch nắm bắt được một số khía cạnh của quá trình xử lý ngoại vi của con người, Deza giải thích.

Các nhà nghiên cứu cũng tính toán các thí nghiệm học máy cụ thể và các chỉ số đánh giá chất lượng hình ảnh để nghiên cứu sự giống nhau giữa các hình ảnh được tổng hợp bởi từng mô hình. Họ nhận thấy rằng những thứ được tạo ra bởi mô hình mạnh mẽ đối nghịch và mô hình Texforms là giống nhau nhất, điều này cho thấy rằng những mô hình này tính toán các phép biến đổi hình ảnh tương tự nhau.

Deza cho biết: “Chúng tôi đang làm sáng tỏ sự liên kết này về cách con người và máy móc mắc phải những sai lầm giống nhau và tại sao,” Deza nói. Tại sao sự mạnh mẽ của đối thủ xảy ra? Có sự tương đương về mặt sinh học nào đối với sự mạnh mẽ của kẻ thù trong những cỗ máy mà chúng ta chưa khám phá ra trong não bộ không? “

Deza hy vọng những kết quả này sẽ truyền cảm hứng cho công việc bổ sung trong lĩnh vực này và khuyến khích các nhà nghiên cứu thị giác máy tính xem xét xây dựng các mô hình lấy cảm hứng từ sinh học hơn.

Những kết quả này có thể được sử dụng để thiết kế một hệ thống thị giác máy tính với một số loại ngoại vi thị giác được mô phỏng có thể làm cho nó tự động mạnh mẽ trước tiếng ồn đối phương. Công trình này cũng có thể cung cấp thông tin về sự phát triển của các máy có thể tạo ra các hình ảnh biểu diễn trực quan chính xác hơn bằng cách sử dụng một số khía cạnh của quá trình xử lý ngoại vi của con người.

Harrington cho biết thêm: “Chúng tôi thậm chí có thể tìm hiểu về tầm nhìn của con người bằng cách cố gắng lấy một số thuộc tính nhất định ra khỏi mạng nơ-ron nhân tạo.

Nghiên cứu trước đây đã chỉ ra cách cô lập các phần “mạnh mẽ” của hình ảnh, trong đó việc đào tạo các mô hình trên những hình ảnh này khiến họ ít bị thất bại hơn trước. Thomas Wallis, giáo sư về nhận thức tại Viện Tâm lý học và Trung tâm Khoa học Nhận thức tại Đại học Kỹ thuật Darmstadt, giải thích những hình ảnh mạnh mẽ này trông giống như phiên bản xáo trộn của hình ảnh thực.

“Tại sao những hình ảnh mạnh mẽ này lại trông giống như chúng? Harrington và Deza sử dụng các thí nghiệm hành vi cẩn thận của con người để chứng minh rằng khả năng nhìn thấy sự khác biệt giữa những hình ảnh này và ảnh gốc ở ngoại vi của mọi người là tương tự về mặt chất lượng của những hình ảnh được tạo ra từ các mô hình xử lý thông tin ngoại vi lấy cảm hứng sinh học ở người, ”Wallis nói. người không tham gia vào nghiên cứu này. “Harrington và Deza đề xuất rằng cùng một cơ chế học cách bỏ qua một số thay đổi đầu vào trực quan ở vùng ngoại vi có thể là lý do tại sao hình ảnh mạnh mẽ trông giống như chúng và lý do tại sao việc đào tạo về hình ảnh mạnh mẽ làm giảm tính nhạy cảm với kẻ thù. Giả thuyết hấp dẫn này đáng được nghiên cứu thêm và có thể đại diện cho một ví dụ khác về sự hợp lực giữa nghiên cứu về trí thông minh sinh học và máy móc ”.

Tham khảo: “Tìm tính hợp lý sinh học cho các tính năng mạnh mẽ đối nghịch thông qua các nhiệm vụ đo lường” của Anne Harrington và Arturo Deza, 28 tháng 9 năm 2021, Hội nghị ICLR 2022 .
OpenReview.net

Công việc này được hỗ trợ một phần bởi Trung tâm Bộ não, Tư duy và Máy móc MIT và Tập đoàn Lockheed Martin.

Theo Scitechdaily

What's your reaction?

Excited
0
Happy
0
In Love
0
Not Sure
0

You may also like

Leave a reply

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.