Artificial Intelligence High Level Concept 180x101 1
Thông tin công nghệ

Chúng ta có thể cho biết liệu Mô hình AI của Máy học có đang hoạt động chính xác hay không?

Artificial Intelligence High Level Concept

Các phương pháp giải thích cho mô hình học máy hoạt động tốt như thế nào?

Các nhà nghiên cứu phát triển một cách để kiểm tra xem các phương pháp phổ biến để hiểu các mô hình học máy có hoạt động chính xác hay không.

Hãy tưởng tượng một nhóm bác sĩ sử dụng mạng lưới thần kinh để phát hiện ung thư trong hình ảnh chụp X quang vú. Ngay cả khi mô hình học máy này có vẻ hoạt động tốt, nó có thể đang tập trung vào các tính năng hình ảnh vô tình tương quan với các khối u, như hình mờ hoặc dấu thời gian, thay vì các dấu hiệu thực tế của khối u.

Để kiểm tra các mô hình này, các nhà nghiên cứu sử dụng “phương pháp phân bổ tính năng”, các kỹ thuật được cho là để cho họ biết phần nào của hình ảnh là quan trọng nhất đối với dự đoán của mạng nơ-ron. Nhưng điều gì sẽ xảy ra nếu phương pháp phân bổ thiếu các tính năng quan trọng đối với mô hình? Vì các nhà nghiên cứu không biết tính năng nào là quan trọng để bắt đầu, họ không có cách nào biết rằng phương pháp đánh giá của họ không hiệu quả.

Để giúp giải quyết vấn đề này, các nhà nghiên cứu của MIT đã nghĩ ra một quy trình để sửa đổi dữ liệu gốc để họ chắc chắn rằng những tính năng nào thực sự quan trọng đối với mô hình. Sau đó, họ sử dụng tập dữ liệu đã sửa đổi này để đánh giá xem liệu các phương pháp phân bổ theo tính năng có thể xác định chính xác các tính năng quan trọng đó hay không.

Các phương pháp phân bổ tính năng được sử dụng để xác định xem mạng nơ-ron có hoạt động chính xác hay không khi hoàn thành một nhiệm vụ như phân loại hình ảnh. Các nhà nghiên cứu đã phát triển một cách mới để đánh giá xem liệu các phương pháp phân bổ tính năng này có đang xác định chính xác các đặc điểm của hình ảnh quan trọng đối với dự đoán của mạng thần kinh hay không. Nguồn: MIT News, với hình ảnh từ iStockphoto

Họ nhận thấy rằng ngay cả những phương pháp phổ biến nhất cũng thường bỏ sót các tính năng quan trọng trong hình ảnh và một số phương pháp hầu như không thể hoạt động tốt như một đường cơ sở ngẫu nhiên. Điều này có thể có những tác động lớn, đặc biệt là nếu mạng nơ-ron được áp dụng trong các tình huống đặt cọc cao như chẩn đoán y tế. Tác giả chính Yilun Zhou, một nghiên cứu sinh về kỹ thuật điện và khoa học máy tính, giải thích nếu mạng không hoạt động bình thường và cố gắng bắt những điểm bất thường như vậy cũng không hoạt động bình thường. trong Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL).

“Tất cả những phương pháp này đều được sử dụng rất rộng rãi, đặc biệt là trong một số tình huống thực sự cao, như phát hiện ung thư từ chụp X-quang hoặc chụp CT. Nhưng những phương pháp phân bổ tính năng này có thể sai ngay từ đầu. Chúng có thể làm nổi bật điều gì đó không tương ứng với đặc điểm thực sự mà mô hình đang sử dụng để đưa ra dự đoán, điều mà chúng tôi thường thấy. Nếu bạn muốn sử dụng các phương pháp phân bổ tính năng này để chứng minh rằng một mô hình đang hoạt động chính xác, thì tốt hơn hết bạn nên đảm bảo bản thân phương pháp phân bổ tính năng đang hoạt động chính xác ngay từ đầu, ”ông nói.

Zhou đã viết bài báo này cùng với nghiên cứu sinh của EECS là Serena Booth, nhà nghiên cứu Marco Tulio Ribeiro của Microsoft Research, và tác giả cao cấp Julie Shah, giáo sư hàng không và du hành vũ trụ của MIT và là giám đốc của Interactive Robotics Group tại CSAIL.

Tập trung vào các tính năng

Trong phân loại hình ảnh, mỗi pixel trong một hình ảnh là một tính năng mà mạng nơ-ron có thể sử dụng để đưa ra dự đoán, do đó, có hàng triệu tính năng khả thi mà mạng này có thể tập trung vào. Ví dụ: nếu các nhà nghiên cứu muốn thiết kế một thuật toán để giúp các nhiếp ảnh gia có tham vọng cải thiện, họ có thể đào tạo một người mẫu để phân biệt ảnh do các nhiếp ảnh gia chuyên nghiệp chụp với những bức ảnh do khách du lịch bình thường chụp. Mô hình này có thể được sử dụng để đánh giá xem ảnh nghiệp dư giống ảnh chuyên nghiệp đến mức nào và thậm chí cung cấp phản hồi cụ thể về việc cải thiện. Các nhà nghiên cứu muốn mô hình này tập trung vào việc xác định các yếu tố nghệ thuật trong ảnh chuyên nghiệp trong quá trình đào tạo, chẳng hạn như không gian màu, bố cục và xử lý hậu kỳ. Nhưng nó chỉ xảy ra khi một bức ảnh chụp chuyên nghiệp có thể chứa một hình mờ tên của nhiếp ảnh gia, trong khi một số bức ảnh du lịch có nó, vì vậy người mẫu chỉ có thể thực hiện phím tắt để tìm hình mờ.

“Rõ ràng, chúng tôi không muốn nói với các nhiếp ảnh gia tham vọng rằng hình mờ là tất cả những gì bạn cần để có một sự nghiệp thành công, vì vậy chúng tôi muốn đảm bảo rằng mô hình của chúng tôi tập trung vào các tính năng nghệ thuật thay vì sự hiện diện của hình mờ. Chúng tôi muốn sử dụng các phương pháp phân bổ tính năng để phân tích mô hình của chúng tôi, nhưng cuối cùng, không có gì đảm bảo rằng chúng hoạt động chính xác, vì mô hình có thể sử dụng các tính năng nghệ thuật, hình mờ hoặc bất kỳ tính năng nào khác, ”Zhou nói.

“Chúng tôi không biết những tương quan giả đó trong tập dữ liệu là gì. Có thể có rất nhiều thứ khác nhau mà một người có thể hoàn toàn không thể nhận ra, chẳng hạn như độ phân giải của một hình ảnh, ”Booth nói thêm. “Ngay cả khi chúng ta không thể nhận ra nó, một mạng nơ-ron có thể có thể rút ra những đặc điểm đó và sử dụng chúng để phân loại. Đó là vấn đề cơ bản. Chúng tôi không hiểu rõ bộ dữ liệu của mình, nhưng cũng không thể hiểu rõ bộ dữ liệu của chúng tôi. “

Các nhà nghiên cứu đã sửa đổi tập dữ liệu để làm suy yếu tất cả các mối tương quan giữa hình ảnh gốc và các nhãn dữ liệu, điều này đảm bảo rằng không có đặc điểm gốc nào sẽ còn quan trọng nữa.

Sau đó, họ thêm một tính năng mới vào hình ảnh mà rõ ràng là mạng nơ-ron phải tập trung vào nó để đưa ra dự đoán của nó, giống như các hình chữ nhật sáng có màu sắc khác nhau cho các lớp hình ảnh khác nhau.

“Chúng tôi có thể tự tin khẳng định rằng bất kỳ mô hình nào đạt được độ tin cậy thực sự cao đều phải tập trung vào hình chữ nhật có màu mà chúng tôi đưa vào. Sau đó, chúng tôi có thể xem liệu tất cả các phương pháp phân bổ tính năng này có vội vã làm nổi bật vị trí đó hơn là mọi thứ khác hay không”, Zhou nói.

Kết quả “đặc biệt đáng báo động”

Họ đã áp dụng kỹ thuật này cho một số phương pháp phân bổ tính năng khác nhau. Đối với phân loại hình ảnh, các phương pháp này tạo ra cái được gọi là bản đồ độ mặn, cho thấy sự tập trung của các đặc điểm quan trọng trải rộng trên toàn bộ hình ảnh. Ví dụ: nếu mạng lưới thần kinh đang phân loại hình ảnh của các loài chim, bản đồ độ mặn có thể cho thấy rằng 80 phần trăm các đặc điểm quan trọng tập trung xung quanh mỏ của con chim.

Sau khi loại bỏ tất cả các mối tương quan trong dữ liệu hình ảnh, họ đã thao tác với các bức ảnh theo một số cách, chẳng hạn như làm mờ các phần của hình ảnh, điều chỉnh độ sáng hoặc thêm hình mờ. Nếu phương pháp phân bổ tính năng hoạt động chính xác, gần 100 phần trăm các tính năng quan trọng sẽ nằm xung quanh khu vực mà các nhà nghiên cứu đã thao tác.

Kết quả không đáng khích lệ. Không có phương pháp phân bổ tính năng nào đạt được gần mục tiêu 100 phần trăm, hầu hết hầu hết đều đạt đến mức cơ sở ngẫu nhiên là 50 phần trăm và một số phương pháp thậm chí còn hoạt động kém hơn mức cơ sở trong một số trường hợp. Vì vậy, mặc dù tính năng mới là tính năng duy nhất mà mô hình có thể sử dụng để đưa ra dự đoán, nhưng các phương pháp phân bổ tính năng đôi khi không nhận được điều đó.

“Không có phương pháp nào trong số này có vẻ là rất đáng tin cậy, trên tất cả các loại tương quan giả khác nhau. Điều này đặc biệt đáng báo động bởi vì, trong các bộ dữ liệu tự nhiên, chúng tôi không biết những tương quan giả mạo nào có thể áp dụng, ”Zhou nói. “Nó có thể là tất cả các loại yếu tố. Chúng tôi nghĩ rằng chúng tôi có thể tin tưởng vào những phương pháp này để nói với chúng tôi, nhưng trong thử nghiệm của chúng tôi, có vẻ như thực sự khó để tin tưởng chúng ”.

Tất cả các phương pháp phân bổ đối tượng mà họ đã nghiên cứu đều phát hiện ra điểm bất thường tốt hơn so với việc không có điểm bất thường. Nói cách khác, các phương pháp này có thể tìm thấy hình mờ dễ dàng hơn so với việc chúng có thể xác định rằng một hình ảnh không chứa hình mờ. Vì vậy, trong trường hợp này, con người sẽ khó tin tưởng hơn vào một mô hình đưa ra dự đoán tiêu cực.

Công việc của nhóm cho thấy rằng điều quan trọng là phải thử nghiệm các phương pháp phân bổ theo tính năng trước khi áp dụng chúng vào mô hình trong thế giới thực, đặc biệt là trong các tình huống đặt cược cao.

Shah nói: “Các nhà nghiên cứu và thực hành có thể sử dụng các kỹ thuật giải thích như phương pháp phân bổ tính năng để tạo niềm tin của một người vào một mô hình, nhưng sự tin tưởng đó không được thiết lập trừ khi kỹ thuật giải thích được đánh giá nghiêm ngặt trước tiên. “Một kỹ thuật giải thích có thể được sử dụng để giúp hiệu chỉnh lòng tin của một người vào một mô hình, nhưng điều quan trọng không kém là hiệu chỉnh lòng tin của một người vào những lời giải thích của mô hình.”

Trong tương lai, các nhà nghiên cứu muốn sử dụng quy trình đánh giá của họ để nghiên cứu các đặc điểm tinh tế hơn hoặc thực tế hơn có thể dẫn đến tương quan giả. Một lĩnh vực công việc khác mà họ muốn khám phá là giúp con người hiểu bản đồ độ mặn để họ có thể đưa ra quyết định tốt hơn dựa trên dự đoán của mạng nơ-ron.

Tham khảo: “Các phương pháp phân bổ tính năng có chính xác các tính năng thuộc tính không?” bởi Yilun Zhou, Serena Booth, Marco Tulio Ribeiro và Julie Shah, ngày 15 tháng 12 năm 2021, Khoa học máy tính> Máy học .
arXiv: 2104.14403

Nghiên cứu này được hỗ trợ một phần bởi Quỹ Khoa học Quốc gia.

Theo Scitechdaily

What's your reaction?

Excited
0
Happy
0
In Love
0
Not Sure
0

You may also like

Leave a reply

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.