Machine Learning Ai Technology Concept 777x437 1
Thông tin công nghệ

Đưa sự công bằng vào AI: Mô hình học máy tạo ra kết quả công bằng ngay cả khi được đào tạo về dữ liệu không công bằng

Machine Learning AI Technology Concept

Một kỹ thuật mới tăng cường khả năng giảm sai lệch của các mô hình, ngay cả khi tập dữ liệu được sử dụng để huấn luyện mô hình không cân bằng.

Nếu mô hình học máy được đào tạo bằng cách sử dụng tập dữ liệu không cân bằng, chẳng hạn như tập dữ liệu chứa nhiều hình ảnh về những người có làn da sáng hơn những người có da sẫm màu, thì có nguy cơ nghiêm trọng là các dự đoán của mô hình sẽ không công bằng khi nó được triển khai trong thế giới thực .

Nhưng đây chỉ là một phần của vấn đề. Các nhà nghiên cứu của MIT đã phát hiện ra rằng các mô hình học máy phổ biến cho các nhiệm vụ nhận dạng hình ảnh thực sự mã hóa sai lệch khi được đào tạo trên dữ liệu không cân bằng. Không thể sửa chữa sai lệch này trong mô hình sau này, ngay cả với các kỹ thuật nâng cao tính công bằng hiện đại và ngay cả khi đào tạo lại mô hình với một tập dữ liệu cân bằng.

Vì vậy, các nhà nghiên cứu đã đưa ra một kỹ thuật để đưa sự công bằng trực tiếp vào bản thân biểu diễn bên trong của mô hình. Điều này cho phép mô hình tạo ra kết quả đầu ra công bằng ngay cả khi nó được đào tạo về dữ liệu không công bằng, điều này đặc biệt quan trọng vì có rất ít bộ dữ liệu cân bằng tốt cho máy học.

Giải pháp mà họ phát triển không chỉ dẫn đến các mô hình đưa ra các dự đoán cân bằng hơn mà còn cải thiện hiệu suất của chúng đối với các nhiệm vụ cơ bản như nhận dạng khuôn mặt và phân loại loài động vật.

Các nhà nghiên cứu của MIT đã phát hiện ra rằng, nếu một loại mô hình học máy nhất định được đào tạo bằng cách sử dụng tập dữ liệu không cân bằng, thì sai lệch mà nó học được là không thể sửa chữa sau thực tế. Họ đã phát triển một kỹ thuật tạo ra sự công bằng trực tiếp vào mô hình, bất kể tập dữ liệu huấn luyện không cân bằng đến mức nào, điều này có thể tăng hiệu suất của mô hình đối với các tác vụ phía dưới. Nhà cung cấp hình ảnh: Jose-Luis Olivares, MIT

“Trong học máy, người ta thường đổ lỗi cho dữ liệu gây ra sự sai lệch trong các mô hình. Nhưng không phải lúc nào chúng ta cũng có dữ liệu cân bằng. Vì vậy, chúng ta cần đưa ra các phương pháp thực sự khắc phục được vấn đề với dữ liệu mất cân bằng, ”tác giả chính Natalie Dullerud, một nghiên cứu sinh tại Healthy ML Group thuộc Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) tại MIT, cho biết.

Các đồng tác giả của Dullerud bao gồm Kimia Hamidieh, một sinh viên tốt nghiệp tại Healthy ML Group; Karsten Roth, một cựu nhà nghiên cứu thỉnh giảng, hiện là nghiên cứu sinh tại Đại học Tubingen; Nicolas Papernot, trợ lý giáo sư tại Khoa Kỹ thuật Điện và Khoa học Máy tính của Đại học Toronto; và tác giả cao cấp Marzyeh Ghassemi, một trợ lý giáo sư và người đứng đầu Nhóm ML Khỏe mạnh. Nghiên cứu sẽ được trình bày tại Hội nghị Quốc tế về Đại diện Học tập.

Xác định sự công bằng

Kỹ thuật học máy mà các nhà nghiên cứu đã nghiên cứu được gọi là học số liệu sâu, là một hình thức học đại diện rộng rãi. Trong học số liệu sâu, một mạng nơ-ron học sự giống nhau giữa các đối tượng bằng cách ánh xạ các ảnh tương tự gần nhau và các ảnh khác nhau ở xa nhau. Trong quá trình đào tạo, mạng nơ-ron này lập bản đồ các hình ảnh trong một “không gian nhúng” nơi chỉ số tương tự giữa các bức ảnh tương ứng với khoảng cách giữa chúng.

Ví dụ: nếu một mô hình học số liệu sâu đang được sử dụng để phân loại các loài chim, thì nó sẽ ánh xạ các bức ảnh của chim sẻ vàng với nhau trong một phần của không gian nhúng và các loài chim sẻ với nhau trong một phần khác của không gian nhúng. Sau khi được đào tạo, mô hình có thể đo lường hiệu quả sự giống nhau của các hình ảnh mới mà nó chưa từng thấy trước đây. Nó sẽ học cách tập hợp các hình ảnh của một loài chim không nhìn thấy lại gần nhau, nhưng xa hơn các loài chim hồng y hoặc chim sẻ vàng trong không gian nhúng.

Hình ảnh này cho thấy hai cách nhúng PARADE riêng biệt cho màu chim. Ở bên trái, cả hai hình ảnh ví dụ được ánh xạ thành các cụm với các loài chim có cùng bộ lông. Ở bên phải trong nhúng nhãn lớp, do không tương quan, các hình ảnh bị tách khỏi vùng không gian với các loài chim khác có cùng bộ lông, nhưng vẫn được nhóm lại tốt, cho thấy PARADE có thể tìm thấy các thuộc tính khác để phân biệt các loài này các cụm. Tín dụng: Được sự cho phép của các nhà nghiên cứu

Dullerud nói rằng các chỉ số tương tự mà mô hình học được rất mạnh mẽ, đó là lý do tại sao học số liệu sâu thường được sử dụng để nhận dạng khuôn mặt. Nhưng cô và các đồng nghiệp của mình đã tự hỏi làm thế nào để xác định liệu một chỉ số tương tự có bị sai lệch hay không.

“Chúng tôi biết rằng dữ liệu phản ánh thành kiến của các quá trình trong xã hội. Điều này có nghĩa là chúng tôi phải chuyển trọng tâm sang thiết kế các phương pháp phù hợp hơn với thực tế, ”Ghassemi nói.

Các nhà nghiên cứu đã xác định hai cách mà một số liệu tương tự có thể không công bằng. Sử dụng ví dụ về nhận dạng khuôn mặt, số liệu sẽ không công bằng nếu nó có nhiều khả năng nhúng các cá nhân có khuôn mặt da sẫm màu gần nhau hơn, ngay cả khi họ không phải là cùng một người, so với nếu những hình ảnh đó là những người có màu da sáng hơn da mặt. Thứ hai, sẽ không công bằng nếu các tính năng mà nó học được để đo lường sự tương đồng tốt hơn cho nhóm đa số hơn là cho nhóm thiểu số.

Các nhà nghiên cứu đã chạy một số thử nghiệm trên các mô hình có số liệu tương tự không công bằng và không thể vượt qua sự sai lệch mà mô hình đã học được trong không gian nhúng của nó.

“Điều này khá đáng sợ bởi vì các công ty phát hành các mô hình nhúng này và sau đó mọi người hoàn thiện chúng cho một số nhiệm vụ phân loại hạ nguồn là một thực tế rất phổ biến. Nhưng bất kể bạn làm gì ở hạ lưu, bạn chỉ đơn giản là không thể khắc phục các vấn đề về tính công bằng đã gây ra trong không gian nhúng, ”Dullerud nói.

Ngay cả khi người dùng đào tạo lại mô hình trên một tập dữ liệu cân bằng cho tác vụ hạ lưu, đây là trường hợp tốt nhất để khắc phục vấn đề công bằng, thì vẫn có khoảng cách hiệu suất ít nhất là 20%, cô ấy nói.

Cách duy nhất để giải quyết vấn đề này là đảm bảo không gian nhúng công bằng ngay từ đầu.

Tìm hiểu các chỉ số riêng biệt

Giải pháp của các nhà nghiên cứu, được gọi là Tương quan thuộc tính từng phần (PARADE), liên quan đến việc đào tạo mô hình để tìm hiểu số liệu tương đồng riêng biệt cho một thuộc tính nhạy cảm, như tông màu da, sau đó trang trí tương quan chỉ số tương đồng tông màu da với chỉ số tương tự được nhắm mục tiêu. Nếu mô hình đang học các chỉ số về độ giống nhau của các khuôn mặt người khác nhau, nó sẽ học cách lập bản đồ các khuôn mặt tương tự gần nhau và các khuôn mặt khác nhau ở xa nhau bằng cách sử dụng các đặc điểm khác ngoài màu da.

Bất kỳ số lượng thuộc tính nhạy cảm nào cũng có thể được liên kết với nhau từ chỉ số tương tự được nhắm mục tiêu theo cách này. Và bởi vì chỉ số tương tự cho thuộc tính nhạy cảm được học trong một không gian nhúng riêng biệt, nó sẽ bị loại bỏ sau khi đào tạo nên chỉ số liệu về độ tương tự được nhắm mục tiêu vẫn còn trong mô hình.

Phương pháp của họ có thể áp dụng cho nhiều trường hợp vì người dùng có thể kiểm soát mức độ tương quan giữa các chỉ số tương tự. Ví dụ, nếu mô hình được chẩn đoán ung thư vú từ hình ảnh chụp X-quang tuyến vú, một bác sĩ lâm sàng có thể muốn một số thông tin về giới tính sinh học vẫn còn trong không gian nhúng cuối cùng vì nhiều khả năng phụ nữ sẽ bị ung thư vú hơn nam giới, Dullerud giải thích.

Họ đã thử nghiệm phương pháp của mình trên hai nhiệm vụ, nhận dạng khuôn mặt và phân loại các loài chim, và nhận thấy rằng nó làm giảm khoảng cách hiệu suất gây ra bởi sự thiên vị, cả trong không gian nhúng và tác vụ hạ nguồn, bất kể tập dữ liệu mà họ sử dụng.

Trong tương lai, Dullerud quan tâm đến việc nghiên cứu cách bắt buộc mô hình học số liệu sâu để tìm hiểu các tính năng tốt ngay từ đầu.

“Làm thế nào để bạn kiểm toán đúng đắn sự công bằng? Đó là một câu hỏi mở ngay bây giờ. Làm thế nào bạn có thể nói rằng một mô hình sẽ công bằng, hay nó chỉ công bằng trong một số tình huống nhất định, và những tình huống đó là gì? Đó là những câu hỏi mà tôi thực sự quan tâm khi tiến về phía trước, ”cô nói.

Tham khảo: “Công bằng Chỉ số liệu có sâu không? Đánh giá và giải quyết khoảng cách nhóm con trong DML ” PDF

Theo Scitechdaily

What's your reaction?

Excited
0
Happy
0
In Love
0
Not Sure
0

You may also like

Leave a reply

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.