Sử dụng trí tuệ nhân tạo để tìm điểm bất thường ẩn trong tập dữ liệu lớn trong thời gian thực

Một kỹ thuật học máy mới có thể xác định chính xác các sự cố lưới điện tiềm ẩn hoặc tắc nghẽn lưu lượng theo tầng trong thời gian thực.
Xác định sự cố trong lưới điện quốc gia có thể giống như mò kim đáy bể. Hàng trăm nghìn cảm biến có liên quan đến nhau trải khắp Hoa Kỳ thu thập dữ liệu về dòng điện, điện áp và các thông tin quan trọng khác trong thời gian thực, thường ghi nhiều bản ghi mỗi giây.
Các nhà nghiên cứu tại Phòng thí nghiệm AI của MIT -IBM Watson đã phát minh ra một phương pháp tính toán hiệu quả có thể tự động xác định các điểm bất thường trong các luồng dữ liệu đó theo thời gian thực. Họ đã chứng minh rằng phương pháp trí tuệ nhân tạo của họ, học cách lập mô hình liên kết với nhau của lưới điện, phát hiện những trục trặc này tốt hơn nhiều so với một số kỹ thuật phổ biến khác.
Bởi vì mô hình học máy mà họ phát triển không yêu cầu dữ liệu chú thích về các dị thường của lưới điện để đào tạo, nên sẽ dễ dàng áp dụng hơn trong các tình huống thực tế, nơi thường khó có được các bộ dữ liệu có nhãn, chất lượng cao. Mô hình này cũng linh hoạt và có thể được áp dụng cho các tình huống khác khi một số lượng lớn các cảm biến được kết nối với nhau thu thập và báo cáo dữ liệu, chẳng hạn như hệ thống giám sát giao thông. Ví dụ, nó có thể xác định tắc nghẽn giao thông hoặc tiết lộ mức độ ùn tắc giao thông xảy ra như thế nào.
“Trong trường hợp lưới điện, người ta đã cố gắng nắm bắt dữ liệu bằng cách sử dụng thống kê và sau đó xác định các quy tắc phát hiện với kiến thức miền để nói rằng, ví dụ, nếu điện áp tăng theo một tỷ lệ phần trăm nhất định, thì người vận hành lưới phải được cảnh báo. Các hệ thống dựa trên quy tắc như vậy, thậm chí được trao quyền bởi phân tích dữ liệu thống kê, đòi hỏi rất nhiều lao động và chuyên môn. Chúng tôi cho thấy rằng chúng tôi có thể tự động hóa quá trình này và cũng có thể học các mẫu từ dữ liệu bằng cách sử dụng các kỹ thuật học máy tiên tiến, ”tác giả cấp cao Jie Chen, nhân viên nghiên cứu kiêm quản lý Phòng thí nghiệm MIT-IBM Watson AI Lab cho biết.
Đồng tác giả là Enyan Dai, một thực tập sinh của MIT-IBM Watson AI Lab và là sinh viên tốt nghiệp tại Đại học Bang Pennsylvania. Nghiên cứu này sẽ được trình bày tại Hội nghị Quốc tế về Đại diện Học tập.
Kiểm tra xác suất
Các nhà nghiên cứu bắt đầu bằng cách xác định một sự bất thường là một sự kiện có khả năng xảy ra thấp, giống như một sự tăng vọt điện áp đột ngột. Họ coi dữ liệu lưới điện như một phân bố xác suất, vì vậy nếu họ có thể ước tính mật độ xác suất, họ có thể xác định các giá trị mật độ thấp trong tập dữ liệu. Những điểm dữ liệu ít có khả năng xảy ra nhất tương ứng với các điểm bất thường.
Việc ước tính các xác suất đó không phải là nhiệm vụ dễ dàng, đặc biệt là vì mỗi mẫu ghi lại nhiều chuỗi thời gian và mỗi chuỗi thời gian là một tập hợp các điểm dữ liệu đa chiều được ghi lại theo thời gian. Ngoài ra, các cảm biến thu thập tất cả dữ liệu đó có điều kiện với nhau, có nghĩa là chúng được kết nối trong một cấu hình nhất định và một cảm biến đôi khi có thể tác động đến những cảm biến khác.
Để tìm hiểu phân phối xác suất có điều kiện phức tạp của dữ liệu, các nhà nghiên cứu đã sử dụng một loại mô hình học sâu đặc biệt được gọi là quy trình chuẩn hóa, đặc biệt hiệu quả trong việc ước tính mật độ xác suất của một mẫu.
Họ đã tăng cường mô hình dòng chảy chuẩn hóa đó bằng cách sử dụng một loại biểu đồ, được gọi là mạng Bayes, có thể tìm hiểu cấu trúc mối quan hệ nhân quả, phức tạp giữa các cảm biến khác nhau. Cấu trúc đồ thị này cho phép các nhà nghiên cứu nhìn thấy các mẫu trong dữ liệu và ước tính sự bất thường chính xác hơn, Chen giải thích.
“Các cảm biến đang tương tác với nhau, và chúng có mối quan hệ nhân quả và phụ thuộc vào nhau. Vì vậy, chúng tôi phải có khả năng đưa thông tin phụ thuộc này vào cách chúng tôi tính toán các xác suất, ”ông nói.
Mạng Bayes này phân tích hoặc chia nhỏ xác suất chung của nhiều dữ liệu chuỗi thời gian thành các xác suất có điều kiện, ít phức tạp hơn, dễ tham số hóa, tìm hiểu và đánh giá hơn nhiều. Điều này cho phép các nhà nghiên cứu ước tính khả năng quan sát các chỉ số cảm biến nhất định và xác định các kết quả đọc đó có xác suất xuất hiện thấp, nghĩa là chúng là dị thường.
Phương pháp của họ đặc biệt mạnh mẽ vì cấu trúc đồ thị phức tạp này không cần phải xác định trước – mô hình có thể tự học đồ thị theo cách không bị giám sát.
Một kỹ thuật mạnh mẽ
Họ đã thử nghiệm khuôn khổ này bằng cách xem nó có thể xác định các điểm bất thường trong dữ liệu lưới điện, dữ liệu giao thông và dữ liệu hệ thống nước tốt như thế nào. Các tập dữ liệu mà họ sử dụng để kiểm tra chứa các điểm bất thường đã được con người xác định, vì vậy các nhà nghiên cứu có thể so sánh các điểm bất thường mà mô hình của họ đã xác định với các trục trặc thực sự trong mỗi hệ thống.
Mô hình của họ hoạt động tốt hơn tất cả các đường cơ sở bằng cách phát hiện tỷ lệ phần trăm các điểm bất thường thực sự cao hơn trong mỗi tập dữ liệu.
“Đối với các đường cơ sở, rất nhiều trong số chúng không kết hợp cấu trúc đồ thị. Điều đó hoàn toàn chứng thực giả thuyết của chúng tôi. Việc tìm ra mối quan hệ phụ thuộc giữa các nút khác nhau trong biểu đồ chắc chắn sẽ giúp ích cho chúng tôi, ”Chen nói.
Phương pháp luận của họ cũng linh hoạt. Được trang bị một tập dữ liệu lớn, không được gắn nhãn, họ có thể điều chỉnh mô hình để đưa ra các dự đoán bất thường hiệu quả trong các tình huống khác, chẳng hạn như các mẫu lưu lượng truy cập.
Chen cho biết một khi mô hình được triển khai, nó sẽ tiếp tục học hỏi từ một luồng dữ liệu cảm biến mới ổn định, thích ứng với khả năng phân phối dữ liệu và duy trì độ chính xác theo thời gian.
Mặc dù dự án cụ thể này đã gần kết thúc, anh ấy mong muốn áp dụng những bài học mà anh ấy đã học được vào các lĩnh vực nghiên cứu học sâu khác, đặc biệt là trên đồ thị.
Chen và các đồng nghiệp của ông có thể sử dụng cách tiếp cận này để phát triển các mô hình ánh xạ các mối quan hệ phức tạp, có điều kiện khác. Họ cũng muốn khám phá cách họ có thể học các mô hình này một cách hiệu quả khi các biểu đồ trở nên khổng lồ, có lẽ với hàng triệu hoặc hàng tỷ nút được kết nối với nhau. Và thay vì tìm ra điểm bất thường, họ cũng có thể sử dụng cách tiếp cận này để cải thiện độ chính xác của các dự báo dựa trên bộ dữ liệu hoặc hợp lý hóa các kỹ thuật phân loại khác.
Tham khảo: “ Dòng chuẩn hóa đồ thị tăng cường để phát hiện điểm bất thường của nhiều chuỗi thời gian ” của Enyan Dai và Jie Chen.
Công trình này được tài trợ bởi Phòng thí nghiệm MIT-IBM Watson AI và Bộ Năng lượng Hoa Kỳ.
Theo Scitechdaily
What's your reaction?



