Các nhà nghiên cứu của MIT tạo ra một công cụ để dự đoán tương lai
Các nhà nghiên cứu thiết kế một giao diện thân thiện với người dùng giúp những người không chuyên đưa ra dự báo bằng cách sử dụng dữ liệu được thu thập theo thời gian.
Cho dù ai đó đang cố gắng dự đoán thời tiết ngày mai, dự báo giá cổ phiếu trong tương lai, xác định các cơ hội bị bỏ lỡ để bán hàng bán lẻ hoặc ước tính nguy cơ phát triển bệnh của bệnh nhân, họ có thể sẽ cần giải thích dữ liệu chuỗi thời gian, là một tập hợp các quan sát được ghi lại tăng ca.
Việc đưa ra dự đoán bằng cách sử dụng dữ liệu chuỗi thời gian thường yêu cầu một số bước xử lý dữ liệu và sử dụng các thuật toán máy học phức tạp, có đường cong học tập dốc đến mức chúng không thể tiếp cận được với những người không chuyên.
Để làm cho những công cụ mạnh mẽ này trở nên thân thiện hơn với người dùng, các nhà nghiên cứu của MIT đã phát triển một hệ thống tích hợp trực tiếp chức năng dự đoán trên cơ sở dữ liệu chuỗi thời gian hiện có. Giao diện đơn giản của họ, mà họ gọi là tspDB (cơ sở dữ liệu dự đoán chuỗi thời gian), thực hiện tất cả các mô hình phức tạp đằng sau hậu trường để một người không có kỹ thuật có thể dễ dàng tạo dự đoán chỉ trong vài giây.

Hệ thống mới chính xác hơn và hiệu quả hơn các phương pháp học sâu hiện đại khi thực hiện hai nhiệm vụ: dự đoán các giá trị trong tương lai và điền vào các điểm dữ liệu còn thiếu.
Một lý do khiến tspDB thành công như vậy là nó kết hợp một thuật toán dự đoán chuỗi thời gian mới lạ, giải thích về kỹ thuật điện và khoa học máy tính (EECS) sinh viên tốt nghiệp Abdullah Alomar, tác giả của một bài báo nghiên cứu gần đây, trong đó anh ấy và các đồng tác giả của mình mô tả thuật toán. Thuật toán này đặc biệt hiệu quả trong việc đưa ra dự đoán trên dữ liệu chuỗi thời gian đa biến, là dữ liệu có nhiều hơn một biến phụ thuộc thời gian. Ví dụ, trong cơ sở dữ liệu thời tiết, nhiệt độ, điểm sương và độ che phủ của đám mây phụ thuộc vào giá trị trong quá khứ của chúng.
Thuật toán cũng ước tính sự biến động của một chuỗi thời gian đa biến để cung cấp cho người dùng mức độ tin cậy cho các dự đoán của nó.
“Ngay cả khi dữ liệu chuỗi thời gian ngày càng trở nên phức tạp, thuật toán này có thể nắm bắt một cách hiệu quả bất kỳ cấu trúc chuỗi thời gian nào ngoài đó. Có vẻ như chúng tôi đã tìm thấy ống kính phù hợp để xem xét độ phức tạp của mô hình của dữ liệu chuỗi thời gian, ”tác giả cấp cao Devavrat Shah, Giáo sư Andrew và Erna Viterbi tại EECS, đồng thời là thành viên của Viện Dữ liệu, Hệ thống và Xã hội và của Phòng thí nghiệm Hệ thống Thông tin và Quyết định.
Tham gia cùng Alomar và Shah trên bài báo là tác giả chính Anish Agrawal, một cựu sinh viên tốt nghiệp EECS hiện là postdoc tại Viện Simons thuộc Đại học California ở Berkeley. Nghiên cứu sẽ được trình bày tại hội nghị ACM SIGMETRICS.
Điều chỉnh một thuật toán mới
Shah và các cộng sự của ông đã nghiên cứu vấn đề diễn giải dữ liệu chuỗi thời gian trong nhiều năm, điều chỉnh các thuật toán khác nhau và tích hợp chúng vào tspDB khi họ xây dựng giao diện.
Khoảng bốn năm trước, họ đã học về một thuật toán cổ điển đặc biệt mạnh mẽ, được gọi là phân tích phổ số ít (SSA), đưa ra và dự báo các chuỗi thời gian đơn lẻ. Imputation là quá trình thay thế các giá trị bị thiếu hoặc sửa chữa các giá trị trong quá khứ. Mặc dù thuật toán này yêu cầu lựa chọn tham số thủ công, nhưng các nhà nghiên cứu nghi ngờ nó có thể cho phép giao diện của họ đưa ra các dự đoán hiệu quả bằng cách sử dụng dữ liệu chuỗi thời gian. Trong công việc trước đó , họ đã loại bỏ nhu cầu can thiệp thủ công này để thực hiện thuật toán.
Thuật toán cho chuỗi thời gian đơn đã chuyển nó thành một ma trận và sử dụng các thủ tục ước lượng ma trận. Thách thức trí tuệ quan trọng là làm thế nào để điều chỉnh nó để sử dụng nhiều chuỗi thời gian. Sau một vài năm vật lộn, họ nhận ra câu trả lời là một thứ rất đơn giản: “Xếp chồng” các ma trận cho từng chuỗi thời gian riêng lẻ, coi nó như một ma trận lớn, rồi áp dụng thuật toán chuỗi thời gian đơn lẻ trên đó.
Điều này sử dụng thông tin trên nhiều chuỗi thời gian một cách tự nhiên – cả trong chuỗi thời gian và theo thời gian, mà họ mô tả trong bài báo mới của mình.
Ấn phẩm gần đây này cũng thảo luận về các lựa chọn thay thế thú vị, trong đó thay vì biến đổi chuỗi thời gian đa biến thành một ma trận lớn, nó được xem như một tensor ba chiều. Một tensor là một mảng nhiều chiều, hoặc lưới, các số. Alomar nói rằng điều này tạo ra một mối liên hệ đầy hứa hẹn giữa lĩnh vực phân tích chuỗi thời gian cổ điển và lĩnh vực ước tính tensor đang phát triển.
“Biến thể của mSSA mà chúng tôi đã giới thiệu thực sự nắm bắt được tất cả những điều đó một cách tuyệt vời. Vì vậy, nó không chỉ cung cấp ước tính có khả năng xảy ra cao nhất mà còn cung cấp khoảng tin cậy thay đổi theo thời gian, ”Shah nói.
Càng đơn giản, càng tốt
Họ đã thử nghiệm mSSA được điều chỉnh dựa trên các thuật toán hiện đại khác, bao gồm các phương pháp học sâu, trên bộ dữ liệu chuỗi thời gian trong thế giới thực với đầu vào được lấy từ lưới điện, mô hình giao thông và thị trường tài chính.
Thuật toán của họ vượt trội hơn tất cả các thuật toán khác về tính áp đặt và nó vượt trội hơn tất cả trừ một trong những thuật toán khác khi nói đến dự báo các giá trị trong tương lai. Các nhà nghiên cứu cũng chứng minh rằng phiên bản mSSA đã được tinh chỉnh của họ có thể được áp dụng cho bất kỳ loại dữ liệu chuỗi thời gian nào.
“Một lý do khiến tôi nghĩ điều này hoạt động rất tốt là mô hình nắm bắt được rất nhiều động lực của chuỗi thời gian, nhưng vào cuối ngày, nó vẫn là một mô hình đơn giản. Khi bạn đang làm việc với một thứ đơn giản như thế này, thay vì một mạng nơ-ron có thể dễ dàng trang bị quá nhiều dữ liệu, bạn thực sự có thể hoạt động tốt hơn, ”Alomar nói.
Hiệu suất ấn tượng của mSSA là điều khiến tspDB trở nên hiệu quả, Shah giải thích. Bây giờ, mục tiêu của họ là làm cho thuật toán này có thể truy cập được cho tất cả mọi người.
Một người dùng cài đặt tspDB trên cơ sở dữ liệu hiện có, họ có thể chạy truy vấn dự đoán chỉ với một vài lần nhấn phím trong khoảng 0,9 mili giây, so với 0,5 mili giây đối với truy vấn tìm kiếm tiêu chuẩn. Khoảng tin cậy cũng được thiết kế để giúp những người không giỏi đưa ra quyết định sáng suốt hơn bằng cách đưa mức độ không chắc chắn của các dự đoán vào quá trình ra quyết định của họ.
Ví dụ, hệ thống có thể cho phép một chuyên gia dự đoán giá cổ phiếu trong tương lai với độ chính xác cao chỉ trong vài phút, ngay cả khi tập dữ liệu chuỗi thời gian chứa các giá trị bị thiếu.
Giờ đây, các nhà nghiên cứu đã chỉ ra lý do tại sao mSSA hoạt động tốt như vậy, họ đang nhắm mục tiêu các thuật toán mới có thể được tích hợp vào tspDB. Một trong những thuật toán này sử dụng cùng một mô hình để tự động bật tính năng phát hiện điểm thay đổi, vì vậy nếu người dùng tin rằng chuỗi thời gian của họ sẽ thay đổi hành vi tại một thời điểm nào đó, hệ thống sẽ tự động phát hiện thay đổi đó và kết hợp nó vào dự đoán của nó.
Họ cũng muốn tiếp tục thu thập phản hồi từ những người dùng tspDB hiện tại để xem họ có thể cải thiện chức năng của hệ thống và thân thiện với người dùng như thế nào, Shah nói.
“Mối quan tâm của chúng tôi ở cấp cao nhất là làm cho tspDB thành công dưới dạng một hệ thống mã nguồn mở, có thể sử dụng rộng rãi. Dữ liệu chuỗi thời gian rất quan trọng và đây là một khái niệm đẹp về việc thực sự xây dựng các chức năng dự đoán trực tiếp vào cơ sở dữ liệu. Nó chưa bao giờ được thực hiện trước đây, và vì vậy chúng tôi muốn đảm bảo rằng thế giới sẽ sử dụng nó, ”ông nói.
“Công việc này rất thú vị vì một số lý do. Nó cung cấp một biến thể thực tế của mSSA mà không cần điều chỉnh bằng tay, họ cung cấp phân tích đầu tiên được biết đến về mSSA và các tác giả chứng minh giá trị thực tế của thuật toán của họ bằng cách cạnh tranh hoặc hoạt động tốt hơn một số thuật toán đã biết về các hàm ý và dự đoán trong Chuỗi thời gian (đa biến) cho một số tập dữ liệu trong thế giới thực, ”Vishal Misra, giáo sư khoa học máy tính tại Đại học Columbia , người không tham gia nghiên cứu này, cho biết. “Trọng tâm của tất cả là công việc mô hình hóa tuyệt đẹp, nơi họ khéo léo khai thác các mối tương quan giữa thời gian (trong một chuỗi thời gian) và không gian (trong chuỗi thời gian) để tạo ra một đại diện yếu tố không gian cấp thấp của một chuỗi thời gian đa biến. Điều quan trọng là mô hình này kết nối lĩnh vực phân tích chuỗi thời gian với chủ đề hoàn thành tensor đang phát triển nhanh chóng và tôi mong đợi nhiều nghiên cứu tiếp theo được thúc đẩy bởi bài báo này. ”
Tham khảo: “Về phân tích phổ đơn biến đa biến và các biến thể của nó” của Anish Agarwal, Abdullah Alomar và Devavrat Shah, ngày 13 tháng 2 năm 2021, Khoa học máy tính> Học máy .
arXiv: 2006.13448
Theo Scitechdaily
What's your reaction?



