Hiddenite: Một bộ xử lý AI mới dựa trên lý thuyết mạng thần kinh tiên tiến
Một chip gia tốc mới có tên “Hiddenite” có thể đạt được độ chính xác hiện đại trong việc tính toán các “mạng nơ-ron ẩn” thưa thớt với gánh nặng tính toán thấp hơn hiện đã được các nhà nghiên cứu của Tokyo Tech phát triển. Bằng cách sử dụng cấu trúc mô hình trên chip được đề xuất, là sự kết hợp giữa tạo trọng lượng và mở rộng “siêu mặt nạ”, chip Hiddenite giảm đáng kể truy cập bộ nhớ ngoài để nâng cao hiệu quả tính toán.
Mạng nơ-ron sâu (DNN) là một phần phức tạp của kiến trúc máy học dành cho AI (học nhân tạo), đòi hỏi nhiều tham số để học để dự đoán kết quả đầu ra. Tuy nhiên, DNN có thể được “cắt bớt”, do đó giảm gánh nặng tính toán và kích thước mô hình. Một vài năm trước, “giả thuyết vé số” đã làm điên đảo thế giới máy học. Giả thuyết cho rằng một DNN được khởi tạo ngẫu nhiên chứa các mạng con đạt được độ chính xác tương đương với DNN ban đầu sau khi huấn luyện. Mạng càng lớn, càng nhiều “vé số” để tối ưu hóa thành công. Do đó, những tấm vé số này cho phép các mạng nơ-ron thưa thớt được “cắt tỉa” đạt được độ chính xác tương đương với các mạng phức tạp hơn, “dày đặc” hơn, do đó giảm bớt gánh nặng tính toán tổng thể và mức tiêu thụ điện năng.

Một kỹ thuật để tìm các mạng con như vậy là thuật toán mạng nơ-ron ẩn (HNN), sử dụng logic AND (trong đó đầu ra chỉ cao khi tất cả các đầu vào đều cao) trên trọng số ngẫu nhiên được khởi tạo và “mặt nạ nhị phân” được gọi là “siêu mặt nạ” (Hình 1). Siêu mặt nạ, được xác định bởi điểm số cao nhất top-k%, biểu thị các kết nối chưa được chọn và đã chọn là 0 và 1, tương ứng. HNN giúp giảm hiệu quả tính toán từ phía phần mềm. Tuy nhiên, việc tính toán mạng nơ-ron cũng đòi hỏi những cải tiến trong các thành phần phần cứng.
Các bộ tăng tốc DNN truyền thống cung cấp hiệu suất cao, nhưng chúng không tính đến việc tiêu thụ điện năng do truy cập bộ nhớ ngoài gây ra. Giờ đây, các nhà nghiên cứu từ Học viện Công nghệ Tokyo (Tokyo Tech), dẫn đầu bởi Giáo sư Jaehoon Yu và Masato Motomura, đã phát triển một chip gia tốc mới có tên “Hiddenite”, có thể tính toán các mạng thần kinh ẩn với mức tiêu thụ điện năng được cải thiện đáng kể. “Giảm truy cập bộ nhớ ngoài là chìa khóa để giảm tiêu thụ điện năng. Hiện tại, để đạt được độ chính xác suy luận cao cần có các mô hình lớn. Nhưng điều này làm tăng khả năng truy cập bộ nhớ ngoài vào các thông số mô hình tải. Động lực chính của chúng tôi đằng sau sự phát triển của Hiddenite là giảm khả năng truy cập bộ nhớ ngoài này, ”GS Motomura giải thích. Nghiên cứu của họ sẽ được giới thiệu trong Hội nghị quốc tế về mạch thể rắn (ISSCC) 2022 sắp tới, một hội nghị quốc tế có uy tín giới thiệu những đỉnh cao của thành tựu trong vi mạch tích hợp.

“Hiddenite” là viết tắt của Hidden Neural Network Inference Tensor Engine và là chip suy luận HNN đầu tiên. Kiến trúc Hiddenite (Hình 2) mang lại lợi ích gấp ba lần để giảm truy cập bộ nhớ ngoài và đạt được hiệu quả năng lượng cao. Đầu tiên là nó cung cấp khả năng tạo trọng lượng trên chip để tạo lại trọng lượng bằng cách sử dụng bộ tạo số ngẫu nhiên. Điều này giúp loại bỏ nhu cầu truy cập bộ nhớ ngoài và lưu trữ các trọng lượng. Lợi ích thứ hai là việc cung cấp “mở rộng siêu mặt nạ trên chip”, giúp giảm số lượng siêu mặt nạ cần được tải bởi bộ tăng tốc. Cải tiến thứ ba được cung cấp bởi chip Hiddenite là bộ xử lý song song bốn chiều (4D) mật độ cao giúp tối đa hóa việc tái sử dụng dữ liệu trong quá trình tính toán, do đó nâng cao hiệu quả.

“Hai yếu tố đầu tiên là yếu tố làm cho chip Hiddenite khác với các máy gia tốc suy luận DNN hiện có,” GS Motomura tiết lộ. “Hơn nữa, chúng tôi cũng giới thiệu một phương pháp đào tạo mới cho mạng nơ-ron ẩn, được gọi là ‘chưng cất điểm số’, trong đó trọng số chắt lọc kiến thức thông thường được chắt lọc thành điểm số vì mạng nơ-ron ẩn không bao giờ cập nhật trọng số. Độ chính xác khi sử dụng phương pháp chưng cất điểm có thể so sánh với mô hình nhị phân trong khi chỉ bằng một nửa kích thước của mô hình nhị phân ”.
Dựa trên kiến trúc hiddenite, nhóm đã thiết kế, chế tạo và đo lường một chip nguyên mẫu bằng quy trình 40nm của Công ty Sản xuất Chất bán dẫn Đài Loan (TSMC) (Hình 3). Con chip này chỉ có kích thước 3mm x 3mm và xử lý 4.096 MAC (nhân và cộng dồn) cùng một lúc. Nó đạt được mức hiệu quả tính toán hiện đại, lên đến 34,8 nghìn tỷ hoặc tera hoạt động mỗi giây (TOPS) trên mỗi Watt điện, đồng thời giảm lượng truyền mô hình xuống một nửa so với mạng hai kênh.
Những phát hiện này và cuộc triển lãm thành công của chúng trong một con chip silicon thực sự chắc chắn sẽ gây ra một sự thay đổi mô hình khác trong thế giới máy học, mở đường cho máy tính nhanh hơn, hiệu quả hơn và cuối cùng là thân thiện với môi trường hơn.
Theo Scitechdaily
What's your reaction?



