Lọc theo danh mục
  • Năm xuất bản
    Xem thêm
  • Lĩnh vực
liên kết website
Lượt truy cập
 Lượt truy cập :  18,947,282
  • Công bố khoa học và công nghệ Việt Nam

Khoa học kỹ thuật và công nghệ

BB

Phạm Ngọc Giàu, Tống Lê Thanh Hải

VẤN ĐỀ VANISHING GRADIENT VÀ CÁC PHƯƠNG PHÁP XỬ LÝ KHI LAN TRUYỀN NGƯỢC TRONG HUẤN LUYỆN MÔ HÌNH HỌC SÂU

THE PROBLEM OF VANISHING GRADIENTS AND COUNTERPROPAGATION METHODS IN DEEP LEARNING MODEL TRAINING

Tạp chí Khoa học & Công nghệ - Trường Đại học Công nghiệp Hà Nội

2023

6C

36

Trong học sâu có giám sát, gradient là thông tin quan trọng để cập nhật các trọng số (weights) trong quá trình huấn luyện. Nếu gradient quá nhỏ hoặc bằng 0, trọng số sẽ gần như không thay đổi, khiến mô hình không thể học hỏi từ dữ liệu. Bài báo đưa ra các biện pháp khắc phục vấn đề suy giảm đạo hàm (vanishing gradient) trong mạng nơron Multi Layer Perceptrons (MLP) khi thực hiện huấn luyện mô hình quá sâu (có nhiều hidden layer). Có sáu phương pháp khác nhau tác động vào model, chiến thuật train,... để giúp giảm thiểu vanishing gradients được giới thiệu trong bài viết trên bộ dữ liệu FashionMNIST. Ngoài ra, chúng tôi cũng giới thiệu và xây dựng hàm MyNormalization(), một hàm tuỳ chỉnh tương tựnhư BatchNorm của Pytorch. Mục đích của hàm này là kiểm soát phương sai và giảm biến động của đặc trưng qua các lớp. Mục tiêu cuối cùng là tối ưu hoá mô hình MLP sâu để nó có thể học hiệu quả từ dữ liệu mà không bị ảnh hưởng bởi vấn đề vanishing gradient.

In supervised deep learning, gradients are information to update weights during training, if the gradient is too small or zero, the weights are almost unchanged, leading to the model not learning anything from the data. The article providing solutions to the problem of vanishing gradients in Multi Layer Perceptrons (MLP) neural networks when performing train models that are too deep (with many hidden layers). There are six different methods that affect the model, train tactics, etc. to help minimize vanishing gradients featured in the article on the FashionMNIST dataset. In addition, we also introduced and built the MyNormalization() function, a custom function similar to Pytorch's BatchNorm. The purpose of this function is to control variance and reduce the volatility of characteristics across layers. The ultimate goal is to optimize the deep MLP model so that it can learn efficiently from data without being affected by the gradient vanishing problem.