VẤN ĐỀ VANISHING GRADIENT VÀ CÁC PHƯƠNG PHÁP XỬ LÝ KHI LAN TRUYỀN NGƯỢC TRONG HUẤN LUYỆN MÔ HÌNH HỌC SÂU

Chỉ số đề mục

Lĩnh vực nghiên cứu

Khoa học kỹ thuật và công nghệ

Dạng tài liệu

BB

Tác giả

Phạm Ngọc Giàu, Tống Lê Thanh Hải

Nhan đề

VẤN ĐỀ VANISHING GRADIENT VÀ CÁC PHƯƠNG PHÁP XỬ LÝ KHI LAN TRUYỀN NGƯỢC TRONG HUẤN LUYỆN MÔ HÌNH HỌC SÂU

Nhan đề tiếng anh

THE PROBLEM OF VANISHING GRADIENTS AND COUNTERPROPAGATION METHODS IN DEEP LEARNING MODEL TRAINING

Nguồn trích

Tạp chí Khoa học & Công nghệ - Trường Đại học Công nghiệp Hà Nội

Năm xuất bản

2023

Số

6C

Trang

36

ISSN

Từ khóa

Từ khóa tiếng anh

Tóm tắt

Trong học sâu có giám sát, gradient là thông tin quan trọng để cập nhật các trọng số (weights) trong quá trình huấn luyện. Nếu gradient quá nhỏ hoặc bằng 0, trọng số sẽ gần như không thay đổi, khiến mô hình không thể học hỏi từ dữ liệu. Bài báo đưa ra các biện pháp khắc phục vấn đề suy giảm đạo hàm (vanishing gradient) trong mạng nơron Multi Layer Perceptrons (MLP) khi thực hiện huấn luyện mô hình quá sâu (có nhiều hidden layer). Có sáu phương pháp khác nhau tác động vào model, chiến thuật train,... để giúp giảm thiểu vanishing gradients được giới thiệu trong bài viết trên bộ dữ liệu FashionMNIST. Ngoài ra, chúng tôi cũng giới thiệu và xây dựng hàm MyNormalization(), một hàm tuỳ chỉnh tương tựnhư BatchNorm của Pytorch. Mục đích của hàm này là kiểm soát phương sai và giảm biến động của đặc trưng qua các lớp. Mục tiêu cuối cùng là tối ưu hoá mô hình MLP sâu để nó có thể học hiệu quả từ dữ liệu mà không bị ảnh hưởng bởi vấn đề vanishing gradient.

Tóm tắt tiếng anh

In supervised deep learning, gradients are information to update weights during training, if the gradient is too small or zero, the weights are almost unchanged, leading to the model not learning anything from the data. The article providing solutions to the problem of vanishing gradients in Multi Layer Perceptrons (MLP) neural networks when performing train models that are too deep (with many hidden layers). There are six different methods that affect the model, train tactics, etc. to help minimize vanishing gradients featured in the article on the FashionMNIST dataset. In addition, we also introduced and built the MyNormalization() function, a custom function similar to Pytorch's BatchNorm. The purpose of this function is to control variance and reduce the volatility of characteristics across layers. The ultimate goal is to optimize the deep MLP model so that it can learn efficiently from data without being affected by the gradient vanishing problem.

Kí hiệu kho

File toàn văn

Xem toàn văn