Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 10 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

On the Use of Complementary Spectral Features for Speaker Recognition

Tác giả: Danoush Hosseinzadeh and Sridhar Krishnan

Lĩnh vực: EURASIP Journal on Advances in Signal Processing

Nội dung tài liệu:

Nghiên cứu này giới thiệu và đánh giá một tập hợp các đặc trưng phổ bổ sung nhằm cải thiện hiệu quả nhận dạng người nói. Trong khi các hệ thống nhận dạng người nói truyền thống thường dựa vào các đặc trưng như hệ số cepstral tần số Mel (MFCCs) và hệ số cepstral dự đoán tuyến tính (LPCCs), vốn mô tả cấu hình bộ máy phát âm, nghiên cứu này đề xuất tích hợp thêm các đặc trưng phổ khác. Các đặc trưng mới này bao gồm: tâm phổ (SC), độ rộng phổ (SBW), năng lượng dải phổ (SBE), hệ số đỉnh phổ (SCF), độ phẳng phổ (SFM), entropy Shannon (SE) và entropy Renyi (RE). Mục đích là để khai thác thêm thông tin về các đặc tính phụ thuộc vào người nói như tần số cao độ, cấu trúc hài và phân bố năng lượng phổ, vốn có thể bổ sung cho các đặc trưng truyền thống. Nghiên cứu cũng xem xét tính hiệu quả của các đặc trưng này trong điều kiện nhiễu và biến dạng kênh khác nhau, mô phỏng các tình huống thực tế như nhiễu tiếng ồn xung quanh, nhiễu trắng Gauss cộng tính và kênh băng thông hẹp mô phỏng kênh điện thoại. Kết quả thực nghiệm cho thấy việc kết hợp các đặc trưng phổ bổ sung này với MFCCs và AMFCCs có thể cải thiện đáng kể hiệu suất nhận dạng người nói, đặc biệt là dưới các điều kiện nhiễu.

Mục lục chi tiết:

1. Introduction
2. Spectral Features
2.1. Subband allocation
3. Proposed Method
3.1. Training and GMM estimation
3.2. Feature set
4. Experimental Results
4.1. Experimental conditions
4.2. Results and discussions
5. Conclusion