음성을 인식하는 데 심층 학습 모델의 적용
2022/09/10
News Detail
딥러닝 모델의 적용은 사운드 인식에 대한 포괄적인 기술적 틀을 형성했습니다.멀티 시나리오 소리 특징 추출 및 끝에서 끝까지 학습을 통해 의미 이해다음은 주요 기술 응용 방향 및 전형적인 모델 아키텍처입니다.
1음향 특징 추출
시간 빈도 분석 최적화
- CNN를 사용하여 멜 스펙트럼에서 자동으로 지역 특성을 (하모닉 구조와 형성물질과 같이) 학습하여 MFCC를 사용하는 전통적인 수동 특징 공학을 대체합니다.이 접근법은 UrbanSound8K 데이터 세트에서 소음 환경에서 분류 정확도를 27% 향상시킵니다..
- 모빌넷V3와 같은 가벼운 모델은 깊이별로 분리 가능한 굽힘과 PSA 주의 모듈을 사용하여 2.6M 매개 변수에서만 100% 최고 5 개의 새 소리 인식 정확도를 달성합니다.
향상된 시간 계열 모델링
- CRNN 하이브리드 아키텍처 (CNN + BiLSTM) 는 동시에 사운드 이벤트의 스펙트럼 특성 및 시간적 의존성을 캡처하여 F1 점수 92를 달성합니다.유리 부러짐과 같은 갑작스러운 사건을 감지하기 위해 3%.
- 트랜스포머는 긴 오디오 시퀀스를 처리하기 위해 자기주의 메커니즘을 사용하며 배고픔과 통증에 대한 영유아 울음을 분류하는 99% 이상의 정확도를 달성합니다.
II. 특정 적용 시나리오
| 응용 분야 | 기술적 해결책 | 성능 측정 |
|---|---|---|
| 반려동물 건강 모니터링 | RNN 기반 음성 감정 분석 시스템, 10 개 이상의 음성 유형 분류를 지원 | |
| 스마트 홈 보안 | CNN+CTC를 사용하여 끝에서 끝까지 비정상적인 소리 검출 | 응답 지연 <200ms |
| 의료 지원 진단 | 병리성 기침 인식을 위한 전송 학습 음성 인쇄 모델 (예를 들어, 도시 소리 건축) | AUC 0.98 |
III. 최첨단 기술 혁신
- 멀티모델 퓨전: YOLOv8 시각 모델과 LSTM 오디오 네트워크의 공동 훈련은 동시에 유아의 움직임과 울음 빈도를 분석하여 거짓 양성 반응을 38% 감소시킵니다.
- 가벼운 배포: WT2605A와 같은 칩은 DNN 추론 엔진을 통합하여 음성 발자국 인식 모듈의 전력 소비를 15mW로 줄입니다.
(참고: 표의 참조 숫자는 표 밖에서 표시됩니다.)