Natural Audio Data Augmentation Techniques

Department

Wirtschaftswissenschaftliche Fakultät
Creative Commons Attribution ShareAlike 4.0 (CC BY-SA)Creative Commons Attribution ShareAlike 4.0 (CC BY-SA)Creative Commons Attribution ShareAlike 4.0 (CC BY-SA)
Loading...
Thumbnail Image

Abstract

Künstliche Vergrößerung von Datensätzen, ein Prozess, der auch als Data Augmentation bekannt ist und dazu dient, ein maschinelles Lernmodell zu trainieren und zu bewerten, wird seit langem angewendet und erforscht. Diese Arbeit befasst sich mit einem Problem der Data Augmentation im Bereich der Audioverarbeitung. Die Anwendung von Techniken zur Data Augmentation auf Tonaufnahmen ist ein Forschungsbereich, der bisher weitgehend unerforscht ist. Viele frühere Arbeiten stützen ihre Ansätze auf Erkenntnisse aus anderen Bereichen, wie zum Beispiel der Bildverarbeitung (Computer Vision). Andere wenden oft allgemeine Transformationen an, die in der Signalverarbeitung bekannt sind. Insbesondere fehlt es in der bisherigen Forschung an einem Verständnis für natürliche oder Umwelttransformationen, die während des Aufnahmevorgangs an einem Tonsignal auftreten. Dieses Thema wird in dieser Arbeit behandelt. Bei der Lösung eines typischen Problems der Audio-Klassifikation, bei dem Klänge entsprechend ihrer Quellen gekennzeichnet werden, werden mehrere neue Techniken zur Data Augmentation für Audio vorgeschlagen und mit bestehenden Praktiken verglichen. Als Ergebnis werden zuverlässige Metriken erzielt, die mit vorherigen Arbeiten vergleichbar sind. Die vorgeschlagenen Techniken stehen öffentlich zur Verfügung. Darüber hinaus werden Vorschläge für weitere Forschungsbereiche gemacht.
Artificial enlargement of datasets, a process also known as data augmentation, used to train and evaluate a machine learning model, has been applied and researched for a long time. This work addresses a problem of data augmentation in the audio domain. The application of data augmentation techniques to audio recordings is a field primarily uncovered by research. Many previous works base their approaches on knowledge from other domains, such as computer vision. Others often apply general transformations known in signal processing. In particular, existing research lacks an understanding of natural, or environmental, transformations happening to an audio signal during the recording process. This topic is addressed in this work. While solving a typical audio classification problem, which is labeling sounds respective to their sources, several new audio data augmentation techniques are proposed and compared to existing practices. A set of reliable metrics comparable with preceding works is achieved as a result. Proposed techniques are openly available. Additionally, suggestions for further research are provided.

Description

Python code supporting this thesis is available at: https://github.com/vaniastankov/Master-Thesis-code

Keywords

Data Augmentation, Audio, Maschinelles Hören, Maschinelles Lernen, Audio, Data Augmentation, Machine Learning, Machine Hearing

Dewey Decimal Classification

000 Informatik, Informationswissenschaft, allgemeine Werke

Citation

Stankov, Ivan.(2024). Natural Audio Data Augmentation Techniques. 10.18452/28010