speechlock: voice to vector, voice similarity
TRANSCRIPT
SpeechLock
Идея
Не еш меня, подумой
same person ✓
not same person ✘
Hello, I’m Tvorozhek.Let me in, please.
тыгыдык-тыгыдык гыы я лошадка
Что тут вообще происходит?
Датасет
http://forvo.comСкачано 7406 произношений.
Самые популярные слова:
1 66привет 52здравствуйте 27машина 26русский 21Китай 20медведь 19счастье 19котёнок 19
Первая попытка
Предобработка голосов
1. Убрали все звуки длиною меньше секунды
2. Выбрали случайную секунду
3. Нарезали на кусочки по 25 мс с пересечениями по 15 мс
4. Применили преобразование Фурье к каждому кусочку
Преобразование Фурье позволяет получить “фичи” голосов
до Фурье
после Фурье
Структура нейросети
Речь голоса 1
Речь голоса X
Conv2D MaxPool2D Dense
Conv2D MaxPool2D Dense
Concatsame weights not same w.
In
In
Out
похоже? не похоже?
batch size x sound channels x pieces x fft sound
Вторая попытка
Спектрограммы
По горизонтали время.
По вертикали частоты.
Цвет означает амплитуды, соответствующие определенной частоте. yulia_m: кусь
yulia_m: ветчина
Структура нейросети
Conv1D MaxPool1D GlobalPool Dense
Речь с голосом 1
Другая речь с голосом 1
Речь с голосом X
Речь с голосом 1, как вектор
Речь с голосом X, как вектор
In
Out
n filters = 100filter size = 5leaky rectify
pool size = 2 n units = 300
batch size x frequency x time
размерность векторов = 150
Другая речь с голосом 1, как
вектор
Функция потерь на следующем слайде >>>
Функция потерь
Функция предсказания
64%AUC ROC
Похожие работы
FaceNet: A Unified Embedding for Face Recognition and Clustering https://arxiv.org/pdf/1503.03832v3.pdf
Recommending music on Spotify with deep learning http://benanne.github.io/2014/08/05/spotify-cnns.html
Ссылки
github.com/xenx/speech
Презентация на гитхабе pdf
Поставь звездочку!