Artwork

Контент предоставлен Podlodka Podcast, Егор Толстой, Стас Цыганов, Екатерина Петрова, and Евгений Кателла. Весь контент подкастов, включая выпуски, графику и описания подкастов, загружается и предоставляется непосредственно Podlodka Podcast, Егор Толстой, Стас Цыганов, Екатерина Петрова, and Евгений Кателла или его партнером по платформе подкастов. Если вы считаете, что кто-то использует вашу работу, защищенную авторским правом, без вашего разрешения, вы можете выполнить процедуру, описанную здесь https://ru.player.fm/legal.
Player FM - приложение для подкастов
Работайте офлайн с приложением Player FM !

Podlodka #292 – Распознавание речи

1:25:03
 
Поделиться
 

Manage episode 345736263 series 2529307
Контент предоставлен Podlodka Podcast, Егор Толстой, Стас Цыганов, Екатерина Петрова, and Евгений Кателла. Весь контент подкастов, включая выпуски, графику и описания подкастов, загружается и предоставляется непосредственно Podlodka Podcast, Егор Толстой, Стас Цыганов, Екатерина Петрова, and Евгений Кателла или его партнером по платформе подкастов. Если вы считаете, что кто-то использует вашу работу, защищенную авторским правом, без вашего разрешения, вы можете выполнить процедуру, описанную здесь https://ru.player.fm/legal.
В эфире ваша любимая рубрика: «как устроены сложные штуки» 🤓. Мы уже не раз затрагивали тему голосовых ассистентов и их тестирования. Настало время фундаментальных вопросов — в этом выпуске разбираемся, как работают системы распознавания речи! Иван Бондаренко, старший преподаватель и научный сотрудник НГУ, рассказал из каких компонентов устроены типичные архитектуры таких систем, принцип их работы, и как системы эволюционируют, все больше полагаясь на нейронные сети. Не обошли стороной и практику и обсудили, как самому реализовать распознавание речи из open-source решений. Поддержи лучший подкаст про IT: www.patreon.com/podlodka Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях! Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Facebook: www.facebook.com/podlodkacast/ Twitter-аккаунт: https://twitter.com/PodlodkaPodcast Ведущие в выпуске: Катя Петрова, Стас Цыганов Полезные ссылки: - https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf (классическая книга Мартина и Журавского "Speech and Language Processing", правда, на английском языке) - https://www.deeplearningbook.org/ (супер-книга про глубокое обучение от Гудфеллоу, Бенджио и Курвиля, а ведь глубокое обучение активно используется в современных методах распознавания речи) - https://kaldi-asr.org/ (конструктор систем распознавания речи на основе компонентного подхода) - https://habr.com/ru/post/470696 (простое описание того, как установить Kaldi на своём компьютере и как его сравнить с другими системами распознавания) - https://github.com/alphacep/vosk-api (упоминавшийся мной проект Николая Шмырёва по распознаванию речи с "классической" архитектурой на базе Kaldi) - https://www.openslr.org/12 (знаменитый англоязычный датасет Librispeech, включающий в себя более 1000 часов аннотированной речи) - https://www.openslr.org/114 (большой вручную аннотированный датасет русской речи, созданный ребятами из SberDevices) - https://t.me/speech_recognition_ru (известный русскоязычный телеграм-канал по распознаванию речи, созданный Николаем Шмырёвым) - https://github.com/nsu-ai/russian_g2p (система для преобразования русских слов и текстов в цепочку фонем устной речи) - https://maelfabien.github.io/machinelearning/wav2vec (статья про современные речевые нейросеточки семейства Wav2Vec и Wav2Vec2) - https://jonathanbgn.com/2021/09/30/illustrated-wav2vec-2.html (Wav2Vec2 в картинках) - https://huggingface.co/bond005/wav2vec2-large-ru-golos (глубокая нейросеть типа Wav2Vec2 для распознавания русской речи) - https://huggingface.co/bond005/wav2vec2-large-ru-golos-with-lm (глубокая нейросеть типа Wav2Vec2 с дополнительной языковой моделью для распознавания русской речи) - https://kheafield.com/code/kenlm/ (инструмент для построения своих языковых моделей) - https://habr.com/ru/post/513218/ (как распарсить Википедию и превратить её в текстовый корпус для обучения языковой модели в системе распознавания речи и не только) - https://habr.com/ru/post/494006 (почему не стоит слепо доверять опубликованным показателям качества систем распознавания речи и, вообще, пара слов о том, как сделать свою систему) - https://www.researchgate.net/profile/Ivan-Bondarenko (профиль Ивана на ResearchGate) - https://github.com/bond005 (гитхаб Ивана)
  continue reading

378 эпизодов

Artwork
iconПоделиться
 
Manage episode 345736263 series 2529307
Контент предоставлен Podlodka Podcast, Егор Толстой, Стас Цыганов, Екатерина Петрова, and Евгений Кателла. Весь контент подкастов, включая выпуски, графику и описания подкастов, загружается и предоставляется непосредственно Podlodka Podcast, Егор Толстой, Стас Цыганов, Екатерина Петрова, and Евгений Кателла или его партнером по платформе подкастов. Если вы считаете, что кто-то использует вашу работу, защищенную авторским правом, без вашего разрешения, вы можете выполнить процедуру, описанную здесь https://ru.player.fm/legal.
В эфире ваша любимая рубрика: «как устроены сложные штуки» 🤓. Мы уже не раз затрагивали тему голосовых ассистентов и их тестирования. Настало время фундаментальных вопросов — в этом выпуске разбираемся, как работают системы распознавания речи! Иван Бондаренко, старший преподаватель и научный сотрудник НГУ, рассказал из каких компонентов устроены типичные архитектуры таких систем, принцип их работы, и как системы эволюционируют, все больше полагаясь на нейронные сети. Не обошли стороной и практику и обсудили, как самому реализовать распознавание речи из open-source решений. Поддержи лучший подкаст про IT: www.patreon.com/podlodka Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях! Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Facebook: www.facebook.com/podlodkacast/ Twitter-аккаунт: https://twitter.com/PodlodkaPodcast Ведущие в выпуске: Катя Петрова, Стас Цыганов Полезные ссылки: - https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf (классическая книга Мартина и Журавского "Speech and Language Processing", правда, на английском языке) - https://www.deeplearningbook.org/ (супер-книга про глубокое обучение от Гудфеллоу, Бенджио и Курвиля, а ведь глубокое обучение активно используется в современных методах распознавания речи) - https://kaldi-asr.org/ (конструктор систем распознавания речи на основе компонентного подхода) - https://habr.com/ru/post/470696 (простое описание того, как установить Kaldi на своём компьютере и как его сравнить с другими системами распознавания) - https://github.com/alphacep/vosk-api (упоминавшийся мной проект Николая Шмырёва по распознаванию речи с "классической" архитектурой на базе Kaldi) - https://www.openslr.org/12 (знаменитый англоязычный датасет Librispeech, включающий в себя более 1000 часов аннотированной речи) - https://www.openslr.org/114 (большой вручную аннотированный датасет русской речи, созданный ребятами из SberDevices) - https://t.me/speech_recognition_ru (известный русскоязычный телеграм-канал по распознаванию речи, созданный Николаем Шмырёвым) - https://github.com/nsu-ai/russian_g2p (система для преобразования русских слов и текстов в цепочку фонем устной речи) - https://maelfabien.github.io/machinelearning/wav2vec (статья про современные речевые нейросеточки семейства Wav2Vec и Wav2Vec2) - https://jonathanbgn.com/2021/09/30/illustrated-wav2vec-2.html (Wav2Vec2 в картинках) - https://huggingface.co/bond005/wav2vec2-large-ru-golos (глубокая нейросеть типа Wav2Vec2 для распознавания русской речи) - https://huggingface.co/bond005/wav2vec2-large-ru-golos-with-lm (глубокая нейросеть типа Wav2Vec2 с дополнительной языковой моделью для распознавания русской речи) - https://kheafield.com/code/kenlm/ (инструмент для построения своих языковых моделей) - https://habr.com/ru/post/513218/ (как распарсить Википедию и превратить её в текстовый корпус для обучения языковой модели в системе распознавания речи и не только) - https://habr.com/ru/post/494006 (почему не стоит слепо доверять опубликованным показателям качества систем распознавания речи и, вообще, пара слов о том, как сделать свою систему) - https://www.researchgate.net/profile/Ivan-Bondarenko (профиль Ивана на ResearchGate) - https://github.com/bond005 (гитхаб Ивана)
  continue reading

378 эпизодов

Все серии

×
 
Loading …

Добро пожаловать в Player FM!

Player FM сканирует Интернет в поисках высококачественных подкастов, чтобы вы могли наслаждаться ими прямо сейчас. Это лучшее приложение для подкастов, которое работает на Android, iPhone и веб-странице. Зарегистрируйтесь, чтобы синхронизировать подписки на разных устройствах.

 

Краткое руководство