Новости

«Сбер» открывает доступ к огромному набору речевых данных на русском языке

21.05.2021

«Сбер» объявил об открытии доступа к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных, а также обученной на них модели распознавания речи, которая показывает точность, сравнимую с человеческой. Датасет можно скачать на сайте Github.

Данные могут быть использованы для распознавания и синтеза речи. «Сбер» предоставляет их по лицензии, допускающей использование в исследовательских и коммерческих целях, а это более одного миллиона коротких записей русской речи и соответствующие транскрипции.

Над датасетом работала команда Sberdevices: создание такой базы стало возможным благодаря разработке семейства виртуальных ассистентов Салют. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Аудиофайлы записаны при помощи краудсорсинговой платформы и специальной студии. Датасет Golos составляют обезличенные записи, прослушанные и размечены вручную. Точная разметка, полученная благодаря тройному перекрытию, позволяет создавать качественные речевые технологии и продукты.

Помимо данных, «Сбер» выкладывает обученную на них модель распознавания речи. Она обучалась с использованием мощностей суперкомпьютера «Кристофари» от «Сбера» на 16 видеокартах Nvidia Tesla V100 в течение 8 дней. Доступная для использования акустическая модель QuartzNet 15×5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos.

ЧИТАТЬ ТАКЖЕ: В России стартуют продажи смартфонов Huawei nova 8. Цена

«Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в «Сбере» рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом. Речевые технологии сейчас очень активно внедряются во всех сферах. При этом уже существует масса открытых данных на английском языке, но такого качественного русскоязычного датасета не было. Теперь же есть доступные данные и на русском языке, которые можно использовать для распознавания и синтеза речи, а обученная на них модель показывает очень высокое качество. Мы верим, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологий», – сказал Денис Филиппов, CTO Sberdevices.

Клиника косметологии в Москве: как выбрать, чтобы не навредить себе и…

Почему стоит пользоваться гидрофильным маслом?

Доставка из Китая в Казахстан: подробное руководство

Виды лазеров для проведения эпиляции

Работа в качестве эскорта: путешествие в уникальное путешествие

Duet V: Революция в омоложении без уколов и скальпеля

Airtouch: искусство окрашивания волос, которое стало трендом

Шлифовка рубцов: методы, эффективность и уход после процедуры

Реконструкция груди после мастэктомии

Профессиональные пилинги: уход за кожей лица на высшем уровне

Микроигольчатый RF-лифтинг: современная технология для омоложения и подтяжки кожи

Как выбрать клинику пластической хирургии

Псевдоблефаропластика: что это такое и кому подходит

Шлифовка рубцов: методика, показания и противопоказания

Массаж ног при варикозе

Профессия сексолога: обучение, обязанности, зарплата

Как сделать клубнику в шоколаде?

Дайте волю своим чувствам: исследование мира оптовых поставщиков парфюмерии и косметики

Подзорная труба

Автоматические кофемашины Krups Espresseria: искусство приготовления кофе дома

Монтаж кондиционеров: особенности, этапы и важность профессионального подхода

Букет из шаров — отличный способ удивить любого

Секреты победы в бильярд

Воробьевы горы — идеальное место для романического свидания

«Сбер» открывает доступ к огромному набору речевых данных на русском языке

ЭТО ИНТЕРЕСНО

Изготовление коробок на заказ: удобное решение для всех ваших потребностей в упаковке

Сын Меган Маркл и принца Гарри получит королевский титул

Трек от Hot Wheels: отличный вариант для подарка

Катя Лель удивила поклонников фото с эффектным супругом

Компания Polywell Computers объявляет о начале поставок в Россию мини ПК с расширенным температурным...

Выбор редактора

Когда стоит обратиться к неврологу: сигналы организма, которые нельзя игнорировать

Умер телеведущий Алексей Пиманов

РИА Новости: командный состав 68-й бригады ВСУ открыто называет его предателем

Популярные посты

Как научиться играть на гитаре

Маски от морщин после 30 лет

Мужской шугаринг глубокое бикини

ПОПУЛЯРНЫЕ КАТЕГОРИИ