@vannadiz
vannadiz
04 Feb 2015

Пойнт, это Данила, ай нид хелп.
Помимо изобретения велосипеда, хочется узнать, вдруг уже придумано что-то более элегантное и простое.

В проекте есть либа для распознавания речи, работающая на своем нерасширяемом словаре, состоящем преимущественно из нарицательных существительных.
На распознавание будут подаваться имена собственные, которых в словаре нет, потому нужно искать наиболее близкие соотвествия.

Пример.
start - Stapt
program - Puogran

Желательно иметь возможность регулировать жесткость соотвествий.
Есть чо?

Рекомендовано: Alinaki
#ovqoqr 17
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

jtootf, спасибо, сейчас посмотрю.

#ovqoqr/3 в ответ на /1
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

jtootf, как первое приближение оно довльно неплохо, из минусов
- не обращает внимание на близость созвучий (но это уже сложнее намного, конечно и требует своего словаря).
- описанное в википедии

Расстояния между совершенно разными короткими словами оказываются небольшими, в то время как расстояния между очень похожими длинными словами оказываются значительными

то есть
dist("program", "putogran") == dist("start", "saaaa")
То есть нужно-таки вводить рассчет допустимомой дистанции зависимо от длины слова.

Но очень даже неплохо, спасибо.

#ovqoqr/4 в ответ на /1
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

vannadiz, да, это одна из самых грубых оценок. у нас считали фонетическое расстояние

#ovqoqr/5 в ответ на /4
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

Гляжу, отличный выбор

#ovqoqr/2
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

Это что ж за движок такой?

#ovqoqr/6
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

NetBUG, що? в смысле что за либа?
встроенный гугловый распознаватель.

#ovqoqr/8 в ответ на /6
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

Если имён собственных мало, можно просто построить граф соответствий.

#ovqoqr/9 в ответ на /8
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

NetBUG, немного. Около 20-40.

как именно? Собственно в этом и вопрос.
выше тут уже был алгоритм с расстояниями (без учета фонетики и длин слов)

#ovqoqr/10 в ответ на /9
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

А я бы попробовал учесть.
Soundex какой-нибудь или Caverphone.
А что за имена? Насколько похожи на типовые для какого-нибудь из европейских?

#ovqoqr/11 в ответ на /10
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

NetBUG, названия спортивных команд.

#ovqoqr/12 в ответ на /11
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

По крайней мере, "Динамо" распознаёт норм. :)

#ovqoqr/13 в ответ на /12
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

NetBUG, более того, премьер-лигу узнает сам гугл.
А вот что-то более местное - нет.

#ovqoqr/14 в ответ на /13
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
04 Feb 2015

Данила, я не знаю, кто ты, но готов потыкать задачу более приватно, если есть данные

#ovqoqr/15 в ответ на /14
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
05 Feb 2015

NetBUG, пока мне хватит расстояния Левенштейна, но если вдруг что, то обязательно буду иметь Вас ввиду.
Спасибо большое!

#ovqoqr/16 в ответ на /15
Вы можете выбрать до 10 файлов общим размером не более 10 МБ.

Добавить пост

Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
Для форматирования текста используется Markdown.