Jak zbudować aplikację do rozpoznawania mowy

Przygotowanie oprogramowania do rozpoznawania mowy

Krok 1

Pogrupuj swoje oprogramowanie za pomocą programu do rozpoznawania głosu, takiego jak Dragon NaturallySpeaking lub ViaVoice od IBM. Jeśli jesteś programistą, daj użytkownikowi opcję zakupu oprogramowania. W ramach procesu instalacji aplikacji, użytkownik musi także zainstalować program rozpoznawania głosu.

Krok 2

Skonfiguruj oprogramowanie do rozpoznawania mowy. Aby aplikacja mogła w pełni korzystać z rozpoznawania głosu, program musi być poprawnie skonfigurowany. Oznacza to, że ustawienia mikrofonu i języka muszą być odpowiednio dostosowane, aby w pełni wykorzystać możliwości programu.

Krok 3

Trenuj program rozpoznawania mowy. Może to wymagać wykonania poza aplikacją, w zależności od jej charakteru. W takim przypadku większość programów rozpoznających głos obejmuje programy treningowe i ekrany, lub program można przeszkolić w edytorze tekstu.

Zintegruj wpis tekstowy

Krok 1

Zbuduj kontrolę tekstu lub tekstu w aplikacji. Wiele programów do rozpoznawania mowy działa ze wszystkimi programami, które mają opcje wprowadzania tekstu. Jeśli potrzebne jest wprowadzenie słów, aplikacja prawdopodobnie nie wymaga żadnych modyfikacji do pracy z programem do rozpoznawania mowy.

Krok 2

Obejmuje dodatkowe miejsce w kontrolce wprowadzania tekstu. Ponieważ programy rozpoznające mowę mogą rozpoznawać mowę szybciej niż wiele osób może pisać, może być konieczne zwiększenie rozmiaru elementów sterujących wprowadzaniem tekstu. Pozostaw wystarczająco dużo miejsca, aby pisać tekst i przeglądać w czasie rzeczywistym.

Interakcja za pośrednictwem interfejsu API

Krok 1

Wykorzystuje interfejs programowania aplikacji (API) do interakcji z oprogramowaniem do rozpoznawania mowy. Wiele programów do rozpoznawania mowy zawiera interfejs API dla innych aplikacji. Używanie jednego pozwoli aplikacji na pełny dostęp do wszystkich funkcji rozpoznawania głosu i zapewni użytkownikowi pełną kontrolę nad aplikacją za pomocą mowy.

Krok 2

Zintegruj interfejs API z aplikacją. Może to obejmować wykonanie więcej niż jednego "trybu" sterowania głosem. Utwórz słowa polecenia, takie jak "zapisz plik" lub "utwórz nowy plik". Wprowadzając tekst, użytkownicy powinni mieć możliwość edycji bez dotykania klawiatury i aktywowania funkcji tekstu sformatowanego, takich jak pogrubienie, kursywę, podkreślanie i inne zmiany czcionek.