Strona głównaBlogPorady e-commerceAutomatyczne rozpoznawanie mowy – podstawy, które warto znać
Automatyczne rozpoznawanie mowy – podstawy, które warto znać

Automatyczne rozpoznawanie mowy – podstawy, które warto znać

Marta JabłońskaSenior Content Designeredrone

ASR (z ang. automatic speech recognition) to technologia, która umożliwia zmianę mowy w tekst. Dowiedz się, jak może pomóc w e-commerce.

Technologia głosowa przeżywa prawdziwy rozkwit. Młodsze pokolenie chętniej “mówi do telefonu”, bo jest to szybsze i wygodniejsze od tradycyjnego pisania wiadomości. 68% korzystających z asystentów głosowych twierdzi, że ułatwia im to codziennie funkcjonowanie.

W tym, żeby te narzędzia działały, a ludzki głos zmienił się w tekst na telefonie, pomaga nic innego, jak ASR (z ang. automatic speech recognition), czyli automatyczne rozpoznawanie mowy. Dziś przyjrzymy się temu, jak działa ta technologia i jak jej wykorzystanie może sprawdzić się w narzędziach dedykowanych branży e-commerce.

Co to jest ASR? Definicja

Z definicji ASR to technologia łącząca w sobie osiągnięcia lingwistyki i informatyki, która jest wykorzystywana w szerszej dziedzinie przetwarzania języka naturalnego, NLP (Natural Language Processing). Umożliwia ona rozpoznawanie mowy i przetwarzanie jej na tekst. ASR jest kluczowym elementem działania m.in. znanych wszystkim asystentów głosowych (Google, Alexa, Siri).

Krótko o historii ASR

Jeśli wydaje Ci się, że prace nad ASR rozpoczęły się stosunkowo niedawno, to czeka Cię lekkie zaskoczenie. Badania i próby przetwarzania ludzkiej mowy na tekst przy wykorzystaniu modeli matematycznych, były intensywnie prowadzone już ponad 63 lata temu! Najważniejsze z projektów na osi czasu tej technologii to:

  • Audrey – system opracowany przez Bell Labs w latach 60. XX wieku, który rozpoznawał słowa i cyfry izolowane. Jego dokładność wynosiła spektakularne 97-99%.
  • Shoebox – stworzony przez IBM w 1962 roku system rozpoznający proste sformułowania matematyczne i cyfry. Działał na zasadzie przekształcania słów wypowiadanych do mikrofonu na impulsy elektryczne. Następnie były one klasyfikowane według dźwięków, a system przekaźników mógł dzięki temu uruchomić maszynę dodającą.
  • HARPY – system rozpoznawania mowy z 1970 roku, którego poziom rozumienia mowy i słów można porównać do przeciętnego 3-latka. Był w stanie zrozumieć zdania złożone spośród 1011 słów.
  • Tangora – w latach 80. XX wieku IBM znów wykazał się, tworząc narzędzie do transkrypcji, które przy odpowiednim zaprogramowaniu było w stanie rozpoznać i zapisać 20 000 wyrazów w języku angielskim.

Próby nawiązania rozmowy na linii człowiek-komputer od dawna fascynowały naukowców i dzięki ich staraniom dziś możemy swobodnie rozmawiać z maszyną. Ba – umiejętność rozumienia naszego języka w wielu dziedzinach pozwala komputerom swobodnie zastąpić ludzi. Co ważne, dzięki zintegrowaniu ASR z NLP możliwe jest rozumienie kontekstu wypowiedzi (czyli tego, co dana osoba ma na myśli), co znacznie ułatwia komunikację. 

Przeczytaj także:

Newsletter

Postaw na rozwój. Dołącz do ponad 1000 sklepów, które budują swój sukces razem z nami.

Administratorem twoich danych jest edrone sp.z.o.o. Przetwarzamy informacje zgodnie z naszą polityką prywatności

Gdzie wykorzystywane jest automatyczne rozpoznawanie mowy?

ASR ma zastosowanie w wielu dziedzinach codziennego życia. Może być wykorzystywane do transkrypcji notatek czy nagrań. Wiele narzędzi (np. Lekta) obok innych technologii wykorzystuje właśnie rozpoznawanie mowy do wstępnej obsługi klienta, zanim zostanie on przekierowany do odpowiedniego działu. Media społecznościowe, takie jak YouTube czy Instagram umożliwiają automatyczne dodawanie napisów do wideo lub relacji, co sprawia, że treści są dostępne dla większej grupy użytkowników. Wiele osób wykorzystuje również asystentów głosowych i posługuje się swoim smartfonem lub nawet telewizorem za pomocą mowy. A to tylko kilka przykładów.

Wyzwania, które stoją przed ASR

Naukowcy stale pracują nad tym, by rozpoznawanie mowy przez maszyny było coraz dokładniejsze. Jednak nie brakuje wyzwań w tej dziedzinie. Urządzenie może mieć problem ze zrozumieniem, co do niego mówimy, jeśli dookoła panuje hałas lub jesteśmy obok innych osób, które rozmawiają. Stąd też korzystanie z asystentów głosowych w miejscach publicznych często kończy się fiaskiem. Dodatkowymi wyzwaniami jest rozumienie akcentów i znaczenia słów.

Jak e-commerce może korzystać z rozpoznawania mowy?

Jak już wiesz, technologia głosowa znajduje zastosowanie w wielu dziedzinach. Jest dla niej miejsce także w e-commerce. Aby współczesnym konsumentom lepiej i wygodniej robiło się zakupy w Twoim sklepie, możesz pozwolić im chociażby na wyszukiwanie produktów za pomocą głosu.

Mobile Voice Search od edrone to rozwiązanie zaprojektowane z myślą o sklepach internetowych. Wyszukiwarka pozwala na swobodne przeglądanie produktów z różnych kategorii, bez potrzeby używania filtrów czy wpisywania słów kluczowych w pasek wyszukiwania. 

Popraw konwersję na mobile! Sprawdź wyszukiwanie głosowe, które działa. – YouTube

W naszym narzędziu obok ASR wykorzystaliśmy także:

  • Natural Language Understanding (NLU), dzięki czemu wyszukiwarka rozumie kontekst wypowiedzi
  • Moduł konwersacyjny, który ułatwia proces przeglądania produktów, podpowiadając ich kolejne cechy
  • Interaktywną wyszukiwarkę, dzięki której użytkownik może dowolnie dodawać, usuwać i zmieniać kryteria 

Brzmi ciekawie, prawda? Wypróbuj Voice Search w swoim sklepie za darmo przez 6 tygodni i dołącz do głosowej rewolucji!

Dołącz do głosowej rewolucji

Wypróbuj Voice Search w swoim sklepie za darmo przez 6 tygodni!

Dowiedz się więcej

Marta Jabłońska

Senior Content Designer

edrone

Z wykształcenia dziennikarka i specjalistka od komunikacji. Swoją karierę konsekwentnie buduje na pracy ze słowem. Pierwsze kroki w karierze stawiała w Public Relations, pisząc dziesiątki materiałów prasowych dla agencji takich jak Team Lewis czy Grayling. Od kilku lat rozwija swoje umiejętności w marketingu, tworząc wszelkiego rodzaju treści — od kampanii SMS, przez newslettery po obszerne artykuły eksperckie. W edrone, jako Senior Content Designer, wykorzystuje swoje lekkie pióro do dzielenia się wiedzą z właścicielami sklepów internetowych, pokazując nowe trendy i możliwe kierunki rozwoju e-commerce. LinkedIn

Chcesz zwiększyć sprzedaż i zbudować jeszcze lepsze relacje z klientami?

Umów darmową prezentację

Powiązane artykuły

Prawo Benforda: Czy rzeczywistość jest z góry ustalona?

W edrone gromadzimy mnóstwo danych. Wśród tych danych znajduje się informacja o wartości zamówienia i jak zapewne się domyślasz, jest tam mnóstwo “losowych wartości. Najciekawsze jest to, że w rzeczywistości wcale nie są przypadkowe...

Wejdź z nami do świata e-commerce.
Zapisz się do newslettera

Administratorem twoich danych jest edrone sp.z.o.o. Przetwarzamy informacje zgodnie z naszą polityką prywatności