Trójmiejska firma pracuje nad nowym systemem rozpoznawania mowy

Robert Kiewlicz

14 listopada 2012 (artykuł sprzed 11 lat)

Opinie (14)

Celem spółki Voice Lab jest opracowanie technologii zdolnej konkurować z rozwiązaniami światowymi. Na zdjęciu Marcin Kuropatwiński i Tomasz Szwelnik, założyciele Voice Lab.

Chcesz podyktować tekst komputerowi, głosem sterować rożnego rodzaju urządzeniami, a może znudziło ci się żmudne przepisywanie notatek? W Trójmieście powstaje technologia rozpoznawania mowy ciągłej. Dzięki systemowi, nad którym pracuje firma Voice Lab, możemy nie tylko głosem sterować komórką czy komputerem. System pozwala na to, aby głos ludzki przetwarzany cyfrowo był zamieniany na tekst. O nowych pomysłach na rozpoznawanie mowy rozmawiamy z założycielami Voice Lab Tomaszem Szwelnikiem i Marcinem Kuropatwińskim.

Co jest największą barierą we wprowadzaniu innowacji w firmie?

brak wsparcia instytucji rządowych i samorządowych duża konkurencja firm zagranicznych brak środków finansowych i możliwości ich pozyskania z zewnątrz wysokie koszty i ryzyko takich wdrożeń mały dostęp do nowych technologii brak potrzeby wprowadzania innowacji

Rozpoznawanie mowy wydaje się dla laika czymś wyjątkowo prostym. Mówimy do urządzenia, ono wykonuje komendy lub zapisuje nasz głos w formie tekstu. Jednak naprawdę stoi za tym skomplikowana technologia i masa pracy.

Marcin Kuropatwiński: - Budowanie takich systemów jest bardzo trudne. Poprawa ich skuteczności powyżej jakiegoś progu wiąże się z olbrzymim wysiłkiem oraz z dużymi kosztami.

Tomasz Szwelnik: - Są to także projekty interdyscyplinarne. Trzeba mieć zespół ludzi zajmujących się fonetyką, lingwistyką, matematyką, informatyką i akustyką. Na świecie systemy rozpoznawania mowy konstruowane są przez duże zespoły badawcze. Często tworzy je jednocześnie kilka instytutów. Przykładem może być znany system rozpoznawania mowy Julius, który został skonstruowany przez instytuty badawcze w Japonii, czy Sphinx - system stworzony przez naukowców z Carnegie Mellon University w USA. Są też systemy czysto komercyjne, jak system Whisper firmy Microsoft. Tworzą je duże zespoły, duże korporacje, a na pracę składa się wiele lat badań. My znajdujemy się wśród nielicznych firm, które opracowały własny dekoder do rozpoznawania mowy ciągłej, czyli zamiany mowy ciągłej na tekst.

Wielkie korporacje, ogromne kwoty pieniędzy, a jednak od lat nie można stworzyć idealnego systemu rozpoznawania mowy. Jak wy chcecie poradzić sobie z tym problemem, konkurując z takimi gigantami jak Microsoft czy Google?

MK: - Mamy całkiem spory zespół, złożony z kilkunastu osób z różnych dziedzin. Naszą ambicją i celem jest opracowanie technologii zdolnej konkurować z rozwiązaniami światowymi - opracowane przez Voicelab rozwiązania są w wysokim stopniu niezależne od języka. Jesteśmy na etapie wdrażania technologii, która została zgłoszona do patentu. Chcielibyśmy tym rozwiązaniem podbić rynki światowe.

TS: - Działania Voicelab wspiera inwestor. Jest nim współzałożyciel Wirtualnej Polski, Jacek Kawalec. Dzięki temu wsparciu mamy przede wszystkim możliwości realizacji naszego projektu i stałego ulepszania technologii. Nasza technologia została zgłoszona do patentu w Stanach Zjednoczonych. Dotyczy on modelu akustycznego, gdzie udało się znaleźć wyznacznik jego poprawności.

MK: - Na świecie dosyć dużo ludzi nad tego rodzaju rozwiązaniami pracuje. Prace badawcze nad rozpoznawaniem mowy trwają już od lat 60. Okazuje się, ze głównym czynnikiem wpływającym na skuteczność tych rozwiązań jest rozmiar bazy danych. Obmyśliliśmy więc nowoczesny sposób na ich gromadzenie. Nikt przed nami nie robił tego na taką skalę. Drugą rzeczą jest oparcie się na czymś, co nazywa się modelami dyskretnymi. Jest to sposób statystycznego wnioskowania w oparciu o duże zbiory danych. Mamy też inne autorskie rozwiązania technologiczne, o których nie możemy dużo mówić, bo czekają one obecnie na zgłoszenie do patentów. Nie wszystko możemy zdradzić, ponieważ jest to jak na razie tajemnica firmy.

TS: - Te wszystkie elementy stanowią o tym, że jesteśmy bardzo oryginalni w rozpoznawaniu mowy i zaawansowani w stosunku do pomysłów, nad jakimi pracuje się obecnie na świecie. Musimy jeszcze przejść proces zbierania danych, czyli zebrać próbki głosu od jak największej liczby osób. Po to, aby mowa była jak najlepiej rozpoznawana przez nasz system. Stworzyliśmy specjalny serwis www.pracujrazemznami.pl, który pozwala nagrywać przez internet próbki głosu, za które płacimy. Zapraszamy więc do nagrywania. Liczymy na odzew społeczności internetowej. Chodzi nam o to, aby ludzie pomogli udoskonalić nasz system. Jesteśmy przekonani, że dzięki zaangażowaniu internautów jesteśmy w stanie opracować bardzo skuteczny system rozpoznawania mowy polskiej.

MK: - Nie możemy powiedzieć, że już jesteśmy najlepsi. Duzi gracze masowo gromadzą dane poprzez swoje serwisy. Przykładem może być voice search firmy Google czy Siri firmy Apple. Korporacje w zawrotnym tempie gromadzą dane, których my jeszcze nie mamy w odpowiedniej ilości.

Jak długo będziecie zbierać te dane, aby móc zaoferować gotowy produkt?

TS: - Mamy już gotowy komercyjny produkt oparty o rozpoznawanie gramatyk w standardzie SRGS (ang. Speech Recognition Grammar Specification). Wdrożyliśmy dla Pomorskiego Parku Technologicznego we współpracy z firmą Master Telecom infolinię sterowaną głosem. Na potrzeby Gdańskiego Parku Naukowo-Technologicznego stworzyliśmy interfejs dla kiosku internetowego we współpracy z firmą Denise Systems. Za pomocą głosu możemy uzyskać wszelkie informacje na temat firm działających w Parku. Jest to proste rozpoznawanie mowy, które pozwala na sterowanie nie tylko kioskiem internetowym, ale rożnego rodzaju urządzeniami lub ma zastosowanie przy nawigacji w internecie. Udało nam się jednak przede wszystkim opracować rozpoznawanie mowy ciągłej. Możemy powiedzieć wiele sekwencji słów następujących po sobie i są one rozpoznawane prawidłowo przez nasz system rozpoznawania mowy.

MK: - Stawiamy sobie za cel, aby system rozpoznawania mowy ciągłej dopracować do końca 2012 roku. Wiele zależy oczywiście od wcześniej wspomnianych baz danych, jakie obecnie gromadzimy. Już w przyszłym roku powinniśmy mieć gotowy system open dictation, który będzie rozpoznawał ok. milion słów języka polskiego.

TS: - Chcemy, aby to rozwiązanie było szeroko stosowane na całym świecie w wielu językach i przewyższało obecne rozwiązania technologiczne.

Voice Lab założony został w 2009 roku przez Tomasza Szwelnika i Marcina Kuropatwińskiego, dwóch absolwentów Politechniki Gdańskiej. W 2012 roku do firmy dołączył Jacek Kawalec, znany jako współtwórca Wirtualnej Polski oraz inwestor wielu innowacyjnych przedsięwzięć. Voice Lab otrzymała prestiżowe wyróżnienie w konkursie organizowanym przez Fundację na rzecz Nauki Polskiej Innowator. Firma realizowała również projekt w ramach Programu Operacyjnego Innowacyjna Gospodarka. Podczas tegorocznej edycji gdańskich targów Technicon-Innowacje 2012 Voice Lab zdobył Grand Prix, "Medal Mercurius Gedanensis", za opracowanie dekodera zamiany mowy ciągłej na tekst.

Zdjęcia: Trójmiejska firma pracuje nad nowym systemem rozpoznawania mowy

17 Zobacz zdjęcia

Robert Kiewliczr.kiewlicz@trojmiasto.pl

Miejsca

PPNT Gdynia Gdynia, al. Zwycięstwa 96/98
VoiceLab.AI Sp. z o. o. Gdańsk, al. Grunwaldzka 135A

Opinie (14) 1 zablokowana

Sortowanie
- Od najstarszych
- Od najnowszych

Zgłosiłeś tę opinię do moderacji -
2012-11-14 07:51

a teraz uczcie się marudy, bezrobotni, nieudacznicy życiowi (2)

jak odnosić sukces.

ass
11 lat
- 12 5
Twoja opinia

Zmień treść

jak odnosić sukces.
Regulamin dodawania opinii
- Zgłosiłeś tę opinię do moderacji -
  2012-11-14 12:39
  
  odpowiedz
  
  Tylko ciężką pracą - w każdej dziedzinie.
  
  anonim
  11 lat
  - 5 1
  Twoja opinia
  
  Zmień treść
  
  Tylko ciężką pracą - w każdej dziedzinie.
  Regulamin dodawania opinii
- Zgłosiłeś tę opinię do moderacji -
  2012-11-15 10:03
  
  Odnieśli już sukces? Z tego co widzę to na razie robią ten system ale jeszcze nic co by dało się sprzedać nie zrobili.
  
  11 lat
  - 1 1
  Twoja opinia
  
  Zmień treść
  
  Odnieśli już sukces? Z tego co widzę to na razie robią ten system ale jeszcze nic co by dało się sprzedać nie zrobili.
  Regulamin dodawania opinii
Zgłosiłeś tę opinię do moderacji -
2012-11-14 08:16

Wielkie firmy jak g. Czy a. Nie budują technologii samej, raczej kupują gotowe rozwiązania. Sobie i rodakom życzę, żeby ten drugi ich kupił i o nas konkurował.

11 lat
- 3 0
Twoja opinia

Zmień treść

Wielkie firmy jak g. Czy a. Nie budują technologii samej, raczej kupują gotowe rozwiązania. Sobie i rodakom życzę, żeby ten drugi ich kupił i o nas konkurował.
Regulamin dodawania opinii
Zgłosiłeś tę opinię do moderacji -
2012-11-14 11:06

Ciekawe

Ciekawe czy zmieni to w przyszłości na przykład przystosowanie się do nowych warunków osób, które nagle lub w wieku zaawansowanym straciły słuch albo czy powstaną translatory na tablet czy smartfon, które będą na podstawie rozpoznanej treści od razu wyświetlać tłumaczenie na ekranie lub będą to odtwarzać w innym języku za pomocą syntezatora mowy.

TR
11 lat
- 1 0
Twoja opinia

Zmień treść

Ciekawe czy zmieni to w przyszłości na przykład przystosowanie się do nowych warunków osób, które nagle lub w wieku zaawansowanym straciły słuch albo czy powstaną translatory na tablet czy smartfon, które będą na podstawie rozpoznanej treści od razu wyświetlać tłumaczenie na ekranie lub będą to odtwarzać w innym języku za pomocą syntezatora mowy.
Regulamin dodawania opinii
Zgłosiłeś tę opinię do moderacji -
2012-11-15 06:53

Super chłopaki! Tak trzymac. Nie poddawajcie sie. Bedzie sukces.

speedy
11 lat
- 2 0
Twoja opinia

Zmień treść

Super chłopaki! Tak trzymac. Nie poddawajcie sie. Bedzie sukces.
Regulamin dodawania opinii
Zgłosiłeś tę opinię do moderacji -
2012-11-15 07:33

Chłopaki leżą w starciu z pierwszym lepszym trolem patentowym

może i coś wymyślą, ale nic z tym nie zrobią tam gdzie przyniesie to pieniądze, czyli za oceanem.

11 lat
- 2 1
Twoja opinia

Zmień treść

może i coś wymyślą, ale nic z tym nie zrobią tam gdzie przyniesie to pieniądze, czyli za oceanem.
Regulamin dodawania opinii
Zgłosiłeś tę opinię do moderacji -
2012-11-15 09:59

Patentu? (1)

od kiedy to mamy w PL i EU możliwość patentowania algorytmów? Czyżby ACTA jednak została przegłosowana?

inż
11 lat
- 2 2
Twoja opinia

Zmień treść

od kiedy to mamy w PL i EU możliwość patentowania algorytmów? Czyżby ACTA jednak została przegłosowana?
Regulamin dodawania opinii
- Zgłosiłeś tę opinię do moderacji -
  2012-11-29 15:03
  
  Przecież pisze że chodzi o patent w USA, gdzie można opatentować wszystko, nawet kogel-mogel z wiewiórki
  
  nie żebym coś miał do wiewiórek
  11 lat
  - 1 0
  Twoja opinia
  
  Zmień treść
  
  Regulamin dodawania opinii
Zgłosiłeś tę opinię do moderacji -
2012-11-15 14:29

Powodzenia

Marcin i Tomek

powodzenia!!!
Trzymam kciuki.

KP
11 lat
- 3 0
Twoja opinia

Zmień treść

Marcin i Tomek powodzenia!!! Trzymam kciuki.
Regulamin dodawania opinii
Zgłosiłeś tę opinię do moderacji -
2012-11-16 14:29

polska konkurencja

Pewnie Unikkon już dawno to ma... Ciekawi mnie konfrontacja obu tych systemów.

asd
11 lat
- 1 0
Twoja opinia

Zmień treść

Pewnie Unikkon już dawno to ma... Ciekawi mnie konfrontacja obu tych systemów.
Regulamin dodawania opinii
Zgłosiłeś tę opinię do moderacji -
2012-11-26 21:40

podpowiadam zadanie do rozwiązania ! .... (1)

czekam na interaktywne tłumaczenie w przeróżnych językach.
tzw, : translator z mówionego tekstu - odczyt na ekranie komputera w wybranym języku. Np : ( mówię tekst po polsku - odczyt na ekranie po angielsku )
( mówię tekst po chińsku - odczyt na ekranie po polsku )

kaz. - powodzenia -:)
11 lat
- 1 0
Twoja opinia

Zmień treść

czekam na interaktywne tłumaczenie w przeróżnych językach. tzw, : translator z mówionego tekstu - odczyt na ekranie komputera w wybranym języku. Np : ( mówię tekst po polsku - odczyt na ekranie po angielsku ) ( mówię tekst po chińsku - odczyt na ekranie po polsku )
Regulamin dodawania opinii
- Zgłosiłeś tę opinię do moderacji -
  2012-11-27 00:16
  
  ok , może najpierw łatwiejsze zadanie ....... -:)
  
  zamiana tekstu mówionego do kompa na tekst pisany na ekranie w języku polskim. ( tekst mówiony gwarą kaszubską ! )
  
  ha ha ha ...pozdro kaz.
  11 lat
  - 1 0
  Twoja opinia
  
  Zmień treść
  
  zamiana tekstu mówionego do kompa na tekst pisany na ekranie w języku polskim. ( tekst mówiony gwarą kaszubską ! )
  Regulamin dodawania opinii
Zgłosiłeś tę opinię do moderacji -
2019-11-06 12:38

Krap. Działa słabo.

ZPU
4 lata
- 0 0
Twoja opinia

Zmień treść

Krap. Działa słabo.
Regulamin dodawania opinii