• Kino
  • Mapa
  • Ogłoszenia
  • Forum
  • Komunikacja
  • Raport

Trójmiejska firma pracuje nad nowym systemem rozpoznawania mowy

Robert Kiewlicz
14 listopada 2012 (artykuł sprzed 11 lat) 
Celem spółki Voice Lab jest opracowanie technologii zdolnej konkurować z rozwiązaniami światowymi. Na zdjęciu Marcin Kuropatwiński i Tomasz Szwelnik, założyciele Voice Lab. Celem spółki Voice Lab jest opracowanie technologii zdolnej konkurować z rozwiązaniami światowymi. Na zdjęciu Marcin Kuropatwiński i Tomasz Szwelnik, założyciele Voice Lab.

Chcesz podyktować tekst komputerowi, głosem sterować rożnego rodzaju urządzeniami, a może znudziło ci się żmudne przepisywanie notatek? W Trójmieście powstaje technologia rozpoznawania mowy ciągłej. Dzięki systemowi, nad którym pracuje firma Voice Lab, możemy nie tylko głosem sterować komórką czy komputerem. System pozwala na to, aby głos ludzki przetwarzany cyfrowo był zamieniany na tekst. O nowych pomysłach na rozpoznawanie mowy rozmawiamy z założycielami Voice Lab Tomaszem SzwelnikiemMarcinem Kuropatwińskim.



Co jest największą barierą we wprowadzaniu innowacji w firmie?

Rozpoznawanie mowy wydaje się dla laika czymś wyjątkowo prostym. Mówimy do urządzenia, ono wykonuje komendy lub zapisuje nasz głos w formie tekstu. Jednak naprawdę stoi za tym skomplikowana technologia i masa pracy.

Marcin Kuropatwiński: - Budowanie takich systemów jest bardzo trudne. Poprawa ich skuteczności powyżej jakiegoś progu wiąże się z olbrzymim wysiłkiem oraz z dużymi kosztami.

Tomasz Szwelnik: - Są to także projekty interdyscyplinarne. Trzeba mieć zespół ludzi zajmujących się fonetyką, lingwistyką, matematyką, informatyką i akustyką. Na świecie systemy rozpoznawania mowy konstruowane są przez duże zespoły badawcze. Często tworzy je jednocześnie kilka instytutów. Przykładem może być znany system rozpoznawania mowy Julius, który został skonstruowany przez instytuty badawcze w Japonii, czy Sphinx - system stworzony przez naukowców z Carnegie Mellon University w USA. Są też systemy czysto komercyjne, jak system Whisper firmy Microsoft. Tworzą je duże zespoły, duże korporacje, a na pracę składa się wiele lat badań. My znajdujemy się wśród nielicznych firm, które opracowały własny dekoder do rozpoznawania mowy ciągłej, czyli zamiany mowy ciągłej na tekst.

Wielkie korporacje, ogromne kwoty pieniędzy, a jednak od lat nie można stworzyć idealnego systemu rozpoznawania mowy. Jak wy chcecie poradzić sobie z tym problemem, konkurując z takimi gigantami jak Microsoft czy Google?

MK: - Mamy całkiem spory zespół, złożony z kilkunastu osób z różnych dziedzin. Naszą ambicją i celem jest opracowanie technologii zdolnej konkurować z rozwiązaniami światowymi - opracowane przez Voicelab rozwiązania są w wysokim stopniu niezależne od języka. Jesteśmy na etapie wdrażania technologii, która została zgłoszona do patentu. Chcielibyśmy tym rozwiązaniem podbić rynki światowe.

TS: - Działania Voicelab wspiera inwestor. Jest nim współzałożyciel Wirtualnej Polski, Jacek Kawalec. Dzięki temu wsparciu mamy przede wszystkim możliwości realizacji naszego projektu i stałego ulepszania technologii. Nasza technologia została zgłoszona do patentu w Stanach Zjednoczonych. Dotyczy on modelu akustycznego, gdzie udało się znaleźć wyznacznik jego poprawności.

MK: - Na świecie dosyć dużo ludzi nad tego rodzaju rozwiązaniami pracuje. Prace badawcze nad rozpoznawaniem mowy trwają już od lat 60. Okazuje się, ze głównym czynnikiem wpływającym na skuteczność tych rozwiązań jest rozmiar bazy danych. Obmyśliliśmy więc nowoczesny sposób na ich gromadzenie. Nikt przed nami nie robił tego na taką skalę. Drugą rzeczą jest oparcie się na czymś, co nazywa się modelami dyskretnymi. Jest to sposób statystycznego wnioskowania w oparciu o duże zbiory danych. Mamy też inne autorskie rozwiązania technologiczne, o których nie możemy dużo mówić, bo czekają one obecnie na zgłoszenie do patentów. Nie wszystko możemy zdradzić, ponieważ jest to jak na razie tajemnica firmy.

TS: - Te wszystkie elementy stanowią o tym, że jesteśmy bardzo oryginalni w rozpoznawaniu mowy i zaawansowani w stosunku do pomysłów, nad jakimi pracuje się obecnie na świecie. Musimy jeszcze przejść proces zbierania danych, czyli zebrać próbki głosu od jak największej liczby osób. Po to, aby mowa była jak najlepiej rozpoznawana przez nasz system. Stworzyliśmy specjalny serwis www.pracujrazemznami.pl, który pozwala nagrywać przez internet próbki głosu, za które płacimy. Zapraszamy więc do nagrywania. Liczymy na odzew społeczności internetowej. Chodzi nam o to, aby ludzie pomogli udoskonalić nasz system. Jesteśmy przekonani, że dzięki zaangażowaniu internautów jesteśmy w stanie opracować bardzo skuteczny system rozpoznawania mowy polskiej.

MK: - Nie możemy powiedzieć, że już jesteśmy najlepsi. Duzi gracze masowo gromadzą dane poprzez swoje serwisy. Przykładem może być voice search firmy Google czy Siri firmy Apple. Korporacje w zawrotnym tempie gromadzą dane, których my jeszcze nie mamy w odpowiedniej ilości.

Jak długo będziecie zbierać te dane, aby móc zaoferować gotowy produkt?

TS: - Mamy już gotowy komercyjny produkt oparty o rozpoznawanie gramatyk w standardzie SRGS (ang. Speech Recognition Grammar Specification). Wdrożyliśmy dla Pomorskiego Parku Technologicznego we współpracy z firmą Master Telecom infolinię sterowaną głosem. Na potrzeby Gdańskiego Parku Naukowo-Technologicznego stworzyliśmy interfejs dla kiosku internetowego we współpracy z firmą Denise Systems. Za pomocą głosu możemy uzyskać wszelkie informacje na temat firm działających w Parku. Jest to proste rozpoznawanie mowy, które pozwala na sterowanie nie tylko kioskiem internetowym, ale rożnego rodzaju urządzeniami lub ma zastosowanie przy nawigacji w internecie. Udało nam się jednak przede wszystkim opracować rozpoznawanie mowy ciągłej. Możemy powiedzieć wiele sekwencji słów następujących po sobie i są one rozpoznawane prawidłowo przez nasz system rozpoznawania mowy.

MK: - Stawiamy sobie za cel, aby system rozpoznawania mowy ciągłej dopracować do końca 2012 roku. Wiele zależy oczywiście od wcześniej wspomnianych baz danych, jakie obecnie gromadzimy. Już w przyszłym roku powinniśmy mieć gotowy system open dictation, który będzie rozpoznawał ok. milion słów języka polskiego.

TS: - Chcemy, aby to rozwiązanie było szeroko stosowane na całym świecie w wielu językach i przewyższało obecne rozwiązania technologiczne.

Voice Lab założony został w 2009 roku przez Tomasza Szwelnika i Marcina Kuropatwińskiego, dwóch absolwentów Politechniki Gdańskiej. W 2012 roku do firmy dołączył Jacek Kawalec, znany jako współtwórca Wirtualnej Polski oraz inwestor wielu innowacyjnych przedsięwzięć. Voice Lab otrzymała prestiżowe wyróżnienie w konkursie organizowanym przez Fundację na rzecz Nauki Polskiej Innowator. Firma realizowała również projekt w ramach Programu Operacyjnego Innowacyjna Gospodarka. Podczas tegorocznej edycji gdańskich targów Technicon-Innowacje 2012 Voice Lab zdobył Grand Prix, "Medal Mercurius Gedanensis", za opracowanie dekodera zamiany mowy ciągłej na tekst.

Miejsca

Opinie (14) 1 zablokowana

  • a teraz uczcie się marudy, bezrobotni, nieudacznicy życiowi (2)

    jak odnosić sukces.

    • 12 5

    • odpowiedz

      Tylko ciężką pracą - w każdej dziedzinie.

      • 5 1

    • Odnieśli już sukces? Z tego co widzę to na razie robią ten system ale jeszcze nic co by dało się sprzedać nie zrobili.

      • 1 1

  • Wielkie firmy jak g. Czy a. Nie budują technologii samej, raczej kupują gotowe rozwiązania. Sobie i rodakom życzę, żeby ten drugi ich kupił i o nas konkurował.

    • 3 0

  • Ciekawe

    Ciekawe czy zmieni to w przyszłości na przykład przystosowanie się do nowych warunków osób, które nagle lub w wieku zaawansowanym straciły słuch albo czy powstaną translatory na tablet czy smartfon, które będą na podstawie rozpoznanej treści od razu wyświetlać tłumaczenie na ekranie lub będą to odtwarzać w innym języku za pomocą syntezatora mowy.

    • 1 0

  • Super chłopaki! Tak trzymac. Nie poddawajcie sie. Bedzie sukces.

    • 2 0

  • Chłopaki leżą w starciu z pierwszym lepszym trolem patentowym

    może i coś wymyślą, ale nic z tym nie zrobią tam gdzie przyniesie to pieniądze, czyli za oceanem.

    • 2 1

  • Patentu? (1)

    od kiedy to mamy w PL i EU możliwość patentowania algorytmów? Czyżby ACTA jednak została przegłosowana?

    • 2 2

    • Przecież pisze że chodzi o patent w USA, gdzie można opatentować wszystko, nawet kogel-mogel z wiewiórki

      • 1 0

  • Powodzenia

    Marcin i Tomek

    powodzenia!!!
    Trzymam kciuki.

    • 3 0

  • polska konkurencja

    Pewnie Unikkon już dawno to ma... Ciekawi mnie konfrontacja obu tych systemów.

    • 1 0

  • podpowiadam zadanie do rozwiązania ! .... (1)

    czekam na interaktywne tłumaczenie w przeróżnych językach.
    tzw, : translator z mówionego tekstu - odczyt na ekranie komputera w wybranym języku. Np : ( mówię tekst po polsku - odczyt na ekranie po angielsku )
    ( mówię tekst po chińsku - odczyt na ekranie po polsku )

    • 1 0

    • ok , może najpierw łatwiejsze zadanie ....... -:)

      zamiana tekstu mówionego do kompa na tekst pisany na ekranie w języku polskim. ( tekst mówiony gwarą kaszubską ! )

      • 1 0

  • Krap. Działa słabo.

    • 0 0

alert Portal trojmiasto.pl nie ponosi odpowiedzialności za treść opinii.

Ludzie biznesu

Leszek Pankiewicz

Od 2011 prezes zarządu Solwit SA. Aktywnie uczestniczył w rozwoju projektów inwestycyjnych w...

Najczęściej czytane