Buzz (wersja tekstowa)
Pobierz napisy w formacie SRT
Pobierz napisy w formacie VTT
FUNDACJA INSTYTUT ROZWOJU REGIONALNEGO PREZENTUJE
TYFLO PODCAST
W kalendarzu wtorek to 25 dzień kwietnia 2023 roku.
My startujemy z pierwszym w tym tygodniu spotkaniem na antenie Tyflo Radia na żywo.
Michał Dziwisz z tej strony, z drugiej strony naszego wirtualnego mikrofonu Paweł Masarczyk.
Witaj Paweł.
Witajcie, witajcie, witajcie.
Tak, dziś będziemy bawić się narzędziem, które to od pewnego czasu wykorzystujemy bardzo ochoczo i intensywnie.
I to narzędzie ma wiele swoich różnych odmian.
Nazywa się Whisper.
To jest narzędzie, dzięki któremu możecie przekształcić mowę na tekst.
Jak zapewne widzicie w przypadku Tyflo Podcastu mamy część audycji właśnie w ten sposób przerobionych.
Jeżeli ktoś potrzebuje czegoś wyszukać, no to w wersji tekstowej może to uczynić znacznie szybciej niż przewijając plik audio.
A też i osoby, które mają problemy ze słuchem z pewnością zyskują na tym, że te wersje tekstowe u nas się pojawiają.
Whisper jednak sam w sobie nie jest narzędziem bardzo prostym w obsłudze, żeby go skonfigurować, żeby go odpowiednio poustawiać.
Trzeba mieć trochę wiedzy z zakresu posługiwania się wierszem poleceń.
A ja powiem, że to robi się jeszcze bardziej problematyczne, jeżeli zaczynamy pracę na kartach graficznych.
Whisper przede wszystkim najlepiej działa na karcie graficznej, dobrej karcie graficznej i wtedy trzeba się jeszcze bawić z konfiguracją dodatkowych zależności, dodatkowych bibliotek.
Ale są ludzie, którzy chcieliby prosto, prawda?
Jak z każdym tego typu narzędziem. Ja myślę, że jest dużo takich narzędzi potężnych, które działają z wiersza poleceń.
Dają one duże możliwości, ale kto by się w tych komendach wspomniał, zwłaszcza jak ktoś nie jest osobą, która na co dzień się takimi rzeczami zajmuje.
I tutaj przykłady możemy sypać jak z rękawa, youtube.pl, ffmpeg.
Prawdopodobnie jeszcze nam przyjdzie do głowy parę i one by robiły fantastyczne rzeczy, gdyby tylko wiedzieć jakie te wszystkie parametry, przełączniki, w jakiej kolejności.
I to jeszcze wszystko po angielsku.
Jeszcze pół biedy jest wtedy, kiedy gdzieś tam w internecie możemy znaleźć gotowy wzór, który można po prostu skopiować i wkleić.
Jeżeli chcemy zrobić to, no to po prostu wpisz w konsolę to, to, to i to się zadzieje.
Tak, ja w przypadku ffmpega dość często mam taką sytuację, że chcę coś zrobić, ale jak widzę ile tam jest tych parametrów, ile jest tych różnych przełączników,
to ja staram się jednak szukać gotowców w sieci, a to się nie zawsze udaje, bo po prostu pewne scenariusze są mniej typowe i na przykład ktoś nie przewidział,
że ktoś może chcieć zrobić coś tak, a nie inaczej i tu się zaczynają problemy.
I wtedy przydają się nakładki graficzne różnego rodzaju, takie interfejsy, które to umożliwiają w prosty sposób za pomocą przycisków, pól wyboru i innych kontrolek,
wyklikanie kolokwialnie mówiąc tego, czego sobie życzymy i uzyskanie konkretnego efektu.
A swoją drogą to kiedyś, dawno, dawno słyszałem, że niewidomi to najwięcej osiągną pracując w interfejsach znakowych i graficzne to będą w ogóle dla nich niedostępne.
Jak widać, mylili się co niektórzy.
Ja trochę rozumiem skąd takie nastawienie wynika, a rozumiem to od czasów, kiedy zacząłem używać, czy miałem powiedzmy krótką przygodę z linuksem w trybie terminala interaktywnego.
Tam rzeczywiście te aplikacje terminalowe, jak one są dobrze i przemyślanie zrobione, a tam nie trzeba było wiele, żeby je udostępnić.
Po prostu, żeby kursor podświetlał linię tekstu, tą, która jest aktualnie wybrana w przypadku długiego menu opcji,
no to tam tak naprawdę nawigacja byłaby porównywalna z obsługą starego telefonu.
Strzałki góra-dół, Enter się wchodzi, nie wiem, Backspace, czy tam inny skrót klawiszowy się wychodzi i cała reszta klawiatury na różne skróty i polecenia.
I to naprawdę było wygodne, ale to czasy się zmieniają i mówmy się szczerze, można dalej tak pracować.
Jeżeli znajdziecie oczywiście do ulubionych czynności, usług i zadań odpowiednie programy pod linuksem, no ale nie jest to już jedyny model pracy,
w związku z czym tak naprawdę do wielu rzeczy takich programów nie znajdziemy, no i pomarzyć zawsze można, ale…
Zgadza się. A my dziś nie musimy marzyć, bo możemy wam przedstawić oprogramowanie, które cały czas się rozwija i które to jest graficzną nakładką na Whispera dla Windowsa.
No nie tylko Windowsa, bo także na Maca i na Linuxa, jak przeczytałem, jak można przeczytać w stronie GitHubowej projektu.
Natomiast Windows to jest ta platforma, na której dziś przetestujemy, to narzędzie, na które ja miałem okazję je przetestować.
Jeżeli macie jakieś doświadczenia z wersją na Maca czy Linuxa, no to oczywiście możecie się podzielić z nami tym w komentarzach albo i nawet teraz w trakcie audycji.
Tak jest, bo już wszelkie źródła kontaktu są dostępne. Zoom oczywiście, bo tu się właśnie słyszymy.
Jest kontakt tyflopodcast.net, możecie tam pisać, jest YouTube, jest Facebook. Zapraszamy serdecznie do tego, żeby z nami w interakcje wchodzić.
Tak.
No to co z tym bazem? Może na dobry początek warto by powiedzieć kilka słów, skąd go w ogóle pobrać.
No więc, jak wiele takich projektów, niestety, baz znajduje się na GitHubie, czyli takiej największej, najpopularniejszej platformie do wymiany kodu źródłowego między programistami,
hosting różnego rodzaju otwartość źródłowych projektów. No musimy się udać na stronę, która będzie również podana w komentarzu, ale ja ją mogę tutaj przelicerować, przespelować, zobaczymy na ile nam to wyjdzie.
Więc standardowo zaczynamy, github.com, ukośnik chidi, Williams, chyba tak to czytamy, chidi, no Williams przez dwa l, to już takie popularne nazwisko, ukośnik baz, b-u-z-z.
No i tam standardowa procedura GitHuba, ja polecam nagłówkiem poziomu drugiego, czyli cyfrą dwa w większości screenreaderów, przeskoczyć sobie po nagłówkach do sekcji releases, nacisnąć tam na znajdujący się link z numerem wersji pod tym nagłówkiem, przeniesienie i zostaniemy na stronę tego najnowszego wydania.
I dalej najlepiej przyciskiem B, znaczy klawiszem B, czyli wyszukiwaniem po przyciskach nawigacją odnaleźć przycisk z takim napisem jak assets, czyli zasoby poniekąd, takie jakby pliki dołączone do wydania i jeżeli jest zwinięty to go rozwijamy, jak jest rozwinięty to schodzimy po prostu strzałką w dół i tam na liście kilku elementów znajdziemy wersję dla systemu Windows w formie zarówno pliku exe,
jak i w formie pliku portable zip, więc można wtedy takiego whispera sobie również użyć w formie po prostu rozpakowanej. No i w ten sposób pobieramy bazę, niestety nie ma go w żadnym Microsoft Storze ani w żadnym też, w App Storze Macowym chyba jest, natomiast na Windowsa musimy sobie radzić tak.
A o jakiś Winged albo Chocolaty?
Dobre pytanie.
Ciekawe.
Nie wiem, nie jest nic napisane tu na GitHubie, natomiast kto wie, może już ktoś stworzył paczkę, bo te paczki nie zawsze, zwłaszcza w Chocolaty, nie zawsze pochodzą od autorów programu.
Bywa to naprawdę różnie i każdy w zasadzie może sobie taką paczkę stworzyć, jeżeli tylko ma odpowiednie umiejętności, więc może już ktoś gdzieś to wrzucił, a się po prostu nie pochwalił. Tymczasem Patryk jest z nami, tylko Patryk jeszcze sobie mikrofonu nie odciszył, więc Patryku zapraszamy cię serdecznie, żebyś to uczynił.
Już to uczyniłem.
Tak, super, witaj.
Tak, witaj Patryku.
Ja się już nauczyłem odciszać mikrofon w odpowiednich momentach.
Raz o ty.
To witamy.
Tak.
Poziomie stajemniczenia.
No dobrze, to ja w takim razie zacznę. No ja również przetestowałem tą aplikację, tak jak napisałem na antenie, że to jest wreszcie coś, czego szukam.
No i generalnie tak, ja mam Pawle do ciebie pytanie, czy ty próbowałeś na GitHubie jakoś sugerować autorowi, żeby on tam poprawił pewne rzeczy, może spróbował dla screenreaderów poprawić tam te jakby rzeczy, żeby tam niektóre z nich, bo to do niektórych z nich trzeba myszką doklikać, obiektówką, żeby tam poprawał. No i co?
No, za kilka dni wyjdzie nowa wersja i w tej wersji będą już konfigurowalne skróty klawiszowe do wszystkich, jeśli nie, no na pewno do większości opcji, które są na pasku i też będzie jakiś nowy edytor transkryptów dodany, który po prostu po naciśnięciu Enter na danym pliku, który zostanie już przerobiony, po prostu się otworzy.
Mówię w ten sposób, ja testowałem ten program zarówno z programem NVDA, jak i moim codziennym screenreaderem, czyli z ZDSR-em, no i muszę przyznać, że ZDSR tutaj wygrywa, chociażby z tego względu, że jak robiłem sobie kilka transkrypcji, czy nawet jedną, to na przykład mogłem sobie monitor ustawić na danym pliku, który się robi z danej listy i po prostu słuchać sobie,
w czasie rzeczywistym postępu, ile tam procent się zrobiło i tak dalej, i tak dalej, także tutaj akurat widać, że to jest zrobione w Qt.
Po prostu pewne rzeczy ZDSR lepiej czyta, bo ZDSR ma najlepiej napisane Qt, więc jeżeli tutaj chodzi o system Linux, to powiem szczerze, że na Linuxie to chyba powinno najlepiej działać, no bo Orka i Qt się bardzo kochają.
Miejmy taką nadzieję, że też tak jest.
I teraz pytanie, które zadałem na forum ltenowym, ale nie dostałem odpowiedzi. Ja jestem użytkownikiem, który nie jest doświadczonym usperowcem, że się tak określę. Rozpoznałem sobie jakiś tam plik wave, który tam miał powiedzmy, no tam powiedzmy minuta 30 z czymś, no i wszystko się ładnie rozpoznało.
Próbowałem dwoma modelami, przekonwertowałem to do pliku txt, otworzyłem to notatnikiem i po prostu zauważyłem, że dziwnie mi to rozdzieliło na linijki, to znaczy miałem jakby w jednej linijce, w pierwszej linijce, miałem bardzo długie zdanie i w zasadzie jednym wielkim ciągiem napisane,
a w zasadzie druga linijka to mi się zaczęła już tak praktycznie uschyłku tego tekstu. Powiedzcie mi, jak to wygląda z tym rozdzielaniem na linijki, bo ja po prostu miałem wrażenie, że w jednej linijce mam taką wielką planinę i jeden wielki ciąg w tym notatniku. Czy to jest po prostu kwestia taka, że whisper to tak robi i to potem trzeba wrzucić do jakiegoś edytora, żeby tam się te wiersze tam poustawiać, kiedy się sama zawijać? Czy jak to tam wygląda?
Tak, to znaczy to jest chyba przypadłość whispera i ty Michale może tu potwierdzisz. Na pewno problemem jest to, że whisper nie tylko nie rozróżnia mówców na zasadzie, żeby ich ponazywać, ale też nie rozróżnia kiedy ktoś nowy zaczyna mówić.
To prawda.
I efektem wyborczym tego jest to, ok, ale to też przy wielu głosach dało się zauważyć, że on na przykład pakuje wypowiedzi kilku osób do jednej linijki, więc wygląda to dość mocno nieestetycznie i jeżeli chcemy zrobić sobie taki quasi profesjonalny transkrypt tego dzieła, to już do nas należy potem rozdzielenie tego enterami na paragrafy i na linijki.
Natomiast Patryku, jeżeli masz problem gdzieś tam z taką naprawdę olbrzymią ilością tekstu, to w bardzo prosty sposób możesz to naprawić, włączając sobie w widoku w notatniku zawijanie wierszy i wtedy będzie zdecydowanie lepiej. Oczywiście wiadomo, że to nie rozwiąże swoich wszystkich problemów, natomiast to jest takie tymczasowe obejście i to dość skuteczne powiedziałbym.
Generalnie bawiłem się na takim tekście, który jest powiedzmy dość kontrowersyjny. Tytuł się nazywa Złodziej Gaci. To po prostu był taki plik, który ktoś po prostu zrobił bawiąc się mekatronem i sobie po prostu na mekatronie zrobił takie śmieszne coś.
Były różne słowa, ale o dziwo właśnie testowałem to na medium i na large. No i na large oczywiście wypadło mi to najlepiej, ale taki tekst robił się na medium jakieś 5 minut, a na large jakieś 7-8. Także nie było to całkiem źle.
Nie testowałem jak to będzie wyglądać na przykład z jakimś tytułoprzeglądem ile się to będzie u mnie robiło, bo ja mam i piątkę procesor.
No to tak jak ja, więc może być ciężko.
Znaczy może być ciężko, ale się zrobi.
16 godzin. No zaraz do tego też przejdę, że u mnie godzinny plik robił się 4 godziny około.
Jaki?
Godzinny. Niecała godzina robił się ze 3-3,5-4 godziny.
Ale na jakich?
Large. Model large na jednej piątce.
A na średnim próbowałeś?
Nie, nie próbowałem. Bardziej tu liczę na te nowe plety.
Spróbuj, bo ten średni model, on ma całkiem ładnie. Jak ja rozpoznałem średni, to tak naprawdę miałem dwa błędy tylko.
I to takie, że naprawdę były one bardzo niezauważalne.
Więc spróbuj sobie medium zrobić i będziesz mieć krócej.
No to zobaczymy za chwileczkę na medium, bo będziemy mieli plik testowy.
Chciałem tylko chętnie się dowiem, czym się różnią te dwa modele Whisperów, bo tam jest Whisper i Whisper AI i tam jeszcze coś jest.
To są API. To są API chmurowe, czyli trzeba mieć dostęp i trzeba się podłączyć tam i wtedy coś tam się…
Whisper OpenAI to jest po prostu API, do którego się wykupuje kredyty.
To jest generalnie natywna oferta od OpenAI.
Open Face to jest trochę inna implementacja i tam nie wiem teraz, czy cała transkrypcja się odbywa online, czy tylko trzeba podać tokeny do jakiejś repozytorium, żeby modele pobrać.
Ciekawe, czy drogie to jest.
Czy drogie jest Whisper OpenAI? Nie pamiętam, nie wiem, czy ktoś patrzył w cennik.
Kiedyś w Tyflo Przeglądzie, zdaje się, Tomek coś o tym mówił. Nie jest jakoś wybitnie tanio. To na pewno.
Bo to może być przydatne dla kogoś, kto rzeczywiście ma kiepski procesor, a chciałby długi klik sobie prze…
Mogłoby, ale to są po tym już koszty. Ja tu bardziej liczę na to, bo w następnych wersjach mają wejść nowe implementacje.
Ciekawe, czy w ogóle jest coś na telefony, coś, co korzysta z Whisper’a.
No Aiko.
Aiko, dokładnie.
Ostatnio była, nie dość, że w Tyflo Przeglądzie o niej mówiłem, to też była na mojej szufladzie Piotra Witka omówiona.
I to muszę, to umknęło mi to, to muszę to sprawdzić.
Powiem tak, na samym iPhone’ie, ja mam trzynastkę mini, półgodzinny plik to jeszcze jakoś przejdzie i to będzie też trwało dość długo.
I to jest model medium, też jakieś cztery godziny coś.
Jakiego masz?
Trzynaście mini.
Aha, to ja mam tego SE3, to nie wiem, on chyba ma gorsze parametry.
To znaczy, tam jest chyba ten czip, tam już jest chyba ten czip A15 czy któryś, tak?
Jest, jest.
No to tam powinno to działać.
Musiałbyś przetestować sam, ale na pewno nie jest szybko i niestety jak jest dłuższy plik i dłużej musi się telefon męczyć, to po pierwsze grzeje się
i bateria szybciej oczywiście schodzi, no i jest szansa, że się wykrzaczy.
Dobrze, że mam powerbanka.
Ale sprawdzę to.
Aiko, po prostu.
A jeszcze tak, jak to się pisze?
Aiko.
Aiko, ten aplikacja do banku, tylko że z literą A.
Tylko że z literką A, dokładnie.
A jak działa w ogóle ten translate, bo tam jest opcja translate.
I co, Whisper też umie tłumaczyć z innych języków?
Tylko na angielski i to jest też na bazie jakiegoś modelu językowego.
Nie wiem, czy ty, Michale, masz doświadczenie jak dobre jest to tłumaczenie?
Nie bawiłem się tym jakoś specjalnie, aczkolwiek z tego co słyszałem, no to to tłumaczenie jest raczej średnie.
To znaczy, żeby się zapoznać z materiałem w języku, którego totalnie nie rozumiemy,
no to okej, to może być, natomiast nic poza tym.
Jest to coś superowego, nie?
Ja do tłumaczeń wolałem zainwestować w Deepella premium.
Oj, świetnie jest. My do ZDSR-a mamy wtyczkę do Deepella, więc możemy jej używać.
Tak jak ten.
I może do NVDA kiedyś też powstanie.
Była jakaś, nawet jakaś była, ale to jest jakaś nieoficjalna i nawet, nie wiem, gdzieś mi przepadł link do niej.
Ale była jakaś modyfikacja chyba tej wtyczki Translate, która tłumaczy w czasie rzeczywistym.
I tam były dorobione inne usługi tłumaczeniowe i był też Deepell, więc jak ktoś miał dostęp do API, to można było podciąć się.
A i taka jest informacja, prawdopodobnie ten Whisper właśnie, który mamy, który będziemy pokazywać tę aplikację,
prawdopodobnie on umie tylko korzystać z tego CPP.
O tym też będę mówił. Teoretycznie powinien.
To znaczy on chyba domyślnie korzysta ze zwykłego jednak.
Ja to też wyjaśnię, bo tam na LT nie powstała pewna wątpliwość.
Ale teraz pogrzebałem troszkę, dlatego też trochę później na audycji się pojawiliśmy, bo okazuje się, że CPP się nam nie ładuje.
Dokładnie, jest jakiś problem.
Można być do CPP do wyboru, ale jej nie widać i z kodu wynika jasno, że jeżeli DLL od CPP się nią nie załaduje, to ta opcja znika.
Więc z jakichś powodów, czy to jest błąd konstrukcji programu, czy jakieś zaniedbanie.
Chyba GPU się nie ładuje.
Nie, CPP. To co działa to jest zwykły Whisper, używający na siłę CPU.
Czyli ma to sens.
Aha, bo u mnie on nie używa GPU.
I nie da się niestety w przypadku baza wymusić mu używania GPU.
Tak, to jest też zgłaszane, widać to gdzieś tam na GitHubie, że jest to w issues, ale nie jest to zrobione.
Natomiast CPP, taki już natywny CPP, rzeczywiście przystosowany do pracy z CPU, jest wspierany, ale nam się nie ładuje.
I nie wiadomo czemu.
Czyli z tego co rozumiem, to użyłam normalnego Whispera, który pracuje pod CPU tak jak umie.
Dokładnie.
Który pracuje tak jak umie, ale ten jest wolniejszy od tego zwykłego CPP, który powinien być CPP.
Tak mi się wydaje.
Ale i tak działa to nieźle. Nawet muszę program pochwalić, bo program sobie umie równoważyć ile on procesora potrzebuje.
Tam jest jakiś advance, że tam mogę temperaturę ustawić.
Ale to nie dotyczy temperatury procesora.
Nie, to jest temperatura rozpoznania, czyli jakby stopień tolerancji na przesłyszenia się, na halucynacje.
Chciałbym mimo wszystko mieć jednak, bo też jednak warancje, znaczy jednak możliwość ustawienia ile tego procesora ma być zużyte.
Bo na przykład u mnie jest 50%, a stwierdza sobie dobra, nie będę nic na komputerze robić, to dobra, ustawię mu wszystko.
Wtedy podejrzewam, że to by się też szybciej rozpoznało.
To pewnie jakieś zewnętrzne narzędzia, bo sam program tego nie potrafi.
Jeszcze.
No jeszcze. Nawet nie wiem czy jest to planowane. Możesz to zgłosić.
Mam, w zasadzie jest ten Whisper CPU, tylko właśnie, gdzie on zapisuje modele?
Ja mam to narzędzie Whisper CPU, takie to konsolowe, tylko nie potrafię tam wszystkich modeli znaleźć.
A można by je było, podejrzewam, przekopiować z tego katalogu, gdzie on ten graficzny ściąga.
Teraz nie pamiętam. Wiem, że modele CPP powinny być w updatalocal.bas, a modele zwykłego Whispera, szczerze mówiąc, nie jestem na ten moment pewien.
Podejrzewam, że akurat tych modeli tam nie mam, bo skoro on nie umie załadować tego CPP.
Nie, CPP nie, ale zwykłe masz, bo ściągnęły ci się, kiedy pierwszy raz próbowałeś podjąć transkrypcję, o czym za chwilkę będę też mówił.
Dobra, to już w takim razie nie będę przeszkadzał, to będę dalej słuchać, może się nauczę czegoś jeszcze, o tym nie wiem.
Także pozdrawiam.
Pozdrawiamy cię Patryku, dzięki za telefon.
Dzięki.
Do usłyszenia.
No tak, czyli my skończyliśmy naszą opowieść tam, gdzie pobraliśmy.
Skąd pobrać, dokładnie.
Tak, więc pobrać z GitHuba, ja wyjaśniłem też jak, link będzie podany taki pełny w komentarzu.
Też jest strona bascaptions.com, b-u-z-z-c-a-p-t-i-o-n-s-k-r-o-b-k-o-m, ale tam tylko nas odeśle na GitHuba, więc to jest jedyne, co osiągniemy.
No i tak jak mówiłem, wersja na Maca to jest jedyna, która jest w jakimś, no, w App Store, w konkretnym Store.
No dobrze, no to co teraz? Powinniśmy aplikację pewnie otworzyć i zacząć się z nią zapoznawać.
Zgadza się.
To ja tu tylko udostępnię dźwięk.
Rozpoczęto udostępnianie dźwięku.
I się słyszymy.
I się słyszymy, zgadza się.
Tak, no więc ja wejdę sobie na pulpit.
Pulpit lista.
Bus.
Battlenet.
Lo.
Ba.
Bus.
Sześć.
Nie Battlenet, to nie dziś, ale baz.
No i otwieram.
Bus z okno.
Bus z okno.
I otwarł się nam baz.
I jak sobie tak ponawigujemy tabem, no to niczego tutaj nie ma.
To prawda i nieprawda.
Nie ma w tym momencie niczego, co moglibyśmy użyć.
Nie ma na przykład tabeli, która zazwyczaj jest listą plików do przerobienia.
Pasek narzędzi właśnie jest.
I to jest to, o czym troszeczkę już wspominaliśmy.
Patryk już napąknął, że aplikacja w tym momencie ma pewne problemy z dostępnością.
Pracujemy z autorem nad tym, żeby je rozwiązać.
To znaczy one już są rozwiązane w formie skrótów klawiszowych do opcji.
Więc to, że ten pasek nie jest dostępny z klawiatury, nie będzie aż tak uciążliwe.
Bo po prostu wszystko, co na nim jest, będzie można wykonać ze skrótów klawiszowych.
Natomiast na ten moment tak to wygląda.
Ja może nawigacją obiektową NVDA przejdę się po tym interfejsie i zobaczymy, a cóż to ciekawego tu jest.
Przejdź do fokusu. Buzz z okno.
Koniec. Pust. Początek. Pust.
Wysokość. Prędkość. Koniec.
Przejdź. Koniec. Początek.
Nie zna. Buzz z okno. System. Pasek narzędzi.
Mamy tu pasek narzędzi, na którym mamy kilka przycisków.
Nagraj przycisk. Nowa transkrypcja przycisk. Brak następnego.
Nagraj i nowa transkrypcja.
Nagraj i to jest funkcja, która z jednej strony brzmi bardzo ciekawie, z drugiej strony działa bardzo niepraktycznie.
To jest nagrywanie. Nagrywanie w czasie rzeczywistym.
I właśnie tu a propos tego, to mowa zawsze o tym czasie takim pseudo-rzeczywistym.
To warto o tym wspomnieć, dlatego że Whisper nie został zaprojektowany jako coś, co ma działać w czasie rzeczywistym.
I to nawet gdzieś o tym czytałem, że wszelkie tego typu próby wykorzystania Whispera,
mimo że całkiem skuteczne, to one niestety będą obarczone pewnym marginesem błędu,
dlatego że to nagrywanie, które wykorzystuje Buzz, czy jakikolwiek inny program tego typu,
bo jest już trochę takich skryptów do rozpoznawania mowy wykorzystujących Whispera w czasie rzeczywistym,
działa w ten sposób, że wysyła do Whispera kilka sekund nagrania.
I robi to w pętli. I po prostu w ten sposób działa to rozpoznawanie.
Niestety Whisper ze względu na swoją architekturę nie jest przystosowany do tego, żeby faktycznie rozpoznawał to wszystko na żywo.
Być może kiedyś to się zmieni. I efekt tego jest taki, że to rozpoznawanie może być troszkę gorsze,
bo on nie może się odwołać do tego, co miał w tych wypowiedziach wcześniejszych.
A w przypadku ciągłego pliku może to zrobić.
My tą opcję też sobie przetestujemy, ale tak jak ja tu mówiliśmy, nie ma się co spodziewać jakichś porywających wyników.
No bo tak jak Michale wspomniałeś, nie do tego to w podstawie ta biblioteka Whisper, nie do tego to rozwiązanie służy.
No i mnie jednak jako ciekawostka, można się tym pobawić.
Mamy pasek menu i tu mamy menu, to można normalnie Altem otworzyć na szczęście.
I tu jest tabela, gdzie pokazane będą, jak już załadujemy nasze pliki do transkrypcji.
No to przejdźmy się teraz po menu i zobaczymy co my tu mamy.
Mamy paski plik i pomoc. W pliku mamy…
Importuj plik multimediów.
No tak, importuj. A właśnie, myślę, że warto o tym wspomnieć.
Wy aplikację słyszycie teraz w języku polskim.
Jeżeli ją pobierzecie dziś, kiedy nas słuchacie, to jest 25 kwietnia lub jakoś tak w najbliższych dniach,
to możecie się zdziwić, że aplikacja do was mówi po angielsku.
Wynika to z tego, że spolszczenie to jest dzieło ostatnich dwóch dni.
Ja je już testuję, bo je stworzyłem, a ono pojawi się w wersji oficjalnej, dopiero kiedy następna wersja wyjdzie.
Autor obiecuje, że to będzie w ciągu najbliższych kilku dni.
Tam też będą skróty klawiszowe, tam też będzie wsparcie właśnie dla Faster Whisper.
Ale to za kilka dni.
Na ten moment mamy jeszcze wersję taką, jaką mamy, która dla was będzie po angielsku.
Ja już testuję język polski.
Prawie wszystko w nim jest przetłumaczone, oprócz kilku opcji, które z jakichś przyczyn przetłumaczyć się nie dają.
Mamy opcję importu multimediów.
No i w menu pomoc mamy informację o programie.
Tutaj właśnie to jest coś, czego się nie dało przetłumaczyć, jak widać.
I to jest chyba tyle.
Jak wejdziemy do About.
About bus dialog.
Zlosę przycisk, sprawdź aktualizację, przycisk Enter.
Możemy sprawdzić aktualizację.
Upewnijmy się, że ta upragniona wersja nie wyszła.
Zlosę przycisk, posiadasz najnowszą wersję dialog.
Tego się obawiałem, że posiadam najnowszą wersję.
No i wiele więcej zrobić nie możemy.
Możemy załadować plik.
No i jak już wspomniano nam przed chwileczką,
kontrol.o standardowy skrót do otwierania plików tutaj jak najbardziej działa.
No to załadujmy plik, który przygotowałem.
To będzie taki fragmencik ostatniego tyfno przeglądu,
właśnie gdzie rozmawiamy o aplikacji Bus.
Tutaj mamy kogoś na linii.
Nie wiem, czy odbierzemy telefon.
Myślę, że tak.
Możemy odebrać.
Już tylko niech znajdę.
Mamy jakiś mały problem tutaj teraz.
Już się chyba uda odebrać połączenie.
Z jakiegoś powodu nie chciał mi kursor przyjść na listę użytkowników,
ale teraz jest już wszystko w porządku.
Tak.
Tak, z telefonu.
Cześć Pawełku, cześć Michale, to Mateusz.
Cześć Mateuszu, cześć.
Ja dzwonię z telefonu nie dlatego, że lubię analogowe,
tylko po prostu też mi Zoom nie chce działać,
tak jak pod imię na komputerze.
Wszystko mi działa tylko w Zoomie.
I żeby nie przeprowadzać zakłopotania słuchaczy,
no to może zadzwonię później albo coś.
Po prostu chcę to zrobić jak najbardziej bezboleśnie.
A moje pytanie jest takie,
bo czy można w ogóle,
czy ty testowałeś tego klikania myszą w bazie przy pomocy DOS-a?
Bo ja próbowałem to testować,
bo nie znam nawigacji obiektowej NVDA,
a znam nawigację obiektową DOS-a,
a tak w ogóle to korzystam z VBSR
i ja z tego się tak w pełni nie nauczyłem.
I chciałam ci powiedzieć, że to on z DOS-em
nie za bardzo chce działać w tym 2023.
Bo chodzi o to, że widzi okno w prawdzie
podczas naciskania skrótu klawiszowego insert B,
natomiast jak próbuje się, że tak powiem,
nawigować myszą po DOS-ie,
to niestety DOS tego okna nie widzi.
Ale co dziwne,
okno pod kursorem jest normalnie odsypywane.
Także nie wiem z czym to może być powodowane.
Czy ty to testowałeś z DOS-em?
No właśnie tu próbowałem,
to chyba dwa razy minut się wciska.
Ja wiem o co ci chodzi,
dwa razy minus to kiedyś był ten tak zwany
Invisible Cursor, ja szczerze mówiąc nie wiem,
bo DOS-a nie używamy.
Ale jest jeszcze coś jak Touch Cursor.
Tak, tylko że próbowałem tego Touch Cursora używać,
tylko że on mi się nie pojawił, ten Touch Cursor.
I obawiam się, że Touch Cursor,
to o czym ty mówisz,
to można tego użyć,
ale tylko w aplikacjach Universal Windows Platform,
większych elektronowych,
to ten książkę HTML się obsługuje.
Ja nie wiem, może się mylę,
bo mi się raz udało to użyć,
ja wiem o co ci chodzi,
że ten Touch Cursor,
on ma szersze pole manewru po ekranie.
Natomiast albo ja się mylę,
nie potrafię czegoś zrobić,
ale w tej aplikacji wydaje mi się,
że to jest spowodowane tym,
że ona jest wpisana w Qt,
nie da się zrobić tego pola manewru.
Pierwsze, co chciałem właśnie zrobić,
to jest ten Touch Cursor.
Ja nie wiem, skontaktuj się, Piotrek, ze mną,
jak możesz na pliwko audycji,
to ja ci dam jakieś szczegóły odnośnie Dżosa
i się skontaktujemy odnośnie Dżosa
i to przetestujemy.
Wiesz co, my oczywiście możemy to zrobić,
natomiast od przyszłej wersji to,
co ja mówiłem, to już nie będzie aż tak istotne,
bo te opcje, które teraz wymagają
używania tych nawigacji obiektowych
i innych fikołków, będą dostępne
z klawiatury ze skrótów klawiszowych.
Klawiatury ze skrótów.
A czy jesteś w posiadaniu w ogóle po audycji,
czy mógłbyś mi podeszyć
na prywatną wersję testującą?
Nie, tej wersji jeszcze nie mam,
bo ona nie została nigdzie skompilowana z kodu.
Na razie jest kod.
Tak, na razie jest sam kod źródłowy
Ewentualnie, jeżeli jesteś na tyle zdeterminowany,
to możesz spróbować go skompilować,
bo zapewne jest to do zrobienia.
Nie, to ja poczekam, tak?
Tak, jest obiecana wersja w najbliższych kilku dni,
więc myślę, że czekania nie będzie długo.
Rozumiem. Mam nadzieję, że te modele,
które on dociąga podczas tworzenia
pierwszej transkrypcji, prawda,
to one są najnowsze i pobierane wprost
z serwera Whisper, OpenAI, tak?
Czy jesteś się zadowolony?
Musiałbym spojrzeć w kod.
Czy producent tej nakładki ma te wersje,
czy po prostu z serwera producenta z GitHub,
czy z serwera producenta Whispera?
Wiesz co, ja to na 100% sprawdzę,
jeżeli doczytam się, bo oczywiście
ja tam o Pythonie mało wiem,
ale czasami coś zrozumiem w kodzie.
Poszukam tej informacji,
czy jestem w stanie to wydobyć
i napiszę w komentarzu.
Tak się umówmy.
Dobrze, dobrze, dobrze, Paweł.
W takim razie ja Tobie bardzo serdecznie dziękuję,
nie przedłużam i testujcie się.
Mówiąc o testowaniach.
Dzięki Mateuszu za telefon, pozdrawiamy.
Pozdrawiamy.
Tu jeszcze się pojawiło w międzyczasie pytanie od Patryka,
który chciałby się dowiedzieć,
czy Whisper ma funkcję auto-updater.
No, wygląda na to, że ma.
Sprawdzałeś.
Auto to może niekoniecznie,
ale można sprawdzać.
To jest nowsza wersja.
Tak, można.
Dobrze, no to załadujmy plik.
Widok urządzenia.
Foldery grupa.
Dokument. Widok.
Tyflopodca.
Test transkrypcji MP3.
Tak, to jest nasz plik.
Tam jest 41 sekund z haczykiem
naszego tyfloprzeglądu.
Mówić będzie Michał
i mówić będę ja.
Więc taki dość prosty, książkowy przykład wręcz tego,
co Whisper zazwyczaj transkrybuje.
No i enterek na pliku.
I usłyszeliśmy już Tiny.
Tutaj błąd polega na tym,
że on od razu nam czyta kilka pól dalej,
co my tu mamy za opcje.
A pojawił się nam kreator tak naprawdę ustawień
pod kątem naszego zadania,
które mamy wykonać.
No więc zobaczmy, jakie aż tu opcje mamy.
Test transkrypcji.
Zadanie. Lista rozwijana. Transkrypcję zwinięte.
Tak, mamy pole zadanie.
I tu możemy wybrać, czy chcemy tylko transkrypcję,
czy tłumaczenie.
To, o którym mówił Patryk,
o które pytał Patryk.
Tłumaczenie, tak jak już mówiliśmy,
jest tylko na angielski.
No, zgodziliśmy się Michale,
że chyba nie warto w tą funkcję specjalnie inwestować.
Jeżeli naprawdę chcecie przetłumaczyć nagranie
to lepiej się posiłkować już sprawdzonymi narzędziami.
Tak, co prawda.
Ewentualnie, no jeżeli macie jakiś taki język,
którego kompletnie nie znacie
i chcecie sobie to przerzucić tak na szybko na angielski,
bo z angielskim nie macie problemów
i będzie to dla was bardziej zrozumiałe,
a nie chcecie się właśnie bawić jeszcze w dodatkową konwersję,
bo oczywiście najlepszym efektem będzie,
tak jak wspomniałeś Pawle,
rozpoznanie tego materiału audio w języku źródłowym,
a potem przetłumaczenie sobie na język polski,
właśnie chociażby DEEP LM.
Mhm, no to ja wracam na
Transcribe
i co mamy dalej?
Język. Lista rozwijana. Wykryj język. Zwinięte down.
No, możemy tu wybrać, żeby język został wykryty automatycznie,
albo wybrać sobie jeden z wielu.
Afrikaans, Albanian, Amharic, Arabic.
No, dokładnie.
Wykryj.
Więc tu możemy sobie wybrać język.
Ja zazwyczaj tego nie robię,
bo pozwalam mechanizmowi samodzielnie wykryć język.
Zazwyczaj się to sprawdza.
Nawet ostatnio tłumaczyłem utworek,
dzwonek telefoniczny,
który znajduje się na jednym z chińskich telefonów
i miał on kawałek tekstu.
To była pioseneczka zaśpiewana,
gdzie był jakby powtarzający się motyw po angielsku
i cała reszta tekstu po chińsku.
No i on to rozpoznał nawet do tego stopnia,
że tekst przetłumaczony Googlem miał sens.
O, tak to ujmę.
Tutaj też mała ciekawostka.
Nie wiedzieć czemu.
Początkowy fragment tej piosenki to…
No ja słyszałem tam gwizdanie
i taką zwykłą klasyczną gitarę
i jakąś perkusję.
Natomiast Whisper skrajbował te pierwsze 40
czy ileś sekund pliku jako cytrę.
Nie miałem pojęcia, że taki w im drzemie talent
do rozpoznawania instrumentów muzycznych,
no ale okej.
Ciekawe.
Tak, ale tekst już był rozpoznany na moje jak należy.
Jak mówię, tłumaczenie miało nawet sens.
No więc język, można zaryzykować wykrywanie.
Jakby były jakieś duże problemy,
to można zawsze przestawić,
jeżeli wiemy w jakim języku jest materiał,
no na ten, że właśnie język.
Tu mamy ustawienia zaawansowane.
To zobaczmy, jakie tu opcje są.
Ustawienia zaawansowane dialog.
Temperatura. Pole edycji zaznaczone 00, 02, 04, 06, 08, 10.
Tak, temperatura, czyli właśnie ta tolerancja,
jak rozumiem na różne przesłuchy, halucynacje,
czyli jeżeli Whisper jakiegoś słowa nie rozpozna na 100%,
to na ile powinien wymyślać i używać słów,
które wydaje mu się, że usłyszał,
a na ile powinien trzymać się oryginału
i albo to, nie wiem, pominąć, albo stranskrybować,
nawet jeżeli to słowo nie istnieje w języku żadnym mówionym,
to stranskrybować dosłownie tak, jak jemu się wydaje.
Tutaj można sobie te wartości…
A właśnie, to jest jedno wielkie pole edycji,
w którym można różne parametry wstawiać.
Nie wiem do końca, jak to obsługiwać.
Ty, Michale, może wiesz, bo ja się tym nie bawiłem.
I szczerze powiedziawszy, też nigdy nie ustawiałem tej temperatury
i nawet specjalnie nie czytałem o tym,
jak tu można cokolwiek zmieniać, jaki to ma wpływ.
Temperatury. Wstępne instrukcje.
Wstępne instrukcje, to jest coś takie ala GPT,
gdzie możemy napisać jakiś kontekst dotyczący tego nagrania.
Możemy na przykład wpisać, że to jest fragment podcastu
dotyczącego technologii wspomagających dla osób niewidomych.
Swoją drogą, i tutaj chyba zaryzykuję,
aczkolwiek nie wiem, czy ma to sens.
Znaczy, że w rozmowie uczestniczy
dwóch rozmówców.
Fluent Search się odezwał.
Ustawienia zaawansowane.
Ustawienia zaawansowane.
Niestety coś, co się tu dzieje dość często,
to jest to, że jak właśnie nam się pojawi jakieś okienko na szczycie,
to nam zasłoni całe pole edycji i już nie mamy fokusu.
Wchodzę raz jeszcze w Advanced.
Ustawie temperatura.
Wstępne instrukcje.
Rozmowy u dwóch rozmówców.
Rozdziel każdą z ich wypowiedzi do nowej linii.
Do nowego akapitu.
Nie wiem, czy on to w ogóle zrozumie i czy to cokolwiek da.
Chyba. Mam wrażenie, że nie.
Że ten Initial Prompt bardziej chodzi o to,
żeby podać kontekst samego rozpoznawania,
czyli na jakie słowa on ma być wyczulony.
Ale spróbuj, zobaczymy, co się stanie.
No i tu niestety kończy się przygoda,
bo tab można również wstawić jako znak,
więc już nie możemy przemieszczać się specjalnie.
Przejdź. Temperatura.
Wstępne instrukcje. Brak. Następne.
Wstęp. Temper. OK. Przycisk Enter.
OK. Wywołaj. Test. Transkrypt. Model.
Lista rozwijana w Hisper. Zwinięte down.
Jestem zdziwiony, bo jeszcze była jedna funkcja,
która gdzieś mi teraz zniknęła.
Funkcja, którą ja nazwałem znaczniki dla słów,
a ona się nazywa World Level Timing w oryginale.
Bardzo potrzebna. To jest funkcja, która sprawia,
że każde jedno słowo, jakie Hisper wykryje,
otrzymuje swoje indywidualne znaczniki czasu.
Po co to jest w ogóle komuś potrzebne?
Ano po to, że jak robimy na przykład karaoke,
tekst w stylu karaoke do piosenki, którą rozpoznajemy,
to osobom widzącym bardzo się podoba,
jak dane słowo w danej chwili, które ma być śpiewane,
się gdzieś tam wyświetla i jest podświetlane wręcz na ekranie.
Plus gdzieś tam w social mediach są takie trendy,
nie wiem czy na Tik Toku czy gdzieś,
że właśnie do różnych piosenek pojawiają się słowa
dokładnie wtedy, kiedy są mówione tylko te słowa.
Więc żeby coś takiego móc stworzyć,
wprowadzono taką opcję.
Co my tu dalej mamy?
Oczywiście zatwierdziłem tam OK,
więc wyszliśmy z zaawansowanych do tego głównego okienka,
który się pojawia po wczytaniu pliku.
Model. Tu możemy wybrać jakim modelem,
to znaczy jaką implementacją whispera chcemy dokonać rozpoznania.
Domyślnie wybrany jest whisper,
czyli ten tradycyjny whisper,
który zazwyczaj działa na karcie graficznej,
na procesorze karty graficznej.
U nas z braku takowego działa na procesorze standardowym, na CPU,
co sprawia, że to wszystko, zwłaszcza na tych naszych laptopach,
takich osobistych.
Mój HP ProBook ma i5 Intela.
Idzie bardzo długo, tak jak wspomniałem, około godzinne nagranie,
taki podcast typu wywiad, 3,5 godziny do 4.
Potem transkrybowałem półgodzinne nagranie,
gdzie było dość dużo różnicy w poziomach.
To było nagranie z laboratorium.
Tam były testowane sprzęty jeszcze.
Ktoś mówił z daleka, ktoś mówił z bliska.
Takie godzinne nagranie również około 3-3,5 godziny.
Nie jest to demon prędkości,
ale można liczyć na to, że…
Chociaż na przykład powiem taką ciekawostkę,
że u mnie na najnowszej i5, czyli jednej z nowszych i5,
to takie godzinne nagranie,
mniej więcej właśnie w przypadku baza,
to zajęło około godziny,
więc to już miało większy sens.
To możliwe, że moja jest jakaś starsza,
bo to już jest laptop, który ma 6 lat,
więc jest to jakaś inna generacja,
ale ja tu liczę na to, że następne wersje wprowadzą
nowe implementacje, które są dużo szybsze
i to się będzie jakoś szybciej kulało.
Ale dla porządku zobaczmy, co tu mamy.
Mamy Whispera, mamy Hugging Face,
czyli też taka alternatywna implementacja,
gdzie może być jakiś adres repozytorium,
jakieś tokeny i te modele będą pobrane.
Szczerze mówiąc, nie poświęcałem temu za dużo czasu.
No i Open AI Whisper API,
czyli chmurowa usługa od samego Open AI,
w której, tak jak już wspominaliśmy,
jeżeli sypniemy groszem,
to można odpowiedni tam czas wykorzystać.
I wtedy nie dzieje się to na naszym komputerze,
tylko gdzieś w chmurze.
Aplikacja powinna też teraz wspierać Whispera CPP,
czyli tą implementację już dedykowaną
typowo zastosowaniu na takich tradycyjnych procesorach
zintegrowanych z płytą główną.
Natomiast niestety wykryliśmy przed audycją krótko,
że jest jakiś błąd,
czy w samym programie, czy indywidualnie u nas w komputerach.
Tego nie wiemy.
Wykryliśmy plik DLL Whispera CPP
i rezultat jest taki, że opcja Whisper CPP
nie pokazuje się w tych opcjach tutaj,
bo jest taka regułka, że jeżeli nie wykryto DLL,
to ukrywana jest opcja.
Ja plik Whisper DLL u siebie widzę.
Czemu go nie wykrywa?
Ciężko powiedzieć.
Zwrócę się z tym do autora
i zapytam.
Jeżeli uzyskam jakąś odpowiedź,
to na pewno się podzielę w komentarzu odkryciem,
bo może to już przyspieszy
jakieś przerabianie tych materiałów.
Ja wrócę na Whisper
i co tu dalej mamy?
Tu możemy wybrać model już konkretny Whispera,
którym chcemy to przerabiać.
Base, podstawowy.
Small, czyli mały.
Medium, czyli średni i large, czyli duży.
Ja do tej pory wszystko przerabiałem na large.
Patryk poleca, żeby zrobić na medium,
że ta różnica nie będzie aż tak wielka.
Ja medium używałem do transkrypcji na iPhone
w aplikacji Ico.
Muszę przyznać, że też byłem raczej zadowolony
i przetranskrybujmy to nasze nagranie
za pomocą modelu medium.
Mamy przycisk rozpocznij,
więc co innego zrobić?
Tu jeszcze się pojawiła opcja,
czyli znaczniki dla słów
to jest opcja, która się nam pojawiła
przed polem dla zadania.
Dobrze wiedzieć, że jest ona tutaj.
Jesteśmy w oknie głównym baza,
bo nas tu wyrzucono
i takie pyrknięcie, które słyszeliście,
oznacza, że coś się zaczyna dziać.
To jest pasek postępu NVDA,
tylko ja używam dodatku Enhanced Tones
od niedawna i akurat spodobał mi się
odgłos fali piłokształtnej,
więc brzmi to trochę jak kompozytor
Zastanawiałem się przez moment,
czy to nie jakiś problem z naszym audio, ale nie.
Nie, to jest wszystko przewidziane
i zgodnie z planem.
Zobaczmy, co nam tutaj zaoferuje teraz baz
jak jesteśmy w oknie głównym.
Będziemy musieli wrócić alt-tabem,
bo problemy z fokusem to jest
ulubiony błąd tego programu.
Jak widać trzeba było i Skype’em wyjść,
bo tu jakiś jeszcze fokus.
Tu się jakiś jeszcze narodził problem.
Mamy tutaj tabelę z dwiema kolumnami.
Pierwsza to jest nazwa pliku,
który przerabiamy, a druga to status.
Zobaczmy.
Jest wśród, czyli jest skolejkowana,
jest zmuszona do kolejki.
Tu się zaczyna cała zabawa,
bo na to, żeby z tym coś się zaczęło dziać,
my będziemy musieli poczekać,
bo po pierwsze chyba pobiera się model dopiero.
Nawet chyba udało mi się spowodować,
bo niestety, ale ten model,
którego chciałem użyć nie był pobrany,
więc on zaczął go ściągać.
Może jednak nie ufajmy dzisiaj Patrykowi.
Nie, że coś osobiście do Patryka,
ale dużo praktycznie będzie skorzystać
z modelu tego, który już mam.
Zwłaszcza, że ten Medium to wcale nie taki mały.
Dokładnie, więc nie ma sensu czekać, aż on się pobierze.
Ja w tym momencie anuluję tę transkrypcję.
Przejdź status, nazwa, pliku, tabel, pasek, men,
pasek na, nagraj, nowa, anuluj transkrypcję, przycisk,
anuluj, wywołaj.
Anulowano obiekt z danymi, test, transkrypcja, anulowano.
No dobrze, no to wyczyśćmy historię.
Przejdź test, status, nazwę, tabel, pasek, nagraj, nowa,
wyczyść historię, przycisk.
Wyczyść.
Wywołaj, bus, okno.
I ponówmy jeszcze raz operację.
Wybieraj, dzwonki, test, transkrypcja,
test, język, model, lista.
To jest whisper.
Rozpocznij, przycisk, enter.
Znaczniki dla słów po lewy.
I teraz nam się pojawi znowu baz.
Zadanie, lista, język.
Zadanie, list, bus, język.
Zniknął przycisk,
rozpocznij, ale okienko
ustawień jeszcze zostało.
Zniknęło i teraz mamy test transkrypcji.
Mamy test transkrypcji.
To jest nasz plik i on jest w kolejce.
Teraz już powinno wszystko pójść bez problemu.
To co się na początek wydarzy,
to pojawi nam się tu przez chwileczkę
okienko wiersza poleceń.
Prawdopodobnie był to ffmpeg,
który w locie przekonwertował sobie
ten mój plik mp3, bo my możemy
załadować dowolny plik, albo audio, albo wideo.
Wszystko jest wspierane.
Dla whispera to nie jest żadna różnica,
i tak jedynie potrafi pracować z plikami wav.
To co się dzieje, to po prostu
ffmpeg konwertuje w locie ten nasz plik,
który mu zadaliśmy, do wav
i na tym tymczasowym wav będzie pracował
sobie whisper. Zobaczmy, jak nam to idzie.
Dalej mamy to w kolejce,
więc chwilę przyjdzie nam poczekać
na to, aż to się zrobi.
Może trochę wybiegnę w przyszłość i powiem,
co się stanie, jak już będzie zrobione.
Otóż będzie trzeba dotrzeć do edytora transkrypcji
dla tego pliku, co aktualnie wymaga
znowu przejścia nawigacją obiektową
na pasek narzędziowy i kliknięcie w przycisk
otwórz transkrypcję. Kiedy już to zrobimy,
pojawi się pole edycji. W polu edycji będzie
cały tekst tego, co zostało nam stranskrybowane.
Kiedy tam wejdziemy, nie będzie dla nas możliwa
nawigacja tradycyjnymi strzałkami.
To jest jakiś błąd implementacji pól edycyjnych w Qt.
I niestety na ten moment nie da się
w tym transkrypcie za bardzo wiele zrobić.
Możemy go sobie oczywiście czytać
komendą czytaj wszystko, ale nie możemy
ani w nim nawigować, ani też edytować.
Możemy zrobić oczywiście zaznacz wszystko,
wkleić np. do notatnika. To się da,
ale nas bardziej będzie interesowała opcja
dostępna pod tabulatorem, czyli export.
Kiedy wejdziemy w to menu, które się nam otworzy,
będziemy mogli wybrać spośród trzech formatów.
Będzie format txt, czyli cały tekst
bez znaczników czasowych w jednym txt.
Będzie plik srt z napisami
takimi tradycyjnymi do różnego rodzaju programów,
gdzie takie napisy można załadować
i oglądać filmy.
Oraz plik vtt, czyli format napisów internetowy,
taki youtubowy.
No i wtedy, kiedy już wybierzemy sobie ten format,
będzie można zdefiniować ścieżkę,
gdzie chcemy taki transkrypt zapisać.
Co ciekawe, to jeszcze taką powiem, myślę,
że interesującą rzecz a propos plików vtt,
że gdzieś widziałem w ustawieniach eksperymentalnych Chroma,
co prawda niestety nie miałem jeszcze okazji
się tym za bardzo pobawić,
bo nie wiem gdzie bym mógł się tym pobawić,
ale widziałem ustawienie, które ma powodować
odczytywanie przez Chroma, nie wiem czy to we współpracy
z czytnikiem ekranu prawdopodobnie,
audiodeskrypcji, która jest zaszyta gdzieś w plikach
w napisach vtt.
To jest jakoś ustandaryzowane, że to jest audiodeskrypcja,
a nie tradycyjne napisy.
No właśnie, bo generalnie vtt to są takie internetowe,
z tego co wiem, to jest przede wszystkim pliki napisów
stworzone z myślą o internecie,
nie wiem czy przypadkiem nawet nie gdzieś we współpracy
z konsorcjum W3C, tego dokładnie akurat nie pamiętam,
ale są to rzeczy dedykowane do internetu,
typowo do internetu.
To jest też interesujące.
No i fajnie, żeby gdzieś tam w końcu dało się
tego Chroma przetestować na tę okoliczność.
Może kiedyś.
Może kiedyś. Co do jeszcze whispera i napisów.
Niestety, i to już też podnieśliśmy chyba jako
pewną niedogodność, nie wiem czy w rozmowach prywatnych,
czy gdzieś na forum eltenowym,
nie da się zapisać z poziomu baza
tego jego transkryptu do wszystkich trzech
formatów naraz. Co konsolowy whisper robi.
Tak, konsolowy whisper to robi
i nam w tych obszerlądach to bardzo pomaga,
więc szkoda, ale do waszych
potrzeb prywatnych prawdopodobnie
taka implementacja wystarczy i będzie można
po prostu wykopiować.
Tylko, że w polu edycji, tym takim niedostępnym,
w tym edytorze,
będzie to wszystko ze znacznikami czasowymi.
Więc jak chcecie czystą wersję bez znaczników,
to trzeba zapisać do txt i wtedy taka wersja
będzie udostępniona. To wszystko będzie troszkę
prostsze w nowszej wersji, bo tutaj też edytor
transkrypcji jakiś nowy będzie dodany. Mam nadzieję,
że on będzie bardziej dostępny. Natomiast to, co jest
ważniejsze, to to, że będzie można go otworzyć
na już ukończonym pliku, nie trzeba będzie się bawić
w całe te paski narzędziowe i nawigacje obiektowe.
I prawdopodobnie jeszcze będzie jakiś skrót klawiszowy
do otwierania tego, więc w nowej wersji będzie
wszystko dużo lepiej. No to zobaczmy, jak sobie tu radzi
nasz program. Ukończony obiekt z danymi jednymi…
Ale proszę, już nawet zdążył się wyrobić i nam ukończył.
Gdybyśmy troszkę wcześniej kazali mu tu
przeczytać, to by nam mówił o tym, że jest to w toku
i ile procent. Tak, więc to by było pokazane.
On nam o tym postępie mówi. My to możemy
za każdym razem sprawdzić, jak już daleko to zostało
zrobione. No to skoro już jesteśmy
gotowi, to spróbujmy w takim razie otworzyć
ten transkrypt.
Tabela. Pasek. Pasek na. Nowa. Otwórz transkrypt.
Przycisk. Otwórz transkrypt. Otwórz.
Wywołaj. Test transkrypcji MP3. Okno.
I tu mamy pod tabem
eksport przycisk a pod shift tabem
pole edycji tylko do odczytu z. I tu mamy właśnie to pole edycji
w którym no niewiele zrobimy. Strzałką spróbuje…
0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 4 720
Tak i mamy w osobnej linijce
napis w osobnej linijce
znacznie czasowej w osobnej linijce napis żeby nie było
spróbujmy go przeczytać czytaj wszystko
czyli NVDA na układzie laptop
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 720
czas teraz na ostatni temat przynajmniej ostatni temat
w naszych notatkach 0 0 0 0 0 4 74
Czyli tak można czytać ale strzałkami żeby nawigować
no to możemy zapomnieć. No więc
ja wyeksportuję sobie do txt i będziemy mogli
przeanalizować co tam zostało powiedziane.
Przecisk pole edycji tyl eksport
o to trzeba spacją nie enterem
bussokno txt srt vtt txt
i możemy wybrać format. Ja wybiorę oczywiście txt
Save file dialog
nazwa pliku. Tu mamy zapisywanie pliku
no folder jest dobry ustawiony
zapisz wciś bussokno test transkrypcji
i zapisaliśmy plik więc teraz można go otworzyć
wracamy do folderu
Jaka ładna data od razu
No i zobaczmy co to z Michałem powiedzieliśmy
i czy też rozdzieliło nasze wypowiedzi na linijki
Wątpię szczególnie że potem nie wpisałeś tego promptu
Masz rację. No dobrze. To trudno
to będzie wszystko wymieszane tak jak Whisper lubi najbardziej
No ale zobaczmy czy przynajmniej dokładnie spisał
Czas teraz na ostatni temat
Przynajmniej ostatni temat w naszych notatkach
To twój temat Pawle z kolei
Jeżeli ktoś by potrzebował czegoś graficznego
Tak nareszcie nie musimy się męczyć z wierszem polecenizm
To jest już moja wypowiedź. Ona się zaczęła od nowej linii
Tak nareszcie
Możliwe że podwójne
Możliwe że ilość znaków w linii po prostu zadziałała
Tak nareszcie nie musimy się męczyć z wierszem polecenizm
Taki parametr czy inny czy coś tam bo jest w miarę
O tutaj urwało kawałek tego co ja powiedziałem
Tak nareszcie z jakimiś
Tak nareszcie nie musimy się męczyć z wierszem polecenizm
Jakimiś zależnościami do instalacji i komendami
I czy to taki parametr czy inny czy coś tam bo jest w miarę
Oczywiście dostępne bo są pewne
Taki parametr
Taki parametr czy inny czy coś tam bo jest w miarę
Oczywiście dostępne bo są pewne
Ograniczenia ale to da się obejść
Pusta
I tylko tyle wrzuciłem do transkrypcji
Im dłuższy plik tym dłużej by to wszystko trwało
A to nie o to chodzi żebyśmy tu teraz
Sztucznie przeciągali audycję i wysiadywali
I pokazywali wam o patrzcie
Jest 10%
Pół godziny później o już jest 15%
Tak to prawda
Ale jak widać
Działa to więc
Tak samo i wy możecie sobie ten program
Pobrać i zacząć z niego korzystać
Jak już pokazaliśmy jak działa transkrypcja
To jeszcze możemy spróbować nagrać coś
Quasi na żywo i zobaczyć czy zostanie to przetranskrybowane
No właśnie
Jak działa to nagrywanie
Wyczyśćmy historię żeby tu zrobić porządek
Wyczyściliśmy historię
I mamy przycisk nagraj
Ja go wywołam oczywiście nawigacją obiektową
Wywoła piny nagrywanie na żywo okno
I tu mamy znowu opcję
To jest pole w którym zacznie się pojawiać tekst
W miarę jak oczywiście ja zacznę mówić do mikrofonu
Tu mamy znowu do wyboru transkrypcję
Tym bardziej translate nie polecam
Chociaż to jest może dobry sposób żeby się pobawić
Jak wierno będzie tłumaczenie na język angielski tego co powiemy
Ale będzie trwało prawdopodobnie jeszcze wolniej
Język możemy dać żeby wykrył
Ja ustawię może sztywno na polski
Czemu nie
Możliwe że to pomoże w rozpoznaniu
Tu mamy znowu nasze opcje zaawansowane
Które możemy zdefiniować
No i mamy model whisper
I tutaj ja bym już się nie silił na jakieś większe modele
Ja skorzystam z najmniejszego jaki jest czyli tiny
Możecie się pobawić tymi troszeczkę większymi
No medium i large to może już być troszkę za dużo
To już będzie działało bardzo wolno
I bardzo możliwe że się nawet tych wyników nie doczekacie
Bo to obciążenie będzie po prostu dość duże
I o tym też autor zaczął już od dziś wspominać w dokumentacji
Że no tutaj jest to bardzo intensywne
Jak chodzi o zużycie zasobów
I może być też tak w tych większych modelach
Że na przykład rozpoznam wam co jakiś fragment tekstu
I tu się znowu kłania to o czym wspominałem
Że whisper nie rozpoznaje tego na żywo
Pamiętajcie o tym
Nagrywa fragment, rozpoznaje, znowu nagrywa fragment
I znowu rozpoznaje
I o ile komputer jest szybki
O ile to wszystko ma szansę zadziać się w czasie rzeczywistym
To wszystko jest dobrze
Jeżeli komputer nie jest szybki
Albo jest obciążony dość mocno
No to wtedy zaczynają się niestety ale problemy
Z jakimś zanikiem tekstu, nie wszystko co powiedziałem
To znaczy może tak, może i wszystko
Ale z tak dużym opóźnieniem, że już zapomniałem
Czy ja to rzeczywiście powiedziałem, czy to jest przesłuch
No zresztą zobaczycie
Tak, mikrofon został wybrany
No to nagraj
I teraz wszystko co mówię może być użyte przeciwko mnie
A to z prostej przyczyny
Zostanie to zapisane, zostanie to uwiecznione
W formie tekstu
Ja co jakiś czas będę oczywiście zaglądał do tego pola edycji
Tylko do odczytu, które zostało nam sfokusowane
Automatycznie
I powinien się w nim zacząć pojawiać tekst
Za jakiś czas
Zobaczmy czy już coś powstało
Pusta, pusta
Jak widać tego czasu potrzeba troszeczkę więcej
No to o czym mogę jeszcze
Tutaj powiedzieć
A propos baza
Program ma też mieć wszyte jakieś modele
Chyba
CPP
Czy jakieś jeszcze
Wiem, że autor rozważał jakąś wersję
Za jednorazową opłatą na Macu
Kiedy ona się pojawi
I co ona będzie miała
To coś z tymi modelami
Zobaczmy czy już coś się pojawiło
No takie, że zostanie to zapisane
Zostanie to uwiecznione
Widzicie
Ja widzę tylko jedną linijkę
Ja spróbuję to przeczytać komendą czytaj wszystko
Jak widzicie bez rezultatu
Ja zaznaczę wszystko co tu jest
Skopiuję i wkleję do notatnika
Bo to jest chyba jedyna opcja, żeby sobie to komfortowo przeczytać
No i zobaczymy ile już tego tekstu do tej pory
Z tego wszystkiego co powiedziałem zostało przerobione
I na ile wiernie też, bo to jest też ważne
Ctrl A, Ctrl C
No i jedziemy
No takie, że zostanie to zapisane
Zostanie to uwiecznione
Ja mam wrażenie, że to jest wszystko co on zapisał
Po prostu w pewnym momencie otworzył się ten bufor
Zapisał to, zdążył to rozpoznać
I chyba na razie więcej
Wciśnienie był w stanie rozpoznać
Możemy
No takie, że zostanie to zapisane
Zostanie to uwiecznione
No takie, że zostanie to zapisane
Zostanie to uwiecznione
W formie tekstu
Jakie czas będę oczywiście zaglądał do tego
W formie tekstu
Czyli już się pojawiła druga linijka
Brawo
W formie tekstu
Jakie czas będę oczywiście zaglądał do tego
Co jakiś czas ja powiedziałem
To jest kwestia modelu prawdopodobnie
Pewnie tak
Jeszcze coś zdąży, czy będziemy musieli go powstrzymać
W formie tekstu
W formie tekstu
Chyba nie będzie sensu tu dłużej czekać
Tutaj jest przycisk teraz
Zatrzymaj
I to co do tej pory zostało rozpoznane
Jak najbardziej widać, ale dalszej części już niestety w tej opowieści nie będzie
Można by pomyśleć
Że można tym na przykład nagrywać
Transmisję radiową
I niech ona się transkrybuje w czasie rzeczywistym
No autor nawet o tym wspomina na stronie
I jakieś tam rekomenduje rozwiązania do wirtualnych kabli
Żeby sobie zainstalować
Ale jak widzicie
Nawet na najniższym modelu działa to z bardzo dużym opóźnieniem
Powiem tak
Znalazłem rzeczy
Znalazłem jakiś skrypt
Który działa z Whisperem zdecydowanie lepiej
Nawet na large
Efekty z niego
To był co prawda skrypt odpalany w linii poleceń
I wykorzystaniem
Tej mojej karty graficznej
RTX 3090
Natomiast on miał jedną zasadniczą wadę z kolei
Nie byłem w stanie zmusić go do tego
Żeby on te efekty swojej pracy zapisywał
To znaczy mogłem sobie
Szczytywać gdzieś tam powiedzmy
Mogłem sobie szczytywać na bieżąco
To co tam się działo
Natomiast nie mogłem go jakoś zmusić
Do tego żeby zapisywał po prostu wszystko to co tam się działo
Albo nie mogłem go zmusić
Albo zapisywał jakieś bzdury
To znaczy na przykład
Pierwszy element zapisał jako te pierwsze zdanie
To jest pierwsze zdanie
A drugi element zapisał to jest pierwsze zdanie a to jest drugie zdanie
I tak dalej i tak dalej
Czyli taka zabawa w zapamiętywanie i wymienianie wszystkich elementów
Tak i to zdecydowanie też nie było to o co mi chodziło
Więc są już pewne rzeczy
Które można z tym zrobić
I które zaczynają działać coraz lepiej
Ale to jest jeszcze nie do końca to
Przynajmniej to co można dostać za darmo
Gdzieś tam na githubie bo ja cały czas namawiam
Tak jak kiedyś zresztą w tefloprzeglądzie namawiałem
Że jeżeli was interesuje temat whispera
To sobie przeglądajcie gdzieś tam na githubie
To co ma w sobie słowo kluczowe whisper
Bo można znaleźć naprawdę całkiem sporo ciekawych różnych rzeczy
I przy okazji można sobie
Instalację whispera też dość skutecznie popsuć
Od czasu do czasu
Tak instalując i testując różne rzeczy
Dlatego ja też postanowiłem ograniczyć się do GUI
Do interfejsu graficznego
Kiedy on już się pojawił
No i dobrze wiedzieć, że osoba która tworzy to rozwiązanie
Jest otwarta na to żeby to było jeszcze bardziej dostępne
I zaakceptowała też spolszczenie
Więc ta następna wersja powinna być
No bardzo przyjemna w użytku
Jeszcze bardziej niż to co tutaj widzieliśmy
Więc tylko się cieszyć
Miejmy nadzieję też, że te implementacje dodatkowe zadziałają w końcu
No i to chyba tyle jeśli chodzi o demonstrację baza
Tak ja jeszcze tylko dodam, że Patryk czyli Mosior
Właśnie też do nas napisał, że u niego
Whisper CPP również nie jest wykrywany
No właśnie, to musi być jakiś problem
Bo jeżeli to jest tak powszechny problem
To coś powinno być wyjaśnione w dokumentacji
Że coś trzeba doinstalować, że jakąś procedurę trzeba wykonać
Że coś tam, zwłaszcza że te pliki tam są
Więc ja się domyślam, że albo w następnej wersji coś będzie naprawione
No ja też wystosuję e-mail i zapytam
Co jest grane z tym CPP
Dokładnie i będziemy oczywiście progres tego wszystkiego
Starali się jakoś tam aktualizować w komentarzach pod audycją
Jeszcze tak na szybko sprawdzę
Czy do nas o czymś piszecie
Na Facebooku nie ma nic
Na YouTubie jeszcze na szybko zerknę
Ale nie, na YouTubie też nie ma
Więc czystym sumieniem możemy kończyć nasze dzisiejsze spotkanie
Na antenie Tyflo Radia
Paweł Masarczyk pokazywał aplikację Buzz
Aplikację będącą graficzną nakładką na Whispera
Windows, ale i nie tylko tak jak wspomniałeś
Dla Maca, dla Linuxa
Aczkolwiek Mac ma swojego co prawda płatnego
Ale obdarzonego większymi możliwościami chociażby Mac Whispera
Linux, ja tak sobie myślę, że jak ktoś zna Linuxa
To wiersz poleceń nie jest mu obcy
Prawdopodobnie
A Windows to jest rzeczywiście ta platforma
Na której spokojnie można użyć baza
I podejrzewam, że jeszcze jakieś inne
Graficzne nakładki na Whispera też są
Albo będą się pojawiać
Bo to jest ostatnio narzędzie, którym się ludzie interesują
I bardzo dobrze
Z korzyścią dla nas wszystkich
Ja na przykład używam Whispera
Bardzo mi się fajnie sprawdza, żeby do Tyflo Przeglądu
Opracowywać materiały w językach obcych
Natomiast ten materiał na temat robota TEFI hiszpańskiego
To, że mogłem o nim opowiedzieć w Tyflo Przeglądzie
Jest owocem tego, że wyszły dwa podcasty w języku hiszpańskim
Ja języka hiszpańskiego nie znam
Kiedyś może coś próbowałem się uczyć z jakichś kaset
I przez to, że miałem na studiach łacinę
No i eksperymentowałem trochę z francuskim
To jakieś takie podstawy, pewne słowa nie są mi obce
Natomiast żeby zrozumieć cały wywiad, który był przeprowadzony
I całą prezentację tego robota
To już musiałem się posiłkować Whisperem
I przetranskrybowałem dwa podcasty
Wyświetlił mi się ładnie tekst po hiszpańsku, wrzuciłem go do DeepL
I w ten sposób byłem w stanie przeczytać
O czym było mówione w tym podcastie
Więc teraz technologia oferuje nam takie możliwości
Że naprawdę jesteśmy w stanie już
Nie tylko czytać teksty, które zostały napisane w językach obcych
Ale też te, które zostały nagrane w językach obcych
Treści przepisać sobie na tekst
I przeczytać w języku dla nas znanym
Więc to jest myślę super
A potem możemy się z wami tymi informacjami
Chociażby w Tyflo Przeglądzie dzielić
Właśnie Tyflo Przegląd to już jutro
Zapraszamy serdecznie, a na dziś dziękujemy za uwagę
Paweł Masarczyk prezentował aplikację
Zbierałem od was telefony
No i od czasu do czasu też się wcinałem w ten program
Michał Dziwisz dziękuję również
Kłaniam się do następnego spotkania na antenie Tyflo Radia