Nowości W Aplikacji Zuzanka
Dodany 12 października 2023
13 komentarzy
O nowych funkcjach, które już niebawem zagoszczą w tej mobilnej aplikacji do rozpoznawania dat ważności produktów opowiada Wojciech Figiel.
Zapoznaj się z tekstową wersją odcinka
Pliki do pobrania :
Pobierz plik z audycją: Nowości W Aplikacji Zuzanka
Ten podcast był pobierany 3454 razy
Komentarze
Macie dwa klocki. AI do dat ważności i moduł OCR jako taki. Czy nie myśleliście o tym, żeby AI potwierdzać OCR, aby zminimalizować halucynowanie w kwestii podania daty ważności, ale zupełnie nieprawidłowej?
Widzę to następująco:
1. AI wykrywa obraz z datą i robi ostateczne zdjęcie;
2. AI generuje odpowiedź w formie daty tekstem;
3. Zdjęcie, zrobione przez AI, trafia do OCR;
4. Zachodzi jedna z dwóch sytuacji:
4.1. OCR nic nie wykrył, co można uznać za datę na obrazku, z którego AI umiała wykryć datę, więc do użytkownika trafia data od AI;
4.2. OCR wykrył jakąś datę na obrazku, z którego AI umiała wykryć datę, więc znów zachodzi jedna z dwóch rzeczy:
4.2.1. Jeśli data z OCR nie zaprzecza tej z AI, to użytkownik ją dostaje;
4.2.2. Jeśli daty są ewidentnie sprzeczne, to uznajemy, że AI halucynowała i użytkownik dostaje datę z OCR.
Jeśli działanie aplikacji będzie OK, to kupię nawet po podwyżce ceny, ale egzamin na moim smartfonie jest obowiązkowy. 🙂
Oczywiście super jest mieć rozpoznawanie kodów i OCR w tej samej aplikacji, co daty ważności, ale do kodów i OCR mamy konkurencję, więc jeśli te daty ważności będą kulały, to motywacja do zakupu jednak bardzo spada.
Pozdrawiam
Powiedziałbym, sztuka dla sztuki i zabawki dla miłośników technologii zamiast prostych rozwiązań. Wystarczy korzystać z be my eyes albo wybrać rozmowę video na jakimś komunikatorze i w sekundę dostajemy odpowiedź od osoby widzącej. Poza tym jeśli już to takie aplikacje powinny być bardzo intuicyjne, niewymagające od osoby niewidomej poznawania aplikacji w szczegółach a jedynie wywołanie odpowiedniego polecenia głosowego np: skanuj kod, podaj datę ważności. Wszystko bez wchodzenia w aplikację, tak jak wywołujemy google, itd. Gdy wchodzi na rynek nowa aplikacja, my ciągle musimy się z niej habilitować zanim z niej skorzystamy.
No widzisz, jak fajnie sobie sam wyjaśniłeś sprawę. Interfejsy są takie, jakie są, bo tym, którzy chcieliby mieć inne, wystarczają osoby widzące na komunikatorach. Podstawą rozpoczęcia prac nad jakimkolwiek programem jest potrzeba rozwiązania jakiegoś problemu. Mówiąc prostszym językiem, ktoś musi go potrzebować, bo inaczej nie ma sensu dotykać klawiatury, tylko porobić sobie cokolwiek innego w tym lub innym zawodzie. Zawsze pierwszy interfejs będzie najlepiej spełniał oczekiwania osoby, którą programista spotkał jako pierwszą. Wojtek może nie jest informatykiem, ale osobą zaawansowaną technicznie już tak. Jedynym sposobem na to, żeby interfejs spełnił również Twoje oczekiwania, to zgłosić uwagi i może nawet porozmawiać o szczegółach i możliwościach technicznych. Moim zdaniem tego nigdy nie przeskoczysz, choćby nie wiem co. No, ale skoro osoby widzące na komunikatorach wystarczą, to w sumie po co…
Michał, tylko to jest jedna z wielu aplikacji gdzie jest podobne podejście i za każdym razem musimy spędzać czas by się ich nauczyć a używanie ich nie daje zadowalającego efektu. Masz kilka artykułów spożywczych i teraz odszukaj na nich kod i datę ważności. Zrobisz to szybciej niż osoba widząca, której pokażesz produkty przez komunikator video? Oczywiście nie. W aplikacjach do nawigacji zamiast powiedzieć do telefonu gdzie chcesz pójść, musisz najpierw poznać aplikację, terminologię, itd. Widzący tego nie musi robić, dlatego my też sobie powinniśmy ułatwiać życie a nie je utrudniać.
Osoby widzące mają programistów widzących. Czyli, jeśli dobrze rozumiem, to na dobry początek odrzucamy wszystkie aplikacje, które wydały firmy, mające w swoim zespole choć jedną widzącą osobę. Chodzi o to, aby rozumiał nas projektant, programista itp., czyli musi nie widzieć. To tak na początek, a później możemy pomyśleć, co dalej. Dobrze rozumiem? w następnej kolejności z tych zespołów eliminujemy zaawansowanych technicznie, aby aplikacje nadawały się dla początkujących również. Dochodzimy do eliminacji informatyków z zespołu programistycznego. No przecież tak się nie da. Jeśli chcesz mieć wpływ na zmiany, to opisz propozycje. Z pisania, że jest źle i że widzący wystarczą, nie będzie lepiej. A jeśli rzeczywiście widzący dla Ciebie są lepszym i wystarczającym rozwiązaniem, to w jakim celu czepiasz się tych różnych aplikacji i co Ci przeszkadza, że ktoś sobie je pisze, skoro nie chcesz ich używać.
Podsumowując, możemy chcieć, żeby poprawiać jakość, więc rozmawiajmy o tym jak albo nie interesują nas te rozwiązania, to jaki mamy cel, żeby wchodzić z buciorami w nieswoją sprawę, czy tracimy coś na tym, gdy nie zrecenzujemy wszystkiego co jest tylko na świecie, niezależnie, czy nas dotyczy, czy zupełnie nie?
Dla mnie, zaawansowanego użytkownika, interfejs Zuzanki i wielu innych aplikacji jest często OK. Jeśli coś mnie nie pasuje, to piszę do pomocy technicznej i niezwykle często mam na tyle przekonywujące argumenty, że moje oczekiwania są spełniane. Jako ten zaawansowany użytkownik, rozumiem również, że problemy z odczytem daty dotyczą głównie sfery AI, której wciąż programiści dopiero uczą się. Może należy poprawić zapytanie w prompcie lub dokarmić system danymi. Tego nie wiemy. Widząc co potrafi Be My AI, potrafię mieć nadzieję, że z datami ważności może być równie fajnie. Z moich testów wynika, że jeszcze zbyt często nie potrafi tej daty wykryć, ale nie przyszłoby mi pomyśleć, że przeszkadza mi to, że najpierw muszę uruchomić aplikację.
A tak już na koniec, co są winni autorzy aplikacji X (chociaż nie, X to już teraz nazwa marki), no to U za jakość innych aplikacji, które zniechęciły Ciebie do ich używania? Zespoły programistyczne to nie socjalna pomoc rehabilitacyjna, tylko osoby zatrudnione przez kogoś lub w samozatrudnieniu, aby pracować na wytworzenie produktu zgodnie ze sztuką w swoim zawodzie. Oczywiście dana firma może mieć bardziej lub mniej empatyczne podejście, otwartość i ogólnie różne podejście do klienta i użytkowników swojej aplikacji, ale świat nie jest wypełniony tyfloprogramistami. Jeszcze do niedawna, zanim wzrosła popularność wirtualnych asystentów, przeciętny informatyk zaskoczony był, że komputer może mówić i jakim to sposobem odczytuje cokolwiek z ekranu. Taka wiedza, to była domena osób piszących systemy operacyjne, a nie zwykłe programy użytkowe. Więc wszystko fajnie by było… Wszystko mogłoby być, nic nie musi i zwykle nie jest. Informatyk rehabilitant to nie jest typowe podejście. Zwykle informatyka nie pociąga rehabilitacja, a rehabilitanta – informatyka. Rozwiązaniem są zespoły interdyscyplinarne, ale jeśli osoby nietechniczne będą miały podejście, jak Twoje, że wystarczą osoby widzące, to aplikacje dalej będą wytwarzać osoby o samych ścisłych umysłach i wiele nie zmieni się. Oczywiście można dostrzec przemiany w tym zakresie na przestrzeni lat, ale to najwyraźniej jest wolniejsze od oczekiwań.
Michał, w ogóle nie odniosłeś się do tego co napisałem, tylko piszesz o wchodzeniu z buciorami, czepianiu się, itd. Piszesz o informatykach, tyfloinformatykach. To naprawdę nikogo nie obchodzi czy aplikację pisał jeden gość czy 10 ludzi, to ma działać i ułatwiać życie. Podam ci inny przykład. Tyflografiki w metrze. Podobno mają ułatwić poruszanie się niewidomym. Teraz pytanie. Czy łatwiej kogoś zapytać i bardzo szybko zejść z kimś na odpowiedni peron, czy przychodzić pół godziny wcześniej, macać mapę, uczyć się jej żeby pojechać 5 minut metrem? Dokładnie tak jest z aplikacjami.
Właśnie dlatego różnimy się w opiniach, że moim zdaniem nic nie musi działać i nic nie musi ułatwiać. Wszystko może, ale nie na zasadzie, że ma i kropka. To nie jest umowa społeczna, że ma, tylko produkt, którego możesz albo nie musisz używać. Pewnie, że twórcy zależy na sprzedaniu produktu (nie zawsze stricte, pobierając pieniądz od użytkownika końcowego), ale to Ty możesz zawsze zadecydować, że najbardziej dopieszczona aplikacja nie pasuje Ci i idziesz do konkurencyjnych programów lub innych rozwiązań danego problemu (zadania).
Co do map, to znów jestem idealnym przykładem na to, że różnimy się w opiniach, bo dla mnie mapy to bułka z masłem i tylko dotknę i wszystko wiem.
Kiedyś w szkole w Laskach mieliśmy na geografii wizytę dyrekcji i od nauczyciela dostaliśmy wyciętą z papieru Europę. Ja macnąłem wycinankę i w kilka sekund odłożyłem na stolik. Zadanie miało polegać na odgadnięciu, co to w ogóle jest za kształt. Zostałem zagadnięty przez dyrektor o to, czy już skończyłem oglądać i czy wiem, co dostaliśmy. Oczywiście odpowiedziałem od razu, bo nie z powodu geografii, ale od czasów wcześniejszych niż szkoła miałem w pamięci, nie tylko kształty kontynentów, ale również wielu innych geograficznych i kartograficznych spraw. W jednym z warszawskich liceum, miałem nauczycielkę fizyki, która miała pasję astronomiczną. Również nie miała żadnych problemów, żebym miał pojęcie o mapie nieba. Kiedy znów indziej prowadzący kurs orientacji na spontanie i bez zapowiedzi egzaminował mnie, czy wiem w jakim kierunku świata poruszam się, zarówno pieszo, jak i samochodem. Niestety już po kilku testach był wyraźnie znudzony brakiem jakichkolwiek najmniejszych błędów z mojej strony w tym zakresie, a po kilku następnych więcej już nigdy o to nie spytał, widząc, że nie da się mnie zagiąć nawet z zaskoczenia.
Powyższe anegdoty wspominam, tylko po to, żeby pokazać, że nawet osoby z dysfunkcją wzroku różnią się nawet w takich dziedzinach i że w szczególności my dwaj różnimy się opiniami między sobą, więc jak narazie nie mogę przyznać Ci racji. Co nie zmienia faktu, że możemy o tych naszych opiniach dalej gadać, wymieniając się doświadczeniem i może nawet zostawiając komuś materiał do projektowania coraz bardziej uniwersalnych rozwiązań.
Jeśli do czegoś nie odnoszę się, to znaczy, że z pewnością nie mogę przyznać, że mam podobną opinię. Za to, jeśli wprost napiszę, że moja opinia jest inna, to z samego tego faktu wiele nie wynika, więc staram się w temacie dodać coś nowego. No i przecież, w gruncie rzeczy od tematu nie odchodzę.
A czy wiesz, że aplikacje montażowe do dźwięku, to dla mnie skomplikowana magia. Te Reapery itp., ledwie nazwy ich ogarniam. Tu ja mógłbym narzekać na skomplikowane interfejsy. Jednak, zamiast tego, przyjmuję, że to nie moja dziedzina i już. Wiem, że gdy będzie od tego zależało coś ważnego, to przyłożę się, nauczę i obsłużę, a na ten moment zwyczajnie ich nie pojmuję. Oczywiście mam ogólną wiedzę, o co w tych programach chodzi, ale to co dla innych jest „bułką z masłem”, to dla mnie „czarną magią”. Podobnie z grami. Pewnie dlatego, że w nie nie gram.
Oczywiście, że nie musimy się zgadzać i dzięki za naprawdę obszerną i merytoryczną wypowiedź. Nie wiem czy tutaj się zgodziśż, ale chyba nie ma tak, że możesz pójść do konkurencji i masz zupełnie coś innego. Te aplikacje działają podobnie i ich obsługa wymaga jak ja to nazywam habilitacji. Czym innym jest programowanie, granie w gry, miksowanie muzyki a czym innym aplikacja użytkowa, taka, któą chcesz szybko użyć na codzień. Niech te aplikacje mają różne zaawansowane funkcje, ale przede wszystkim niech będą bardziej ludzkie, czyli jesli mamy np. nawigację to mówimy do telefonu: prowadź do takiego a takiego miejsca i już wszystko inne dzieje się samo a telefon nas nawiguje. Jeśli chcemy sprawdzić kod czy datę ważności, nie interesuje nas budowa aplikacji, ustawienia jej, wygląd interfejsu tylko mówimy do telefonu: sprawdź kod, jaka data ważności. Jeśli chcemy sprawdzić o której mamy autobus, znowu niwe wchodzimy do aplikacji bo to powinien zrobić telefon za nas a po prostu mówimy do telefonu: o której autobus 121 z przystanku… Nie róbmy z wszystkich technicznych frików. Jeśli chodzi o mapy, przyznaję ci rację są fascynujące, w Laskach bardzo dużą uwagę przykładano byśmy umieli je czytać, ale czy sądziśż,że gdy wejdziemy do urzędu gdzie jest makieta to ty zapoznając się z nią szybciej dotrzesz do konkretnego pokoju niż ja? Wystarczy, żę zapytam i będę tam gdzie chcę prawie natychmiast, podobnie w metrze czy na dworcu a ty będziesz studiował mapę, najpierw jej oznaczenia, potem jej obrysy a jak wejdziesz do dworca to nie jest wykluczone, że i tak się zgubisz. Jeszcze raz dziękuje ci za merytoryczną odpowiedź i za ciekawą wymianę argumentów.
Dzięki.
Czy się mylę, czy już ceny po audycji są podniesione? Chciałem dokonać zakupu na przyszłość, a tu niespodzianka…. Może jakiś kod promocyjny dla słuchaczy?
Nie wiem, czy to już niezbyt bezczelne, pisać to pod audycją, prezentującą aplikację, ale może warto poczekać na czarny piątek, ewentualnie Gwiazdkę, a jeśli dopiero wtedy nie będzie promocji, to kupić w nowym roku.
Z drugiej strony nie wiem, czy już nie kliknąć, bo czas poświęcony na zastanawianie się, zaczyna być droższy niż wartość tej aplikacji. W końcu pakiet kilku funkcji już jest, a słabości dotyczą tylko sfery AI, więc ulepszenia w tym zakresie, to raczej proces niż poprawka z dnia na dzień. Jutro lepiej raczej nie będzie. Więc, ja osobiście, daję sobie 24 godziny na decyzję, czy mnie funkcjonalność bieżąca kusi i wystarcza, taka jak jest, czy zrywam z tematem, żeby więcej nie podkradać sobie czasu.
Informacyjnie: Właśnie nowa wersja Zuzanki pojawiła się w AppStore.
Kiedy aktualizacja do nowej wersji w gugl plej? Czekam i nic, a miało być niedługo.