Praktyczne Zastosowania Sztucznej Inteligencji (wersja tekstowa)
Pobierz napisy w formacie SRT
Pobierz napisy w formacie VTT
Fundacja Instytut Rozwoju Regionalnego prezentuje
Tyflo Podcast.
Dobry wieczór, audycję prowadzi Michał Kasperczak,
realizuje nas Tomasz Bilecki,
a gościmy dzisiaj Kamila Żaka, Piotra Machacza i Macieja Walczaka.
Dzień dobry.
Dobry wieczór, witajcie.
Dobry wieczór.
I będziemy dzisiaj rozmawiać o sztucznej inteligencji,
ale nie w takim aspekcie teoretycznym,
jak, co to jest, chociaż pewnie coś tam o tym powiemy,
tylko o tym, jak najprościej, najlepiej wykorzystać
te różne narzędzia zwane AI i co możemy z tym zrobić,
do czego nam mogą się rozmaite rozwiązania, aplikacje,
modele językowe przydać.
To może zaczniemy tak ogólnie, jakbyśmy mogli albo jak ktoś,
Któryś z was mógłby powiedzieć takim, na ile to się da oczywiście,
prostym językiem, co to jest to AI? I tak w dwóch zdaniach,
do czego można to wykorzystać albo do czego nie wykorzystywać?
Bo mam wrażenie, że często mówi się o AI w kontekście,
że to jest nie wiadomo co, takiego bardzo wow.
Mówi się w kontekście zabawy, w kontekście,
że zaraz to zrobi wszystko albo prawie wszystko,
Napiszę coś, że coś tam zrobi.
A to chyba…
Często, mam wrażenie, myli się to z wyszukiwaniem informacji,
z odpowiedziami, które są mniej lub bardziej trafne.
No właśnie tak tytułem wstępu.
Co byśmy mogli opowiedzieć?
Długo w ogóle korzystacie od dawna z tego, tak w praktyce?
To może zacznę, bo ja w sumie tak korzystam jako taki użytkownik,
który się nie wgłębiał w tajniki.
Pierwszy raz spróbowałem skorzystać z czata GPT w maju 2023.
Ale wtedy mi się to jakoś nie spodobało. Stwierdziłem, że niekoniecznie.
Wróciłem do tego w grudniu 2024 i już w piątym.
No i efekt już zupełnie inny. To się mocno rozwinęło i pomogło mi
właściwie w stworzeniu projektu mojej całej sieci domowej,
którą mam obecnie.
Czyli kowystarz głównie z GPT i kowystarz przez przeglądarkę
czy przez aplikację na iPhone’ie?
Przez przeglądarkę i aplikację na Android, gdzie i na iPhone’ie.
Na przemiennie. Zależy od kontekstu i potrzeby użycia.
I to jest bardziej taki masz styl, że pytasz o każdą głupotę GPT,
czy to jest tak, że masz jakiś taki większy scenariusz,
Myślisz, że np. chcesz, żeby GPT pomógł ci coś tam, coś tam
i piszesz w punktach.
Czy to są takie lekkie, krótkie, non-stop zadania?
Bo podsłyszałem ostatnio jakieś badania, że robi się problem taki,
że ludzie się uzależniają od GPT w takim sensie,
że o wszystko pytają GPT kompulsywnie, niemalże co chwilę.
Znaczy, jest taka tendencja.
Oczywiście…
Ja tak nie mam, bo gdzieś tam mnie te stare źródła…
Jestem do nich przyzwyczajony i tak dalej.
Natomiast jeżeli mam gdzieś na przykład pisać maila
czy szukać jakiejś instrukcji typu, nie wiem,
jak naprawić plik danych w outlooku albo coś tego typu,
gdzieś tam czegoś nie pamiętam,
to faktycznie GBT potrafi to znaleźć,
udzielić krótkie odpowiedzi w kilku tam punktach.
Do złożonych rzeczy też stosuję akurat te modele,
Od OpenAI, natomiast trzeba uważać na to,
jak długie są to wtedy już czaty, o ile rzeczy pytamy,
na ile jest to precyzyjne, nie?
O tym będziemy mówić, jak zadawać pytania
albo jak ich nie zadawać i jak weryfikować.
A inni? Maciej, Piotr, jak u was to z chowystaniem?
Ja się jeszcze nie przywitałem.
Dobry wieczór. Problem z mikrofonem miałem chwileczkę.
Natomiast u mnie wygląda to tak,
W zasadzie chyba w podobnym czasie jak Kamil zacząłem korzystać też na początku z czata GPT,
bo tak naprawdę chyba wtedy ten czat GPT był najsensowniejszym tak naprawdę wyborem.
Google swoje modele takie bardziej nadające się do użytku wypuścił później, więc ten czat GPT.
I w początkowych wersjach to nie do końca za różowo wyglądało.
To znaczy, youtuberzy, na przykład germaniści, nauczyciele języka niemieckiego,
bo to tam się gdzieś natknąłem tak naprawdę na tą wzmiankę o GPT,
wcześniej o tym jakoś nie słyszałem, nie byłem zainteresowany tak naprawdę,
mówili, jakie to jest fajne do układania zdań,
do sprawdzania, które odpowiedzi prawdziwe,
które fałszywe, jeśli chodzi o rozumienie tekstu czytanego i tak dalej.
No i sobie myślę, tak popróbować, dlaczego by nie.
No i to były jeszcze wtedy modele 3.5 GPT oraz 4.0.
No i względem tego, to tak jak Kamil mówi,
że wcześniej to one potrafiły stosunkowo niewiele
do tego, co potrafią dzisiaj.
I rzeczywiście pół roku później, powiedzmy, to to już bardzo mocno ewoluowało.
Mam takie wrażenie.
I potrafiło dużo więcej, tak.
Ja tylko tak chciałbym się cofnąć do pierwszego pytania, Michał twojego.
Ja mam taką czuciową definicję,
bo kiedyś mówiliśmy sztuczna inteligencja, tak?
Miałem taki przedmiot na studiach, ale to było o programowaniu deklaratywnym,
o strukturach zamkniętych, to nie była faktycznie inteligencja.
Natomiast teraz mówimy generatywna sztuczna inteligencja.
Co to znaczy, że coś jest generatywne?
Kiedyś cieszyliśmy się z tych opisów alternatywnych do obrazów,
ale to były dopasowania na podstawie zbiorów zamkniętych,
czyli te wytrenowane niby tam modele były zamknięte,
czyli jakby one rozpoznawały na obrazach coś,
co już wcześniej miały, gdzieś tam opisane.
Natomiast ta generatywność tych nowych modeli polega na tym,
że one na podstawie tego, co już wcześniej znają,
I teraz im bardziej zadanie jest złożone, tym niestety bywa tak,
że odpowiedź jest często nietrafna lub niezadowalająca.
Jeżeli jest coś prostego, proste pytanie, prosta odpowiedź,
jeden krótki wektor decyzji, no to to jest proste.
Przy kwestiach złożonych albo właśnie później to już jest trudniejsze
i na tym etapie, moim zdaniem właśnie do najprostszych
zastosowań się nadaje, takich już całkiem nieźle.
Natomiast przy skomplikowanych projektach jednak człowiek
musi dużo weryfikować i nie można tego tak po prostu puścić
i zostawić temu tak w pełni zaufać.
I jeszcze dłuższy czas tak będzie.
Dużo też cierpliwości tak naprawdę w to włożyć.
I mimo wszystko czasu, bo nieraz jest tak,
że jak sobie danego zadania nie rozbijemy na etapy,
tylko mu damy, powiedzmy, całe zadanie
i potem się też zdziwimy, że on się zgubi tak naprawdę,
Zdany model językowy i się zapętli tak naprawdę w swoich odpowiedziach,
no to też nieraz trzeba naprawdę dużo opanowania.
Ja jeszcze tylko powiem, że jeśli chodzi o te rozwiązania,
z których korzystam, bo też pytanie było, no to właśnie czat GPT
zarówno w odsłonie webowej na formie strony internetowej,
Jak i aplikacji na iOS-a, na iPhone-a, gdyż aplikacja na macOS też co prawda jest,
natomiast ona jest po pierwsze niezoptymalizowana, po drugie mało dostępna, no i też mało wygodna.
Aplikacja jest i podobno dostępna całkiem.
Witam bardzo serdecznie.
Tak, zanim zacznę, to chciałem powiedzieć…
Fajnie Cię, Kamilu, słyszeć.
Kopę lat.
No cóż, okej.
Ale może przejdźmy do tematu audycji.
Tak jest.
Jak ja wykorzystuję live w praktyce?
Ano, po pierwsze w aplikacji PikiBot bardzo często wykorzystuję aplikację PikiBot
do opisywania zdjęć i również plików wideo. Szczególnie wykorzystuję to,
kiedy jestem na Facebooku i ktoś wrzuci jakieś zdjęcie na Facebooka.
No to wiadomo, no, wszyscy dobrze wiemy, jak działa opisywanie zdjęć w samym Facebooku,
że niestety nadal to stoi w miejscu i nic to się z tym nie rusza,
więc ja po prostu biorę sobie to zdjęcie, dane sobie pobieram
i wykorzystuję to, wsadzam do Pikibota.
I Pikibot, ja akurat używam czata GPT w Pikibocie tego najnowszego 4.1 bodajże.
No i to dobrze kojarzę. Nie tego mini, tylko tego normalnego.
No i to się sprawdza.
Oczywiście tam te emocje,
ta synteza, która te emocje przekazuje na działa,
naprawdę genialnie to opisuje.
Więc ja jestem po prostu mega zadowolony.
Rzadko używam chata GPT do zadawania jakichś pytań.
Raczej ja jestem starej daty i pytam wujka Gugla,
który jeszcze ma wyszukiwarkę taką, jaką wszyscy…
Jak już mam przeglądy od EI, ja często trafnę.
No, tak.
A to ciekawe, bo ja tego nie widzę, jak coś wyszukuję.
A w Stanach już masz EI-mode.
W Stanach już masz EI-mode.
W Polsce też to jest. To jest pierwsze zdanie.
U mnie też jest. Co się ustawia w tym?
Nie, wiecie co, to pewnie dlatego, że ja kiedyś bardzo narzekałem na EI,
jak miałem YouTube’a wyłączonego i coś oglądałem,
dlatego Google pewnie mnie posłuchał i mi to wyłączył.
Inwigilacja jest, więc…
A tak z ciekawości, Patryku, właśnie, skoro zobacz, tu i tu masz GPT tak naprawdę, bo i w BMI.ai masz GPT i w PeakyBot masz GPT, w sumie co cię skłoniło do używania właśnie PeakyBota w tej wersji?
Ja nawet się nie bawię w te aplikacje.
Bo PeakyBot jest genialny i jak włączymy tą syntezę, żeby emocje przy tym opisywaniu…
Paniu, Jezu, jak ja w zeszłym roku byłem na wakacjach też z grupą osób niewidomych,
myśmy po prostu się tak świetnie bawili, słuchałem z tych opisów, że po prostu…
I to są różne właśnie koncepcje, bo ja, znaczy, ja na przykład pierwsze,
co bym zrobił, też akurat o tym piki bocie mało wiem, chociaż ogólnie wiem,
co to jest, no to pierwsze, co bym zrobił, to właśnie bym wyłączył te emocje
i te ekstraopisy, bo mnie wkurzają takie zabawowe aplikacje, które mi jakby nie mam
Nie mam ani czasu, ani ochoty na jakieś rozrywkowe fajerwerki, tak powiem.
To jest efektowne pewnie, ale to każdy właśnie inaczej tak używa.
I lubi używać ochoty.
No to jest kwestia gustu.
Oczywiście, ja na przykład jak usłyszę opis emocjonalny,
to pod voice-overem mam ten opis,
który jest taki prawdziwie wygenerowany przez sztuczną inteligencję.
Ale to jeszcze nie jest wszystko, o co chciałem powiedzieć,
ponieważ próbuję ćwiczyć sztuczną inteligencję na grach.
I muszę wam powiedzieć ostatnio, jak ja się za to wszystko zabrałem.
Wziąłem sobie na warsztat grę Diablo 4,
ponieważ w Diablo 4 są mapy 2D,
czyli nie tak jak np. w innych grach typu World of Warcraft,
gdzie mapy są trójwymiarowe i tu mogłoby sobie AI nie poradzić.
A wziąłem to dlatego, ponieważ w Diablo 4
czyli te takie lochy do przechodzenia są niedostępne,
w sensie nie mają żadnego prowadzenia, więc ja sobie postanowiłem,
że spróbuję wypróbować czata GPT właśnie w czymś takim.
Otworzyłem sobie taki loch, no i gdzieś tam się zgubiłem
i odpaliłem sobie w tym przypadku Be My Eyes.
No i się pytam, w sensie robię tam zrzut ekranu,
znaczy robię zdjęcie ekranu i pytam się,
Co tutaj widzisz? Żeby wiadomo, żeby sztuczna inteligencja mogła powiedzieć.
No to widać ekran tam z Diablo 4 i tam próbuje mi to wszystko opisać.
No i w końcu dochodzę do tego, że się pytam.
Dobrze, to powiedz mi, gdzie teraz jest przejście? Gdzie mam dalej iść?
No to on się zawiesił i powiedział, że niestety nie potrafię ci tego powiedzieć,
ponieważ nie ma żadnego znacznika, który by to pokazywał.
No to dalej go próbuję męczyć.
Gdzie jest przejście między ścianami?
Czy jesteś w stanie powiedzieć, gdzie mam dalej iść?
No bardzo ciężko jest mi to…
I po jakimś 10 minutach doszedłem do tego,
jak w końcu czata GPT się zapytałem,
a powiedz mi, w jaki sposób osoby widzące wiedzą, gdzie mają dalej iść?
Bo zdaje się, że tam się skądś one czerpią informacje.
I w końcu mi czat GPT powiedział,
Prawdopodobnie mapa pokazuje miejsca w tym lochu, których się nie odwiedziło.
Ale otworzyłem mapę i chat GPT stwierdził, że według niego ta mapa jest zbyt mała
i on nie jest w stanie powiedzieć, które miejsca są nieodwiedzone i które nie.
Także tu muszę jeszcze spróbować wyćwiczyć te modele.
Może uda mi się w końcu, żeby jakoś mnie to poprowadziło, ale to też jest pomysł.
Ale to jest bardzo skomplikowane.
Pamiętaj, że jeżeli przesyłasz tylko zrzut ekranu,
to jest to pewien wycinek.
Może aplikacja jest nie do końca zmaksymalizowana.
Część okna, która jest ci potrzebna do przejścia, jest niewidoczna.
Trzeba coś przesunąć, przewinąć myszką, paskiem przewijania.
To jest gra pełnoekranowa, więc…
To jest też złożone.
Ja się bawiłem w takie dosyć złożone rzeczy
typu weryfikacja logów z routera,
czy się przełączył na WAN 2 itd., bo testowałem tę moją sieć,
to przesyłałem mu zarówno warstwę wizualną, czyli ArtPrint z aplikacji,
jak i kod strony bieżącej z przeglądarki.
I wtedy on był w stanie mi pomóc.
Okej, to akurat jest pełnoekranowa aplikacja,
ale może faktycznie jeszcze popróbuję coś z rozdzielczością.
Natomiast wiele razy AI mi np. pomogło przy konfiguracji Steama,
Kiedy np. nie wiedziałem, czy dana kontrolka w ustawieniach jest przełączona czy nie.
Na szczęście to już jest melodia przeszłości, ale to o tym nie na tą audycję.
W każdym razie to mi bardzo pomogło.
Tak samo właśnie w grze, gdzie np. nie było sklinidera żadnego,
to też się pytałem np. gdzie wejść w opcję.
I on nam np. próbował mi mówić, że tyle razy w dół musisz nacisnąć,
To nie zawsze było prawdą, ale jak mu napisałem,
powiedz mi, gdzie stoi fokus, no to w tym momencie on już był w stanie
mi powiedzieć, gdzie stoi fokus i gdzie dana opcja się znajduje
i jeszcze jaki stan ma ta kontrolka, czy jest przełączona czy nie.
Także no, kurczę, w grach się to naprawdę sprawdza i może kiedyś powstanie
coś na bazie sztucznej inteligencji, co będzie w czasie rzeczywistym
to skanowało nasze, to jak gramy i będzie nam pomagać.
Bardzo możliwe, chociaż, co ciekawe, tutaj poruszyłeś temat,
który ja też planowałem poruszyć.
I jedną rzecz, do której dotarłem,
to były wyniki badań,
ale zresztą nawet sam,
kiedy zaczęły pojawiać się takie interfejsy, tzw. MCP,
w dużym skrócie to pozwala modelom językowym,
czyli sztucznej inteligencji, sterować czy to komputerem,
czy konkretnymi aplikacjami, czy usługami.
Kiedy była omawiana praca z danymi graficznymi,
okazało się, że te modele, kiedy przetwarzają grafiki,
nie mają dobrej orientacji przestrzennej.
I z czym sobie bardzo źle radzą?
Źle sobie radzą z czytaniem zegarów,
ale też źle sobie radzą z siatkami jakimikolwiek.
Więc jakiś Netflix ma jakąś siatkę,
czy np. z kalendarzami, gdzie trzeba podać jakąś datę.
Tutaj w sumie też są siatki.
I to, co ty teraz powiedziałeś, to ja właśnie też to chciałem potwierdzić,
że jeśli go zapytamy, jak dojść do opcji X,
to raczej to się źle skończy, bo mi tak, jak tobie mówiłem,
żeby zejść pięć razy, okazało się, że to wcale nie było to.
Natomiast kiedy zapytałem go, jaka opcja jest podświetlona,
to z tym sobie sprawdził lepiej i bardzo często mówił,
że wiem o tym, dlatego że widać bardzo wyraźny prostokąt
w innym kolorze, który to pokazuje, że to jest podświetlone.
Mhm, ale często też podświetlone opcje nawet mają tooltipy, czyli te tak zwane opisy.
To też.
I po tym też on jest…
To też, natomiast ja o tym też mówię, o tyle, że gdyby na przykład ktoś wpadł na pomysł, żeby tak sobie…
No, gra to pół bierze, tak? Wybierzemy złą opcję, no to w najgorszym wypadku może wejdziemy nie tam, gdzie chcemy.
Ale gdybyśmy na przykład próbowali obsługiwać jakiś sprzęt, który ma ekran, tak? Bez czytnika ekranu.
Albo robimy aktualizację BIOSa w naszym komputerze
i niechcącym wymierzamy nie tą opcję i np. wymarzymy zły dysk.
Czy coś w tym stylu.
Dlatego warto wtedy pytać o tak bardziej precyzyjnie,
co jest podzwyczajone, a nie, jak to stoi.
Ja do takich rzeczy jak z BIOSem, to bałbym się używać AI.
Mimo wszystko to jeszcze nie jest ten etap,
kiedy ja bym się posilił.
Ja mogę próbować użyć tego do obsługi ekspresu dotykowego,
Czy domofonu chociażby, bo też kiedyś to sprawdzałem i to działało.
Natomiast, sorry, BIOS-u to bym nie tykał, bo to może się pomylić.
Z tym to akurat nie ma problemu, bo najczęściej teraz jest tak,
że producenci wyposażają swoje aplikacje w autoaktualizatory BIOS-u
i to trochę nie te czasy, myślę, żeby się bać tego.
No ja wam powiem szczerze, że mi się udało niemal, niemal,
z naciskiem na niemal, bo poległem przy…
gdzieś tam na końcu, przy czymś, czego nikt zazwyczaj nie czyta,
czyli postanowienia licencyjne, zaznaczanie, akceptowanie zgód
i tak dalej, ale chodziło o nieudźwiękownym swego czasu
instalację Windowsa na czymś, na pewnej wirtualnej maszynie,
co to niestety nie dostarczyło mi tego udźwiękowania.
I dużą część, niemalże 90, ponad 5% w sumie procesu
mi się udało właśnie przejść z AI-em, tak naprawdę.
Tak naprawdę i szczęśliwie, tylko później właśnie utknąłem na tych nieszczęsnych licencjach.
A powiedz mi Patryku jeszcze tak, jak mówiłeś o tym zdjęciu,
gdzie ci nie potrafiła AI wskazać tego przejścia i tak dalej.
Próbowałeś też generalnie z którejś z tych modeli tak zwanych rozumujących, czy nie?
Nie, bo ja akurat do grania w Diablo 4 używałem…
Nie, bo ja do Diablo 4 używałem Be My.ai, bo akurat tam było mi najłatwiej zrobić te wszystkie skróty.
Ale w czym mi jeszcze ai pomogło tak szybko, jeżeli chodzi o oprogramowanie?
Pomogło mi w konfiguracji asset smart security, a w zasadzie w jednym kroku,
ponieważ ja kiedyś nie wiedziałem, że asset smart security po instalacji jest w pełni dostępny z narratorem,
Więc ja po prostu, mając ZDS-era uruchomionego,
próbowałem dojść do ustawień ZDS, asset smart security,
żeby sobie zaimportować odpowiedni plik konfiguracyjny,
żeby ten asset był dostępny z czytnikami ekranu.
No to też wszedłem w ustawienia i AI mi dokładnie powiedziało,
ile razy mam nacisnąć tabulator i gdzie, żeby wejść właśnie
w opcję importu.
Oczywiście poradziłbym sobie bez tego,
ale chciałem po prostu sprawdzić w jaki sposób,
czy on sobie z tym poradzi.
I sobie jak najbardziej z tym poradził.
I mogłem za pomocą,
właśnie korzystając z AI,
zaimportować plik z konfiguracją,
żeby eset był dostępny.
Także…
Tak, dobrze.
To wszystko, tak?
Tak, to wszystko.
Czy będziesz pokazywał, Piotrze,
Aplikacje od nibblenerds do tej takiej… do tej AI-owej?
Czy w ogóle jest jakiś w planach pokazywanie aplikacji?
Wiesz, o którą aplikację chodzi?
W tej audycji nie, natomiast jak będziemy rozmawiać o aplikacjach,
to myślę, że gdzieś można o niej wspomnieć.
To o niej myślę, jaki miałem z nią doświadczenie.
Tak, dzisiaj raczej się nastawiamy na opowieści,
bo stwierdziliśmy, że aplikacji i rozwiązań i systemów jest na tyle dużo,
że jakbyśmy wszystko pokazywali, to po prostu by nam to rozbiło audycję.
Tak, mamy kanał przeglądarkowy.
Dzisiaj raczej głównie opowiadamy, taki przegląd teoretyczny, na sucho.
A jeżeli będzie zainteresowanie, to kiedyś może wrócimy do prezentacji
konkretnych rozwiązań, konkretnych aplikacji.
Bardzo się z tego cieszę, ponieważ sam mam nadzieję,
że chętnie się jeszcze czegoś nauczę, o czym nie wiem, o AI.
Więc słucham was z uwagą.
To cieszymy się. Bardzo dziękujemy za telefon.
Dzięki, do widzenia, dziękujemy.
Pozdrawiamy.
Myślę, że…
Może jeszcze ja tylko dopowiem, jak ja zacząłem, bo tutaj też trochę…
To, co mówił Patryk, trochę nawiązało gdzieś do tego,
co ja robię z tymi narzędziami.
Natomiast u mnie to się zaczęło chyba trochę później niż tutaj u kolegów.
Natomiast to był też chyba rok 2023, późny.
To był… Bo generalnie ja wcześniej o tych modelach słyszałem,
kiedy one tylko potrafiły pracować nad tekstem,
gdzie znajomi wokół mnie z tego korzystali, nie tylko.
Ale jakoś tematem się nie interesowałem
do momentu, kiedy nie pojawił się GPT-4,
który był pierwszym modelem,
który też był w stanie pracować na grafikach.
To był pierwszy model, który miał wsparcie też dla widzenia.
I zacząłem się tym na poważnie bardzo interesować,
kiedy zaczęły pojawiać się pierwsze aplikacje,
które z tego mogły korzystać.
Oczywiście tutaj pamiętny podcast, kiedy Be My Eyes…
To się wtedy nazywało wirtualny wolontariusz,
to potem zostało zmienione na Be My AI.
Ten pamiętny podcast, kiedy Jonathan Mosen to wszystko pokazywał.
I to już wtedy było rozwiązanie, które pokazywało,
że ma jakieś swoje jeszcze wady,
ale pokazywało też to, na ile to potrafi naprawdę nam pomagać.
I z czasem te rozwiązania też zostały otwarte dla deweloperów
O tym będziemy pewnie więcej też mówić później.
I ja właśnie głównie z tymi narzędziami pracuję przez to tzw. API.
Zdecydowanie moim najczęstszym zastosowaniem tych modeli językowych
jest właśnie opisywanie zdjęć.
I to z reguły nie przez strony, czy to tata GPT, czy Gemini.
Może z wyjątkiem Gemini Live przez przeglądarkę, bo tak też można.
Ale głównie korzystam z tego przez aplikacje,
czy nawet jeszcze częściej wtyczki do różnych czytników ekranu.
MVDA ma do tego dwa dodatki.
Na Macu też program VOCR ma takie narzędzie,
które pozwala mi w każdym miejscu zadać jakieś pytania
dotyczące tego, co jest na ekranie albo całego ekranu,
albo tylko tego, co podświetlę czytnikiem ekranu.
No i wykorzystuję te narzędzia do właśnie opisywania.
Dlaczego pracuję z nimi przez narzędzia, a nie przez stronę?
Między innymi dlatego, że mogę dostosować ten tzw. prompt systemowy,
czyli to, jak ten asystent ma się zachować.
Mam taki dosyć szczegółowy prompt. Nie pamiętam, skąd go wziąłem.
Ale właśnie wtedy,
bo tak jak korzystamy z aplikacji Be My Eyes czy PeakyBuddy
i dostajemy trochę inne pisy,
to jest po części spowodowane tym, że mamy te promty trochę różne.
Natomiast ja tutaj, jeśli korzystam z tego sam,
to mam na tym pełną naturalność i mogę mu powiedzieć,
Żeby nie próbował tutaj jakoś ubarwiać tego dodatkowo.
Że jeśli widzisz jakieś paski statusu z godziną,
żeby tego nie czytał.
Jeśli jest jakiś tekst, żeby go nie streszczał,
tylko próbował go w miarę możliwości odczytać w całości.
Żeby nie spekulował, co tam może…
Co na przykład robią ludzie na zdjęciu, co to może oznaczać.
Tego typu instrukcje możemy podać.
I w sytuacji, kiedy używamy tego przez aplikację,
to mamy nad tym dużo większą kontrolę.
Zanim przejdziemy do jakby opisów, specyfiki tych poszczególnych modeli,
pewnie pojawią się różne nazwy, typy, podtypy, to chciałem zapytać jeszcze tak ogólnie,
chyba że to jest jakoś tam związane z danym modelem, to może wtedy rzeczywiście
byśmy przeszli do opisów tych modeli, ale chciałem ogólnie zapytać, czy to jest tak,
że zasady formułowania promptów, zapytań do tych modeli,
one są generalnie takie same, czy to jest tak,
że właściwie z każdym modelem się rozmawia jakby trochę inaczej?
Czy to jest tak, że właściwie zasada konwersacji…
Są pewne zasady ogólne, jeżeli chcesz coś osiągnąć.
To właśnie, to może porozmawiamy o zasadach ogólnych,
bo to jest, nim przejdziemy do tych wszystkich nazw typu GPT,
Natomiast nie ma ich tak znowu zbyt wiele, tak?
No, jeżeli to jest coś prostego…
Może ja tak powiem, jak ja to widzę,
bo też nie mam takiego doświadczenia superprofesjonalnego.
Powiedzmy, że ktoś zaczyna, nie?
Ktoś nie miał jeszcze przekonania i zaczyna teraz.
To o czym powinien pamiętać? Na co zwrócić uwagę?
Na przykład, jeżeli zapytasz go o pojemność skraplacza w suszarce,
że tam Samsung, model taki czy taki.
No to on ci napisze, że nie ma specyfikacji podanej
i takich danych. Ale jak zaczniesz, może tam podrążysz,
czyli zaproponujesz mu jakieś źródła typu, nie wiem,
forum Samsung albo coś takiego, napiszesz mu,
gdzie tego ewentualnie może szukać, no to jest duża szansa,
że dostaniesz jakąś mniej lub bardziej przybliżoną odpowiedź.
Bo często właśnie jest tak, że się mówi, co mi do końca mnie
Mnie to nie przekonuje, ale to też zależy, do czego się używa.
Można spotkać takie opinie, żeby zacząć od jakichś bardzo ogólnych pytań,
że powiedz mi coś tam, coś o czymś. I generalnie jest tak, że taki model,
owszem, coś tam nam zawsze, nawet bardzo ciekawie, efektownie o czymś powie,
ale czy to jest coś sensownego, to inna sprawa. Z drugiej strony mówi się,
że takiego modelu, czy takich modeli AI nie za bardzo powinno się wykorzystywać
do stricte wyszukiwania informacji, ale to też nie do końca jest…
To jest prawda i nieprawda. Jak to jest waszym zdaniem?
Myślę, że podstawowym punktem wyjścia jest to…
Warto zacząć od tego, jak takie modele powstają.
Generalnie taki model językowy
jest trenowany na podstawie jakichś danych.
Jeśli chodzi o te modele dużych firm,
czy to jest chat GPT, czy to jest Gemini, Google,
Dobrze.
Jeszcze raz?
Przepraszam, po prostu…
Dlatego ja nie lubię Jeminaja, bo on jest mocno zapóźniony.
Tak a propos Gemini’a, był taki przykład,
co się ładnie mówi, tak zwane halucynacje,
niewłaściwe informacje, które tę modelę poddadzą.
Kiedy Google zaczęło wprowadzać te szaglądy AI
i ludzie zaczęli się pytać,
czy możesz mi podać jakiś efektywny pomysł,
żeby ser trzymał się pizzy.
I Gemini, bo ludzie znaleźli źródło tego,
ktoś to tak żartobliwie kiedyś na religię napisał
i on to wziął jako prawdę,
wystarczy posmarować kropelką, jakimś klejem po prostu tę pizzę
I serycznie będzie ładnie trzymał.
Też jest tak, że te modele, one mi się wydaje, że jak się dopyta
i nie jest pewnym, i zapyta się, czy na pewno coś tam, coś tam,
to on często, a nie, jednak masz rację i powie prawdziwą informację wtedy.
Ja kiedyś miałem coś takiego, pamiętam, szukałem informacji o…
Chyba mi chodziło o piosenkę Krystyny Grzewskiej jakąś i Bogusława Meca.
I nie byłem pewny… Znaczy, wiedziałem, że to były lata 70., 80.,
on mi coś tam wyskoczył, 68. rok, Janusz Kondratowicz.
Aha, bo chodziło mi o autora tekstów. I czułem, że to jest coś…
Nie, czy że Wojciech Młynarski. A czułem, że to nie jest Wojciech Młynarski,
bo to nie pasowało mi stylistycznie i też, jeżeli chodzi o to, kiedy to było.
No więc się pytam, czy na pewno, czy na pewno to jest Wojciech Młynarski,
to chyba jest ktoś inny, raczej inne lata, coś tam. A tak, tak, masz rację,
To jest Janusz Kondratowicz, 1985 rok.
I wiedziałem, że to jest prawda, potem to sprawdziłem.
Więc też warto ufać swojej intuicji i takiej wiedzy.
Nie zawsze jest to możliwe, ale tam, gdzie jest to możliwe,
to warto ufać swojej takiej wiedzy ogólnej gdzieś tam,
bo to te narzędzia czasami potrafią mówić.
I to jest jedno.
Potrafią mówić i mówią bardzo pewnie.
I to też ludzie zwracają uwagę, jak taką wadę tych modeli.
One zawsze będą miały 100% pewnością, że tak jest.
I teraz właśnie jest to, z czym ja miałem kłopot,
kiedy miałem niewielkie pojęcie o sprzęcie,
który będzie mi potrzebny, który docelowo powinienem kupić.
Znałem tylko moje wymagania dotyczące infrastruktury
i przepływności tej sieci,
więc konwersacje zajęły mi z tym całym GPT
jakieś trzy miesiące, zanim to zbudowałem.
Ale się w końcu udało.
Natomiast tyle, ile on mi po drodze wywalił informacji nieścisłych,
błędnych albo zapętlonych problemów, które się pojawiały,
bo czaty były zbyt długie, to ja już nawet nie policzę.
Dobrze, no to ja zapytam zaczepnie, czy było warto, no to może lepiej,
jakbyś sobie szukał w tych Googlach.
Nie, nie byłbym w stanie, dlatego że mnóstwo pobocznych elementów
dotyczących wiedzy na temat tego sprzętu mimowolnie uzyskałem z tego,
Czyli tak jakby uczyliście się razem.
Ty wyciągałeś to, co mogłeś z GPT,
GPT próbował, męczyłeś go, w końcu uzyskałeś to, co chciałeś.
Tak, on próbował dopasować się do moich wymagań budżetowych, technicznych.
Natomiast ja uczyłem się o sprzęcie,
bo to jest nie tylko sprzęt klasy domowej,
tylko właśnie też troszeczkę firmowej.
Jakie moje wymagania spełni, jakich nie,
co mogę kupić, czego nie, co jest głośne, co jest ciche,
co mogę zamontować, co mi się zmieści,
i tak dalej, i tak dalej.
I to sobie tak trwało, trwało, aż w końcu się udało.
Natomiast gdybym nie czuwał, tak jak tutaj było wspomniane,
tak jak ty z tą piosenką,
no to skończyłoby się to w sposób bardzo smutny.
Mogłbym sobie kupić sprzęt, który byłby głośny.
Owszem, on by spełniał wymagania
na przykład dotyczące przepustowości, jakości i tak dalej,
ale byłby na przykład głośny, niewymiarowy
albo nie wiem, nie miał tam iluś portów,
albo źle podobierane i tak dalej.
Tak że jednak trzeba to weryfikować.
A na ile GPT jest odporny sam na siebie i na takie…
Bo mówiliśmy, że z jednej strony to są modele…
Akurat mówimy GPT, bo to jest najbardziej reprezentatywne,
najwięcej z niego korzysta.
I jeżeli się on pomyli i wpiszemy, czy na pewno coś tam doprecyzujemy,
to on często przeprasza, a nie, masz rację, to jest tak i tak.
Często to się zdarza.
A co się stanie w drugą stronę? Kiedy on by powiedział prawdę,
A my byśmy mu wmawiali, że nie, że to coś tam nie masz racji i byśmy się mylili.
Czy on ulegnie naszej sugestii najczęściej, czy powie, nie, jestem tego pewny,
mogę ci podać takie a takie źródła, mam wiedzę do 23. roku i zobacz tu, tu, tu, tu, tu,
i nas przekona, że a, jednak nie mieliśmy racji.
Zgodnie z moimi doświadczeniami, zgodnie z moimi doświadczeniami,
on w bardzo dyplomatyczny sposób, w bardzo delikatny, ale powie,
Przepraszam, ale zgodnie z tym, co znalazłem w moich źródeł, wygląda to tak…
On ci nie powie wprost, że ty nie masz racji i że się nie znasz,
tylko zasugeruje generalnie, że okej, no, chciałeś dobrze,
byłeś pewien jakby tej swojej wiedzy, ale ja tu znalazłem to
i tego no tutaj raczej pewien jestem.
A jak już przy tym jesteśmy, to też chciałem dodać,
że w sumie takim fajnym trikiem na to,
żeby jednak zminimalizować, chociaż w jakimś stopniu,
nawet większym bym powiedział, te halucynacje jego,
czyli te tzw. halucynacje, czyli właśnie zmyślanie,
jest zapytanie go, jak już udzieli oczywiście tej odpowiedzi,
na ile oceniasz tą swoją wypowiedź, że jest ona poprawna.
Przeszukaj jeszcze raz źródła.
Skonfrontuj się czy tam przeszukaj właśnie źródła w Internecie
i podaj mi procentowo, albo w skali od 1 do 10,
jak tam kto woli, czy od 1 do 5, może od 1 do 10 nawet,
czy procentowo właśnie, na ile ta odpowiedź jest poprawna.
A jeżeli nie jest poprawna w 100%,
to dlaczego i co byś w sumie tam zmienił?
I to zwłaszcza, jak ja potrzebuję też na studia różne rzeczy,
żeby sobie szybki jakiś research zrobić na przykład,
czy coś i coś wpleść, też często mówię,
podaj źródła, podaj wiarygodne źródła, linki.
I rzeczywiście on mi to w 98% przypadków robi?
I te linki są prawdziwe. Sprawdzałeś, weryfikowałeś jakieś bzdur?
Czy na ogół nie podał? Raczej to już było okej.
Na ogół w zasadzie nie. Jeszcze powiedzmy ten rok temu bardziej było to prawdopodobne.
Natomiast teraz to już się na tyle nauczyło, na tyle gdzieś tam weryfikować,
że w zasadzie działa to całkiem naprawdę fajnie i potrafi zaoszczędzić kupę czasu.
Podobno można sobie ustawić swój profil w GPT.
Dlatego ja właśnie jakoś nie jestem za tymi api,
bo one nie są personalizowane pod twój styl.
Pod to, co ty potrzebujesz.
Ale właśnie w GPT możesz sobie spersonalizować profil
w ten sposób, żeby on pewne wytyczne miał włączone na stałe.
Czyli tak np. weryfikuj zawsze to, co mi piszesz w minimum trzech źródłach.
A i tak czasem tego nie robi, i tak go trzeba czasem mocno doprowadzić.
Tak, ale jednak gdzieś tam to może się przydawać.
Albo opisuj coś pod kątem osoby niewidomej.
Chociaż tutaj miałem sytuację taką śmieszną.
Często robi.
Robi, ale ostatnio coś tam właśnie opisywałem sobie do jednego artykułu.
Byłem ciekawy, co mi wymyśli.
No i jakby miało to być pod kątem osoby niewidomej.
I było to rzeczywiście niektóre rzeczy bardzo sensowne,
no ale było w tym sporo grafomanii takiej,
która jest charakterystyczna dla tych wszystkich czatów
typu GPT do tej AI, typu że, no, otrzymujemy pilota,
który ma, co już wiedział ode mnie, przyciski, które są wypukłe i że te
przyciski to będą dobre dla osoby niewidomej.
Pilot może dla osoby niewidomej mieć pewne, stanowić pewnego rodzaju problem,
bo trzeba nakierować go na urządzenie, ale po niewielkim treningu,
po niewielkich ćwiczeniach i kiedy już wiesz, gdzie jest dane urządzenie i nauczysz
Właściwie nie będzie to stanowiło żadnego większego problemu.
No i tego typu historie, które, owszem, czasem można wykorzystać,
jak chce się zapełnić tekst, albo coś tak ładnie powiedzieć,
żeby to się wszystko zgadzało, kleiło, stanowiło taką jedną całość,
ale kiedy chce się suchych, technicznych informacji,
no to wszystko to staje się takie przesłodzone
i takie zbyt mało konkretne, a mocno takie gdzieś tam opisujące,
To są bardziej sytuacje niż przedstawiające twarde dane.
Pewnie też poznacie takie rzeczy.
Tak, ale jeśli mu w prompcie…
Co to jest prompt? Instrukcja, polecenie.
To, co piszesz, żeby zrobił.
Tak, dokładnie.
To tak, dokładnie.
To jak się mu w tym prompcie powie…
My będziemy często używać słowa prompt,
dlatego to doprecyzowałem dla słuchaczy pozostałych.
Żeby po prostu…
Jak najmniej opisowo, jak najbardziej technicznie i trzymał się faktów,
to przynajmniej w danej konwersacji on to będzie robił.
A właśnie jak to jest? Czy lepiej, kiedy zadajemy pytanie,
to lepiej wszystko zadać w tym pierwszym pytaniu,
takimi jakimiś równoważnikami? Czy lepiej opisywać to w formie zdań
takich pełnych, co chcemy? Czy np. lepiej zadać jakieś tam jedno,
krótsze pytanie i potem drugie, doprecyzowujące?
W jakim stylu formułować te pytania?
Staram się pisać jak najwięcej w pierwszym pytaniu.
Dlatego, że te czaty powyżej, tam chyba stu odpowiedzi,
czy tam iluś, stu piętnastu, po prostu jakby on już ma cały czas
do weryfikacji i zaczyna mieszać pojęcia, gubić te znaczniki czasu,
To, co było wcześniej, co później.
Taki czat jest już duży, jest już nieefektywny, więc…
A ja mam takie, no, tam chyba kilkaset stron miał jeden mój czat, o, tak.
Czyli to trochę też trzeba uważać, bo o tym powiemy,
że nie tylko można pisać, ale można głosowo też kowystać z takiego czatu.
I to jest też specyfika, bo można głosowo, to tak się mówi inaczej,
mówi się nieco…
No, inaczej się mówi, niż pisze.
i to można szybko gdzieś tam zetracić się.
Jeszcze tylko o tym doprecyzowaniu jeszcze powiem,
bo to była w ogóle ciekawostka.
Próbowałem się dowiedzieć, czy router, który planuję kupić,
może obsługiwać porty WAN, czyli wejście od internetu,
na tych dwóch konkretnych,
które są wskazane w specyfikacji producenta,
czy mogę tam podłączyć do jakiegoś wolniejszego portu,
jeżeli mam takie wolniejsze łącze.
No i wyszło na to, że on się ze mną troszeczkę sprzeczał,
bo w specyfikacji było napisane, że WAN 10 gigabitów
i WAN 2,5 gigabita i reszta porty LAN.
A okazało się, że w oprogramowaniu,
co też potem mi wykazał w źródle,
i ja to też potem, jak kupiłem, to się o tym przekonałem,
że mogę ustawić dwa dowolne porty WAN, nawet gigabitowy,
jeżeli to będzie tylko jeden z dwóch.
I wyszło na to, że faktycznie jest po mojemu,
ale ASUS w specyfikacji tego nie uwzględnił,
pisząc specyfikację, gdzie on miał rację w sensie faktytograficznym,
a ja w sensie praktyczno-użytkowym.
To też, jeśli chodzi o te pytania,
ja też generalnie zadaję od razu dłuższe pytania.
Też zależy od tego, co możemy ustawić,
bo jeśli faktycznie sobie z personelą ich zajmiemy profil
i mamy faktycznie taką konwersację, nie wiem, do opisywania zdjęć,
czy to często w aplikacjach zewnętrznych,
to wygląda tak, że mamy dwa prompty te tzw. do dyspozycji.
Mamy prompt systemowy i w nim mówimy,
czym ten asystent, ten model dla nas ma być.
Czyli tutaj piszemy, że ma opisywać zdjęcia dla nas,
czy ma nam coś tłumaczyć, napisać kod, tak czy tak.
Podajemy mu nasze podstawowe zadanie, jakie on ma robić
i jak to ma być wykonywane.
I to może być po polsku, nawet jak jest angielska komunikacja?
Jak najbardziej może być. Te modele sobie z tym radzą.
A drugi prompt, to jest po prostu…
A tutaj po prostu zadajemy nasze pytanie.
Więc jeśli np. mam taki prompt na opisywanie zdjęć
i zostawię ten prompt użytkownika pusty,
to on wie na podstawie tego pierwszego promptu,
że po prostu ma mi to zdjęcie całe opisać czy coś zrobić.
Natomiast gdybym potrzebował jakiejś konkretnej informacji,
no to tutaj w tym drugim prompcie mogę to zadać.
Jeszcze jedną rzecz, na którą warto zwrócić uwagę,
do czego Kamil nawiązał właśnie to,
że pamięć tych modeli do naszych pytań nie jest nieskończona.
I pewnie z tego tematu też będziemy wracać,
bo tutaj wchodzimy w coś, co się nazywa długość kontekstu.
I pewnie tutaj zaraz zaczniemy o tokenach mówić,
bo to też pewnie temat zaraz się pojawi.
Prównież okno kontekstowe, rozmiar okna.
Tak, rozmiar kontekstu, dokładnie.
Czyli ile…
Jak dużą pamięć ma ten model
i ile stron na przykład jest w stanie zapamiętać?
Bo jeśli ten rozmiar przekroczymy,
…to on po prostu zacznie te informacje zapominać.
No i są modele, które mają tego kontekstu.
Więcej są takich, które mają mniej.
Na przykład w tym, w jak największym kontekście,
to jest bardzo dobry Google,
a ChildGPT wybara troszkę gorzej.
Natomiast ogólnie, jak mu zadawałem proste pytania,
nawet już przy przekroczonej tej takiej liczbie,
tam 120, powiedzmy, moich promptów do niego i jego odpowiedzi,
no to jeszcze jakoś tam sobie radził.
Ale jak już wchodziłem w jakieś głębsze zagadnienia,
no to już mieszał te tematy.
Wtedy po prostu robiłem z tego plik,
robiłem następny czat, wczytywałem mu plik do nowego czatu,
kazałem sobie mu go przeanalizować i mogłem jechać dalej.
Aha. I wtedy było tak, że mimo że ten plik był długi,
to on go traktował jako taki jeden, jakby te, powiedzmy…
Tak, potraktowałeś go w trybie badawczym.
Tak, te 100 elementów potraktował jako syntezę, jako jeden taki…
Tak, miał wyciągnąć z tej konwersacji,
Ktoś miał wyciągnąć, czego ty chcesz od niego.
Co z tej rozmowy wynika? Miał to wyciągnąć
i można było kontynuować dalej, tak?
Bo rozumiem, że każdy taki czat, czyli taką naszą konwersację,
można wyeksportować do pliku.
Znaczy, zaimportować plik i wyeksportować do pliku, tak?
Znaczy, ja to robiłem na zasadzie kopiowania zawartości przeglądarki
i zapisywania do Worda.
Rozumiem.
Bo wtedy zachowywały się wszystkie tamte nagłówki i tak dalej, linki.
To oczywiście to robiłeś z JOS-em, który to łatwiej zrobił.
Oczywiście, no to jak? Inaczej.
Ja na przykład słuchałem…
W wersji 2025.1 też już to potrafi.
I wcześniej potrafił w Firefoxie, a teraz też w Chrome się nauczył.
A to prawda. To wiem, to prawda. Dzięki za doprecyzowanie.
Ja na przykład słuchałem…
Nawet nie tak z JOS-em, co bardziej z Chromem,
czyli po prostu pomijałem klawiszologię JOS-ową.
Tak jak ci to da wszeloglądarka, tak to przyjmij Wordzie i tyle.
A, tak zupełnie na tej zasadzie.
Całą stronę…
Całą stronę, wycinałem górę z historią czatów i dół ze stopką, a reszta to był czysty czat.
Tylko pytanie, jak się taka wtedy wiadomość ogromna rozrośnie,
to pytanie też, na ile to będzie skuteczne, na ile kontekst tłumu i tak tego nie zaburzy.
Ja na przykład sobie robiłem tak, ostatnio ćwiczeniowo bardzo,
bo to przed anteną też mówiłem, oglądałem pewien filmik o zasadach promptowania itd.
Zobaczymy, w takim razie, skoro oglądałem filmik na YouTubie,
no to pracę rozpocznę w Gemini, gdzie on dla mnie jest bardziej awaryjny,
bardziej zawodny, bardziej wymagający, jeśli chodzi o spełnienie tego,
czego ja chcę. Właśnie u mnie się bardziej GPT sprawdza.
Ale sobie myślę tak. Zobaczymy, na ile te zasady promptowania wszystkie,
Jest ich niedużo, ale trzeba o nich wiedzieć,
żeby wycisnąć maksa, możliwego maksa tak naprawdę
ze współpracy z modelem danym.
I słuchajcie, zrobiłem sobie taki przewodnik
dla młodzieży odnośnie promptowania itd.
I w momencie, gdy już tych wiadomości się nazbierało
też dużo właśnie, no mogło być ze 100, 15, 120,
on mi się zaczął gubić, zapętlać, to ja stwierdziłem
Dobra, wezmę sobie najbardziej dopracowaną wersję tego przewodnika,
jako tą jego wypowiedź.
Przy każdej wypowiedzi jest przycisk Kopiuj, przycisk Regeneruj,
przycisk Inne przyciski,
ale mnie najbardziej interesował przycisk Kopiuj.
Skopiowałem wyłącznie tę wypowiedź, która mnie najbardziej satysfakcjonowała.
Przeszedłem ja sobie do nowego czatu, zupełnie nowego czatu,
I mu napisałem, zaraz do analizy dostaniesz pewien przewodnik.
Przewodnik dotyczy komunikacji sztucznej inteligencji
właśnie z młodym człowiekiem w wieku takim a takim.
Dostaniesz ten przewodnik i na razie sobie go przyswój,
dlatego że my za chwilę będziemy nad nim dalej pracować.
Dwukropek, cudzysłów, wklej całą zawartość, cudzysłów, Enter, Bach.
Tak, bo ważne jest, że jak się mu podaje dane treści,
w sensie, co dokładnie ma sobie przeanalizować,
tudzież np. przy generowaniu też grafik,
co dokładnie ma się na tej grafice, jeśli chodzi o tekst znaleźć,
to jest taki oczywiście jeden z przykładów.
Warto, żeby to zawrzeć właśnie w cudzysłowie,
bo wtedy on weźmie dokładnie to, czego się od niego wymaga.
Tak samo przy tłumaczeniach.
Ale np. jak pisałem, bo ja robiłem też eksperymenty,
np. zmusiłem czat GBT i Gemini’a do rozmowy na temat,
czym one właściwie są, czy mają osobowość i tak dalej,
o co chodzi z wektorem decyzji i różne takie kwestie.
Więc ja im tylko pisałem początek logu, koniec logu
i to też rozumiały obydwa, nie?
Mhm. W ogóle…
Telefon.
Cześć, Pawle.
Cześć.
Słychać?
Wyraźnie.
Jakimi swoimi wrażeniami w korzystaniu ze sztucznej inteligencji?
Znaczy na początku to właściwie podchodziłem troszkę jak pies do jeża.
Kolega mnie wpuścił na ładny czat GPT na iPhonie.
Ale że mi się lepiej pisze na komputerze, to bardzo szybko jednak wolałem
korzystać z wersji darmowej, a mieć wygodną możliwość pisania.
I w kilku już rzeczach nam pomógł.
Na przykład pytałem się go na temat żarówek,
ponieważ nie miałem jakby wiadomości na temat,
które są jasne i które są ciemne.
Takie codziennostki to są bardzo fajne kwestie.
Na przykład jak maksymalnie najdłużej zachować świeżość szejka z KFC,
jeżeli potrzebuję go za cztery godziny i tak dalej.
To takie rzeczy… Do tego jest świetny.
A nie boicie się, nie boisz się, że on ci właśnie powie jakąś bzdurę,
taką jak z tym klejem i pizzą z czymś?
Ja wiem, że to jest kwestia rozsądku i kwestia wyczucia takiego właśnie
z wiedzy ogólnej, ale to tak trochę takie żywnościowe kwestie,
to by się…
Wiesz co, ale jeżeli sam nie masz lepszego pomysłu,
to o niewiele ryzykujesz.
No tak, i ma źródło jakieś.
Bo to chodziło na przykład, że coś zamówiłeś,
a chcesz komuś dać później to.
Nie chcesz wydawać kasy, robić dwóch zamówień,
tylko po prostu przeczekać.
I on wtedy wyszukuje, jeżeli to jest popularne,
ma wiedzę z jakiegoś McDonalda czy z czegoś.
Wartość odżywcza, ale o, teraz tak mi się skojarzyło.
Typu alergeny, wartość odżywcza, sposób przygotowania leków.
Tak, tak.
Jakiś skład chemiczny…
Do takich prostych…
Dlatego ludzie są tym tak zachwyceni,
bo to, o czym my mówimy z Maćkiem, to są rzeczy trudne,
takie złożone zapytania.
Natomiast takie proste, jednowątkowe tematy,
gdzie jest pytanie, odpowiedź,
ewentualnie doprecyzowanie odpowiedzi, koniec konwersacji,
to on raczej… Obydwa się sprawdzą,
czy to Gemini czy GPT.
Czyli chyba, że jest jakaś nowa wiedza, no to Jimmy Neyma trochę tyły w tej aktualizacji.
Oj, nie wiedział, kto prezydent Polski został parę godzin po wyborach, no.
Tak, tak.
A Jimmy nie wiedział od razu.
Mi się właśnie podoba ta funkcja głębokiego wyszukiwania,
tylko tutaj jest właśnie ważne, tak jak Maciek mówił,
żeby w tym pierwszym zapytaniu ono było jak najdłuższe, jak najbardziej takie konkretne,
Na przykład ja mu kazałem wyszukać informacji
na temat taboru autobusowego, kolejowego w Polsce, w Europie
i gdzieś tam jeszcze i porównać ze sobą różne typy właśnie pojazdów,
na których liniach one jeżdżą.
I on to wszystko mi ładnie zebrał.
Z tym, że on też czasami w tych głębokich wyszukiwaniach
podaje takie rzeczy typu więcej informacji.
To trzeba wszystko rozwijać.
Zamiast to jednym ciągiem przekopiować gdzieś,
to wcale nie jest tak prosto zrobić, bo on podaje na zasadzie…
Ale on potem proponuje też…
Nie proponował to bez jakiegoś podsumowania?
A, proponował, oczywiście.
Jakiegoś zestawienia zbiorczego, coś takiego?
Ależ oczywiście, robi ładne tabele. Bardzo mi się to podobało.
Tylko to jest chyba ograniczona liczba tych darmowych wyszukiwań.
Nie wiem, jak to wygląda właśnie w wersji…
Nawet w Plusie widziałem, że da się przekroczyć w płatnej wersji GPT
liczbę głębokich badań, limit.
A ile tam jest?
Od niedawna jest 25.
Chyba 10 jest takich głębszych, że on więcej źródeł analizuje
i więcej cytatów ci dostarczy, i tak dalej.
Te raporty są bardziej rozbudowane.
A piętnaście takich lżejszych, czyli owszem, też szuka po tych źródłach,
też się stara wiarygodnie i dokładnie,
ale już mniej masz odniesień i cytatów, i tak dalej.
Na co dzień właśnie z tych czatów używać, bo mamy kilka.
Mamy Gemini’a, mamy GPT, mamy Copilot’a.
Jakie są między nimi tak naprawdę różnice,
które jest do takich zadań codziennych?
W naszej konkluzji wychodzi, że najwięcej aktualności ma GPT.
GPT najlepszy, ale jak skończymy rozmowę,
to będziemy o tym mówić szczegółowo.
Omówimy sobie charakterystyki i możliwości powystania
z tych wszystkich czatów.
Będziemy o tym mówić oczywiście.
W każdym razie ja zauważyłem,
Dawnie, jak się telefon o coś pytał, wypowiadając formułkę OK Google,
to udzielał takich zmięczonych informacji.
A teraz, jak ta sztuczna inteligencja jest po prostu wbudowana właściwie wszędzie,
to on dosyć tak szeroko potrafi odpowiedzieć na proste pytanie,
na przykład o taskowanie jakiegoś leku.
Ale zawiódł mnie w jednym temacie GPT i po prostu dał plamę taką,
że aż byłem w szoku, że tak się mógł pomylić.
Taki słynny mecz był…
No właśnie, bo powiedziałeś OK Google, dlatego ja tego nie mam włączonego.
Dlatego właśnie ja tego nie znoszę, żeby coś nie używa, żeby…
Był sobie taki mecz Lecha Poznań z Puszczą Niepomomice, wygrany zdaje się 7 do 1, czy 8 do 1?
I wtedy go zapytałem, jakie są szanse na to, że Lech zostanie mistrzem Polski.
A on stwierdził, że w sumie nie ma już nawet matematycznych szans na to.
Ale co, miał stare dane po prostu?
Nie, no właśnie nie wiem czy miał stare dane, bo miał dane o tym aktualnym meczu,
miał dane tabeli, miał podane wszystko, liczbę remisów, ramek zwycięstw, porażek, małych punktów, wszystkiego
i powiedział mi, że nie ma takiej opcji.
Ja go uwielbiam podpuszczać, bo ja lubię grać w multi-multi,
zwłaszcza z systemem, tak żeby trafić po prostu pięć liczb.
I lubię go zawsze podpuszczać, żeby mi dawał jakieś pewniaki,
czy wyliczył jakieś prawdopodobieństwo. On tego bardzo nie lubi.
Mnie kiedyś akurat raport zrobił z tych liczb w sumie, no.
Ale skoro masz ten OK Google na co dzień, to znaczy, że po prostu tak z wygody
bardziej korzystasz z tego Googla niż z GPT w telefonie i to tak się sprawdza?
To znaczy po prostu jest to rzeczą jakby troszkę taką naturalną, nie?
Bo się mówi do telefonu…
Tak, tak, ale to jest koronna sytuacja, dla której ja tego nie uznaję w ogóle,
tej funkcji.
Zadzwoń do KASK-a, czy jaka będzie pogoda jutro w Zakopanem albo…
Daje się takie zwykłe po prostu pytania odnośnie tam, nie wiem, do czego jest, na co jest lek jakiś tam.
I niezawiodłość.
Generalnie, jeżeli chodzi o pozyskanie informacji, dowiedzenie się czegoś, jak mu się zada precyzyjne pytanie,
O, dla przykładu, w czasie GPT, normalnie na komputerze dałem sobie,
bo tam jest głębokie wyszukiwanie, jakąś tam grafikę, obraz, coś tam,
i jest wyszukaj. I dałem sobie to wyszukaj i dałem sobie jakąś tam,
chciałem poradnię genetyczną. I w normalnych warunkach,
oczywiście w Google’ach bym to znalazł, musiałbym się przebijać
znanych lekarzy, szukać jakichś kontaktów.
No, pewnie za jakiś czas bym to znalazł, oczywiście.
Ale tutaj, podając mu konkretne zapytanie,
że chodzi mi o konkretne miasto i poradnię jakąś tam,
no, dał mi dwie.
Podał mi adresy, telefony, stronę.
Czyli to, co mi było potrzebne tak naprawdę.
No to widzisz, jeszcze lepiej.
Bo ja na przykład ostatnio szukałem…
Prawdę mówiąc, miałem to gdzieś napisane czy nawet ten,
ale nie miałem przy sobie, że tak powiem,
nikogo, kto by mi to odczytał z karteczki,
bo to było napisane ręcznie i miałem jechać taksówką
i po prostu pytam, tak, gdzie jest postój taksówek
przy tam Centrum Hormonologicznym w Bydgoszczy tam?
Tak ogólnie, nie? No to napisałem mu tylko,
przy którym budynku, czy przy A, czy przy B i tak dalej.
To napisał mi właściwie, więc mówię, to takich szybkich…
Inny rzeczy jest precyzyjny i najczęściej trafia.
A jeżeli takich adresów, bo mówisz, że go wykorzystałeś jak Google Maps,
to pewnie było prościej w telefonie.
Jeżeli on ci to znalazł w telefonie, to jest taki element klikalny,
że możemy od razu zadzwonić, to gdzieś zapisać te dane?
Czy to nie jest tak prosto, bo to są tylko dane tekstowe?
Z Google na pewno można. Tak, z Google można.
W sensie z Gemini’a w telefonie?
Tak.
Ja tego nie szukałem w kontekście dzwonienia.
On podaje odnośniki do Google Mapsów, do YouTube’a.
To zależy, co się mu każe zrobić.
Dzisiaj na przykład próbowałem zmierzyć się z dietą pudełkową,
bo tak naprawdę mamy kilka możliwości do wyboru.
Przychodzi nam pudełka i teraz co jest co.
Nie widzimy, nie przeczytamy. No to OK.
No to dobra, na początek poszedł,
próbował sobie radzić, ale ewidentnie miał problem.
Nie mógł płynnie czytać, nie mógł po prostu dobrze tych słów poskładać.
Bardziej się trzeba było domyślić, niż po prostu wiedzieć.
No to druga rzecz, co mi przyszła do głowy…
Tylko ja zawsze nie mam sumienia po prostu prosić tych wolontariuszy z BMI,
Ja nie wiem, kto gdzie odbierze, czy w Ameryce, w Australii czy gdzie.
Ale kiedyś, jak to opowiadałem w audycji,
to ktoś nam pomógł na przykład pierścionek znaleźć.
No więc pominąłem Be My Eyes, zastosowałem Gemini Live.
Na zasadzie, no dobra, powiedz mi, co widzisz na pudełku.
I on powoli zaczął odpowiadać na te pytania
i udało mi się tę dietę ułożyć w kolejności,
Tylko to wymaga jeszcze, myślę, więcej troszkę popracowania z tym,
żeby się nauczyć, jak mu zadawać pytania, jak trzymać ten telefon,
żeby on się nie mylił.
No tak, o tych funkcjach wideo, udostępnianiu ekranu i tak dalej
też będziemy mówić, chociaż pewnie to jest taka trochę jeszcze rzecz osobna.
Jeszcze nowość, tak.
Tak, mógł być osobny jakiś w sumie podcast i osobny temat.
To jeszcze lubię. Lubię się wygłupiać z nim, na przykład napisz mi opowiadanie, jakieś tam grzeczne albo niegrzeczne. Lubię parafrazować jakieś piosenki. No to po prostu żeby śmiesznie było.
A ja z nim to czekam na dyskusję filozoficznej, geopolitycznej, historycznej.
No, też można, no.
To się fajnie zgroziło.
Dobrze, to myślę, że to na tyle.
Zachęcam wszystkich, bo warto korzystać.
Chodźmy nawet z tych darmowych wersji.
Ja jestem na przykład zadowolony bardzo z GPT.
I tak sobie czasami zapytam o pewności różnych tam rzeczy.
No dzięki.
To wszystko, dziękujemy.
Na koniec tego takiego działu teoretycznego,
To chciałbym jeszcze zapytać o… Tak, tak, telefon, tak?
Nie, komentarz. Komentarz.
No to jeszcze ja w takim razie.
Zapomniałem o jednej rzeczy,
od której zacząłem wykorzystywać sztuczną inteligencję
i w zasadzie też czata GPT.
A mianowicie wykorzystuję to do tłumaczenia
z różnych języków na język polski.
Tłumaczyłem ostatnio pewien tekst literacki z języka francuskiego,
jak również gram w grę francuską, gdzie również są takie teksty bardzo poetyckie,
bym powiedział, ponieważ sam autor jest pisarzem i naprawdę tłumaczenie z francuskiego
na język polski, działa bardzo dobrze.
To samo jest z językiem chińskim.
No i przyznam się Wam, że jest to chyba jedyne dobre rozwiązanie,
ponieważ tłumacz google’owski, przynajmniej ten z API,
przez wtyczki NVDA, no to to jest tragedia.
Tego się po prostu używać nie da. A jak by się ktoś pytał,
jakiej aplikacji używam do tłumaczenia,
no to używam aplikacji chińskiego autorstwa Luomo Toolbox,
która obsługuje tłumaczenie właśnie z użyciem sztucznej inteligencji.
I nie tylko, bo Google i Deeple też są wspierane. Także jak ktoś potrzebuje dobrze przetłumaczony
tekst. Znaczy no, w miarę dobrze, bo zdaje się, że to nie jest realne,
no to jak najbardziej mogę polecić tutaj sztuczną inteligencję Chata GPT.
Nie wiem, jak Gemini, bo Luomo nie korzysta z Gemini, a więc nie sprawdzałem na Gemini.
Natomiast od GPT 4.0, który w Luomo jest obsługiwany, nie ma 4.1, ale 4.0 daje radę.
Dziękujemy za ciekawą wiadomość, przy okazji…
No nie, ja zabiłem GPT, to kiepsko mu szło tłumaczenie z oryginału tolkienowskiej pieśni o Gilgaladzie.
To pytanie bardziej może do Macieja, ale może nie tylko.
Z czego GPT-kowysta on tłumaczy?
Co on ma w sobie?
Ma on jakieś swoje silniki tłumaczeniowe?
Jak to jest?
On po prostu to ma wewnętrznie jakieś skojarzenia.
Kojarzy, jakie słowo znaczy to.
Wiesz, co on robi?
To tak jakbyś napisał do niego po chińsku,
Ale chciałbyś napisać, dostać odpowiedź po polsku.
On po prostu analizuje to tak samo,
ale wyrzuca ci odpowiedź w tym języku, którego chcesz na wyjściu mieć.
Ale jak załóżmy, tłumaczymy jakąś instrukcję obsługi,
jakiś artykuł, to ma to sens?
Czy to… Patryk mówi, że ma to sens.
To ma sens. Radzi sobie pięknie.
Do artykułów jak najbardziej ma sens,
tak żeby nie szukać daleko i dawno…
Akurat właśnie Gemini wykorzystałem do testu,
dlatego że on ma ten duży kontekst.
Chciałem mu załadować od razu ponad 30 tysięcy znaków.
On jest dziekielnie szybki.
GPT jest dużo wolniejszy od tego Gemini’a.
Ja konkretnie nawet nie użyłem tego najlepszego modelu,
bo użyłem model 2.5 Flash, który jest dostępny za darmo.
I to…
Jeszcze miałem taką potrzebę, bo to był plik formatowany jako Markdown,
gdzie czy to tłumacz Google czy GPT…
Przetłumaczyć to, co przetłumaczę, bez problemu,
Natomiast składnie Markdowna nie zachowa, więc jakieś łącza czy nagłówki,
jeśli to były takie rzeczy, które wcześniej musiałem więcej robić ręcznie,
stwierdziłem, że to może sobie poradzi, jak mu w promcie powiem,
jeśli zobaczysz tam składnie Markdowna, to zachowaj mi to składnie.
Poradził sobie. Poradził sobie w 95%.
Tam gdzieś drobne rzeczy gdzieś tam poprawiłem,
żeby to po prostu lepiej się gdzieś czytało.
Tam chyba jedna rzecz nie do końca była tak, jak powinno być.
Ale w dużej mierze sobie poradził.
Na przykład nawet w jakimś fragmencie tekstu były literówki,
były jakieś niegramatyczne zdania, a to się zdarzało, bo pojawiały się teksty
pisane przez osobę, dla których język angielski nie był pierwszym językiem.
No to on to ładnie napisał, poprawnie gramatycznie, po polsku.
No tak, bo to jest tak generalnie, że on, skoro to jest model językowy
wytrenowany na ogromnej ilości zbioru danych…
W różnych językach, to ma punkty odniesienia.
Tak, ma punkty odniesienia, bo tak naprawdę z każdego na to…
Mało tego, on to tak tłumaczy ładnie, bezpośrednio,
w sensie przenosi, znaczy inaczej, przenosi sens z danego języka,
czy nie tłumaczy tak słowo w słowo, powiedzmy, zdanie w zdanie,
tak jakby to, powiedzmy, przetłumaczył, nie wiem, jeszcze parę lat temu Google.
Tylko on naprawdę bierze naturalność języka tego wyjściowego,
…na który ma tłumaczyć i robi to tak, żeby w tym języku wyjściowym, jako wynik,
żeby był ten wynik tłumaczenia zbliżony do naturalnego,
nie ten wejściowy język, czyli ten, z którego tłumaczymy,
tylko właśnie ten wyjściowy, więc tutaj też jest ta przewaga tak naprawdę.
Właśnie na przykład jak masz jakieś wyrażenie w niemieckim czy w angielskim,
takie typowo jakieś idiomatyczne albo jakieś polskie frazeologizmy,
które są u nas zrozumiałe tam niekoniecznie,
On jakoś to wychwytuje, że przekształci to tak,
że ogarnie ten, kto czyta to, co ty mu tam napisałeś,
to on rozumie tak, jak powinien,
a nie tak, jak to jest dosłownie mówione po polsku,
bo polskiego przecież nie zna.
Dokładnie.
A jak to jest ze świadomością, bo mówimy trochę o tym kontekście,
czyli o tym, że jeżeli kowystamy z…
No, gdzieś tam z…
Cześć wam.
Cześć.
Cześć, cześć. Witamy.
No, wiedzę, że znowu ciekawy temat na temat sztucznej inteligencji.
To tak, co mam opowiedzieć, jakie mam apki,
czy do czego używam jakby sztucznej inteligencji.
Możesz to i to, tylko tak w miarę…
Tak, pokrótce…
Do czego używasz, jakie doświadczenia są generalnie?
Mamy dużo tematów jeszcze, ale oczywiście chętnie posłuchamy.
Tak, no, do czego używam…
No, jakbym wam teraz pokazał stronę ekranu głównego na Androidzie na przykład,
bo tam na OS-ie to mam w zasadzie bałagan, no ale to jakby się to poporządkowało,
no to no chyba nie wiem, czy z 8 czy z 10 tych czatów jest, ale sobie to używam.
Albo Gemini, albo Czata GPT.
Perpleksyty to tak…
Rzadko, rzadko.
No, ale tych groków, deepseeków…
Klaud też mnie w sumie zawiódł.
Od pewnego razu…
Czyli pewnie mówisz to, co wszyscy, że po prostu GPT i Gemini i tak w zasadzie,
jak ktoś nie chce się bawić, to chyba wystarczy. Tak możemy to,
można tak to skwitować? Chyba, że z jakichś względów potrzebujesz
kopilota do edycji. Kopilota to użyłem parę razy do napisania artykułu takiego
O Marszu Równości i Marszu Niepełnosprawnych były takie dwa protesty.
Kiedyś żeby mi to podsumował, żeby napisał mi trochę o tym, trochę o tym.
Ale tak najogólniej…
Całą resztę no to mówię.
Co do programowania, to chyba Gemini jest dobry,
bo w przejeżdżającym czasie GPT, jak ja chciałem…
No to znaczy, tworzyłem apkę taką terminalową do cięcia filmów,
no to po prostu się tym, że tak powiem, rąbałem ileś tam,
Przepłatnym o Klaudzie to już nie wspominał, że już mnie zawiódł.
A Gemini Pro, no to po prostu…
To znaczy, co innego?
Akurat chciałem, żeby mi stworzył, ale mi kurde stworzył w 2-3 promty.
Więc tutaj…
W sumie na LM Arena ponoć…
Mówiłem, że właśnie Gemini w hologramowaniu ponoć wygrywa.
No, ale jest jeszcze jeden taki model dyfuzyjny.
Tylko teraz nie pamiętam nazwy tego.
Tak, to będziemy jeszcze o tych modelach mówić.
O różnych zastosowaniach.
Więc tutaj tego.
Ale do czego używam tak najogólniej?
No to znaczy, czego używam? No to myślę, że Gemini i chatGPT.
Ewentualnie, no nie wiem, jak z Copilotem, bo szczerze mówię,
bo to jest chyba nawet, no nie wiem, czy nie to samo co chatGPT,
bo to Microsoft bierze…
I co chyba jest na nim oparty faktycznie.
Więc tutaj Grok… nie wiem, jakoś mnie nie przeglądał.
No, czyli tak podsumowałem trochę, że gdzieś tam tak jak wszyscy, że te dwa modele główne, a tak naprawdę GPT,
może wśród androidowców troszeczkę Gemini, zwyciężają po prostu. No i tyle.
No, DeepSeek to w ogóle ma problem z dostępnością interfejsu.
A do czego używam?
Na przykład do tworzenia jakichś mini programików, które mogą mi pomóc urozmaicić życie.
Na przykład do pisania jakichś artykułów na Facebooka.
Jak ja nie mam jakoś, kurde, węny, żeby tam pisać o czymś, czy gdzieś byłem, czy w czymś brałem udział, czy coś tam,
no to tak jak Gemini to mi to ładnie napisze.
Jeszcze się bawiłem plumem i bielikiem, ale no tak, kurde, myślę…
No też można użyć, no bo to polskie, to są też te modele, więc tego…
Więc tutaj ewentualnie też tego można użyć.
Zwłaszcza, że Pluma mają zaprząt do M-Obywatela, więc warto też się jemu gdzieś tam przyjrzeć.
Tak, i w ogóle…
Tak, Plum ma być w M-Obywatelu, a Bielik ma być w Perplexity za pomocą Inwidii,
która tam będzie wspierać Bielika, więc tutaj też jest więcej gwarantów.
Dobrze. Odnośnie jeszcze nie do Perplexity, tylko do właśnie Cloda i do Gemini 2.5 Pro,
to właśnie te dwa modele, jeśli chodzi o kodowanie, tak jak wspomniałeś,
to nie jest jeszcze tak, że one jakoś bardzo hiper-super kodują.
Prostą stronę, nawet zaawansowaną stronę, która dobrze wygląda też zrobią właśnie te dwa.
Natomiast, tak, i oto trwa bitwa w sumie, który lepszy?
Czy Jemina i Dominika, czy właśnie Sonnet, tudzież właśnie od Kota?
Maciek, a to to, co Ci wysłałem, kiedy to było, wczoraj czy przedwczoraj?
Wiesz co, nie sprawdzałem jeszcze.
Nie sprawdzałem jeszcze.
Może sprawdzisz, bo to w ogóle, ten model działa na zasadzie dyfuzyjnej,
więc to jest zupełnie jakaś inna bajka.
I ponownie to ma być super w kodowaniu, ale właśnie…
Ja to znaczy, jak się tym bawał, wiełem,
stworzyłem sobie grę Saper w HTML-u
i jeszcze żeby była za pomocą…
Czyli 2 prompty zrobisz.
No, 2 prompty, czyli…
Dobra. Tak, tak.
No i tak, do rozpoznawania obrazów to mam zasadnicą…
Albo Bima Yaisa, albo…
Jak się to nazywa?
Kurde, ten drugi…
Pixiwuta.
Pixi… Mhm.
No, Seng Ai też ma ten…
MLM w sumie, ale Seng Ai ma bardziej do OCR,
bo w tym jest najlepszy.
No tak.
Dobra, dziękujemy, jeżeli to wszystko,
Poza wiadomością.
No jest, jest.
Jeszcze tak dwie minuty.
Gemini też użyłem do edycji sobie zdjęcia, żebym sobie przefarbował włosy,
więc teraz taka opcja jest.
No bo kiedyś w ogóle czat GPT i ten Dalle to w ogóle miał z tym problem.
Ale Kemini teraz no to bardzo dobrze sobie tym poradził.
Ponoć jeszcze wyszedł Flux, ale tego nie testowałem jeszcze.
On też ma umożliwiać taką edycję zdjęć, że po prostu nie przemieli jakoś tego zdjęcia.
Nie przyjnacza, tylko po prostu zmieni to, o co go poprosisz, tam przeedytujesz, no.
Jeszcze M11 też mi się przydał. Też mam swój głos pro, więc tutaj na YouTube’a tam parę rzeczy tam zrobiłem, więc tutaj…
No i tak w sumie myślę, że tyle.
Można by to też odwrócić tak naprawdę, bo skoro mowa na tekst, tekst na mowę,
jak w przypadku Elevena, Eleven Lapsa, tak samo mowę na tekst, gdzie prawda,
Whisper się też bardzo dobrze sprawdza, tudzież też Modern Skype od Elevena,
więc i teoria, prawda, na sztuczna inteligencja, jeśli mówimy o zastosowaniach
w obszarach, tak?
No tak, to zaraz, za chwilkę o tym właśnie powiesz i za chwilkę o tym
Gdy będziemy mówić, to dziękujemy, Grzegorz, za wiadomość, za telefon.
I przechodzimy dalej, bo…
Ja bym chciał jeszcze trzy rzeczy ważne odnośnie tego promptowania jeszcze,
bo nie zostały ujęte.
Znaczy, bo po pierwsze, generalnie warto sobie uzmysłowić,
jak my z tym czatem po pierwsze rozmawiamy, to jest jedno, prawda?
Ta komunikacja, jasne komunikowanie,
to już, myślę, wybrzmiało, zostało powiedziane,
ale jeszcze, żeby temu się stało zadość.
Czyli prosto i konkretnie my mu mówimy.
Określamy tak naprawdę,
kim ten czas w danej rozmowie ma być.
Czyli jesteś tym i tym.
Nawet nie to, kim ma być, tylko co ma zrobić.
Jaki ma być ten cel, generalnie tego zadania.
W jakim kontekście, czyli do jakiej grupy odbiorców, do kogo?
Tak naprawdę.
No i ten format, w jakim formacie, jakiego rodzaju to ma być.
Tak, czyli…
To nie jest tak, że…
Bo teraz sobie ludzie pomyślą, że tu trzeba się znać,
tu trzeba przeczytać książkę. To tak nie jest.
Chodzi o to, że po prostu…
Może tak być, ale nie musi.
Można, ale jeżeli nie macie czasu, to chodzi o to,
żeby sformułować jak najprecyzyjniej to, co chcemy uzyskać.
Jeżeli pytamy, która jest godzina, to możemy to napisać i to wystarczy.
Natomiast jeżeli chcemy np. uzyskać jakąś informację,
np. porównaj mi dwa telefony, model A i model B.
I teraz możecie napisać.
Porównanie napisz w tabeli albo napisz listę
Albo oddzielić listę ze specyfikacją i na przykład uwzględnić różnicę na trzeciej liście.
Po prostu chodzi o to, żeby ten wynik, który on nam dostarcza,
żeby był maksymalnie taki, jak chcemy, jakiego się spodziewamy.
Ale on musi mieć to napisane, co my chcemy dokładnie uzyskać.
No i plus jest taki, że można to sformułować w języku naturalnym.
Minus jest taki, że nie zawsze, zadając pytanie,
znamy wszystkie wymagane informacje, których potrzebujemy.
Bo pewne rzeczy mogą się pojawić po jego pierwszej odpowiedzi,
drugiej, trzeciej i tak dalej, i tak dalej.
Jeżeli na dany temat czegoś nie wiemy.
No właśnie. I dlatego tutaj, po pierwsze,
my możemy już po napisaniu tego prompta…
Albo, jak nam się wydaje, w sumie też możemy tak zrobić.
I wtedy on nam powie, czy jest wszystko okej, czy jeszcze można dodać.
Bo można mu napisać, słuchaj, oceń ten prompt,
który ja ci chcę teraz, te instrukcje, czy one są dla ciebie jasne, czy nie.
Jeżeli nie, to co byś tam jeszcze dodał,
tak żeby ta odpowiedź była jak najbardziej precyzyjna.
To są takie lifehacki, żeby maksymalnie wycisnąć z tego dużo,
ale wtedy to jeszcze na wyższy poziom produktywności wejdzie.
Tak samo jeżeli nie wpadniemy na to, co…
To jest to, o czym ty, Kamilu, powiedziałeś,
że nawet nie musimy być do końca świadomi tego,
jakich informacji czat też potrzebuje.
Możemy go zapytać, czego ty jeszcze potrzebujesz?
Czego jeszcze potrzebujesz, żeby jak najlepiej to zadanie spełnić, prawda?
Przeanalizuj to, co już masz. Czego jeszcze potrzebujesz?
I dopytaj tego czata w ten sposób.
I on autentycznie jeszcze o różne ważne kwestie dopytuje.
I wtedy ta praca jeszcze się bardziej wznosi.
Tak samo my go… Mało tego, my możemy ten czat poprosić.
Ja dlatego o tym teraz mówię, bo to się odnosi do wszystkich modeli.
Tak, to nie ma znaczenia, czy mówimy o GPT, czy o Geminiu, czy o czymkolwiek innym.
Tu chodzi o to, żeby jak najefektywniej zadawać pytania,
jakby wywoływać wyszukiwania
i dostawać odpowiedzi w takiej formie, w jakiej najbardziej nam zależy.
To jest to, co mówię, ja w komputerze bardzo lubię tabelki,
ale w telefonie już nie i często zaznaczam, gdzie piszę i jak potrzebuję tej informacji.
I teraz na przykład, jeżeli tak hipotetycznie chcemy, nie wiem,
stworzyć jakąś stronę internetową, która będzie dostępna,
która będzie właśnie i responsywna, i strawna dla użytkownika,
i tak dalej, i tak dalej,
to możemy z tym czatem o tym najpierw pogadać.
Dobra, jakie? Znajdź mi…
Bo to tak naprawdę jest od ogółu do szczegółu, tak?
Najpierw jest prompt ogólny, czyli tak naprawdę,
no, co powinna za stroną zawierać, a potem dlaczego tak,
a potem jakie jeszcze kryteria i tak dalej.
My tylko tak doszczegóławiamy całą tę pracę.
Po czym, jak już mamy całą dyskusję z czatem przegadaną,
tam, jakie czcionki, powiedzmy, jaka szata graficzna,
co i dlaczego,
powie się mu na samym końcu, słuchaj, stwórz mi prompt,
stwórz mi jasne instrukcje
na po prostu stworzenie strony internetowej.
Nie rób tego, ale stwórz mi ten jak najbardziej klarowny prompt.
I on nam też jest to w stanie zrobić. I potem jeszcze oceń go, prawda, na zasadzie poprawności, poprawiania iteracji i tak dalej.
Dobra, na ile oceniasz, że on jest dobrze zrobiony, podaj procentowo, to o czym wcześniej mówiłem.
No dobra, tu jest 90%, a można by jeszcze poprawić to, taki efekt kuli śnieżnej, powiedzmy,
że coraz bardziej nam się ten prompt urozmaica, ta praca z nim, jak my z nim dyskutujemy.
I potem, jak już on powie, dobra, to jest 98%, 99% w sumie.
I w sumie to już niczego nie brakuje. Tu jest szczegół, którego nie musisz uwzględniać.
Ale gdyby był, to by było 100%. Okej, kopiujemy wtedy taki już prompt stworzony.
Idziemy na przykład do Gemini’a czy do Cloda, do kolejnych modeli językowych.
Wklejamy tam im ten prompt, gdzie my wiemy, że one będą lepsze w kodowaniu.
I wtedy, no, murbeton, sukces tak naprawdę będzie, nie?
Więc to jest ważne, żeby mieć tę świadomość występowania tych modeli.
kilku różnych i wiedzieć tak naprawdę, jakie zastosowanie, który ma.
Ale w wymyślaniu promptów tak naprawdę, w ich opracowywaniu,
w naturalności takiej komunikacji tak naprawdę między człowiekiem
a tą sztuczą, mam wrażenie, że jednak gdzieś tam ten GPT jest?
W sumie chyba jak zakło z Geminiem.
Tak, one bardzo dobrze rozumieją. Każdy troszeczkę inaczej odpowiada,
to są inaczej rozważone akcenty, formatowanie,
Ale jakoś jest podobna, może to trochę tak…
Dokładnie. I takie prompty możemy wykorzystać gdziekolwiek.
W słuno do tworzenia muzyki, w generowaniu obrazów.
Jak my o tym z nim podyskutujemy.
Więc najważniejsza tu jest dyskusja.
Ja bym tak skoncludował.
Dyskusja, swoją wypowiedź.
Partnerska współpraca.
Dosłownie tak jak…
To nie jest narzędzie, znaczy jest narzędzie,
które nam ma pomóc,
ale podczas tej pracy my z nim
nawiązujemy swego rodzaju relację partnerską.
Tak jakbyśmy rozmawiali z człowiekiem,
Dawali mu jasne wytyczne, tak?
I tak naprawdę to jest megaważne, nie?
Żeby gdzieś tam to mieć z tyłu głowy, wykorzystywać to.
A i ostatnia rzecz, jeżeli ten…
Nieważne, czy to Gemini czy GPT,
nam się zawiesi, zapętli
i albo poda nam nieprecyzyjną odpowiedź,
albo jak się chcemy jeszcze bardziej upewnić,
zapytać go, to jest tzw. łańcuch myśli,
jak ty właściwie doszedłeś do tej odpowiedzi,
co ty sobie pomyślałeś,
Jakich kroków użyłeś, żeby do tej odpowiedzi dojść?
Bo jak nam coś nie pasuje, zwłaszcza…
I on wtedy… A ja… Wtedy go można wyprowadzić z błędu.
A, słuchaj, to było nie takie.
Tu powinieneś zmienić myślenie, bo tak.
I tak się to robi, nie?
Tak, przy zbyt długich czatach pęta się powtórzy,
przy czatach długich jeszcze z niej wyjdzie.
Tak, a my często mówimy,
cały czas właściwie mówimy o takim pisaniu,
o komunikacji tekstowej, trochę głosowej.
A jak to… Znowu, nie wiem, na ile to jest temat na teraz,
na jakieś właśnie usługi, czyli być może na osobną audycję.
Bo teraz weszły te jakieś udostępnianie ekranu,
te Gemini Live i nie wiem, czy GPT też.
Na ile gdzieś tam te udostępnianie ekranu, wideo i tak dalej.
Ogólnie co z tym możemy zrobić? Bo mówiliśmy o tym,
że możemy pisać, czyli pytać GPT o różne rzeczy.
I to GPT, z tego co wiem, programy, jakieś skrypty,
z tego co też Michał Dziwisz opowiadał, całkiem sensowne potrafi pisać
Ile Filuś tam w oczach mu na przykład pomogło.
O tych podmodelach też będziemy zaraz mówić.
On jest w stanie ci stworzyć coś naprawdę bardzo mocno spersonalizowanego.
Im więcej podasz mu zmiennych danych, dotyczących na przykład tego,
że chcesz stworzyć sobie skrypt, który zmieni ci nazwy folderów,
zamiast tak jak masz teraz, według numerków tracków na płycie,
według wykonawcy i zrobić podfolder na płyty i tak dalej,
i potem tytuły tworów, niekoniecznie z numerkami.
Jeżeli mu podasz wszystkie dane tzw. zmienne
albo właściwe dla ciebie, dla twoich lokalizacji,
to on jest ci w stanie wygenerować kod, który to zrobił u ciebie w folderze.
I nawet chyba nie musisz podawać takich danych
w takim języku bardzo abstrakcyjnym, teoretycznym,
tylko możesz mu chyba nawet podać przykłady,
że chodzi mi o to, żeby było tak, a ma być tam.
Mam ścieżkę, folder z blikami tam i podajesz tu ścieżkę.
Struktura podfolderów jest taka i taka, chciałbym taką i taką.
Regen, napisz mi kod, tam, plikbat albo inny tego typu,
żebym uzyskał taki i taki efekt w tym folderze.
A tu się potem nagle okazuje, że coś nie działa.
I to też, słuchaj, nie działa mi to w takim i w takim przypadku.
Co my dalej możemy z tym zrobić? Co ty możesz zrobić?
Albo wyświetlił mi błąd, wpisałem to i to,
jestem w folderze takim i takim,
tam ścieżka taka, lokalne konto użytkownika, coś tam.
No to zrób mi… Muszę, ja w ogóle muszę bardziej popróbować to.
Może jakieś fajne…
Może ci pokazać, że tak, że albo masz błąd w uprawnieniach,
Albo na przykład, że coś mu źle podałeś dane
i on ci źle wpisał w kodzie.
No, błędy mogą być różne, ale można je z nim poprawiać.
Mhm. A jakby to jest kwestia pisania.
To jest takie rozbijanie właśnie na małe etapy.
No tak. To jest kwestia pisania.
A właśnie do czego możemy wykorzystać te funkcje live,
te udostępnianie ekranu i tak dalej?
No to może… no?
Tak, tak, proszę.
Może zacznijmy od tego, jak to działa,
bo to jest coś, myślę, istotne, że na tym spółczu… tak?
Tak.
A on korzysta z tego.
Nie, on już ma.
Ma, on dwa strefy, tak.
No i?
Ja bardzo dużo i chyba najwięcej korzystam z aplikacji opisujących obrazy.
Szczególnie najczęściej w dwóch przypadkach.
Jeden przypadek to jest taki,
jak mi ktoś wyśle zdjęcie na Messengerze i to jest bardzo często.
Drugi przykład to jest, jak szukam sobie czegoś w internecie,
co chcę kupić i chcę zobaczyć, jak to wygląda,
żeby nie musieć kogoś się pytać. I to jest naprawdę…
Obecnie praktycznie działa, no, do tego stopnia,
że praktycznie bezbłędnie.
Jak kiedyś to było tak, że musiałam się cały czas pytać,
to teraz praktycznie to, co znajduję, jest to, co…
to, czym… to, czego szukałam.
I generalnie jeszcze osobiście dla mnie
To edycja zdjęć również, teraz to właśnie bardzo często,
już bardzo dobrze niektóre sobie radzą,
chociaż jeszcze, chociaż jeszcze,
chociaż jeszcze czasami,
chociaż jeszcze robią po prostu nieraz,
no, zmieniają nie to, co należy, owszem,
ale nawet tworzenie od zera po prostu obrazów z,
no, z opisu, na podstawie tekstu.
To też jest w ogóle niesamowite,
bo tak naprawdę mogę stworzyć taki obraz, jaki chcę,
pomimo tego po prostu tylko na podstawie opisu.
To już jest bardzo teraz dobrze, to działa.
Ja to jeszcze pamiętam z czasów takich początkowych,
kiedy to było w Bing, w tej aplikacji takiej na iPhone od Microsoftu.
Teraz to już ma i Gemini i już ma też
czap GPT, ale w darmowej wersji ma małe limity,
chyba najmniejsze ma czap GPT. Ale to też jest bardzo niesamowite.
Osobiście do wyszukiwania informacji to w ogóle nie używam,
to zawsze szukam normalnie w Google, bo jednak chyba dla mnie jest bardziej
pewne źródło. Nawet jak teraz już ma tą funkcję Deep Research,
że pokazuje od razu, skąd wziął dany,
tę informację, to i tak jednak wolę sobie sama znaleźć.
Eleven Labs ma też aplikację Eleven Reader do czytania e-booków,
co właśnie tym czyta zatknącą tego głosu Eleven Labs.
Ta aplikacja była darmowa kiedyś,
cały czas teraz już robią coś tam płatne w pewnym stopniu.
No to też bardzo.
I jeszcze do tworzenia piosenek, to jeszcze niepowiedziane zostało,
I to ma aplikację na iPhone’a, która jest dostępna, ale nie…
W sensie, da się z niej korzystać, ale nie jest perfekcyjnie dostępna.
I też jest dobrze, działa, ale tylko przez przeglądarkę, Refusion.
To jest chyba dość nowe, ale też bardzo dobre w tym zakresie.
A tak to korzystam z czata GPT, Klot, Gemini, oczywiście Gemini Live.
Ostatnio pozwala, że można udostępnić ekran
I on widzi, co jest na ekranie w telefonie.
Bardzo przydatne, jak aplikacja ma niezadekietowane przyciski
albo są obrazki w aplikacji i po prostu jakby nie wiadomo, w co kliknąć.
Na przykład na Duolingo, jak teraz mają na Duolingo też naukę matematyki
i tam są niektóre rzeczy, których nie czyta w ogóle,
bo to są jakieś tam figury i trzeba zaznaczyć obwód,
to on mi jest w stanie powiedzieć, co na tym obrazku jest
i robi to właściwie bezbłędnie i ja mogę wtedy zaznaczyć sobie.
To jest bardzo dużo.
No i chyba właśnie to tego typu najbardziej.
Grok też korzystam.
Też ma aplikację na iPhone’a.
No, Gemini, Claude i w sumie z nich wszystkich najbardziej,
te trzy chyba.
Password, send voice message. Cancel. Send voice message.
Dziękujemy za ciekawą wiadomość,
która nam trochę wyprzedziła, trochę podsumowała to,
Ale dobrze.
Dobrze, bo wyszło nam to, o czym mieliśmy mówić.
Ja jeszcze chętnie dodam do tego, że GPT, w moim przypadku GPT,
chociaż nie tylko, bo też sygnał Microsoftowy,
pomaga też nam niewidomym w pewnej rzeczy,
której nie byli często nam w stanie pomóc nawet, powiedzmy,
na przykład sprzedawcy w sklepach.
Bo można się dowiedzieć o tym, czy dane urządzenie ma przyciski,
czy jest ekran dotykowy, czy jest pokrętło oprogramowane,
czyli czy jest na ekranie zmiana wartości, czy jest po prostu wokół pokrętła
są konkretne wartości itd., itd.
Tych obszarów wykorzystania jest właściwie tak dużo,
że to już jest bardziej kwestia pomysłowości niż jakiejś kategoryzacji.
Ale jesteś pewny, że to on mówi, że o udostępnianiu ekranu na żywo, nie?
Mówię np. o zdjęciu.
A tu by się właśnie sprawdziło udostępnianie ekranu w aplikacji.
Nawet nie tyle o zdjęciu, ale oczywiście to też może się sprawdzać.
Bo moje doświadczenia były, powiem szczerze, takie słabe,
ale to było fakt, że to się bardzo rozwinęło w ostatnią czas.
Jak to udostępniałem, np. link do oferty, link do specyfikacji producenta
i zlecałem mu np. jakieś mini badanko
No i on potrafił mi naprawdę dużo powiedzieć.
Na przykład znalazł instrukcję,
a z instrukcji już wynik jaki trzeba dotknąć czy nadusić.
Więc wiadomo, że jest guzik fizyczny taki i taki,
ekran jest lub nie ma.
Ale to też bym uważał, ale nie mówię, że to jakby nie kwestionuje tego,
co mówisz. Ja z kolei miałem też tak, że robiłem…
Nawet chyba to było, nie wiem, czy głębokie badanie,
czy on sobie sam wyszukiwał,
w kilku stronach internetowych chodziło mi o funkcję
jakichś odtwarzaczy audio czy amplitunerów.
No i on twierdził, bo tam wcześniej była dyskusja o presetach,
czyli o programowaniu pod jednym przyciskiem albo jakichś funkcji
urządzenia konkretnych, albo stacji radiowej, internetowej.
I on twierdził, że na pilocie jest dziewięć presetów możliwych.
Po czym, po dłuższej dyskusji i moich innych badaniach,
okazało się, że on się pomylił, dlatego że owszem,
dziewięć presetów myślał dlatego, że ma klawiaturę numeryczną
A ta klawiatura po prostu służyła do wpisywania cyfr.
Taka jak kiedyś w telefonach, a nie…
Tak, i to są właśnie te jego halucynacje, które się zdarzały.
Tak, jeśli chodzi o opisywanie zdjęć sprzętu,
to ja się zgodzę z tym, że to jest naprawdę…
To jest mega przydatne, ale to działa.
Natomiast opisywanie konkretnych przycisków,
z tym jest naprawdę różnie.
Nie wiem, jak jest teraz z tymi modelami 4.1,
bo w sumie ostatnio nie miałem takiej potrzeby, żeby coś takiego robić.
Na pewno z czwórką było średnio.
Zresztą pokazywał Jonathan Mosen w swoim podcaście na pilocie
od telewizora Samsung.
Ja to zresztą później prywatnie też zweryfikowałem.
Miałem dwa piloty do dyspozycji.
Jeden od takiego wentylatora kolumnowego.
Z tym sobie nawet poradził,
ale z smartmonitorem Samsung,
czyli to właściwie taki sam pilot jak w telewizorach samsungowych,
no to tam też już jeśli chodzi o to, co te przyciski robią, pozmyślał.
Ale znów np. podczas opisywania wyglądu
odtwarzacza książek dla osób niewidomych,
jak ludzi, którzy Oriona tworzą,
jak najnowszy model, który jest dostępny w Chinach,
stwierdzili, że zrobią go w kształcie takiego pada do grania,
tylko że bez tych wydłużonych nóżek.
Ja mu w pierwszej chwili nie wierzyłem.
Jak takie urządzenie może mieć krzyżak normalnie,
tak jak na Padzie do PlayStation,
cztery przyciski z boku, jeszcze klawiatura numeryczna?
Okazało się, że miał rację.
Potem to zweryfikowałem z osobą widzącą, tutaj akurat się nie pomylił.
Więc tym jest różnie.
Mi na przykład pomógł zweryfikować ekspres do kawy,
który gdzieś tam ktoś rzucił na listę dyskusyjną.
Wziąłem mu, podałem mu link.
Mało tego, potem pomógł mi jeszcze obliczać przestrzeń,
jakby kubaturę i przestrzeń w mojej kuchni, czy to się zmieści.
I tam podawałem wymiary, policzyłem to z nim i faktycznie się to sprawdziło.
No ale to już wymaga, mówię, cierpliwości, dużej weryfikacji.
Gdzieś tam weryfikacji zewnętrznej jednak,
żeby nauczyć się tego używać.
Gdzie on robi błędy.
Jakby to trzeba już po prostu nabrać praktyki w tym.
Bo nie da się skatalogować tego, w czym on się na przykład zawsze pomyli
albo nie zawsze pomyli, albo czasem pomyli.
Nieprzewidywalne. To jest nieprzewidywalne.
Tak, bo czasami on nam poda informacje szczegółowe,
które są bardzo nieprawdziwe, a ogólne są prawdziwe,
A czasami jest tak, że ogólne naczynia też są prawdziwe,
ale te szczegółowe okażą się jednak też prawdziwe,
choćbyśmy myśleli, że może się pomylić.
Więc to tak jest różnie. To prawda.
To nawet, słuchajcie, odnośnie do takiej użyteczności jeszcze,
to ostatnio też na szybko, dosłownie,
bo szukałem butów na wypad w góry, bo się okazało, że nie miałem,
i takich porządniejszych.
I sobie myślę, dobra, zapytam GPT.
I zapomniałem o tej funkcji zakupów nawet,
że on te karty z zakupami wyświetla.
Przepraszam, krótko, funkcja zakupów, tego nie znam, co to jest?
Wiesz co, że jak mu wpisujesz prompta, że chciałbym kupić buty takie to a takie,
bo wybieram się tu i tu i one mają być w takiej cenie a takiej,
to on domyślnie szuka produktów, od razu sobie otwiera ten tryb przeszukiwania sieci
i zaczyna tego szukać. Na najpopularniejszych platformach,
Przeważnie Allegro Amazon, ale w przypadku butów też, powiedzmy, Zalando,
nie wiem, Eobuvie na przykład.
To nieźle, fajne.
I zbiera podsumowania opinii
z różnych właśnie tych miejsc.
Wyświetla gwiazdki, na ile on spełnia swoje…
Czy na ile zadowolni klientów,
analizując tę opinię.
Tam przytacza nawet tę opinię.
Niektóre tłumaczy, niektóre niestety nie.
Natomiast podsumowuje, jak ja mu ukazałem stosunek jakości do ceny, żeby to było jak najlepsze.
Nie musi być mega tanio, ale żeby było dobrej jakości w rozsądnej cenie.
Powiedzmy, no tam, powiedzmy, nie wiem, dałem mu tam 250 do 500 powiedzmy,
że tak sobie będę chciał pozwolić na taki wydatek.
I tak mi to Skubany zrobił, słuchajcie, że ja dosłownie miałem wszystko.
Każda karta, to był osobny obiekt jakby flikając prawo-lewo,
ale po wejściu miałem dosłownie wszystko,
z czego te buty, parametry też, opinie tych klientów, cenę.
Linka do konkretnej oferty miałem, która od razu też otwierała
czy to apkę Amazonu, czy Allegro.
Inną sprawą jest to, że czasami te linki były niedziałające.
Ja się trochę na przyszukiwaniu Allegra zawiodłem,
bo szukałem…
Mówiłem o tym w poprzednim podcaście, więc od razu powiem.
Badałem sobie rynek, żeby kupić jak najtaniej Samsunga Galaxy A55
i on nie trafił z ofertą.
Znaczy, owszem, znalazł jedną z tańszych,
ale po rzędu na łatwiznę wziął pierwszy link,
a nie wziął najtańszej oferty.
Mhm. I ja…
No?
Okej.
To ja się dokończę, jak już…
Odbierz teraz, a ja jak nie zapomnę, to dokończę.
Dzień dobry, Sławek mówi z tej strony.
A propos czatów.
Tak jak Michał wspomniał,
tutaj się trudno nie zgodzić.
Nie jest tak słodko,
jakby się mogło wydawać.
Rzeczywiście on…
Ja sprawdzam, weryfikuję w kilku czatach.
Na przykład zadaję to samo pytanie.
Od każdego z czatów
otrzymuję zupełnie inne odpowiedzi.
Cały czas ma miejsce taki rodzaj konfabulacji
i jego radość, że on pomaga.
Tylko że problem jest taki, że jak on,
obojętnie czy to będzie Gemini, czy to będzie Grok,
czy to będzie GPT,
nie daj Boże mu uwierzyć w coś.
Bo jak się mu uwierzy i po prostu się nie weryfikuje tego,
albo się człowiek na tym nie zna, nie daj Boże, w ogóle,
To się bada dalej, bo ja też na sieciach nie znałem kompletnie.
Można naprawdę mieć duży problem, więc trzeba to weryfikować.
A czasami to jego przepraszam to jest na nic, no bo co z tego.
Jak on coś odpowie, a ja mówię, słuchaj, to się w ogóle nie zgadza z niczym.
A tak, tak, tak, rzeczywiście, przepraszam, przepraszam, przepraszam.
No więc to było jeszcze na tym etapie, kiedy była ta…
Tekstowo się porozumiewałem z tym, potem głosowo.
No to to samo.
A teraz, jak jest ten wideostreaming, co uważałem, że to może być przełom…
Żaden przełom.
Tak samo dalej konfabuluje i bzdury opowiada.
To znaczy na przykład pokazuję mu, dajmy na to,
no bo chciałbym, żeby zmienić oprogramowanie…
Nie oprogramowanie, tylko program w pralce.
No i co? I przesuwam te pokrętło,
a on na przykład dalej się fiksuje na tym samym.
Więc ja mówię, weź odśwież, odśwież.
No to raz mu się uda, dziesięć razy mu się nie uda.
A potem za chwilę dzwonię do kolegi na Messengerze.
Po prostu w ciągu dwóch sekund
dostaję prawidłową informację.
Okazuje się, że tam nie ma ani problemu z doświetleniem,
czy z czymkolwiek takim.
To samo było na przykład kiedyś jeszcze…
A właśnie, a propos tego
szukania różnych informacji na temat jakiegoś przedmiotu.
No to tak, no dobrze. Mamy kuchenkę mikrofalową.
No i teraz ja w takim razie się go pytam.
A czy możesz mi tam wymienić, jakie są funkcje na pokrętle i tak?
W ogóle się nic nie zgadzało, tak?
Bo potem się pytam osoby widzącej,
tak że on se tak pięknie to wszystko konfabuluje,
on za wszelką cenę chce pomóc
i niestety,
tak jak to mogliśmy
liczyć na…
pewnie liczyliśmy na jakąś taką
protezę, prawda, lepszą,
ale ta proteza się okazuje póki co na razie
no…
dość problematyczna.
A co do stron internetowych, ja bym się w ogóle tym nie zachwycał, bo my nie jesteśmy w stanie tego w ogóle ocenić.
To jest w stanie ocenić osoba widząca, a tam się liczy grafika, tam się liczy rozmieszczenie obiektów, wszystkiego na ekranie.
Musi być to ładnie wykonane, kolorystyka itd. Cała masa różnych elementów, która jest poza naszym zasięgiem.
To znaczy, to z tych testów wynika akurat, które na YouTubie oglądałem,
dlatego jakby mówię, że w pewnym momencie
klot 3.7, który właśnie projektował te strony ładnie bardzo,
atrakcyjnie, wizualnie i tak dalej,
później właśnie Gemini 2.5,
a w jednym z testów wyszło, że klot 4.0,
który wyszedł później,
radzi sobie pod pewnymi względami troszkę gorzej
niż Gemini właśnie 2.5 Pro,
Który też ma sporo mniejsze limity niż ten od Googla,
więc to jakby ja nie…
Chciałem powiedzieć, że to jest też prawda,
że nawet nowsza wersja modelu, nowszej wersji modelu nierówna.
Tak jak zwróciłeś uwagę, w niektórych sytuacjach,
np. Cloud 4 radził sobie gorzej niż C7.
Podobnie ludzie komentowali, że GPT-4.5 nie radzi sobie tak dobrze
w niektórych sytuacjach, jak 4.1.
To już nie są modele językowe, ale mam wrażenie, że np. Whisper 3 radzi sobie z polskim gorzej niż Whisper 2.
Także jest to piękne, że to się rozwija i naprawdę to jest niesamowite w ogóle, że to się tak rozwija i tak szybko,
i że w zasadzie z miesiąca na miesiąc jest coś nowego. To się rozwija skokowo.
Także to jest piękna, piękna sprawa.
Bo tu już nawet nie chodzi o to, że to ma wyłączyć nasze myślenie, bo to nie odchodzi, że ma wyłączyć, że to my chcemy coś stworzyć.
To nam ma po prostu przyspieszyć pewne etapy.
Ale to jest jeszcze daleka droga, bo on po prostu, no jak nie wie na przykład, to po co on konfabuluje?
Jak on nie wie, to niech nie gada głupot. Na przykład multi-efekt gitarowy znalazłem.
No i teraz się go pytam o ten multi-efekt. Opisz mi od lewej do prawej jakie są gałki.
Opisz mi od lewej do prawej, z tyłu jakie są gniazda.
Potem się okazuje, że kompletne bzdury. Skąd on to w ogóle wytrzasnął, nie?
A mi świetnie. Na przykład przełącznik mi sieciowo opisał fajnie.
No to może to była, wiesz, może to troszkę po prostu mniej roboty czy coś,
ale takie już większe rzeczy, gdzie jest więcej elementów,
no to się zaczyna gubić.
Tak, ale to już wcześniej mówiliśmy, że z tym jest kłopot, nie?
Bo to jest tak, że im więcej jest o jakimś tam efekcie gitarowym,
czy o czymś, pewnie on nie miał zastanych z internetu
jakichkolwiek informacji, na których on mógł coś sobie wymyśleć.
A że on nie wie, że on nie jest inteligentny,
nie ma takiej samoświadomości, czy on dobrze mówi, czy źle mówi,
to mówi, żeby mówić, co mu się wydaje.
Ma po prostu jakieś dane obok tematu, nawet male, jakieś tam ma i pisze.
To jest takie zaawansowane autouzupełnianie, powiedzmy, prawda?
No, ma pewne zestawy słów, pewne ten…
I on sobie wtedy na zasadzie tych słów przewiduje, jakie mogą być następne.
No i dawaj.
Tak, osobiście mi się bardzo podoba iStudio, bo jest tak responsywne, prawda?
Tak szybko odpowiada, jakby tam był człowiek na linii.
Tylko żeby to było jednak precyzyjne, żeby on znowu nie wymyślał.
Dzisiaj chciałem użyć iStudio, żeby ustawić odpowiednio pralkę.
Ale mówię, no nie, nie da rady.
Ja nie mogę na przykład wyprać koszulek w 90 stopni, tak?
No bo on jakąś głupotę zrobi, a ja będę się cieszył, że o, to jest pewne.
To nie jest pewne.
Będziesz miał albo skurczoną, albo rozciągniętą na…
Tak, tak, w ogóle z nich nitki tylko zostaną.
Ale i tak jest to progres i naprawdę super, że coś takiego jest.
Ja jestem tylko ciekawy jeszcze, słuchajcie, jak na przykład…
Bo wiem, że dość mocno lekarze w to wchodzą, że im to zaczyna jakoś pomagać.
Ja mam nadzieję, że oni mają jakieś takie specjalistyczne, jakieś specjalne dla nich.
Nie daj Boże, by się oparli na takim czacie.
Ja wiem, jak to wygląda w sądzie, bo w Stanach Zjednoczonych w ogóle powstała taka strona po angielsku,
gdzie ktoś zaczął katalogować wszystkie sytuacje, kiedy jakikolwiek model językowy zhalucynował
np. jakieś nieistniejące rozprawy sądowe, które okazuje się…
Tak, i jacyś prawnicy mieli straszne kłopoty przez to.
Tak, to jest zintegrowane ponownie z jakimiś systemami,
których prawdnicy wykorzystują do przeszukiwania kodeksów i tak dalej.
Ale okazuje się, że nawet właśnie w takich systemach
też potrafi wymyślić jakieś rozprawy, których tak naprawdę nie było.
Tak, taka sprawa była słynna podobno we Włoszech,
że przyszedł adwokat i sędziemu zaczął coś przedstawiać,
a się okazało, że to właśnie jest w ogóle…
Nieistniejąca dana.
Nie tak naprawdę na całym świecie już takie sprawy były, tak.
W ogóle lekarzom to może pomóc.
Na przykład w takich rzeczach zerojedynkowych,
czyli konkretnych, czyli analiza wyników badań np. krwi,
gdzie coś jest oczywiste, że to jest parametr za wysoki, za niski albo w normie.
Takie dyskretne, zerojedynkowe, ostre rzeczy
mogą może ułatwić analiza przy ułożeniu takich modeli.
Ja myślę, że tam w ogóle oni przygotowują zupełnie osobny czat,
Który będzie tylko i wyłącznie dla lekarzy,
żeby to było pewne.
Tak jak Chińczycy w tej chwili.
Wiem, że zrobili taki wirtualny szpital,
gdzie są wirtualni pacjenci i wirtualni lekarze.
No i mają bardzo duże osiągnięcia.
To znaczy, okazuje się, że faktycznie,
jeśli chodzi o lekarzy tych wirtualnych,
Diagnoza to jest trafność 93%. To w ogóle nie ma szans żaden lekarz z taką dokładnością.
Żeby tak trafić. No i pewnie będą to implementować po prostu powoli do placówek służby zdrowia.
Nie wiem, czy u siebie, czy potem na świecie,
ale to jest rzecz na pewno, która będzie.
Odnośnie tak do zdrowia właśnie,
to też się taką troszeczkę prywatą podzielę swoją,
bo niestety się rok temu alergia zaczęła
i byłem tam najpierw robić sobie badania z krwi.
No i przyszły wyniki, prawda?
W sensie tam online do pobrania.
Ja sobie myślę, dobra, za dwa dni mam wizytę u lekarza rodzinnego,
ale okej, w sumie co mi szkodzi?
i wyłączyłem sobie niby ten czat tymczasowy,
no, powiedzmy tak, proforma,
bo też nie wiadomo, na ile to jest prawdą,
że tam potem te dane są usuwane, a na ile trenowane, niby za to…
To też nie wiem, że nie są.
Więc, no ale dobra, stwierdziłem, dobra, włączę, co mi tam.
I wrzuciłem mu te PDF-ki tych plików.
Słuchajcie, Miodzio, mówiąc kolokwialnie, naprawdę,
procentowo oszacował mi te wskaźniki,
i też generalnie to, na co mi tam powychodziły uczulenia.
Niestety powychodziły.
I sobie myślę, dobra, pójdę za dwa dni,
nawet nie skonfrontuję to z lekarzem,
bo ja będę udawał, że niczego nie ten,
żeby lekarzowi, że tak powiem, nie odbierać ani satysfakcji,
ani pracy, a jeszcze jakbym wyszedł na durnia,
no to wiecie, poszedłem, dokładnie mi, słuchajcie,
to samo powiedział, więc jakby…
To a propos tego, to ja jeszcze też powiem taką właśnie historię,
bo zapytałem czata, dlaczego, jeżeli ja jestem przeziębiony,
to mam przeskoki serca.
I mówię, to mnie bardzo dziwi, no, dlaczego tak jest.
A on powiedział, że to jest kwestia nerwu błędnego
i ten nerw błędny jest w jakiś tam sposób uciskany,
na przykład przez to, że tam ta śluzówka opuchnięta jest w zatokach,
W różnych miejscach są takie rzeczy i to podrażnia ten nerw,
a on odpowiada za elektryczność serca, tak?
I potem mi się to potwierdziło.
Tylko dlaczego żaden kardiolog mi tego wcześniej nie powiedział?
No właśnie, to…
Bo to jest tak, bo to jest tak, że ten czat to jest po pierwsze
dla nas 24 na dobę, to jest jedno.
Po drugie, wiadomo, no tak jak mówisz,
nie wierzyć temu, nie ufać bezgranicznie,
Ale wstępnie zapytać się można, zbadać jakoś tam temat można,
potem się potwierdzi albo nie, nic nie tracimy w sumie.
A cierpliwości to ten czas i grzeczności to ma odtąd, potąd,
gdzie naprawdę niejeden człowiek by się mógł uczyć tak naprawdę od tego.
Dwa najgorsze podejścia.
Bezkrytycznie uwierzyć i przyjąć,
albo po prostu odpuścić po pierwszej próbie, no bo to…
Tak, tak, tak, właśnie.
A widzisz, kardiolog ci nie… Bo rozłożył twoje pytania inaczej.
Nawet nie musiał rozkładać, bo on już to miał w danych treningowych, nie?
Pewnie i ten… I tak naprawdę ci wyłuskał to, co miał?
Wyłożył ci?
To byś mogła pytać, a dlaczego?
Potem się potwierdził u kardiologa, tylko dlaczego żaden z tych kardiologów
mi tego nie powiedział znacznie wcześniej, no więc takie…
A to już jest akurat kwestia, że mam wrażenie, że lekarze,
jeżeli mają coś powiedzieć pacjentowi, to mówią tak,
Tak żeby jak najmniej tego, co może gdzieś tam niepokoić,
albo zabić niepokojąco.
Tak, tak, tak.
To raczej tutaj o to chodzi.
Niektórzy są bardzo skąpi, bardzo lakoniczni
i niektórzy są mało kontaktowi.
Byle by ten pacjent tam nic nie chciał, nie pytał.
Otóż właśnie niestety to jest cały problem.
Niech żyje czat. Niech żyje czat.
Pod tym względem też.
Z ograniczeniem zaufania, ale niech żyje czat.
Oczywiście, że tak.
Jakbyście mogli, to tam jeszcze powiedzcie coś o tym…
mam nadzieję, że coś powiecie, jak u was to wideo działa, ten streaming.
Ja nie używałem jeszcze.
Ja bym chciał zapytać jeszcze właśnie ciebie, Sławku,
i ciebie, Kamil, was, panowie, właśnie, kontrolnie,
odnośnie do tego, czegoście używali.
Ty, Sławku, odnośnie tego…
odnośnie tej gitary, to używałeś czego?
Gemini’a, tak? Czy GPT?
Od Google’a?
Gemini’a i Groka.
Aha, i Groka.
A ty Kamilu, odnośnie tego przełącznika?
Co ci opisywał?
Ja po prostu mu zlecałem tekstowo,
żeby mi opisał co,
tam gdzie po kolei jest.
A, dobra, bo myślałem, że to w trybie wideo.
Nie, właśnie nie w trybie wideo.
Troszeczkę się tam mylił,
ale w sumie niewiele.
Jak mu dokładnie opisałem,
że urządzenie leży frontem do mnie
Napisz mi to, gdzie ma po kolei, jakie porty, gdzie są, jak pol składany.
O, ogarnął, ogarnął.
Tak, to poniekąd potwierdza moją tezę, o czym też, jak przejdziemy do tych trybów wideo i tak dalej,
to ja też powiem o tych swoich doświadczeniach, bo u, tu się działo na tym polu.
Fajnie, to dziękuję wam bardzo. Pozdrawiam.
Dziękujemy.
Pozdrawiamy.
No hej.
Cześć, cześć.
To ja bym jeszcze do tych zakupów chciał dosłownie wrócić.
Jeszcze dosłownie na pół minutki.
Finalnie te buty to ja wybrałem,
bo były kwestie, że znalazł mi na zimę,
a miał znaleźć na lato coś tam.
Ja mówię, słuchaj, ale to miało być na lato, a nie na zimę.
To coś tam, kolor taki miał być.
Dobrze. Finalnie po przeprawie znalazł mi ofertę,
którą ja chciałem.
W rozmiarze takim i takim, te buty.
I kontrolnie mówię, dobra.
O dziwo, ta oferta jest aktualna.
Już bym nie podał, bo jak mówiliśmy, od ogółu do szczegółu,
to mu w końcu się wkurza w promcie mu za warem.
Słuchaj, ma być oferta aktualna, na dzień taki i taki.
Ma to być buty na lato, znaczy buty na lato,
w rozmiarze takim, a ten kolorze takim, a takim.
I szukaj wyłącznie na Allegro w tym momencie.
Bo u mnie inne platformy…
I on faktycznie wtedy znalazł…
Ja wysłałem to mojej mamie sobie, myślę, a co mi szkodzi.
I faktycznie, jeszcze potem szukaliśmy innych, bo coś mi z kolorem mimo wszystko nie do końca pasowało.
A finalnie i tak się na te buty zdecydowałem. Opinia była chyba przez tego czata wygenerowana.
Znaczy, jak znaleziono się to chyba było 4,5 czy 4,6. Ja bym ocenił na 4,2 powiedzmy te butki.
Więc, że powiedzmy nawet ten zakup jest udany. I to co ja jeszcze zrobiłem na końcu, jak już cała była ta konwersacja,
O tym też będziemy gdzieś tam mówić, jak przejdziemy stricte do tych modeli poszczególnych.
Ale całość jeszcze odpowiednim promptem zweryfikowałem z modelem rozumującym,
stricte, żeby się upewnić. No i faktycznie mi potwierdził już potem,
podał mi taką kompleksową odpowiedź, jak już po wszystkim, po całych utarczkach, nie?
Tak, to też jest dobra strategia, ale o tym.
Zaraz, tak.
Czyli co, teraz przechodzimy do tych opisów poszczególnych modeli, tak?
Ale się audycja cieszy powodzeniem, tak.
Dobry wieczór.
I witamy kogo?
Dobry wieczór, Kornelia. Pierwszy raz w życiu dzwonię.
Generalnie tak, a propos tych zakupów internetowych właśnie i tych, co mówiłam właśnie wcześniej,
Ja na przykład, jak sobie czegoś szukam, to raczej nie na zasadzie,
że pytam go, żeby mi szukał oferty, tylko chodzi o opis obrazku,
na przykład na AliExpress, gdzie opisy ogłoszeń są bardzo słabe.
Po prostu, że z samych opisów nie jestem w stanie wywnioskować nic,
kompletnie nic. A jak szukam na przykład sobie czegoś,
ubrania, ja mówię o ubraniach, czyli rzeczach takich, gdzie nie da się
raczej pomylić, bo to są kolory głównie tam, czy jakieś rzeczy tego typu,
To o tym. Ja robię na przykład screena, bo tam zdjęcie zapisać jest bardzo ciężko z Aliekspress.
Chociaż aplikacja teraz na iPhone’ie jest bardziej dostępna.
Już w wiadomości mogę się sobie od sprzedającego wejdę sobie bez problemu.
Ale zapisuję sobie zdjęcie i dopiero jak je sobie zapiszę, to wrzucam do synienia jaj,
bo on osobiście mi najlepiej chyba ze wszystkich opisuje.
I jeszcze wam nie wiem, czy w polskiej wersji już to działa,
ale jak sobie zmienicie język na angielski,
i to możecie też zapytać o szczegóły obrazka.
W sensie tam jest po prostu możliwość zapytania w Seeing.ai
o szczegóły jeszcze zdjęcia.
Tego jeszcze chyba nie ma u nas po polsku.
No to sobie wystarczy zmienić język aplikacji na angielski,
a możecie zadawać pytania po polsku i on odpowie.
Tylko po prostu będzie jakby pierwszy opis będzie po angielsku,
a później o szczegóły nawet można po polsku. Nie wiem, czy ten.
A i Seeing.ai też ma już możliwość opisywania filmików,
chociaż strasznie długo przetwarza i dość, dość,
jakieś czasem to weszło, ale ma taką możliwość.
I generalnie też to nieźle, nieźle ten.
Ja najbardziej z Be My, tam w Be My Eyes ten AI nie korzystam
w ogóle. PeakyBot też korzystam. Bardzo…
Też filmiki określaj sobie fajnie w zasadzie.
Bardzo dużo, jeśli chodzi o, później będzie o tym właśnie
trybie wideo i udostępnianie ekranu, to w moim akurat
W przypadku, nie wiem, jak jest na komputerze, tylko iPhone’iem mogę powiedzieć,
właśnie w przypadku aplikacji, gdzie kompletnie jest nieczytelny,
w sensie czyta, że przycisk, tam przycisk, po prostu tak bez żadnego opisu,
to jest mi w stanie powiedzieć właśnie, co widać, czy co mam zaznaczyć.
No mówię, takie właśnie rzeczy.
I ja korzystałam na razie tylko z Gemini Live, tego z kamerką
i z udostępnieniem ekranu, z czatem TPT nie miałam do czynienia,
bo on jest tylko w płatnej wersji, z kamerką, ta możliwość, generalnie.
Tak, tam będzie wideo dokładnie w płatnej wersji.
Ale słuchaj, Cornelio, bo ty masz akurat ten atut,
że korzystasz z systemu po angielsku, prawda?
Tak.
To możesz sobie, jak masz przycisk, przycisk, przycisk,
rozpoznawanie ekranu próbowałaś sobie w voiceoverze włączyć na przykład?
A, właśnie, nie, nie w sumie.
Akurat po angielsku to fajnie działa, po niemiecku zresztą też, ale…
A to nie, to akurat nie, ja osobiście tego nie,
ale no ciekawa jestem, jakby sobie poradził,
jak na przykład aplikacja ma tylko obrazki,
że na przykład tak jak na tym Duolingo,
gdzie jest u góry obrazek i trzeba na jego podstawie
tam zaznaczyć coś u dołu z tych też nieopisanych przycisków.
Właśnie to jest, to akurat tutaj ostatnio mi się zdarzyło,
no i w ogóle często są aplikacje,
które mają po prostu takie nieopisane w ogóle,
nieopisane właśnie jakieś tam przyciski czy coś takiego.
No i jeszcze o tym szybko powiem, bo nie wiem, czy będzie w ogóle temat.
Tworzenie obrazu na podstawie opisu, czyli…
No teraz osobiście ten ma już Dżemina
i bardzo dobrze to sobie radzi z tym od niedawna w sumie.
Ja to pamiętam od początku, od czasów tego najstarszego Bing.
to był wtedy jeszcze ten w Microsoftu taki…
Jak jeszcze czat GPT-4 tam był w tym biegnie dostępny.
Ale osobiście dla mnie to też jest niesamowite,
że faktycznie jakikolwiek opis po prostu mu dam
i on mi stworzy obraz na jego podstawie i naprawdę to już robi dobrze.
I osobiście jako osoba, która nie widzi od urodzenia,
czyli no, nie wiem, tak jak rysowanie takie zwykłe, no wiadomo, nie.
Nie, na żadnej folii, tej takiej wypukłej, też nigdy mi nie wychodziło,
bo wiadomo, nigdy nie było to, co chciałam narysować, nie umiałam.
A teraz potrafi mi stworzyć obraz taki, jak naprawdę chcę i jak, jak,
jak po prostu, no, no to jest też taka kreatywność,
to akurat ten kreatywny aspekt sztucznej inteligencji,
to też taki właśnie kreatywny tworzenia różnych rzeczy też,
mi się wydaje, jest bardzo ważny i taki, no, mi się wydaje bardzo ciekawy,
bo no, w życiu nie przewidziałabym, że powstanie coś takiego,
Ale do wyszukiwania informacji w ogóle nie korzystam,
bo za dużo razy mi się pomyliła i po prostu nawet jak teraz
chat GPT ma ten Deep Research, to wolę sobie sama wyszukać w Google,
bo po prostu bardziej ufam. A już w ogóle jak chodzi o produkty,
to bym nie ufała, bo też nie wiemy, czy te oferty nie są na przykład
na podstawie jakichś tam reklam sugerowane, czyli no…
Chodzi mi o to, czy te oferty na przykład nie są sugerowane też
Czy od tych sklepów internetowych, które są ureklamowane jakby,
czy to nie jest forma reklamy? Więc ja bym też tutaj uważała,
bo tak może być w sumie. Też Google ma to wprowadzić niedługo,
ale jeszcze ten AI mode chyba w Polsce nie istnieje.
I osobiście mi ta odpowiedź od AI często ta na górze strony w Google,
bo się mi wyświetla osobiście takie…
Tak, tak, takie straszczenie.
Tak, tak, tak. Bardzo dużo błędnych, bardzo dużo błędów pokazuje.
Mi się bardzo dużo zdarzyło, że to, co on wymyślał,
on po prostu wymyślał, nawet nie na podstawie istniejącego artykułu,
nie wiem, po prostu nie ufam i temu w ogóle nie ufać,
mojej mamie też się zdarzyło.
Że to takie, no, bardzo, bardzo dużo błędnych,
różnych informacji pokazuje, nie jeszcze temu ja bym nie ufała
i zawsze sprawdzić trzeba, zanim się…
Wiadomo, takie podstawowe rzeczy, to będzie dobrze jedział,
ale niektóre trudne, bardziej skupione na temacie jakimś takim nietypowym,
to ja bym nie ufała jeszcze. Generalnie na razie tyle. Dziękuję.
Dziękujemy za odpowiedź.
Ja myślę, że te wyniki, też często związane z zakupami,
to jest tak, że okej, może jakaś firma płaci, żeby konkretnie linki się pokazywały,
Pytam czy Obenajowi, czy komuś.
Ale myślę, że to też kwestia danego modelu rozumowania
albo właśnie trybu badania, czy jest domyślne, czy głębokie,
bo często jest tak, że to po prostu jest pierwszy link na stronie,
często taki sponsorowany i może stąd takie wrażenie jest.
Teoretycznie, nie wiem, na ile to jest zgodne z praktyką,
na ile to ma pokrycie w rzeczywistości,
natomiast była kiedyś dyskusja też w jednym filmiku,
na temat tego, że SEO, które obecnie jest stosowane,
no ta sztuczna inteligencja, że ona tego tak de facto
pod uwagę brała nie będzie i tak to, to co jest w tym momencie ważne,
to właśnie stricte rozpoznawalność na przykład danej marki,
to tak naprawdę nie same, powiedzmy, słowa kluczowe,
jakieś tagi, pozycjonowanie tu czy tam,
tylko właśnie on przeszukuje jako całość
i będzie brał te pod uwagę, czy powiedzmy sklepy, czy produkty,
które rzeczywiście się cieszą, powiedzmy, największą sprzedawalnością,
tak, powiedzmy, opinią, jeśli chodzi o jakość i cenę.
Jakby on analizuje to, autentycznie sobie analizuje,
więc konkluzja w tym filmiku była taka,
że jeżeli chcemy naprawdę się dobrze wypromować
w tych nadchodzących czasach, już w zasadzie będących,
jeśli chodzi o wyszukiwarki AI,
to właśnie warto bardzo tę obecność zaznaczać właśnie w Internecie.
Dużo tworzyć, przede wszystkim dużo tworzyć
i ten Internet w ten sposób karmić
i żeby w ten sposób temu AI-owi dać znać o swojej obecności,
żeby nas czy cytował, czy promował i tak dalej.
To teraz co? Przechodzimy do opisu
do tych poszczególnych modeli i usług, tak?
Mam na myśli GPT, Gemini i tak dalej, i tak dalej.
No tak.
Moment, czekaj.
To teraz co? Przechodzimy już do poszczególnych…
Tak, myślę, że to już jest czas.
Myślę, że tutaj też będzie można fajnie wpleść tę dyskusję
o trybie wideo, bo to też…
Tak, to samo od was się dowiem, bo akurat i ja z tego trybu wideo
Mnie zachwycił, znaczy zachwycił to za dużo powiedziane,
ale w sumie uprościł sprawę w pewnych kwestiach czat głosowy,
bo ja jestem taki, że bardzo dużo piszę w tej klawiaturze,
mnóstwo chcę od niego uzyskać,
a kończy się to czasami potem tym, że mam ochotę rzucić klawiaturą.
Hehehe.
No to są pierwsze, najbardziej tak jak słychać to z naszych rozmów, czat…
Hashtag GPT.
Tak, to jest najbardziej chyba znane.
I co? Warto w ogóle skorzystać z konta darmowego?
Ono ma jakieś istotne ograniczenia?
Ja powiem więcej.
Teraz tak naprawdę możemy korzystać i…
Tylko to tak jest na zachętę, tak?
Wypróbuj, taka próbka, że bez rejestracji generalnie…
Co to w zasadzie zdaje, prawda?
Ale to mamy aż 10 wiadomości chyba, aż tylko.
I brak możliwości załączania plików.
Także żeby tylko pozostać trochę…
Nie.
No, jak nie założysz konta, to wiesz…
Aha, że bez konta, bo ja myślałem, że jak nie zapłacisz…
Nie, bez konta, totalnie.
Totalnie bez konta, to faktycznie może tak być.
Bo konto… A co rozumiem? Przez konto zakładamy?
Co, wpisz adres, e-mail, hasło i to jest wszystko?
Czy logowanie się przez Google albo…
Nie wiem, przez wózka niech będzie można, przez appa…
Tak, przez numer telefonu też.
I ten darmowy on już sporo potrafi, to ty, Michał, wiesz, bo…
My specyficzne zastosowanie mamy, bo przypisanie się przydaje do badań.
Do artykułów, do kompilowania źródeł czy czegoś takiego.
Do zbierania notatek z tekstów.
Do kompilowania źródeł i zbierania notatek to właściwie jest notebook LM.
Jak nie zdążymy o tym w ogóle powiedzieć,
to będzie trzeba zrobić osobny podcast.
Ale tak trochę żartuję. Zobaczymy, co nam z tego wyjdzie.
Ja do tego w każdym razie używam GPT w wersji plus,
dlatego że płatna ma te limity, tych głębokich badań.
On bardzo fajnie składa jakby nam to, co…
Bo to aromowi użytkownicy też mają, ale aż pięć.
I to tych lekkich takich, więc deep researchy.
Jeżeli ktoś nie potrzebuje takich właśnie głębokich analiz,
to gdyby nie to, to pewnie by przy darmowym koncie pozostał.
Bo tak naprawdę, jeśli chodzi o tego GPT,
ale my się fajnie uzupełniamy,
to jest tak, że 4O, model 4O,
jest modelem podstawowym na ten moment.
A jak sobie włączymy opcję przezabawnie się nazywającą po polsku
Pomyśl dłużej, włącza nam się model O4 Mini,
czyli właśnie już model rozumujący, który spróbuje…
Czy ja w ogóle nie rozumiem tych nazw?
Bo to w ogóle… To jest takie…
Brak logiki.
Ale to jest mylące. Ja bym pomyślał, że Mini…
Faktycznie.
Model Mini to coś mniejszego, czyli on lajcik taki.
Lajt taki mniejszy, gorszy niż ten model 4O.
No widzisz, bo tu jest różnica 4O a O4.
No co to znaczy 4O? Że omni?
Tutaj O, to ja może coś wytłumaczę.
Tutaj O w 4O znaczy omni.
To był pierwszy model od GPT, który dostał tzw. multimodalność.
I tutaj już tłumaczę, co to znaczy ta multimodalność.
Zaczęło się, że to były modele do generowania tekstu.
Wpisujemy tekst, dostajemy tekst.
Pierwsza wersja czwórki, do tego jeszcze została funkcja Vision,
czyli możemy wysłać tekst, możemy wysłać grafikę, dostajemy tekst.
Model O do tego wszystkiego dorzucił jeszcze głos
i dorzucił do tego jeszcze w pewnym stopniu wideo,
chociaż do tego wideo to jest bardzo mało wprowadzane.
No i tutaj to o, jak omni, znaczy po prostu tyle, że ten model 4 o jest…
Na różne sposoby, że możemy z tego korzystać, jakby.
Tak, to nie musimy wgrać do niego koniecznie tego tekst czy grafikę,
ale właśnie możemy wgrać mu na przykład plik dźwiękowy jeszcze jako załącznik.
Chociaż nie wiem, czy GPT sobie z tym tak radzi.
Wiem, że Gemini taki pewnie do tego tematu przy okazji Gemina jeszcze wrócę.
Do niedawna sobie nie radził GPT.
A właśnie to GPT, przepraszam, też możemy wykorzystać
Takie jak Whisper, do rozpoznawania, do wyciągania tekstu z dźwięku?
Widziałem teraz w aktualizacji jednej z aplikacji, z której korzystam,
czyli Bold.ai, że do API trafił nowy model 4.1 Transcription.
Więc przepuszczam, że tak, ale to jest na tyle świeże,
że jeszcze nie zdążyłem tego przetestować.
Ale o co właśnie chodzi z tą wielomodalnością,
to jest właśnie to, że możemy pracować na kilku typach danych
i ona może dzięki temu np. coś więcej z tego wyciągnąć.
Bo tak jak mamy…
Dobra, może do tego wrócimy, bo jeszcze co, jak mówiliśmy cztery o…
O co chodzi z tym O1, O2?
To są modele zoptymalizowane pod…
Jak nie wiem, jak to po polsku się tłumaczy, deep thinking,
takie dłuższe myślenie.
Takie głębokie, dłuższe myślenie.
Ale skomplikowali, to nie sądzicie?
To należy być po prostu bardziej po ludzku.
Tak.
Bo w tej chwili, ja sam tego nie rozumiem, ja po prostu korzystam z domyślnego,
a jak nie pasuje mi, to wtedy zaczynam grzebać dopiero.
Bo to jest tak, że jeżeli…
I jeszcze po co to mini?
No tego mini to już w ogóle nie rozumiem.
Ja to mini chyba rozumiem, że dla telefonów czy coś, nie wiem.
Bo on faktycznie ma szybciej działać, ma mieć krótszy ten czas odpowiedzi, no ale też…
I za tym idzie jesteś tańszy w eksploatacji.
Tańszy w eksploatacji, tak.
Tak. I jeszcze powiedzmy, bo był kiedyś sobie 4O mini, który chyba, zdaje się, Piotrek, jak się pomylę, to mnie popraw,
ale chyba nie miał możliwości przeszukiwania internetu 4O mini, a już ten O4 mini, który jest rozumujący, to już ma.
Tylko, że jest właśnie tańszy, szybciej, tych odpowiedzi udziela. Jego sposób myślenia nie jest aż tak skomplikowany,
jak modelu wariantu bez mini, powiedzmy.
Ale model rozumujący, to chodzi o to,
że on nam bardziej tak mówi, jak coś robi, tak?
W sensie, że na przykład… Bo tak mi kiedyś Michał chyba…
Tak, możesz sobie podglądać cały proces myślowy, co on robi.
Tak, że jakiś program coś od niego chciał
i ten model użył właśnie tego rozumującego
i on mu tak krok po krok jakieś zadanie z matematyki udowadniał,
to właśnie mu mówił, dlaczego tak i tak robi,
pisze w taki sposób jakiś tam skrypt czy program.
Najbardziej mnie bawi, jak tam się włączy głębokie badanie,
że to długo trwa.
I odpalimy sobie tego loga.
I tam on tak trochę myśli…
Chce pisać po polsku, ale myśli po angielsku.
I pisze, że let me ujemy na ten temat.
Tak, to jest spowodowane tym,
w dużej mierze z jakich języków te modele są trenowane.
Często ludziom, przynajmniej kiedyś, na pewno Dipsik tak robił,
ale nie wiem, czy o, to model GPT też czasami po chińsku myślał.
Ale potem finalnie odpowiedź zostaje po polsku, żeby nie było, ale tak.
W sumie trochę tak i nie, bo na przykład ja dzisiaj robiłem coś na studia
i całą odpowiedź miałem generalnie po polsku,
a nagle mi się wdarło niemieckie,
wędu chcesz, w sensie zamek wędu, więc wędu chcesz, jeśli chcesz, prawda?
Wędu chcesz. To bym i tak rozwalił.
Tak, ale właśnie i masz polski taki log, ciąg, coś tam, coś tam,
Coś tam są, coś tam użytkownik chce. I za chwilę znowu użytkownik chce już po polsku, nie?
Tak, dokładnie. Ale właśnie ta różnica tych modeli tu polega na tym, że
okej, no trzeba mu dać w miarę szczegółowy prompt, ale on i tak sobie już jest w stanie
pomyśleć o czymś, o czym my byśmy sobie na przykład nie pomyśleli, bo na ten przykład
sprawdź mi odległość do najbliższego przystanku autobusowego
Od mojej obecnej lokalizacji, gdzie jestem, tutaj wiadomo, podaję mu gdzieś tamtą lokalizację,
się tutaj nie będę dzielił. Natomiast… I on mówi, dobra, no to skoro użytkownik tego chce,
to ja tu teraz otworzę mapy. Ja tu najpierw przeszukam OpenStreetMap. Oj, tu nie działa to niestety,
bo jest jakiś dostęp poblokowany. Dobra, to ja odpalę Google’a. O, tutaj coś mamy.
No to w takim razie ja sobie tu skopiuję współrzędne, a tutaj widzę Google Earth,
sobie weźmiemy z tym zdjęcia takie i takie,
przeanalizujemy sobie. Wiecie, tak naprawdę my mu tego
nie napisaliśmy wprost, a on…
Ale on jak ci to wyświetla, to to nie jest tak,
że on to wszystko ci opowiada, tylko tak…
Znaczy, to jest to, o co mnie pytałeś przed audycją.
To jest ten taki log, pytałeś, czy można wiedzieć,
jak on myśli. My o tym teraz mówimy.
To jest przeważnie pod przyciskiem albo myśli,
przycisk, albo myślał przez ileś sekund,
Sekund, tak.
I to sobie rozwiniesz i dopiero jesteś w stanie sobie to podejrzeć.
Albo jak masz głębokie badanie, to tam masz…
Źródła czy coś tam, czy numery.
Przeszukuję tam, nie wiem, np. fonarena.com,
tam 14 źródła, przycisk, myślenie.
I wtedy robisz spację na tym przycisku i to się rozwija pod…
A to 14? Co znaczy 14?
No to, że ile już źródeł przestanował.
Aha, że 14. źródło z kolei, o to chodzi.
Na przykład, nie?
Rozumiem.
I potem on to… Zakończono tam badanie,
Tam, że research completed, tam, nie wiem, in five, in 15 minutes,
tam, nie wiem, 40, tam, 45, tam, sources, czy tam 45 źródeł, nie?
W skrócie powiedzmy, ta strona czata GPT, ona jest i dla voice-overa na Macu,
i dla Windowsa dostępna, tak? Nie ma?
Ona właściwie spełnia na drugim poziomie chyba A,
te dostępne na WCAG.
Miała ostatnio na Macu swoje oj, dosyć mocne wtopy i bolączki,
natomiast jak poszedł feedback, pewnie ich tam pary było,
Bo tak się teraz zaczęła ta dostępność diametralnie poprawiać.
Na szczęście już jest całkiem dobrze.
Tak, to jest przemyślane do tego stopnia,
że nawet kiedy np. napiszemy jakąś wiadomość,
no to nam strona powie,
jaką wiadomość otrzymamy, zostanie przeczytana.
Kiedy ten model myśli…
Tak, to są już komunikaty do przeglądarki.
To są te accessibility notifications,
które idą do czytnika ekranu bezpośrednio,
bo tego nie widać w przeglądarce.
Tam są jakieś ikonki, obrazki,
ale to idzie przez przeglądarkę do czytnika ekranu.
Dokładnie. I na takiej stronie to, co o czym też chyba, zdaje się, Kornelia wspomniała,
z tego, co pamiętam, albo i nie, ale być może, że ten tryb głosowy,
a i owszem, jeśli chodzi o stronę, ale trybu wideo, ale tryb wideo to wyłącznie
na… w aplikacji mobilnej. W smartfonie.
W smartfonie, tak. Więc z trybem głosowym, znaczy w trybie głosowym,
jesteśmy sobie normalnie w stanie pogadać i na stronie, i w aplikacji na Maca,
na pewno na Windowsa, nie wiem, podejrzewam, że też.
Chyba też.
Chyba też. On tam wiadomo prosi o uprawnienia też do mikrofonu.
Ale mamy to, możemy z nim rozmawiać.
Na bieżąco te modele sobie też wybierać.
Tryby wszelakie również, typu głębokiego badania, deep researchu.
A pozostałych trybów tak naprawdę my nie musimy aktywować.
Pisz i koduj tam są.
Pisz i koduj.
To są narzędzia. Przeżukaj sieć.
Właśnie, bo pisz i koduj, to rozumiem, że co? Do programowania, tak? Do kodowania, o to chodzi. Pisz i koduj, tak?
Nie wiem właśnie, czy do pisania tekstów też nie, ale wydaje się, że głównie do programowania.
Aha, a to przeszukaj sieć? To czym to się różni? Od deep research? Co to znaczy?
No bo deep research, nie dość, że ci przeszukuje źródła, to jeszcze ci próbuje je zestawić.
Czy to ma sens? To jest takie głębokie myślenie, trwa od kilku do kilkunastu minut.
On też ma większy wachlarz możliwości szukania tych źródeł.
On przeszukuje strony, on próbuje to robić jako taki zwykły,
taki user agent jak Przeglądarka, próbuje ci tam nieraz tworzyć konta.
On tam ma mnóstwo tych sposobów.
Dokładnie, czego stricte takie wyszukiwanie nie ma.
No i też, powiedzmy, takie wyszukiwanie podać i powiedzmy to zwykłe.
Maksymalnie, no nie wiem, pięć, sześć źródeł, no może czasem dziesięć.
I krótkie dwie, trzy strony, tak do dziewięciu, mówię,
do dziewięciu, ośmiu tysięcy znaków.
Deep Research potrafi wyrzucić 30, nawet 20 parę stron.
Jak ma długi prompt i długie uzupełnienie,
to naprawdę potrafi sporo wywalić.
Tak. I potem cały raporcik można sobie pobrać w PDF-ie na przykład,
czy w… i tych stron jest naprawdę sporo,
z całym wprowadzeniem, ale akademickim, powiedzmy,
z, tak, odnośnikami wszelkich…
Ale nie musi być akademickie.
Jak sobie właśnie tutaj personalizujesz, to jest spoko.
No i właśnie za to chciałem tego plusa, nie?
I to ile kosztuje ten plus?
Stówkę miesięcznie.
Setka.
Aha. I jak płacimy?
Euro. Euro paypalem lub kartą.
Aha, ale kartę dodajemy do naszego profilu?
Czy musimy jakąś przez stronę…
Znaczy ja to w ogóle paypalem się posługuję,
bo ja uważam, że jeżeli kartę dodałem w jednym miejscu,
to po co w innych, nie?
Chyba, że komuś bardzo zależy,
bo tam są jakieś minimalne różnice w przewaludowaniu,
A z aplikacji, no nie, z aplikacji to pewnie jakbyśmy płacili…
Pytanie, jaka cena? Czy to pójdzie przez iTunes, czy przez normalnie przez…
To znaczy, no Apple do niedawna miało w regulaminie wymóg, żeby wszystkie zakupy szły przez App Store.
Ostatnio w Stanach Zjednoczonych to zostało sądowo po prostu wymuszone, że już tak nie powinny,
że deweloperzy powinni mieć prawo do samej decyzji. Natomiast wcale bym się nie zdziwił,
Gdyby ta cena na iPhonie, jak się zapłacimy zakupem wewnątrz aplikacji, nie była wyższa, ale nie potwierdzę tego.
To jest dziewięć, to jest setka bez grosza tak naprawdę.
Znaczy nie, tam z przewalutowaniami typu Paypal i jakimś tym, to masz u nas tam 102 złote mi wyszło za czerwiec.
O widzisz, to w App Store, a ojej, no to mi to wydziwia. W App Store masz regularny 99.
Ja kiedyś aż do Tyflo przeglądu jak dzwoniłem, to 92 złote.
Apple Pay’em można płacić? Można.
A to ja muszę sobie w takim razie zmienić metodę płatności.
Na z iPhone’a. Tutaj sobie tylko sobie subskrypcję anuluj na stronie, bo tak to Ci nie przejdzie.
Tak, wiem, bo ten będzie uciekł.
Ja natomiast z Revoluta z kolei, bo w dolcach, akurat ja nie wiem, bo ty mówisz w euro, a ja mam w dolcach akurat.
Bo tutaj masz tam całe OpenAI, jak zwykle Ireland, bo tam wiadomo najniższe podatki w Unii i takie rzeczy, to tam wszystko tam siedzi, na Irlandii.
I chcą euro, nie?
Nie, no właśnie nie. Ja mam wszystko w dolcach, chyba że dlatego, że jak subskrypcje pierwotnie zawierałem, to były jeszcze dolce i cały czas mam dolce.
Ale niemniej jednak, tam gdzie można zaoszczędzić na kursie, ja mówię, 92 złotych kiedyś zapłaciłem, bo dolar był wyjątkowo.
No, zobaczyć w takim razie, czy nie warto zmienić na kartę lub coś innego.
Aha. No, więc generalnie z tymi płatnościami to tak wygląda.
No to co jest jeszcze? Nie wiem jak teraz…
Bo jeszcze do niedawna był fakt w tym właśnie czacie darmowym,
że nie można było sobie tworzyć własnych asystentów.
Natomiast korzystać jakby…
Co to znaczy?
Czyli jakby takie predefiniowane osobowości,
że ty tam jemu tworzysz powiedzmy takiego czata.
Czyli podajesz prompt taki swój.
Takiego prompta na sztywno.
Coś takiego jak mówił Piotrek, ten prompt systemowy.
W API tylko, że tutaj to się robi można nawet w normalnej platformie.
I to w ramach profilu możesz sobie kilka takich stworzyć.
I to się jak przełącza? Jest jakieś tam linki po prostu? Jak to technicznie?
Tak, na stronie tak, a w aplikacji chyba to jest w menu, po prostu się wchodzi w menu
i chyba to tam jest na spółę z historią czatów później,
a wcześniej są właśnie chyba ci asystenci.
Tak, wcześniej się, tak, jest taki, że on może szuka informacji z danej dziedziny
albo coś takiego.
Bo mu jasno definiujesz, kim ma być, jaką ma mieć rolę, co ma robić, jak, w jaki sposób ma robić, czego ma nie robić, bo to też jest ważne.
Natomiast jeszcze nie powiedzieliśmy o pamięciach.
O pamięciach, tak. Bo… a chcesz Kamilu to mów.
To znaczy ja powiem jak ja z tego korzystam. On sobie próbuje, kiedy z nim piszemy, on sobie próbuje w pewnym momencie zapamiętać i nas pyta nawet nieraz.
Czy mam zapamiętać, że monitorujesz routery z dwoma portami 10 gigabitów lub więcej?
Jeżeli się pojawią nowe, to mam za jakiś czas i to sprawdzić, tak?
No, to piszę mu tak albo nie. Albo często coś powtarzam.
Czy mam to zapamiętać jako twoje? To jest dla ciebie ważne i tak dalej.
I z tego się później tworzy taki trochę jakby profil ciebie, który on pamięta,
że nie musisz mu na przykład przypominać wszystkiego,
Tylko np. otwierasz szybko na szybko czat, bo np. tak jak ja miałem,
poprawiła mi się konfiguracja sieci, osiągnąłem nową prędkość i np.
robisz, piszesz mu zwycięstwo, robisz mu zrzut ekranu ze speedtestu,
wklejasz mu i on wie, o co ci chodzi, tak? Także gratulacje tam,
że osiągnąłeś taki i taki wynik w prędkości sieci, to i to zostało poprawione.
I on jakby kontekstowo cię ogarnia z tej pamięci, co to jest, po co to było,
skąd to wziął, skąd to wziąłeś. Nie musisz powtarzać tego samego
Bo to weszło stąd, że…
Bo to niestety mają tylko
użytkownicy plus, jeśli chodzi o pamięć
taką kontekstową, odnoszącą się do historii
wcześniej przeprowadzonych rozmów, czatów,
konwersacji znaczy się. To ma plus,
a darmowi użytkownicy mają aktualizację pamięci
na życzenie, w sensie, że słuchaj, zapamiętaj sobie,
że ja jestem młody
…i na luzie. Masz się do mnie zwracać po imieniu, nie na ty.
Jestem taki, co skraca dystanse, buduje pozytywną atmosferę,
bla, bla, bla, bla i coś tam.
I jak ja mu to powiem, bo wcześniej to musieliśmy to robić
w tak zwanych instrukcjach niestandardowych,
w ogóle w ustawieniach czatu, gdzieś tam, jak tego jeszcze…
A teraz po prostu my mu to piszemy w czacie
i on potem od następnego czasu się zwraca.
Siema, Maśku, mordeczko, co tam u ciebie, słuchajcie,
jak ci dzisiaj mogę pomóc w ogóle, jak leci?
No, a gdybym mu tego… I on to pamięta.
Tak, i mi też takie coś pamięta, bo ja mu wyraźnie napisałem w tych ustawieniach tam użytkownika,
że nie pisz mi instrukcji związanych z myszką, z klikaniem, z trzema kropkami i z menu kolorowym.
Bo to był dramat. Ale to się potem uczy już użytkownika.
Uczy się na szczęście, tak.
No i właśnie nie wiem, czy takie coś ma Jimmy Nighy, czy inne takie…
Ten DVD jest po prostu tak popularny masowo, że on zyskuje na treningu na ludziach, bo wszedł po prostu jako pierwszy tak mocno.
Podobno, że chyba wcześniej było Perplexity. Tak mi się wydaje, że niby było, tylko było na tyle mało popularne i na tyle mało rozpoznawalne, że chyba…
Ale w Perplexity miało być bardziej takie ostrożniejsze i mniej symulujące teoretycznie.
Wyszukiwawcze.
Bo GPT ma być takim trochę, no…
Tak, teraz to już wszystkim…
Znaczy, w sumie logiczne, tak?
No jak ktoś ma zadać pytanie, no nie wiem, na liście dyskusyjnej,
nawet proste pytanie,
i ma dostać odpowiedź jeszcze z jakimś bluzgiem,
to sobie poszukaj w ogóle, to naprawdę lepiej do czata GPT napisać.
Tak szczerze mówiąc.
Daję fajne informacje.
Wiadomo, zawsze pytać i skupić, na ile pewnie nie jest coś prawda.
Większe abonamenty już są naprawdę większe.
Takie bardzo drogie, prawda?
Powyżej tej stówy.
To znaczy, masz jeszcze kolejny jeden.
Za jedyne dwieście dolców.
Cena jest chora, więc…
No nie, to już jest bardzo…
To już wychodzi tam bardzo…
800 ponad złotych wychodzi miesięcznie.
Takie ponad 800, prawie 1000.
No jak ktoś dostał świadczenie wspierające, prawda?
Się pośmiejmy troszkę tutaj.
To może z operatora skorzystać.
Bo chat GPT w wersji PRO to po pierwsze ma jeszcze bardziej złożony model rozumujący.
Musimy go spytać kiedyś, czy wie, co to jest świadczenie wspierające.
Owszem, wie, bo mi ładnie z Deep Researchem obliczał pewne rzeczy, które potrzebowałem do jednego wniosku.
O, obliczał, no to ładnie. I dobrze, obliczył. No to ten, gratuluję. No to spoko, fajnie.
Tak, bo mi zainterpretował ustawę. Ja nie byłem w stanie zrozumieć.
Potem powiem, o co chodzi, bo to nie jest szczególna tajemnica.
Wniosek w systemie SOF Pefronowskim
do programu nieaktywny samorząd, tylko jakiegoś tam innego.
W każdym razie, średni miesięczny dochód netto na osoby w gospodarstwie domowym
za kwartał poprzedzający miesiąc składania wniosku.
Pytanie, czy to są trzy miesiące poprzedzające miesiąc, w którym składał wniosek,
czy kwartał kalendarzowy, czyli styczeń, marzec, kwiecień, czerwiec i tak dalej.
Otóż w końcu mi to zbadał, policzył mi wszystko, powiedział mi co, gdzie i jak
i okazało się, że ja źle myślałem.
I po to on właśnie mi na przykład jest.
Nie tylko tam, że coś tam w pracy mi pomaga,
czy jakieś źródła, tylko właśnie do takich rzeczy,
których naprawdę nie ogarniam głową.
Bo jest tak skomplikowane to.
A on ci te tak fajne czynniki pierwsze rozłoży.
Krok po kroku wyprowadzi ci myślenie,
że to jest aż nieprawdopodobne, no.
Czy on tak potrafi? Ale to robi.
A propos takich właśnie projektów pobocznych, niepobocznych, agentów, które GPT udostępnia.
No właśnie operator, o którym mówiłem, to też w tym modelu za 200 dolarów, znaczy w planie subskrypcyjnym.
Ale ma być to taki stricte agent ze swoim, powiedzmy, środowiskiem pracy, z komputerem, z czymś tam takim wirtualnym, powiedzmy, że on ci sam autonomicznie, jak mu wydasz polecenie, teoretycznie ma jakieś bilety zabukować, powiedzmy, coś tam.
Oczywiście jak trzeba wprowadzać jakieś dane uwierzycielniające, no to…
I to jest niestety usługa, która na ten moment dla nas dostępna nie jest,
bo to już nawet ludzie testowali, bo to jest, no, tak tłumacząc bardzo prosto,
to jest po prostu GPT z przeglądarką internetową, tak?
Właśnie, malusia też to jest średnio.
Tak, siedzi…
Dlaczego to jest niedostępne, bo tutaj są jakieś gra…
Tak, właśnie to jest to. Siedzi przed tą przeglądarką
i jak my mu zadajemy jakieś pytanie, to my na bieżąco po prostu widzimy,
co on tam klika normalnie, widać ekran tej przeglądarki,
widać, jaką tę stronę przegląda.
Schody zaczynają się w momencie, kiedy musimy sami jakieś…
Interakcja.
Tak. I on jest tak zaprojektowany, że na przykład w sytuacji, kiedy trzeba podać hasło,
trzeba podać jakieś dane, karty, potwierdzić coś typu…
dla jakichś połów na jakąś operację, która mogłaby jakieś szkody spowodować,
żebym to jakoś tak jest w stanie tak wyczuć,
no to wtedy użytkownik musi coś w tej przeglądarce kliknąć.
Tylko ta przeglądarka właśnie to jest po prostu widograficznie.
Tu jest niedostępność, tak.
Tak, no. Niestety, więc wydamy 200 dolsów, a i tak z tego nie będziemy nic, bo no.
Ale oprócz tego mamy jeszcze niedawno, bardzo dosyć niedawno,
znaczy są rado generowania wideo wcześniej, a teraz jeszcze nam doszedł,
doszedł do coś takiego, co się nazywa Codex,
czyli generalnie taki agent, powiedzmy, do, inżynier, powiedzmy, od programowania,
że on tam potrafi jakieś też testy robić, potrafi debugować
kod i tego typu rzeczy, powiedzmy, tworzyć, nie?
Że mamy kolejnego gdzieś tam agenta stricte od programowania.
Tak naprawdę, więc…
To generowanie wideo… Aha, że filmik może stworzyć, tak?
Że filmik może stworzyć, tak.
Jak długi i z czego? Z jak dużych elementów?
Szczerze teraz nie pamiętam, bo…
Ale raczej to nie są długie rzeczy, to są takie raczej…
Takie mini-mini coś.
To jest chyba coś z rzędu jakiejś pół minuty, chyba w ogóle maks.
I to jest w tej niższej rozdzielczości w ogóle,
a w tej wyższej, powiedzmy, no to nie wiem, tam ile?
10 sekund może.
I to też trwa dosyć długo, niestety.
Zwłaszcza przy tych wyższych rozdzielczościach, więc no to…
Ale fakt, że jest.
I taka jeszcze jedna rzecz w sumie,
która bardziej może nam zadbać o taką estetykę pracy stricte.
To są projekty generalnie, czyli de facto takie foldery…
Takie grupy czatów, jakby.
Tak, do których jakby…
Bo sobie, powiedzmy, mamy jakieś…
Jakieś historie tematyczne sobie tworzymy.
Ja ci podam przykład, Michał, jaki błąd zrobiłem.
Jak tworzyłem sieć, powinienem zrobić sobie projekt, tak?
Sieć domowa i potem czat pierwszy, tak?
Wybór routera brzegowego, czat drugi, wybór przełącznika,
czat trzeci, wybór punktów dostępu, czat czwarty,
okablowanie strukturalne i tak dalej.
Ja tego nie zrobiłem, ja to wszystko wrzuciłem w jeden czat
I miałem po prostu niezłą jazdę z tego.
Bo on się zagubił, tak jak mówiłeś.
I też ten kontekst wtedy mu się wyczerpał.
Właśnie, a to jest tak, że w ramach projektu można tworzyć kontekst, że dany projekt ma mieć takie, a nie inne parametry,
a inny projekt ma mieć trochę inne parametry.
Czy nie? Tak to nie można?
Chyba zdaje się, że dla projekty to nie do końca działa.
Znaczy i tak możesz mu udzielić konkretnych instrukcji, tak?
Ale tak, ten czat…
No, bo to w początku, na początku.
Na początku albo po zmianie.
Byleby to nie był zbyt długi czat,
bo moje doświadczenia właśnie pokazują to,
że to po prostu potrafi.
I powiedzmy to gdzieś tak, że nie tylko GPT,
czy tego typu czaty, nie tylko można ładować
jakieś pliki graficzne, albo pliki jakieś tam…
Mordowskie często.
Mordowskie, można też zapisywać dane w pliku Word,
PDF, nie wiem, czy jakimś graficznym,
a właśnie w sumie to jest oczywiste albo nieoczywiste.
Czyli jak załadujemy, czy GPT umożliwia
OCR-owanie klików graficznych?
Ja tego nie wiem.
I ja byłem z tym ostrożny, chociaż zacząłem…
A właśnie, bo on nie OCR-uje, tylko wymy…
On wymyluje, tu jest punkt, a to, co ma…
Próbuje jakby czytać, no.
I czasem się może zdarzyć halucynacja, więc…
Tak, to znaczy generalnie zauważyłem,
że jeśli chodzi o np. czytanie ekranu w komputer,
w jakieś zrzuty ekranu, jakieś screeny,
generalnie to sobie nawet z tym radził.
Tutaj znów wracamy do przykładów gier wideo,
ale nie tylko, bo tak Maciek mówił o instalacji Windowsa.
Trochę był ten problem w Androidzie,
w tych opisach online, które weszły w TalkBacku,
gdzie one na początku działały…
Tamte stare miały rozpoznawanie OCR z ekranu,
jakieś tam ze zdjęć, na zdjęciach,
a potem się pojawiło AI,
które trochę z jednej strony miało ułatwić,
ale z drugiej strony były problemy jakieś tam.
I to jest właśnie to, o czym ja mówię
Jeżeli mamy tylko zrzut ekranu,
to on ma konkretny wycinek tej rzeczywistości.
Może coś jest przesłanięte innym oknem.
Jeżeli ktoś tak kompletnie nie widzi jak ja,
może coś tam nie do końca jest pokazane.
Wtedy może nam nie przeczytać dobrze.
Ale tak jak ja robiłem na przykład analizę
jakichś logów z routera albo jego ustawień,
które mogły być niedostępne,
to oprócz tego, że zrzut ekranu,
z tego co widać w danym miejscu
tej okna przeglądarki,
z okna aplikacji, to jeszcze dawałem mu cały…
to, co mi przeglądarka zinterpretowała od razu, z jego strony.
I on był mi w stanie powiedzieć na podstawie obu tych elementów,
czyli ten treść strony jako prompt, zapowiedział, że to jest treść strony,
plus obraz jako plik zrzut ekranu tego wyglądu.
On był mi w stanie dokładnie powiedzieć,
co jest rozwinięte, co jest zwinięte, co jest zaznaczone,
bo mógł tę informację uzupełniać z jednego i z drugiego.
Tak, i też pytając precyzyjnie np. właśnie o konkretne pole wyboru,
też jesteśmy w stanie bez problemu takie informacje wyciągnąć.
Pa, a propos rzeczy, które on jest często w stanie zaocerować,
chociaż teoretycznie to nie powinien, bo przecież jest robotem
i ja rozumiem, że jesteśmy osobą niewidomą,
ale jednak nam to zrobi, kody kapcza.
Jeśli mamy jakąś kapczę, gdzie nie mamy wersji audio,
a musimy przez coś się przedrzeć…
Parę razy zdarzało mi się tak to rozwiązywać przez GPT właśnie
Nie, nie próbowałem, nie próbowałem, nie mogę powiedzieć na ten temat nic.
Ja tylko do tych projektów jeszcze dosłownie na słowa trzy.
Jak mu dodasz pliki do tych projektów, czyli do tych folderów z czatami,
to on te pliki, każdy kolejny czat i poprzednie będą też widziały
i będą mogły nawiązywać jakby do tych plików.
Instrukcje to może tak no, nie do końca każdemu czatowi,
Ale pliki tak, no chyba, że mu w pliku dasz instrukcję generalizową, to może, no.
Ale pliki jak nakarmisz projekt, będziesz mógł z nimi normalnie pracować i to będzie działać.
Nie wiem, czy coś jeszcze jest ważnego à propos właśnie…
Aha, no i jest personalizacja tego typu, ja nawet chyba tam robiłem taki ticket.
Są czaty, które byśmy chcieli wykluczyć z ewentualnego treningu, tak?
No jeżeli będą uczciwi, no to wprowadzam opcję, że ten konkretny czat nie powinien być używany,
Ja np. zgłosiłem zastrzeżenie, że pisząc o zdrowiu psychicznym czy relacjach,
mogą pojawić się meta-informacje na temat osób trzecich.
I takie coś powinno być możliwe do wyłączenia.
I tutaj dochodzimy do bardzo ciekawej kwestii, która w tym momencie ma miejsce.
Nie wiem, na ile to będzie aktualne dla tych, którzy nas słuchają później.
Bo generalnie, jeśli zdecydujemy się, zwłaszcza jeśli mamy już wykupiony ten abonament plus przynajmniej, czy korzystamy z API,
no to generalnie możemy sobie zaleczyć, żeby nasze dane nie były wykorzystywane do trenowania tych czatów i one powinny zostać usunięte.
Tam one są tak standardowo po 30 dniach gdzieś kasowane.
Ja już nie mówię o zastosowaniu jakiejś firmy, gdzie mamy w ogóle osobne umowy.
Natomiast OpenAI niedawno zostało pozwane przez New York Times
i tam jeszcze jakieś chyba firmy, które czasopisma różne tworzą,
że modele GPT były w stanie na żądanie wypluć całkiem długie akapity z New York Times.
I w ramach tej sprawy jedną z rzeczy, które sobie zażyczyli,
że mimo tej polityki usuwania danych, żeby OpenAI na razie tych danych nie kacowało,
…bo to może być wykorzystane jako dowód.
I co ciekawe, sąd, mimo to, że to nie jest do końca legalne,
zwłaszcza biorąc pod uwagę prawo europejskie,
które dosyć rygorystycznie do tego podchodzi,
zgodził się na to.
I w tym momencie OpenAI, te nasze dane,
mimo to, że nawet te, które mają być skasowane,
na razie nie kasuje, one są jakoś chronione,
inaczej tylko kilka osób mają do nich dostęp.
Jeśli jednak sąd zażąda tych danych,
bo może być tak, że tego nie dojdzie.
W tym momencie trwają apelacje, więc miejmy nadzieję,
że się skończy tak, że te dane znów będą usuwane.
Natomiast tak ogólnie mówiąc, trzeba też uważać,
jeśli korzystamy z takich modeli podczas podawania połównych informacji,
lepiej założyć, że nigdy nie będziemy mieli 100-procentowej gwarancji,
że to gdzieś nie będzie przechowane.
Zwłaszcza tutaj mówią o jakichś zdjęciach.
Nie wiem, czy tutaj bym chciał im wysyłać zdjęcia kart płatniczych,
Ja akurat brałem pod uwagę jakieś tam kwestie zdrowia psychicznego, relacji i tak dalej, związków czy coś takiego.
No bo ktoś może coś napisać, ale przy okazji świadomie lub nie, gdzieś tam wrzuci informację na temat osoby trzeciej,
która nie ma z tym w ogóle do czynienia, nie udostępniała swoich danych i nagle się okazuje, że ktoś tam coś o niej wie.
I dlatego na przykład zgłosiłem takie coś, żeby dany czat, nie tam że cały profil albo nie cały, można było wykluczyć z treningu przyszłych modeli i nie udostępniać tych informacji gdzieś tam poza daną sesję czatu, tak jak jest z plikami na przykład.
Niektóre pliki są usuwane zaraz po zamknięciu sesji.
Jeżeli wrócimy do czatu po dwóch miesiącach, to plików już nie będzie.
Trzeba będzie mu je podać ponownie jeszcze raz.
Z drugiej strony dla nich to może być troszkę taka zasłona.
No dobrze, ale na wierzchu masz pan czat tymczasowy.
I skoro tak pan chce, to proszę sobie włączyć najpierw czat tymczasowy
i w sumie my go nie będziemy brali pod uwagę do treningu.
Tak, no to musicie umożliwić w takim razie takie same mechanizmy działania czatu tymczasowego
Jak w trybie standardowym, czyli np. możliwość wyszukiwań czy badań.
Powiedzmy, że komuś będzie łatwiej np. napisać coś,
poszukać informacji na temat, które później pozwoli mu się otworzyć
i nie wiem, iść do psychoterapeuty, do psychologa, do psychiatry czy coś takiego,
czy zadzwonić na telefon zaufania na tej zasadzie.
Trochę mnie ten temat zainteresował, bo często ludzie z tego korzystają,
Często, że ci tam mogą się wywnętrzać, czy coś tam napisać do niego.
No właśnie, a propos zgłaszania różnych uwag do OpenAI,
to chyba nie do końca jest takie oczywiste, jak w innych modelach, prawda?
Jak to Kamil zrobił?
On twierdzi, że założył takie dwa te…
dwie takie sprawy,
bo ma możliwość automatycznego zgłaszania.
Ja to mam ustawione w monitorowaniu,
Więc jakiś czas go pytam o status tego po prostu, nie?
Wiesz co? Pytanie, czy tutaj nie ściemnia i nie zmyśla.
Myślę, że nie, dlatego że… jaki by to miał cel?
Jeszcze kiedyś tak naprawdę tego nie potrafił i ja go na tym przyłapałem.
Dlatego najlepiej, jak się chce coś do OpenAI zgłosić, to tak naprawdę przez…
de facto troszkę na okrętkę, bo portal deweloperski,
gdzie można API sobie uzyskać i tak dalej, przez platforms.openai.com.
I tak naprawdę tam w sekcji pomocy chyba jest kontakt ASTRY, coś takiego.
Nie pamiętam teraz, jak się to nazywa.
I tam generalnie warto takie rzeczy robić.
Tam jest send back report chyba, suggestion chyba,
czyli jakoś tak, coś takiego jest.
No i wiesz, i najlepiej chyba w ten sposób robić,
bo potem na maila fakt… tego?
Albo i nie?
Czy przychodzi na maila potem numer i całego ticketu, całego zgłoszenia?
Nie pamiętam.
Oni chyba nie trzymają takich systemów.
Ale tak, tylko najlepiej to zrobić rzeczywiście w ten sposób.
Tam wybierasz, czego dotyczy zgłoszenie,
czy to jest czat GPT i coś tam, czy i w jakim chyba planie.
Już teraz nie pamiętam tego, szczerze mówiąc,
a skoro mieliśmy dzisiaj nie pokazywać, to nie pokazujemy.
Natomiast tak się to robi przez wejście tam na platforms.openai.com.
Gdzieś w przeciwieństwie do innych modeli
No po prostu jest send feedback i wybiera się w sumie,
jaki typ chyba zdaje się… Albo i nawet w przypadku Googla…
Nie, albo… Nie pamiętam teraz.
Ale jest dużo… Droga bardziej uproszczona.
No. No właśnie.
No to tyle może o GPT, o czacie GPT.
Natomiast taki drugi model, najbardziej znany,
konkurent, niekonkurent, w pełnym sensie bardziej powszechny,
bo zintegrowany z kontem Google naszym, czyli…
No, teraz tak. Czyli Google Gemini.
Tak, i Gemini to jest taki typowy model, który naprawdę tą multimodalność wykorzystuje do maksa.
Bo tutaj oprócz tego, że możemy wrzucać pliki z obrazem, pliki i oczywiście dokumenty tekstowe, bo też możemy na tekście pracować,
On po pierwsze też ma dłuższy kontekst.
I tutaj może będziemy mówić o tych kontekstach, o tych tokenach.
My ciągle o tym mówimy.
Jeden…
Tokeny to takie jednostki, w których te modele pracują,
zarówno jeśli my coś piszemy, czy one nam coś później odpisują.
Dla języka angielskiego orientacyjnie jeden token to są z reguły cztery słowa.
Dla języka polskiego mam wrażenie, że to słowo dwa, różnie z tym jest.
Jak ktoś tutaj sobie liczy, co to dokładnie znaczy,
to powiedzmy, że jeden token to jest dwa, trzy słowa
dla języka polskiego, tak orientacyjnie.
I Gemini, nawet jeśli pracujemy przez stronę
lub przez API, ale nawet właśnie przez stronę,
ma dużo większy kontekst, bo domyślnie on ma chyba…
Nawet nie wiem, czy ten kontekst nie dobił miliona,
gdzie GPT, nawet jeśli pracujemy w czacie,
to mamy tego kontekstu tylko 32 tysiące.
To też wynika z tego, że Google ma szybszą infrastrukturę sieciową
i ma zaplecze do tego, żeby takie to było szybkie.
Chociaż BizApp i GPT też ma dłuższy kontekst,
więc to też mogliby zwiększyć, gdyby chcieli.
Nie, bardziej chodzi o czas odpowiedzi nawet.
Nie tyle o liczbę słów na prompt czy tam na odpowiedź, nie?
Natomiast co jeszcze właśnie chciałem o nim powiedzieć,
to właśnie przez to, że on jest taki multimodalny,
to właśnie możemy mu wyładować pliki, dokumenty i tak dalej.
Ale możemy mu też ładować dźwięki i poprosić na przykład,
żeby nam opisał, co się dzieje w tym dźwięku,
zrobił nam transkrypt podzielony na przykład nawet na mówców.
I on będzie w stanie nawet z kontekstów wyciągnąć tych mówców
i nam naprawdę sensowny transkrypt przygotować.
To się też przydaje, pewnie zaraz tutaj rozwiniemy temat,
kiedy możemy też pliki dźwiękowe ładować na przykład do notebooka NM.
Opowiedz, co jest darmowe, nie? W sumie, a co jest płatne?
Bo to jest ciekawe. Ja nie wiem, czy…
W przypadku GPT wiem, dlaczego warto mi kupić plusa, tak?
Już dwie rzeczy powiedzieliśmy.
Tak, to głębokie badanie i tam jeszcze kilka innych funkcji.
A co w przypadku Google’a?
Co do Jiminaja płatnego mogłoby gdzieś tam zachęcić?
Albo jej nic nie chęcić ewentualnie.
Mam…
Tutaj teraz się…
Bo ja więcej znowu z tego korzystam przez zapis niż przez stronę.
I teraz zastanawiam się, czy w tej wersji płatnej nie dostajemy dostępu do wersji pro,
czy to jest na stronie też dostępne w wersji darmowej?
Nie wiem, czy Maciek, ty się bardziej orientujesz?
Wiesz co, tam pro z tego, co wiem w wersji darmowej, to też jest,
tylko te limity ma sporo mniejsze i jest jakaś starsza wersja jeszcze tego pro.
Czy to też jest to, że w wersji darmowej jest ta ograniczona baza wiedzy,
Myślisz, że po prostu on mi mówi o starych rzeczach sprzed roku?
Czy to jest w ogóle problem Dżemina, niezależnie od tego, że się płaci?
To jest dziwne, bo Dżemina jakby się wydawało, że z Googlem
to z wyszukiwarka powinno być najlepiej, tak, pod kątem wiedzy,
a tutaj tak nie jest, więc to…
Ja rozumiem, że on do wiedzy tak typowo nie służy,
natomiast no i tak dziwne, że on takie ma problemy.
Ale z tego, co wiem, tak, ta wersja Pro jakoś ma większą wiedzę chyba.
Nie wiem, czy tam się też nie dostaje coś na marginesie, jakiegoś dysku Google.
Chyba tak, bo to jest jako jeden pakiet.
Bo to jest jakoś z tym pakietem Google One chyba.
Teraz to chyba się… jak to się nazywa? ProEI chyba?
Coś takiego dziwnego. Inaczej też teraz nazywała się dziwnie.
Jeszcze jest trzeci plan Ultra chyba, ale to już jest też droga zabawy.
Wiem, też teraz sobie przypomniałem, że na Androidzie jest coś takiego,
Dlatego, że jeśli mamy ten pakiet wykupiony, to nie ten Ultra,
bo ten Ultra podchodzi pod 100 albo 200 dolarów,
tam też mamy jakiś rozbudowany generator wideo.
A ten najtańszy ile kosztuje?
Też jakoś tam…
97… 98.
Porównywalne, tak.
Co ciekawe, na iPhone i na iPhone przez App Store
i na stronie Google kosztuje tyle samo teraz, więc…
No, co ciekawe, mniej więcej…
Co możemy na Androidzie zrobić, jak mamy to wykupione?
Jeśli mamy np. jakiś plik PDF gdzieś otwarty,
czy to w Chrome’ie, czy gdzieś, możemy wywołać Gemini
i on ponoć jest w stanie
zczytać cały plik i nam na…
odpowiadać na pytania związane z tym plikiem.
Nie mam tego, jak sprawdzić, bo nie mam Androida,
ale wiem, że Google się tym chwaliło.
Co jeszcze możemy zrobić?
Oprócz tego, że możemy pracować na dźwięku i na obrazach,
to jest jedyny model, który też może
Nie wiem, czemu na stronie tej normalnej Gemini dla zwykłych użytkowników
nie możemy np. wkleić linków do YouTube’a,
ale np. jeśli użyjemy strony deweloperskiej,
która nam też daje dostęp do funkcji Gemini Live na komputerze,
bo normalnie to jest dostępne też tylko na smartfonach ten moment,
bo mało to się w Chrome’ie pojawia, ale ogólnie to jest na komputerze,
jeśli porozmawiamy z jakimkolwiek modelem Gemini
przez tak zwaną stronę AI Studio.
Do tego można się zalogować za darmo.
To możemy mu wkleić na przykład link do filmu na YouTubie
albo załadować w plik wideo z dysku.
No i poprosić go, żeby nam na przykład ten film opisał.
I to naprawdę… Widać tutaj też tą multimodalność,
bo jak on będzie ten opis przygotował, to nie jest idealne,
ale nawet sobie z tym radzi,
to też będzie brał pod uwagę nie tylko obraz,
ale też dźwięk, który słyszy w tym filmie.
Więc widać, że on tam faktycznie multimodalnie przetwarza ten film.
Mamy też rozbudowane funkcje, dziś syntezy,
mamy model do syntezy mowy, gdzie też multimodalność jest pokazana,
bo możemy powiedzieć, jak ma coś przeczytać.
Poprosiłem go, żeby mi stworzył takie tyfloprzeglądowe hedy,
mówiąc jak z pika radiowej, i faktycznie tak zaczął mówić.
W tym tygodniu w Tyflo przeglądzie.
Słychać było, że tam można mu takie instrukcje też wysyłać.
Ale do czego to ludzie wykorzystują? Właśnie na przykład do opisu wideo.
Kolejny atut Gemini jest taki, jeśli też planujemy korzystać z tego poprzez API.
Pod warunkiem, że mamy pełną świadomość, że wtedy nasze dane zostaną wykorzystane do trenowania tego modelu.
Możemy wygenerować sobie klucz za darmo.
Tylko wtedy płacimy tym, że zgadzamy się,
że te nasze zapytania będą wykorzystane do trenowania.
I teraz ja myślę, że też warto zatrzymać się w tych trybach wideo,
bo zarówno GPT i Gemini mają te tryby wideo.
Wiem, że Maciek, jeden i drugi testowałeś bardziej.
Ja więcej z Geminiem akurat.
Ale jak by się porównał?
Powiem szczerze, że ten GPT jednak jest bardziej niezawodny.
Użytkownik wie za co płaci, powiem tak.
Bo ja też mam teraz tego advanced’a Gemini, teraz AI Pro.
To szczerze mówiąc jest, jeśli chodzi o wideo, to tak samo z myślami.
Niestety, tak samo mu się potrafi przywiesić po dwóch czy trzech zapytaniach.
Potrafi się ładnie zapętlić i już nie współpracować,
jeśli o to wideo chodzi. A nawet jeśli…
W sumie to, co Sławek mówił właśnie, to ja się może powtarzał nie będę,
bo z moich testów też właśnie wynikało to, że nawet jak jego poprosiłem,
ale rozejrzyj się jeszcze raz, a potem wprost,
zrób, wykonaj zdjęcie jeszcze raz i na jego podstawie opisz.
Nie, on dalej szedł niestety w zaparte.
Gdzie przy czacie GPT, jak nawet się gdzieś tam raz zawiesili,
to ja mówię, słuchaj, rozejrzyj się jeszcze raz, skup się,
bo treść się teraz na pewno zmieniła.
I faktycznie jest mi w stanie z dosyć dużą dokładnością,
precyzją GPT właśnie podać aktualny, faktyczny stan.
To nawet testowałem, słuchajcie, na ostatnio też inną sobie
szczoteczkę soniczną dostałem sobie na Dzień Dziecka,
No i się okazało, że w sumie to ona jest rzeczywiście inna.
I chciałem ją rozpracować.
I porównałem sobie z instrukcją, porównałem sobie z osobą widzącą.
Czat GPT naprawdę mi fajnie powiedział, jak te tryby wyglądają,
gdzie co się świeci.
Yyy…
Jaki… No, generalnie te wszystkie wizualne sprawy, nie?
A Gemini niestety się…
Yyy…
No dobra, raz mu się coś tam zgodziło,
ale pięć czy sześć razy już poległbym.
Tak że…
Czyli jednak moje wrażenie jest słuszne, na razie jeżeli płacić to póki co z NGPT.
Nie dlatego, że Google jest jakoś szczególnie gorszy, tylko jest trochę rozmyty w wykorzystaniu.
No generalnie nie wiem od czego zależy, ale nawet jeżeli, bo dostajemy Dżeminaja właśnie live z tym wideotrybem za darmo, co prawda też.
Natomiast no ta jakość niestety jest sporo gorsza.
I jeśli w ogóle też chodzi o jakieś takie wyszukiwanie i tak dalej.
Akurat Deep Research robi całkiem fajny, powiedzmy,
bo sobie tam robiłem w Geminiu, to powiedzmy, robi całkiem fajny.
Tak, i ja nawet na darmówce dostałem bardzo długi raport.
Zapytałem o jedną rzecz krótko. I to tak, akurat to fakt, że…
Tak, więc to akurat robi bardzo fajnie, ale to wyszukiwanie.
Tak samo, jak kazałem, nie jest aż tak, jakby to ująć, lotny.
Nie ma aż tak lotnego, jasnego umysłu, powiedzmy,
jeśli tak można porównać, jak GPT.
Jeśli chodzi o takie zadania wymagające pomyślenia w danej chwili, w danym kontekście.
Ja mówię, słuchaj, przetłumacz mi, bądź moim tłumaczem w tym trybie głosowym, live.
Mówię, przetłumacz mi w obie strony, z języka niemieckiego na język polski i odwrotnie.
Mówię, wyobraź sobie, że masz dwóch rozmówców, jeden jest Niemcem, drugi Polakiem i tak dalej.
No i okej, zaczął, a potem to się tak zaczął równo wykładać Gemini,
że tłumaczył w ogóle dosłownie moje polecenia do języka wyjściowego,
powiedzmy, z ten, w drugą stronę coś, tak mieszał strasznie.
Ale to jest trochę w sumie dziwne, nie, no bo to się…
A GPT sobie poradził.
Właśnie mi się wydawało to, co mówiłem przy okazji wyszukiwania,
że jednak, no, Google ma takie zaplecze, ma tego tłumacza Google,
ma tą wyszukiwaczkę.
Ale tu chodzi o, tu chodzi…
Ja rozumiem, ale to się nie chodzi…
Tu chodzi o kodowanie tych modeli.
No ja wiem, ale to by się wydawało, że to jakoś będzie…
Ma jakiś sensowniejszy…
Tak, algorytm produkcji tego wszystkiego.
Tak, i Google ma…
Apple w ogóle ma z tym problem,
bo teraz ten artykuł, który mi na przykład podesłałeś wczoraj,
o tym, że to w sumie nie jest myślenie,
no bo to nie jest myślenie, to jest generatywność.
To nie myśli. No, mają rację, tylko że piszą tak dlatego,
że po prostu sami nic takiego nie mają.
I dlatego tak piszą.
Google próbuje nadrobić. Ma infrastrukturę, ma dane, ma sieć, ma farmy serwerów, ma możliwości i nadrabia, ale niestety przez dłuższy czas, używając GPT, uzyskiwałem konkretne odpowiedzi, natomiast Google mi powiedział, niestety nie mogę tego dla ciebie zrobić, jestem tylko modelem językowym.
Oj tak, oj tak, oj niestety, no.
I to był właśnie punkt, w którym ja stwierdziłem, aha, czyli to jest po prostu na razie najlepsze.
Chociaż na przykład ten przewodnik, który sobie w ramach ćwiczenia pisałem dla młodzieży à propos AI,
zrobiłem w sumie w stu procentach w Geminiu.
Powiem szczerze, to w jakim on mi to stylu napisał,
jeśli chodzi o formatowanie, ale też o te metodyczne różne rzeczy, o ten taki przekaz,
to mnie po prostu zadziwił.
Ale wykorzystałem tak naprawdę wszystko to, o czym też mówiłem.
On ma też, bo się domyślam, że on ma jakieś takie lepsze integracje,
pewnie tam, nie wiem, że można coś…
Z Gmailem.
Z Gmailem, z YouTube’em.
Z YouTube’em.
Pewnie coś takiego.
Z kalendarzem.
Z kalendarzem Google.
Tak. To wystarczy, że wspomnisz małpa YouTube,
spacja, wkleisz mu linka i powiedz,
słuchaj, weź mi streść, co ten film przedstawia.
W sensie, on wyciąga z tego transkrypt.
On nie opisuje stricte filmu,
jak być może to AI Studio,
Natomiast robi cały transkrypt, potrafi podsumować, potrafi tam wyciągać właśnie te wnioski z tego filmu i tak dalej.
Ale to trochę, Michał, jak w Wordzie. Tam jak otworzyć Worda nowego dla Microsoft 365…
Ale mówisz tego on-line’a, tak? Na stronie?
Tak. Ogólnie, na przykład tego klasycznego też.
Tak, tak, tak.
To ci mówi, naciśnij Ctrl plus i, aby utworzyć wersję roboczą dokumentu przy użyciu Copilot.
To nie Ctrl i?
On tak mówi, Ctrl i.
Czyli generalnie Google po prostu wykorzystuje swoje atuty związane ze swoimi usługami.
Microsoft ze swoimi.
Natomiast OpenAI…
Przepraszam, Control-i to nie jest skrót jakiś na…
Jak to było?
Italik to jest to, co to jest.
To jest Italik.
Tak, ale nie wiem, skąd oni to… czy skąd oni, czemu oni to tak zrobili.
Powinna być kursywa faktycznie.
Czyli kursywa.
No.
Muszę to sprawdzić, ja tego nigdy nie…
Coś do mnie tak mówi ten word, ja z tego jeszcze nie korzystałem,
no nie czułem, że to potrzebne.
Ale właśnie…
No to za chwilkę przejdziemy do co-pilota, ale czy coś jeszcze o tym Geminiu?
Bo tam o tym wideo pytałeś Macieja, nie wiem, czy wyczerpaliśmy temat do końca?
Jakby tego wideo i tego wszystkiego, tych na żywo i tych rzeczy?
No, wideo chyba nie ma już co się rozwodzić.
Ja jeszcze jedynie powiem a propos tych atutów ekosystemu Google jako takiego.
Ja się przeprosiłem z Jimmy Nye’em, jak miałem, słuchajcie,
zebrać wszystkie, podliczyć sobie wszystkie rachunki, faktury,
które miałem na mailu za wcześniejszy rok, jeśli chodzi o Pita.
Żeby sobie to szybko… Słuchajcie,
Ale to jest, przepraszam, ale to jest tak, że musiałeś jakby wpierw dodać, znaczy znikąd, czy musiałeś wpierw gdzieś wprowadzić?
Nie, musisz włączyć w Gmail’u usługi tego Gemini’a, tych sztucznych inteligencji.
W Gmail’u na stronie, czy po stronie aplikacji?
W ustawieniach poczty Gmail’u.
W ustawieniach chyba konta Google albo… On tam proponuje potem, żeby jakby…
Włączyć usługi inteligentność jakoś tak.
I to chyba z aplikacji Gemini można zacząć i on przekieruje…
Pewnie tak, bo tam też widziałam pod menu ustawień rozszerzeń
i to się chyba nazywa, tak?
Zdaje się, że tak.
I odnośnie jeszcze właśnie Gemini’a też ma swoich jakby asystentów,
powiedzmy, tylko to się nazywa Gemsy, to są właśnie dżemy.
I też można sobie je…
W ogóle jest jakby predefiniowany zestaw promptów,
że masz być dla mnie tak tym, tym, tym i tym,
ale na stronie internetowej, bo z poziomu aplikacji
sobie nie można utworzyć własnego dżema, tak zwanego.
Możemy sobie też, tak jak custom GPT, czyli tego osobistego asystenta GPT,
możemy sobie stworzyć tak samo na bazie dżeminaja.
Tyle, że, bo o czym nie powiedziałem, w czacie GPT mamy tak zwany,
nie wiem, jak to się tam nazywa, sklep, repozytorium tych asystentów,
że możemy je tam też umieszczać i inni sobie je mogą pobierać.
I odkrywać, dosłownie odkrywać modele GPT.
Tak się to nazywa, a w Google chyba zdaje się, że tego nie ma.
Ale możemy tworzyć sobie…
Ale ci asystenci, to jest tak, że to chodzi o integrację z jakimiś aplikacjami?
Czy to chodzi na zasadzie, że profile takie ktoś stworzył?
Takie boty, powiedzmy.
Takie jakby profile, jak one się mają zachowywać.
A, w tym sensie, okej.
Natomiast z tym Googlem, to tak sobie, akurat to chyba u mnie,
ale może ktoś też tak będzie miał, to może być troszkę problem,
bo mam… no, Gmail to jest moje główne konto prywatne.
Natomiast do… do Jemina jestem zalogowany
jakimś innym kontem workspace’owym.
No i tutaj wtedy to nie wiem, czy to się da zintegrować.
Nie.
No właśnie.
Nie, bo on działa per conto.
Per conto.
Niestety nie.
Tak, tak.
No, trochę logiczne, że tak to jest, oczywiście.
Znaczy, to jest w ogóle logiczne, dlatego, że trudno,
żeby ci z dwóch kont…
No, wiadomo.
My takiego… ale za to takiego Google’a na przykład
Na przykład możemy sobie podłączyć do GitHub’a.
Możemy sobie…
No, Gemini’a, ale GPT zdaje się, że też możemy podłączyć do GitHub’a.
I co nam się da?
I generalnie, jeżeli sobie programujemy,
to pull requesty…
Generalnie może przeglądać repozytoria, które my tam sobie mamy.
No i może tam wprowadzać zmiany w kodzie.
I potem pytanie to, czy my to wyślemy w sumie i potem czy auto…
Ale taka jeszcze rzecz, bo teraz tak się zastanowiłem.
Pracujemy w GPT, mamy jakieś tam swoje konto,
Dżemina i GPT, i mamy jakiś fajny czat.
Coś nam się udało sensownie zrobić.
To czy możemy komuś ten czat przesłać, czy udostępnić?
GPT jest funkcją udostępnić, czas link się podaje wtedy komuś.
Tak.
I to jest… Aha, ale czaty generalnie są publiczne.
Nie, bo jak podasz linka…
Nie, no jak podasz linka, no to ten ktoś nie ma dostępu do tego czatu.
To przeglądania czat, że możesz ten czat przeglądać.
Nie wiem, czy przeglądać, czy pisać też. Chyba tylko przeglądać.
Chyba tylko przeglądać, no, bo spisać triktę możesz ty, natomiast…
I chyba to się to o sobie potem nie aktualizuje, zdaje się.
Chyba się potem, bo chyba się potem, im bardziej się aktualizuje czat,
to chyba się identyfikator linku potem też zmienia tempo.
Aha, czyli to jest taki czat na daną chwilę,
taki archizarkhizowany czat do tego momentu,
kiedy przesłaliśmy komuś link.
Zdaje się, że tak. No.
I jeszcze co ja chciałem powiedzieć a propos czata…
Chcemy coś powiedzieć, chodzi o Gemini, teraz o notebooku, czy to później?
Wydaje mi się, że później, bo… no nie wiem, chyba, że…
chyba, że krótko, znaczy, bo nie wiem, dużo tego jest i nie wiem,
czy to nam dużo wyjdzie o tym notebooku, czy to w ogóle zdążymy, czy…
Nie, krótko można powiedzieć o tym, co tutaj jest,
o tym, którzy nie słyszeli.
Ja nie używałem, więc chętnie tutaj, jeżeli coś możecie powiedzieć.
Ale jeszcze zanim, właśnie, bo mi się przypomniało, co miałem powiedzieć…
To potem będzie copilot.
Ale a propos tych różnych współpracy między modelami, to można nawet zrobić tak,
no bo każdy z tych modeli coś może nowego zaproponować, że tak powiem ma własny ogląd, dystans,
świeży kontekst i tak dalej, świeży umysł.
Ale tak wszyscy korzystamy z GPT potem, jak przyjdzie się do czego?
Tak, chociaż ja powiem tak, że ten swój przewodnik, który tam zrobiłem w Gemini’u,
Wrzuciłem do GPT z prośbą o jego ocenę,
podsumowaniem, bo Jeminaj stwierdził,
nie, no, panie, tu jest 100%, w ogóle, tu jest w ogóle super wszystko.
A sami się, dobra, wsadzę go do GPT i zobaczymy, co mi powie.
Nawet tym modelem 4.0 o mniej podstawowym, nierozumującym.
No, panie, tutaj to jest 85%, bo brakuje jeszcze tego.
Tutaj by się jeszcze przydało to i tamto.
Sugestii mi nawyliczał sporo.
Czyli ewidentnie wychodzi, że GPT jest najmądrzejszy.
Taki najbardziej filezyjny i taki mimo wszystko…
Bo ma najwięcej danych.
Tylko jeśli mu chciałem…
Tylko jak chciałem, żeby kontynuował stylem Jeminaja,
to za Chinę mi nie chciał tego robić.
W końcu ja się wkurzyłem.
Stwierdziłem, dobra, przekopiuję to, co mi wypluł GPT.
Stwierdziłem, dobra, Jeminaj, słuchaj, GPT mi zrobił to,
weź mi to zrób według swojego stylu
i uwzględnij te uwagi, co o nich myślisz.
Taka, wiecie, naganianie jeden na drugiego, tak naprawdę, nie?
To tak, ja tak zrobiłem, tylko że bardziej w formie filozoficznej rozmowy.
Zimniej się to podhypowałem, wszystko.
I naprawdę, potem oba modele doszły do porozumienia,
że wow, to jest piękne 96%,
że to jest po prostu superprzewodnik i w ogóle.
Ale to jest…
Jak się ma te dwa, powiedzmy, co najmniej dwa modele,
między którymi można…
Takie poniekąd uczucie zazdrości, jeśli to można tak ująć.
Ale generalnie, że jeden poprawia drugiego,
Fajna sprawa, jak się pracuje przy większych projektach.
To jest bardzo złożone.
Notebook LM. Co to w praktyku jest?
No to w dużym skrócie Notebook LM to jest taka usługa,
która pozwala nam załadować źródła.
I źródłem może być dokument w praktycznie doworym formacie.
Może być strona internetowa.
Może to być plik dźwiękowy, tylko żeby nie był za długi.
Zawsze w Microsoftu nie działają, że się wetnę,
dokumenty nie chciały mi działać.
Ani do CX, ani… Jak to się nazywa? PowerPointy.
A to ciekawe.
Tak. PDF-ki, TX, takie RTF-y mi działały jak najbardziej.
I linki.
Na marginesie to się trochę głupio obsługuje,
bo trzeba chyba pojedynczo to wrzucać, że tam to określony typ pliku.
Chyba nie ma tak, że można dowolne pliki,
tylko jest tam albo dokument, albo link, albo YouTube link osobno.
Trzeba to chyba wybierać za każdym razem,
chyba że się mylę, ale to jakoś tak zniechęcające.
Jeśli chodzi o dokument, to tam chyba też pliki audio wchodzą.
Linki to rozumiem, dlaczego to miało być osobne pole edycji.
No tak, tutaj wpisujemy link.
Tam chyba też jeszcze z dysku można wybierać.
Natomiast kiedy już sobie te wszystkie źródła załadujemy,
damy mu chwilę na przetworzenie,
to po pierwsze dostaniemy streszczenie tego, co napisaliśmy.
I teraz z tym naszym notesem, bo tak to się nazywa,
możemy po prostu rozmawiać, możemy mu zadawać różne pytania,
poprosić, żeby nam stworzył skrót w formie listy,
na przykład tak, bo to generalnie z tym rozmawiamy.
Ale też możemy poprosić, żeby nam wygenerował podcast.
No i o tym, jeśli ktoś słuchał tych programów,
to słyszeliście, jak to wychodzi.
Potrafi nawet teraz te podcasty tworzyć po polsku.
W języku angielskim to w ogóle te podcasty możemy kierować
w czasie rzeczywistym, możemy w każdej chwili wziąć je,
bo to generalnie wygląda tak, że mamy dwóch prowadzących.
jest głos męski i głos żeński i sobie debatują o tych naszych źródłach.
Tam możemy też na początku wpisać pytanie,
na czym mają się w tym podcaście skupić.
W wersji angielskiej też możemy w każdej chwili wciąć się w dyskusję
i zadać jakieś pytania.
No, w wersji polskiej niestety tego nie ma.
Też czasami on to, niektóre rzeczy wymówi dziwnie,
takie trochę czasami angielskie jakieś zwroty się pojawiają.
Rozpakujmy to, moje ich ulubione słowo.
Ale nawet mu to wychodzi.
Możemy mu załadować kilka źródeł.
Porównujemy jakieś sprzęty, specyfikacje powklejamy
i chcemy potem sobie gdzieś to wszystko uporządkować.
To można sobie taki podcast wygenerować, posłuchać, jak to wyjdzie.
Powiedzmy, że zbieram jakiś materiał do artykułu na temat telefonu
I piszę zbiór kompletnie luźnych notatek, na przykład…
Kompletnie pierwsze wrażenia, że o Jezu, jaki ciężki, nie?
Albo na przykład, nie wiem…
Ale kto piszesz? Ty piszesz?
Ja robię sobie listę notatek.
To nie jest mój pierwszy artykuł.
Po prostu chodzi o to, że ja sobie spisuję wrażenia,
takie ulotne, które gdzieś potem wylecą z głowy.
Żeby później to wykonać. Aha, tak, tu jest, tu nie wiem, tu jest…
Tu jest element.
Tu jest coś tam, tak. Czy on potem jest w stanie mi z tego…
Nie mówię, że napisać zaraz jakiś tam cały artykuł,
bo nie na to chodzi też, ale wygenerować coś,
co mi zbierze te notatki, czy ja je później jakoś tam obuduję
w cały długi inny tekst i tak dalej, czy…
I tak, i nie, bo do tego GPT, mi się wydaje, jest bardziej,
bo ten notebook LM, on bardziej jakby skompiluje
Ale notatki też można konwertować do źródeł.
Bo notatki też można konwertować do źródeł.
Może coś byłby w stanie stworzyć.
Ja mu wysłałem jako źródło całkiem długi podcast,
który trwał ponad godzinę, to akurat była recenzja słuchawek.
Ta recenzja była oporządkowana, ale było tam trochę luźnych myśli,
gdzie np. omawiałem wygląd fizyczny urządzenia.
To wiadomo, jak się to w podcastach u nas robi.
I jak poprosiłem, żeby później, jak on mi ten swój podcast stworzył,
swoje streszczenie, żeby właśnie gdzieś moje myśli podsumował,
poradził sobie z tym.
Okej, no czyli coś można.
I co on tam jeszcze, że przy każdym, bo on ma taki specyficzny interfejs,
prawda, że on opisuje w akapitach, znaczy przedstawia coś tam i tam są takie
przyciski, że właśnie można chyba zapisywać do notatek, to rozumiem,
że on, gdzie on to zapisuje, czy do źródeł, o co w tym chodzi?
Tam są takie jakieś przyciski, prawda? Jakby najpierw do notatek, do…
Notatek, co rozumiesz przez notatkę? Luźnych notatek, które, bo to jest tak,
że w celach tam bezpieczeństwa i prywatności, jeżeli ty odświeżysz
Dany czat, to nie jest jak w GPT, że on się zachowa w historii.
Aha.
Tylko on się wykasuje.
I w momencie, jak tobie się dana wypowiedź spodoba,
na tyle jest warta uznania,
dajesz sobie tam chyba…
Albo dodaj do notatek, albo zapisz do notatek jakoś tak.
Nie pamiętam teraz.
I te wypowiedzi, te notatki są potem dostępne w zakładce Studio,
bo mamy generalnie trzy zakładki.
Czyli źródła, czat i studio.
I w studio mamy dostępne właśnie owe notatki.
I on jeszcze z nich…
I ty je sobie możesz przeglądać,
ty możesz sobie tam jeszcze dopisywać, je edytować.
Natomiast jeszcze z nimi…
I żeby one weszły w skład stricte tego źródła,
czyli de facto materiału treningowego dla danego notatnika,
bo to jest wszystko odseparowane od siebie.
Jeden notatnik to jest jakby jeden profil troszeczkę,
w sensie inne notatniki jakby nie mają ze sobą komunikacji,
wszystko jest oddzielone.
I tak, jak skopiujesz sobie już tę wypowiedź jako notatkę,
możesz ją potem skonwertować jako źródło.
Pod przyciskiem albo skonwertuj wszystkie notatki jako źródło,
albo sobie zaznaczasz konkretne notatki,
bo w checkboxy ładnie tam są pola wyboru do zaznaczania każdej notatki,
i te konkretne notatki sobie możesz potem skonwertować jako źródło.
No i potem też tymi źródłami manipulować, jak sobie z kolei przejrzysz zakładki źródła.
Też nimi manipulować, wyłączać lub je włączać.
I on te źródła, jak je wykluczysz, nie będzie w ogóle brał pod uwagę podczas pracy nad…
no generalnie jeśli chodzi o tego czata.
A jak je włączysz, no to z powrotem ma do nich dostęp i będzie mógł z nich korzystać.
To dotyczy tak naprawdę wszystkich źródeł.
No bo i tych YouTubów wszelkich, które sobie dodasz,
i strony, ale też tych waszych notatek.
Jako występ do podsumowywania plików audio
i takie 45-minutowe jakieś audycje czy kilka odcinków na YouTubie,
bez problemu mi zrobiły transkrypcję.
Przy czym musiałem też napisać, o co mi chodzi.
Na przykład nie chcę szczegółowych wstępów, podsumowań,
bo on takie ma tendencje, że robi ładny wstęp,
na końcu powtarza się, robi taką klamrę,
Trochę jak w jakimś wypracowaniu, takie podsumowanie.
No i to trzeba troszkę napisać.
Może to się da doprofilować gdzieś w profilu…
Skonfiguruj notatnik, przycisk.
Aha. O, no to ja muszę to porządnie potestować.
I gdzieś tam…
Ale jest to bardzo obiecujące,
że takie YouTuby może bez problemu opisywać.
Działa to naprawdę bardzo fajnie.
Dany notatnik możesz też komuś udostępnić.
Zarówno z ograniczonym dostępem,
czyli stricte ty wpisujesz maile konkretnych ludzi.
Ale od bodaj dwóch albo trzech tygodni,
chyba nawet dwóch, no dwóch i pół, coś takiego,
jest możliwość udostępniania publicznego linku do notatnika.
Ja sobie zrobiłem taki eksperymentalny, dostępny Apple, żeby tak…
No i ja wiem, 85-procentowa skuteczność w sumie to jest,
bo no też być może jak już ma…
Nie wiem, dlaczego tak.
Czy jakieś audycje są?
Bo ja tam tyflopodcastów sporo nawrzucałem właśnie.
Ja tam gdzieś artykułów z mojej szuflady Piotra.
No to w pewnym momencie gdzieś tam troszeczkę zaczął się gubić,
ale i tak…
No, to działa generalnie. Dosyć zgrabnie.
Takie podstawowe gesty, bo go tym nakarmiłem.
Powiedzmy jakieś takie meandry z obsługi iPhone.
Wszystko to generalnie fajnie się potem w tym czasie zrobi.
I jest też aplikacja Notebook LM na iPhona, prawda?
Jest. Od pewnego czasu.
Jest, no.
Ktoś korzystał? Jakoś coś wiemy więcej? Bo ja nie korzystałem jakoś tak czynnie jeszcze.
No ona ma swoje bolączki troszeczkę, bo…
bo tamte… niektóre z przycisków, z tego co pamiętam, chyba gdzieś tam są niepoetykietowane.
Mało ich jest, to nie są poetykietowane.
Ale to, co jest najbardziej wkurzające,
To, że ten voiceover przechodzi ci poniekąd…
Nie wiadomo, odpalasz appkę, on ci przechodzi w tryb…
takiej jakości, jakbyś przez telefon rozmawiał.
No, niestety. I nawet jak zminimalizujesz appkę,
dobra, na chwilę się ustabilizuje, potem znowu…
No ale wiesz to, w GPT, w trybie głosowym,
ale to jest coś innego, bo też jednak…
Ale to jest coś innego, bo jakbyś z tym rzeczywiście rozmawiał,
to by było… a tutaj niestety tak jest na porządku dziennym.
To, czego nie można zrobić w aplikacji,
to nie można dostosowywać tego podsumowania audio tak zwanego,
czyli podcastu, który ci generuje.
Owszem, możesz go wygenerować, ale on ci zrobi wedle swojego widzimisię,
w sensie na źródłach i tak dalej, bo na stronie jest ten przycisk,
możesz sobie tam wszystko wpisać, też ile ma ten podcast trwać.
Mało tego, możesz go zrobić imiennie, że…
No dobrze, to mamy wśród naszych słuchaczy Michała,
który chciał się dowiedzieć o tym i o tym.
I on to centralnie powie, więc… albo ona, nie?
Więc to można sobie na stronie, w aplikacji niestety nie.
I jeszcze jedna rzecz, która mi umknęła teraz.
Dobra, chyba sobie nie przypomnę.
No, generalnie tam…
Aha, języka generowanych treści sobie nie możesz chyba,
zdaje się, w aplikacji ustawić, bo…
Ja miałem taki śmieszny przypadek, nie wiem dlaczego.
Konto Google’a mam ustawiony na polski.
Język systemu iPhone’a mam ustawiony na polski.
Google Ale… ten, aplikacja obsługuje język polski.
Nie wiem dlaczego, podcasty…
To po niemiecku?
Tak, streszczenia, podsumowania mi się w ogóle…
i notatniki mi się nazywały po niemiecku.
Wszystkie.
Może źródła jakieś?
Duchy śląskiej autonomii się odzywają.
Bo to jest tak, że niezależnie od źródeł…
Jak sobie dodasz…
Bo źródła, jeżeli są po angielsku, powiedzmy, czy coś to one w tabelce ze źródłami, czy tam na liście w aplikacji, one będą po angielsku, owszem.
Ale wszelkie podsumowania, informacja ma być przetłumaczona, tak.
Tak, tak, tak, tak. Notatnik też się nazywa sam, w sensie on się sam jakby inteligentnie nazywa, a nazwę można zmienić, ikonki nie.
Dlatego mi wyszło chyba tam pracownik, niebinarny pracownik techniczny dostępny, albo czerwone jabłko,
Coś tam.
I to jest ten twój projekt, który podałeś na grupie?
Na… na systemie Apple’u?
No, no, no.
Tam go troszeczkę zaktualizowałem o historii sprzętów, o specyfikacji, o coś tam.
A do tego czas, swoją drogą, użyłem akurat perplexity i też…
To do perplexity sobie może też przejdziemy potem.
Natomiast, no, tam sobie to wygenerowałem z kolei.
Okej.
I rzuciłem mu.
Jakoś było jedno wielkie.
Ja już wiele więcej nie powiem, bo po prostu z tych dwóch,
o których mówiliśmy wcześniej, korzystam,
o innych nie wiem w sumie właściwie nic.
A jako fan Microsoftu wiesz coś więcej na temat Copilota?
Jeśli jeszcze mogę, to bym odnośnie cen, jeśli chodzi o Google LMA, bo wersję darmową owszem mamy.
5 do 50 źródeł możemy tam zmieścić i to chyba jest jedyne ograniczenie zdaje się.
Natomiast w wersji płatnej do 300 tych źródeł możemy tam zmieścić, więc zasób mamy sporo.
I jeżeli kupimy sobie tego Gemini’a, znaczy tego AI Pro całego od Google’a, ten cały pakiet,
to nie dość, że te dwa terabajty dostajemy, tam chyba nie wiem, czy YouTube’a premium przy okazji,
ale dostajemy też właśnie dostęp do tej wersji plus LM’a, tego notebooka.
I do tego Gemini’a też.
To jest w tej cenie tych stu złotych?
Tak.
To jest dwa terabajty?
Dwa terabajty, no.
A to zaczyna być interesujące, bo ja mam dwieście gigabajtów.
Dżemina i ten? Wow, jeżeli to… Powiem tak, to by nawet za dwieście było w miarę płacać.
Nie, za dwieście to nie, ja już bym nie kupił, bo jeszcze mam, wiesz, i GPT, i Ofisa, i to wszystko.
Ale mówię gdyby tak, że to też kilka usług jednak takich dość istotnych, jeżeli ktoś korzysta rzeczywiście z tego wszystkiego.
I coś z YouTube’em chyba przy okazji, ale tego nie pamiętam.
Premium Family pewnie ja bym chciał mieć.
Chyba zdaje się, że personal, w sensie dla indywidualnego tylko, ale chyba jest.
To trochę lipa, ale też nie ma co narzekać z kolei. Za stówkę to nieźle.
No tak. A Microsoft? Copilot?
To właśnie ja stwierdziłem, że to jest taki klonik GPT w wersji darmowej.
To się chyba bazuje na GPT.
I Microsoft bardzo to inwazyjnie tak promuje, ale mam wrażenie, że to bardziej działa w tych Microsoft dla firm,
ale to też tak w Stanach gdzieś tam w tych firmach.
Nie, on działa po polsku, nawet ja mu kiedyś po prostu wprost poleciłem,
napisz mi artykuł o tym i o tym, bo jestem tam ciekaw,
bo byłem ciekaw, jak on tworzy te teksty.
Siedem czy osiem stron mi napisał, ale żeby mnie to jakoś szczególnie porwało…
Ale on na jakichś gorszych modelach, o ile pamiętam, GPT w ogóle korzysta.
Przerwa kąt GoPilota jest kontekstowość współpracy z Microsoftowymi narzędziami, tak jak sama jak Gemina i Google.
Jeżeli jest to z jakichś przyczyn potrzebne, to pewnie warto się wygłębić. Jeżeli nie, no to…
Ale rozumiem, że nikt z Was nie korzystał tak realnie, że w Wordzie, w Outlooku, nie wiem…
Ja mogę powiedzieć tylko, jak to działa w GitHubie. Akurat nie korzystałem z tego osobiście,
natomiast obserwowałem osobę, która z tego korzystała.
GoPilot na GitHubie teraz dostał dosyć dużą aktualizację,
która zrobiła z niego agenta.
Czyli to po prostu znaczy też tyle,
że on jest w stanie pracować z całym repozytorem,
ale nawet też sam z siebie wysyłać tzw. pull requests,
czyli wysyłać zmiany do kodu, zgłaszać swoje błędy.
To wychodziło różnie,
bo w publicznych repozytoriach Microsoftu
Microsoft dużo swojego kodu ma o dostępne otwarcie.
Było widać, że tam naprawdę wymyślał rzeczy,
które wychodziły mu średnio.
Tam inżynierowie go musieli co chwila poprawiać.
Natomiast przykład z życia tutaj znajomych.
Chciał zaktualizować rozszerzenie tłumaczące do Hammer Spoona,
bo ono tam tylko wspiera tłumacza Google, to jakiejś starszej wersji.
A chciał właśnie… Potrzebował takiego lepszego tłumaczenia,
między innymi do tej gry, o której Patryk mówił.
i stwierdził, no dobra, jest ten co-pilot nowy w GitHubie,
mam VS Code, a spróbuję to przetestować.
Swoją drogą, integracja z tego VS Code’em
dla czytnika ekranu jest naprawdę genialna,
bo tutaj znów mamy dodatkowe dźwięki,
kiedy on myśli, kiedy on pisze, kiedy on skończy pisać.
Chyba też są rzeczy czytane do nas w ogóle w VS Code.
To świetny edytor, jeśli chodzi o dostępność.
I tutaj też te funkcje AI zostały świetnie zrobione.
Mniej więcej. On go poprosił,
Szytaj mi kod z tego repozytorium.
Podał mu link do tłumacza do MVDA, tego hiszpańskiego,
który tam wspiera, tam chyba z sześćdziesięciolem usług,
wspiera właśnie GPT, wspiera DeepL, wspiera Binga, wspiera Googla
i mówi, przeportuj mi to wszystko do Hammerspoona.
I on to przeportował.
Z tego, co go pytałem, to jakiś dużych zmian nie mógł się oprowadzić.
Po prostu szczytał ten kod, który…
I co? Wszystko? API wprowadzony i potem co? Działało?
Tak. Mimo to, że jedną z MVDA to jest Python,
Hammerspoon to jest Lua, zupełnie inny język programowania.
Przeportował to. Mówi, że nawet jakiś API,
o którego nie słyszał, wykorzystał.
Potem go poprosił, a dodaj mi jeszcze cache,
tak, żeby jak już coś się przetłumaczyło,
żeby już nie tłumaczył tego drugi raz.
Dodał mu.
I to po prostu zadziałało generalnie.
Tam jakieś drobne zmiany musiał wprowadzać z tego, co mi mówił,
Ale mówiły, że dużo, dużo nie musiał tam grzebać.
No, pięknie. Wow.
Muszę się w końcu z tym Hammerspoonem zainteresować,
bo to od dwóch lat, od trzech.
Jeszcze tak a propos, nie wiem, jak tam, jak Jemina jest z generowaniem plików,
ale jak chcecie mieć pliki z GPT Worldowskie na przykład,
to nie więcej niż 9000 znaków.
O, to mało, to jest mało.
Powyżej, bo on generuje to jakimś Python-generatorem
Tam chyba są jakieś też limity.
Tak, tam są jakieś limity.
36-38 kilobajtów to największy plik jaki widziałem z metadonami w Wordzie.
Autor pliku jest Python Generator, więc to mnie jest ciekawe.
No dobrze, a jakbyś chciał te XT wygenerować, to normalnie można wszystko?
No, normalnie możesz. To mi nawet wyrzucił chyba dziesięć stron albo więcej.
PDF-ka, HTML-a jak coś w Markdownie i potem przekształcasz…
Znaczy, bo on w generowaniu…
Też możesz?
On bardzo lubi Merdauna, bo on sobie robi szablon, a potem go uzupełnia tekstem.
A te PDF-ki takie w miarę dostępne, jak tak się czytało przeglądarką,
takie z akapitami, takie w miarę czytelne dla nas?
A chyba nawet. Chociaż jak ja mu kiedyś kazałem
za starych czasów wygenerować plik,
gdzieś tam jakieś szkolenie potrzebowałem, a nie mogłem formularza
znaleźć z dostępnym PDF-em, który w sensie miałby interaktywny
Pola formularzy i coś tam, nie?
No i chciałem, kazałem GPT to wygenerować,
to raz coś zrobił, a potem była jedna wielka porażka.
Ale to było za czasów jeszcze,
jak nie było tak na szeroką skalę tych modelów rozumujących.
Teraz może by mi się to udało lepiej.
Ja za pomocą tego modelu rozumującego
wygenerowałem sobie, słuchajcie, audiogram do aplikacji zdrowie,
sfałszowany,
…żeby przetestować wsparcie słuchu w AirPodsach.
I do tego stopnia to się ulepszyło w sumie,
że zaimportował mi prawidłowo plik,
rekordy zdrowotne sobie prawidłowo zaczytał,
czyli w wynikach zdrowotnych w sekcji słuch wyszło,
że jestem głuchy jak pień.
Natomiast z jakichś powodów już ten konfigurator
tego wsparcia słuchu, nie chciał mi w ogóle tego zaczytać tak naprawdę.
Ale sukces już był, naprawdę, bo i te wszystkie częstotliwości,
które tam rzekomo miałem uszy poniszczone,
to aplikacja zdrowia bardzo ładnie widziała.
Więc to już się dzieje, potrafi.
Mhm. No i też przeglądarka, jeżeli ktoś używa, Microsoft Edge,
ona ma jakoś zintegrowany ten pasek Copilota,
jest jakiś skrót klawiszowy i chyba tam można szybko wysyłać informacje,
nie wiem, czy stronę, czy wpisać do Copilota,
Nie wiem do końca, jak to działa, ale wiem, że Microsoft to dość intensywnie promuje.
Ale chyba Edge’a nie korzysta tak czynnie.
Nie, niestety.
Wiem tylko, że Chrome też doczekał się podobnej integracji z Geminiem. Na pewno na razie możemy…
Rozszerzenie GPT jest do przeglądarek jako wyszukiwarki chyba nawet.
Można używać zamiast Google’u normalnie jako web search takiego GPT.
I wtedy są pytania, jakbyśmy wpisali coś do GPT?
Nie, to jest tak, jak masz w kodresu…
Jakbyśmy GPT pytali.
Tak.
W kodresu masz.
Nie, to nie wiem, czy bym chciał. Jakie to by były linki, co on by nam wypluwał.
Odpowiedź… Nie, nie tak trochę… Znaczy, rozumiem, o co chodzi,
ale zastanawiam się, wiesz, że wpiszemy i wtedy, jak on nam…
Po googlowskim to nam wyszukiwanie wyświeje nam linki,
pokazuje reklamy, linki i tak dalej.
No a to GPT, to co by była tylko odpowiedź GPT
GPT i… to ciekawe.
Ja teoretycznie to rozszerzenie na iPhone’ie chyba, bo zdaje się, mam włączone
i jakoś mi to chyba działać nie chciało w sumie, więc nie wiem, o co chodzi.
Chyba, że ja czegoś nie wiem, bo teoretycznie je mam na iPhone’ie, no.
Ale słuchajcie, to jest paradoks, bo a propos tego w ogóle wyszukiwania
całej tej historii z opisywaniem obrazów i tak dalej, i tak dalej,
No bo tak, co-pilot jest oparty na GPT, prawda?
Ale GPT pierwotnie, to on tak naprawdę tego nie miał.
Dostał to co-pilot, no bo było wielkie boom, prawda?
Na to jeszcze przed Be My AI, że opisuje obrazy, że przeszukuje sieć.
I dopiero potem pierwotny GPT dostał tak naprawdę
najpierw wyszukiwanie map sieci, a potem opisywanie obrazów, nie?
No takie.
Są jeszcze inne modele. Nie wiem, na ile szczegółowo i długo chcemy o nich mówić, bo one nie są ani jakieś…
Są dobre, ale są albo dla wąskiego grona użytkowników, jakiś tam wycinek typu, pewnie powstają jakieś naukowe, językowe.
Natomiast te, które chyba omówiliśmy, to są takie dla najczęstszego grona użytkowników.
Wiem, że są te modele, ten Cloud, który do pewnych zastosowań…
Wiem, że Piotr, ty tego jakoś używałeś i nawet ceniłeś w miarę, prawda?
To znaczy, ja może…
Clouda nie tyle jeszcze, natomiast co mogę powiedzieć,
bo to jest też od osób, które go używają bardzo dużo
i też miały okazję porównywać go do DeepSeeka
czy nawet do innych modeli gdzieś,
to Cloud jest bardzo dobry w jednej rzeczy,
mianowicie w programowaniu.
On jest ponoć najlepszy, zawsze gdzieś na topie tych rankingów, benchmarków tak zwanych.
To ściga się zawsze z tym Google Pro Demo and Geminiem.
Ściga się, tak, po tym względem, ale tutaj, no, to testował znajomy,
który zawodowo jest programistą i mówił, że faktycznie nic Kloda
na tekst zasadzowy nie pobija, co też odbija się na…
Trzy-siedem.
Trzy-siedem.
Trzy-siedem, jeszcze czwórki zwłaszcza, bo jeszcze czwórka teraz wyszła.
A to dostępna strona, jakaś funkcjonalność?
Tak, dla nas coś wiemy. Bez problemu można korzystać.
Interfejs jest dostępny, z tego co wiem,
natomiast wiem, że on jest jakoś droższy.
Chyba jest jakiś dostęp darmowy, natomiast on jest dosyć ograniczony,
a nie wiem teraz, ile kosztuje abonament,
ale wiem, że jest trochę droższy.
Czyli to już tak testować nie ma co, bo to do takich osób rzeczywiście,
co wiemy po co, wiemy, dlaczego chcemy to kupić
i co z tym zrobić potem.
I zresztą to nawet jeśli o to kodowanie chodzi,
to te limity też nie są jakieś, znowu, bardzo duże właśnie,
więc płaci się sporo.
GPT nam wystarczy na nasze potrzeby nieprofesjonalne.
Tak, on też może opisywać zdjęcia, ponuć bardzo sensownie.
To ci, którzy na przykład korzystają z JAWS-a,
chociaż nie wiem, czy to w Polsce u nas jest włączone,
bo od tej wersji 2024 mamy ten, co się nazywa Picture Smart AI.
I co ciekawe, tam do tych bardziej szczegółowych opisów
Właśnie jest wykorzystywany klod.
I te opisy wychodzą całkiem sensowne.
Jeszcze chciałbym o jeden typ modeli zahaczyć.
Już nie będę długo się zatrzymywał.
I to jest też fajne dla tych, którzy mają mocniejszy komputer
i chcą sobie dużo zdjęć opisać
albo chcą naprawdę gdzieś, żeby te nasze informacje nie wychodziły.
Czyli wszelkie modele lokalne.
I tutaj takie dwa modele,
o których, myślę, warto wspomnieć tak najbardziej z moich testów,
to mamy modele od Metej.
Tutaj są modele z serii Lama.
Taki najnowszy to jest Lama… No, wyszła Lama 4,
ale Lama 4 to jest za duże, żeby uruchomić ją na komputerze takim,
powiedzmy, osobistym.
Natomiast mamy Lama 3 i teraz mamy też model Gemma od Google’a,
czyli to jest taki trochę, no, dużo, dużo mniejszy brat Gemini’a.
Natomiast on jest na tyle mały,
że spokojnie go można uruchomić na komputerze prywatnie.
Tutaj musimy mieć mocną kartę graficzną.
Jeśli ktoś ma Maca, to te wszystkie nowsze Maci
to jak najbardziej go uruchomią.
Natomiast trzeba mieć też trochę więcej RAM-u,
przynajmniej te 16 giga RAM-u.
Ja tutaj najlepiej, żeby było…
Teraz mam procesor M4 Pro, gdzie mam 24 gigabajty RAM-u.
No to, że ja mam w wersji średniej,
czyli takich, która ma 12 milionów parametrów…
Miliardów, przepraszam, oznaczenia są różne,
no to zajmuje mi sześć gigabajtów RAM-u.
Jeśli uruchamiamy to na komputerze np. z Windowsem,
że generalnie uruchamiamy narzędziem OLAM-a,
to musimy mieć kartę graficzną, która tyle RAM-u będzie miała.
To generalnie są karty NVIDIA.
Jeśli ktoś chce bawić się w AI lokalnie na komputerze,
no to zdecydowanie wtedy lepiej kupić kartę z serii RTX
…niż kartę A&D Radeon, bo wszyscy generalnie gdzieś na tej NVIDII się skupiają.
No i co możemy robić, jeśli taki lokalny model mamy? No też możemy z nim rozmawiać.
Możemy nawet opisywać zdjęcia, co czasem mu wychodzi, czasem mu może być gorzej.
Tutaj też bardzo trzeba uważać na halucynacje, ale gdybyśmy np. mieli sytuację…
A wiem, że np. do tego skrypty powstały, jakby ktoś chciał sobie całą bibliotekę zdjęć opisać.
Mamy kilkaset zdjęć do opisania i nie chcemy tego wszystkiego wysyłać do GPT.
Na przykład, bo właśnie może mamy jakieś inne osoby,
nie chcemy, żeby te zdjęcia wędrowały,
ale chcemy mieć takie ogólne opisy dla siebie.
No to takimi lokalnymi modelami można.
Są też takie modele zoptymalizowane pod programowanie konkretnie,
które przez to, że działają lokalnie, działają na tyle szybko,
to też możemy wykorzystać do jakiegoś auto-uzupełniania kodu szybkiego.
I tego typu rzeczy można sobie uruchomić lokalnie,
Właśnie z VS Code’em, czy po prostu rozmawiać przez różne aplikacje.
Jeśli ktoś chce się interesować, to też w internecie można znaleźć dużo informacji,
co ludzie polecają, co też dynamicznie się zmienia, bo co chwilę nowe modele wychodzą.
Tak parę miesięcy temu najnowszy model to była ta Lama od Mety.
Na przykład właśnie to zdjęcie. A teraz wyszła ta Dżema nowa i ona jest jeszcze lepsza.
I pewnie za jakiś czas wyjdzie coś jeszcze lepszego.
W międzyczasie DeepSeek się pojawił, czyli taki też model myślący,
który też można w pewnym stopniu uruchomić lokalnie.
Tam co chwilę nowe rzeczy się pojawiają.
Ten DeepSeek dostępny?
Bo tyle szumu było, a to dla nas coś sensownie?
W sensie taka funkcjonalność, coś, ktoś, wiemy?
Nie wiem, jak jest z jego oficjalną stroną.
Wiesz, że to jakoś można też właśnie uruchomić albo lokalnie,
albo na takim mocniejszym sprzęcie na Hugging Face się.
I to tam jakoś działa.
Ja się akurat tym jeszcze nie bawiłem.
Gdzieś kiedyś byłaby ta aplikacja niedostępna chyba, nie?
Kiedyś były problemy.
To znaczy, ona jest teraz w miarę tak dobra, ta aplikacja.
Tam może jeden przycisk jest, nie jest etykietowany chyba.
A tak zazwyczaj chyba jest spoko.
Natomiast z dipsikiem to ja mam podstawowy problem tej natury.
I to jest w ogóle jakiś paradoks.
Ja z tego w ogóle jakoś nie ufam, że bardzo temu rozwiązaniu w sumie…
No bo to jednak wiesz, nawet tam w polityce prywatności gdzieś tam stoi, że tam jak się korzysta z tego ich, to tam serwery chińskie, coś tam.
Ale już pomijając jakby, tylko skupiając się na dostępności, to nawet nie na dostępności, na możliwości zalogowania się na stronie internetowej, słuchajcie, to po pierwsze w aplikacji na iPhone’a mamy możliwość zalogowania się z Apple’em, na stronie już nie.
Ale jak ja chcę zalogować się mailem, ale zresetować sobie jakby hasło,
żeby przekopiować sobie tego fejkowego, powiedzmy, maila utworzonego przez Apple’a,
wyskaku… mimo że tam przecież, na Boga, konto jest, tak? No bo ja je stworzyłem.
A ten stwierdza, że nie znaleźli ono konta, konto niezarejestrowane, coś tam.
Więc się nie da w ten sposób. Jak ja bym to wiedział, to pewnie bym się z Googlem od razu…
Ale jakoś tak wolę z Applem.
I numer telefonu…
Może z Googlem też. Ciekawe, czy by z Googlem zadziałało.
Z Googlem tak, bo na stronie jest baner do zalogowania się z Googlem.
A w tym sensie, zalogowanie przez Google, o to chodzi.
Z Applem nie ma, więc…
Rozumiem.
…i się troszkę uziemiłem w ten sposób.
Ale jakoś chyba korzystałem z tego na stronie.
Strona też wydaje się być dostępna.
Tylko warto mieć na uwadze, że…
GPT i Gemini…
O Boże, nie, dobrze mówię, tak. GPT i Gemini.
Coopilot chyba też, zresztą oparty.
To są po polsku, nie? Interfejsy mają po polsku.
Natomiast Klod, jak i DeepSeek,
interfejs jest po angielsku.
Więc jeżeli to by dla kogoś była bariera języka…
A czemu ja o tym Klodzie w sumie mówię?
Bo on nie dość, że w sumie, no, dobry w programowanie,
to te teksty też jakieś fajne pisze, w sumie, powiem szczerze.
Jakoś tak jest coś w tych tekstach, taki polot,
troszkę takiego…
Nie umiem tego słowa wyrazić,
ale jakoś tak przyjemne dla ucha, dla oka po prostu jest.
Fajnie się to czyta.
Szkoda, że finansowo to wychodzi z tego, co mówisz,
że ta wersja darmowa taka, mówicie, ograniczona dość.
Mniej tych limitów zdecydowanie jest.
Zwłaszcza o kodowanie, wiesz, ja nie wiem jak o ten tekst,
bo ja tam jeszcze limitów w sumie osobiście nie wyczerpałem.
Też nie korzystam z tego jakoś nałogowo,
bo nie miałbym co robić, tylko testować modele, ale…
A korzystał ktoś z tych polskich modeli?
Mam na myśli Bielika i ten drugi…
Ja tego Pluma trochę próbowałem.
No i było niestety trochę Plum jak śliwka w kompot, dlatego że…
No to…
Ja mam mieszane uczucia w sumie, bo on…
Może i w polski jest dobry.
Zresztą też gdzieś tak potwierdzają te…
Ale chodzi… Aha, że formułuje ładnie teksty,
natomiast chodzi gorzej z wiedzą, tak?
Gorzej z wiedzą i gorzej z…
Nawet z takim przeszukiwaniem konstruktywnym, powiem szczerze.
Jeżeli nasze państwo wspaniałe chce to wdrożyć, ten model, do swoich przyszłych usług, to się musi naprawdę sporo jeszcze…
Znaczy nie, znaczy może…
…czuć, żeby to nakarmić bardzo ładnie.
Jeżeli to nakarmi i będzie wąsko pod te aplikacje konkretne…
To będzie raczej dobrze.
No to może być dobrze, nie? Jak to będzie tylko tak hermetycznie pod to…
Tak, bo tak naprawdę wszelka pomoc prawna na przykład, jak nakarmi jakimiś kodeksami, jakimiś ustawami, gdzieś coś powiedzmy tym…
Jakimiś sprawami podatkowymi, różnymi dla obywatela, coś tam.
No to powinno być okej. To też taki jest zresztą cel
tej cyfryzacji dalszego postępu,
żeby właśnie gdzieś tam tych urzędników odciążyć, powiedzmy,
żeby jakoś tam dać obywatelowi sztuczną inteligencję.
Czy to w samej aplikacji JamObywatel, czy na gov.pl, zdaje się chyba też.
A ten bielik?
Tego, szczerze mówiąc, nie testowałem w ogóle.
Ja też to mówię.
Po prostu testowałem to, co mi się sprawdzało, aż tak się nie wgłębiałem w inne modele.
Czytam trochę o nich, ale jakoś opisy nie brzmiały zachęcająco, więc po prostu dlatego niekoniecznie.
A z takich haseł, bo jeszcze gdzieś tam w dotatkach podczas przygotowywania się do audycji padło coś o jakiejś temperaturze.
że o co to chodziło, że temperatura czegoś, ale nie wiem, to ty, Maciej, coś chyba…
Wiesz co, no bo generalnie jest taki parametr zarówno tak bardziej do regulowania w sumie w API tak naprawdę,
jak model ma być w sumie dokładny i stabilny, a jak ma sobie pozwolić na zmyślanie
i na kreatywne tam powiedzmy odjazdy, prawda, mówiąc kolokwialnie.
Zdaje się, im ta temperatura jest ustawiona na niższą wartość,
no to jest zimniej, więc on jest bardziej, przekładając na nasze,
sztywny, chłodny, trzyma się faktów bardziej, a im jest goręcej,
im jest ten współczynnik wyższy, tym on bardziej…
Ale to niestety też może… Kreatywny może bardziej być.
Może bogatsze opisy dostarczać na przykład,
Ale może halucynować przy okazji, więc…
Więc na to warto uważać. I tak naprawdę…
No to nic, że to jest w API, bo tak naprawdę jak my chatowi powiemy,
czy to będzie GPT czy jakikolwiek inny…
Słuchaj, tutaj możesz sobie pozwolić na kreatywność.
Tu jest teraz burza mózgów i tak dalej. Pokaż, co potrafisz.
Użyj tam, powiedzmy, różnych…
To on to zrobi.
To on to zrobi, tak. I będzie bardzo…
Przedstaw to w sposób humorystyczny.
To wtedy się nie do końca musi trzymać faktów.
Ale jak powiesz, trzymaj się suchych faktów,
to automatycznie temperatura wtedy zjeżdża.
Mimo że my tego nie widzimy, nie?
Tak.
Na pokrętle tak zwanym.
Okej, czyli co?
I tak naprawdę ja myślę, że my się powoli zbliżamy do końca,
bo myśleliśmy, że może omówimy jeszcze kwestię
powystania tych usług przez inne aplikacje,
ale zdaje się, że chyba o tym będzie trzeba zrobić osobny podcast,
tym bardziej, że są takie zwyczaje, żeby jednak być może
te aplikacje jakoś tam pokazywać, demonstrować, prezentować.
To jest logiczne, natomiast…
Co jeszcze zostało nam?
Chyba o perplexity coś mówiłeś, Macieju, prawda?
Że coś korzystałeś.
O perplexity… tak.
Generalnie jako taki…
Jako taki, powiedzmy, zamiennik…
Znaczy, ja powiem tak.
Ja mam teraz trochę problem.
Dlatego, że GPT, jak się go odpowiednio podkręci
i go się stonuje,
to on już nie jest niemal tak samo dobry,
jak perplexity w sumie, tak naprawdę.
A przepraszam, co to było, to Perprex City? Co ono takiego ma?
Czym się charakteryzuje w stosunku do… Co to jest za usługa w ogóle? Za model?
To jest coś takiego, co ma służyć generalnie w wyszukiwaniu.
To taka trochę… W uproszczeniu mówiąc…
To jest to, co zakupy jakoś wyszukuje?
A wiesz, co to akurat ja robiłem z GPT wtedy?
Bo gdzieś mi się zdawało, że na Whatsappie jest jakiś bot, chyba tego Perplexity,
który właśnie tak… Ktoś tam się nim zachwycał, za dużo powiedziane,
ale ktoś bardzo chwalił na jakiejś grupie to.
Właśnie, a propos bota, też mamy dostęp do czata GPT, to też jest…
O tym było w tychlo przeglądzie. Amerykanie mają, że mogą się dzwonić
na numer telefonu, natomiast my, jak sobie dodamy do Whatsappa
i jeżeli numer nasz konta jest powiązany z…
Z czasem GPT z kontem, no to wtedy korzystamy dokładnie z tych samych limitów.
Jeśli mamy wersję Plus, to na Whatsappie tak samo możemy sobie z tym konwersować.
I pliki audio możemy mu wysyłać, w sensie wiadomości głosowe.
Mi to nie chciało coś działać. Coś jakiś miałem z tym problem, niestety.
Powiem szczerze.
A ja nie próbowałem jeszcze.
A mi to działało dosyć ładnie.
Przepraszam.
Tylko powiem, że Michał Dziwisz w którymś podcaście w Tyflo Przeglądzie
opowiadał z kolei o tym grok.
To jest, nie wiem, K, Q, na końcu, nawet nie pamiętam.
To jest grok przez K, czyli to jest…
Nie, bo grok przez Q to jest model do transkrypcji.
Aha, to jest od Twittera ten model, od Maska, tak?
I to jest integrowane w Twittera, ten model? Nie.
Znaczy on, ten grok przez K, jest grok.com, tak swoją mową.
Bo on mówił, że w Unigrama, że z Telegrama Pro można z tego korzystać, jak się kupi Telegrama Pro.
Tak, tak. Ja powiem szczerze, on jest dobry, powiedzmy, jak kogoś nie stać na przykład na to, żeby sobie kupić, nie Gemini’a, tylko tego, GPT.
To ten grok w darmowej swojej wersji ma całkiem spoko limity. Całkiem fajnie to to pisze też.
I w sumie, zadowalając to, te zdjęcia też opisuje i tak dalej,
bo on to może robić.
Jest think, czyli myśl, czyli rozumój w groku.
Tylko tam śmieszne chyba cztery wiadomości można mu wysłać,
jak się nie ma planu płatnego, więc zaraz wiesz, że się kończy limit.
A w GPT jednak…
A to na X też działa? Wie ktoś?
Wiesz co, na pewno przeszukuje też wszelkie tweety właśnie.
A teraz jak się to nazywa? No, w każdym razie z X-a, no.
Bo to jest coś tam rzeczywiście zintegrowane.
I on szuka zarówno w… no, wszelkiego rodzaju Googlach,
ale właśnie też w X-a przeszukuje, no.
Mhm. No dobrze, a ten perplexity to chyba nie warto.
Jakby rozumiem, że też…
Znaczy powiem tak…
A to się rozwija, to się rozwija w ogóle, przepraszam?
To się o tyle rozwija, że oprócz deep research’y, bo głębokich badań,
to doszło mu coś takiego, tylko w planie płatnym, co się nazywa labs,
generalnie laboratoria. I to polega na tym, że tworzy się cały projekt od zera,
tam się go karmi całymi plikami. On tam robi z tego naprawdę przedziwne rzeczy,
bo sam z siebie robi sobie różne wykresy, wizualizacje,
żeby lepiej pomyśleć, żeby się skupić.
Jakieś pliki markdown sobie robi.
To, co ja w tym logu widziałem, co on wyczyniał.
W każdym razie zajmuje mu to maksymalnie dziewięć minut.
I tak naprawdę taką skondensowaną dawkę wiedzy
w sumie ze źródłami,
to jest chyba troszkę podobne do tych deep researchy, tylko…
Wydaje mi się, że tych źródeł może mieć trochę mniej też, albo właśnie…
Na pewno krócej mu zajmuje to robienie tego, bo jest napisane, że do dziewięciu minut maksymalnie, że się musi zmieścić.
A Deep Research, no to jednak jest powiedzmy te pięć do pół godziny chyba czy jakoś tak, nie?
To jakaś chyba podobnie jak w GPT tak naprawdę.
No i darmowi użytkownicy mają Deep Research,
Czyli w sumie tą wolniejszą, aż dokładną wersję.
A ten Lapsy, to jest wersja stricte zarezerwowana dla tych, co mają Perplexity Pro.
Ja sobie to w sumie wziąłem testowo na miesiąc, żeby sprawdzić.
No, powiedzmy jeszcze sprawdza tam jakoś.
Ja na pewno lubię sobie… właśnie, a propos też halucynacji i niedawania się, powiedzmy, temu.
To prócz tego, co wcześniej powiedziałem,
czyli czy aby na pewno jesteś pewien, o co na odpowiedź,
a na jakiej skali procentowej i tak dalej,
to warto jest też sobie właśnie odpowiedź,
albo nie, nawet tego samego prompta właśnie,
co samo zapytanie, zadać w takim perplexity
i żeby zobaczyć, czy on zwróci te same wyniki.
Jakby pokrywały, to znaczy, że halucynacji nie było, jest okej.
Można…
Są trzy wyszukiwania dziennie, takie pro-search,
właśnie w wersji pro,
że on tam chyba do dwudziestu paru źródeł potrafi podać.
I odpowiedzi bardziej rozbudowane.
I takie naprawdę fajne skondensacje. Fajnie się to czyta nawet.
Ale dla większości użytkowników starczy ta darmowa wersja tak naprawdę,
bo te tak naprawdę wyszukiwania, powiedzmy, zwykłe, nie te pro,
to też tam, no tak chyba na zasadzie standardowego GPT,
ale ja mam wrażenie, że fajniej on to podsumowuje.
Mało tego, wybiera sobie najlepszy model,
Jaki uzna do danego zapytania?
Jakiemu się model przyda?
To czasem nie jest adekwatne, niestety.
No bo co auto, to auto, tak?
Auto to się dawno na drodze rozkracyło, a nie…
W każdym razie…
W każdym razie kwestia jest taka,
że modeli w perplexity też jest troszkę.
Od tych nierozumnych poprzez te rozumne, tak?
Czyli powiedzmy, ta cztery O jest, ale jest O trzy.
Nie, dobra, to już…
To już są szczegóły, słuchaj.
Ale to jest wszystko.
I tak naprawdę można sobie w ten sposób też testować, który on się tak naprawdę sprawdzi.
No, który najdokładniej przeszukuje.
Tylko trzeba sobie zdać sprawę, że te rozumujące, no to proces trwa dłużej, tak?
No bo on se musi przeanalizować.
No i to by było…
VoiceMode też jest na stronie internetowej,
tylko w trybie pełnym przeglądarki z maksymalizowanym,
bo tak go nie uświadczymy.
Okej.
Po prostu.
No i chyba myślę, że…
A aplikacja też jest w miarę spokojnie dostępna,
jeśli chodzi o iOS-a.
Na Maca też ona jest…
No, kiedyś właśnie…
Chyba dobrnęliśmy do końca.
Ja myślę, że na pewno będzie można
jeszcze zrobić albo część drugą,
albo rzeczywiście może nie tyle część drugą,
opisującą te poszczególne aplikacje,
o których niektórych z nich było.
Było, ale to tak zasuchło, to wiesz.
Tak, jak mówiliśmy.
Nie mówię, że kiedyś było, bo tylko zasygnalizuję,
że na Macu mamy to w OCR,
które może rozpoznawać nam te obrazy,
tylko nie wiem do końca, jakim modelem.
Mamy…
Albo GPT, albo lokalne modele.
Aha. Mamy wtyczkę,
mamy kilka wtyczek do NVDA,
lepszych, gorszych, ale do siebie dość podobnych,
które rozpoznają nam z kilku modeli.
Mamy te translatory, a te wtyczki nam mogą też tłumaczyć,
whisperować, nagrywać. Whisperować, czyli przetwarzać audio na tekst.
Czy nawet z mikrofonu.
Mamy aplikacje natywne, przynajmniej od GPT, na Windowsa, na Maca.
No z Geminiem to jest tak, że mamy tylko przestronę
no i mamy integrację takiej powiedzmy skille, jak Amazonu skille,
które można w Androidzie włączać w systemie,
Albo z aplikacją Google po prostu.
Mamy też autonomiczną aplikację Gemini na iOS-a.
No tak, tak.
I na iPadOS-a. Nie wiem, czy na iPada jest osobna, czy ta sama, ale chyba jest.
Jest ta sama, ale chyba teraz mają serwis iPadowy.
Notebook LM też mamy na tego iPhone’a, tak?
No i tak, czyli właściwie tutaj ten grok, jeżeli ktoś chce, no to…
i ma Telegrama Pro, no to może sobie z tego ponoć z darmowo kowystać.
Z tej wersji nie ma.
…do GPT, jeżeli by limity wyczerpał, to też, bo tam on ma sporo dla darmowych, jeżeli by, prawda, to też.
Aplikacja Groka, powiem tylko jeszcze, że była troszeczkę bardziej dostępna.
Teraz się troszeczkę coś zepsuło. Parę doszło niezetykietowanych przycisków,
ale co najważniejsze, interfejs strony webowej już jest po polsku,
bo był jeszcze… dwa tygodnie temu był po angielsku.
No tak. I jest też jakaś kosmiczna aplikacja, o której zapewne Piotr zrobi podcast.
Nazywa się Bold.ai i ona… Bold.ai?
Nie pomyliłem? Tak.
By się z Bing pomyliło czy z czymś.
I ona to w ogóle ma jakiś setupowski mod?
W sensie, co ona ma? Wszystko ma.
To jest takie centrum dowodzenia,
które nam pozwala nawet nasze czaty z JPD zaimportować,
natomiast rozmawiamy przez API,
co może nam wyjść taniej,
Ale też ona po prostu wspiera wszystkie możliwe modele świata.
I to nie przesadza w sumie.
Od lokalnych po cloudy, Geminię, GPT i wszystko jeszcze po środku.
I możemy sobie takie profile tworzyć.
Mamy jakiegoś asystenta do opisywania zdjęć, który nam opisuje GPT,
bo nam się podoba, ale mamy asystenta do programowania,
który nam od razu przełącza się na clouda i ma innego prompta.
Można to jakoś z zewnętrznych aplikacji
i też pracować z tym, szybko zaznaczyć jakiś tekst
i powiedzieć, żeby on nam coś z tym tekstem zrobił.
Można to łączać, różne rzeczy.
Aplikacja generalnie bardzo rozbudowana.
Na pewno coś będzie więcej o niej.
Wiem też, że autor pracuje nad dużą aktualizacją wersją drugą,
która ponoć ma być zapisana od zera,
więc nie wiem, czy nie poczekam na tą aktualizację,
zanim coś zrobię, żeby to się zaraz nie przedawniło.
Ale jak ktoś ma Maca, to sobie warto z setupa ściągnąć.
Zwłaszcza, że w setupie też dostajemy parę…
W każdym planie dostajemy trochę kredytów
na różne aplikacje, które AI wykorzystują.
I tam nawet jak ktoś nie ma abonamentu na GPT,
ale chciałby w zewnętrznej aplikacji się tym pobawić,
to całkiem sporo wykorzystania można sobie pozwolić.
Można sobie tego Bold AI ściągnąć i potestować.
No to też ciekawe.
Właśnie. Ostatnia rzecz, o której zapomniałem, jeśli chodzi o różnicę między trybem głosowym w GPT i trybie tekstowym,
to zauważyłem, że w tym trybie głosowym on mimo wszystko, mimo że on sieć przeszukuje,
to potrafi sobie bardziej zmyślić niż i niedosprawdzać czegoś niż w trybie tekstowym.
Tak, bo on ma szybko odpowiadać.
Więc niestety jeżeli nam zależy na precyzyjności, żeby coś sprawdzić w wiarygodnych informacjach, lepiej z nim po prostu pisać, a nie tak gadać.
Kiedyś rozmawiałem na tematy fachowe chyba z 25 minut i nagle się w połowie w którymś tym jakby cofnął i mi podał jakiś inny model urządzenia, o którym już dawno zapomnieliśmy, o którym już 10 minut temu mówiliśmy,
Ale szybko go naprostowałem.
Nie, nie, o tym już nie mówimy.
Przecież mówiłeś, że…
Ach, tak, racja. Tak, tak, racja.
No, to takie typowe można powiedzieć.
Tak, więc tutaj też możemy i oceniać odpowiedzi w każde razowo,
i czaty. W sumie chyba warto to robić,
bo wtedy algorytmy jakoś tam uczymy.
Te czaty, które my tam oceniamy, też są gdzieś tam przesyłane, weryfikowane.
Więc w ten sposób ulepszamy i w Geminiu, i w GPT-ku,
W Groku chyba też, w GPT Platforms OpenAI.com,
jeżeli chcemy zgłosić, tak podsumowując,
jakiś problem z samą usługą, samą w sobie w ogóle,
a w Google jest po prostu tam odpowiedni przycisk w ustawieniach,
gdzie można wysłać feedbacki na to.
Myślę, że wyczerpaliśmy temat.
Cztery godziny ciekawych dyskusji,
ciekawego wstępu dla kogoś, kto się chce tematem
jakoś głębiej zainteresować.
Chciałem bardzo podziękować za rozmowę i za to, że przyjęliście moje zaproszenie do podcastu.
Przypomnę, że rozmawialiśmy dzisiaj o usługach sztucznej inteligencji, o AI,
głównie o czasie GPT, ale nie tylko.
Audycję zrealizował Tomasz Bilecki, a gościem programu był Kamil Żak,
Maciej Walczak i Piotr Machacz.
Dziękuję bardzo. Jeszcze raz…
Dzięki śliczne. Ja również dziękuję.
Do następnej rundy, może o aplikacjach.
O, może o aplikacjach.
To ty Windowsowe musisz, no ja też pewnie, protestować musimy coś bardziej.
Chociaż na Windowsa tak prosto nie jest.
Podcast prowadził Michał Kasperczak. Dziękuję.
Był to Tyflo Podcast.
Pierwszy polski podcast dla niewidomych i słabowidzących.
Program współfinansowany ze środków Państwowego Funduszu Lechabilitacji Osób Niepełnosprawnych.