DataWorkshop
DataWorkshop
  • Видео 193
  • Просмотров 301 307
RAG w LLM: Dlaczego popularne rozwiązania to droga donikąd?
RAG w LLM: Dlaczego popularne rozwiązania to droga donikąd?
Problem: Tradycyjne podejście do RAG (Retrieval-Augmented Generation) w dużych modelach językowych (LLM), choć obiecujące w teorii, często zawodzi w praktyce. Sztuczne dzielenie danych na fragmenty (chunki) prowadzi do utraty kontekstu i generowania niespójnych, a nawet błędnych odpowiedzi.
Przyczyny:
-- Mechaniczne dzielenie tekstu: Tradycyjne metody dzielą dane na chunki na podstawie liczby znaków, ignorując semantykę i kontekst. To prowadzi do utraty sensu i generowania chaotycznych odpowiedzi.
- Nadmierne poleganie na embeddingu: Choć embedding jest potężnym narzędziem, nie jest rozwiązaniem idealnym. Nadmierne poleganie na nim p...
Просмотров: 2 354

Видео

🎙️BM125: Jak rozmawiać ze sztuczną inteligencją?
Просмотров 4,7 тыс.14 дней назад
🎙️ Gościem dzisiejszego odcinka jest Cezary Kujek, Product Manager w dziale Machine Learning Research w Allegro, specjalista od modeli generatywnych. Jedna z głównych myśli to, że umiejętność efektywnej komunikacji z modelami AI (prompt engineering) stanie się jedną z kluczowych kompetencji zawodowych, porównywalną do znajomości pakietu Office czy umiejętności posługiwania się mailem. Zwróć uwa...
Jaki model AI wybrać: wyzwania i rozwiązania?
Просмотров 6 тыс.Месяц назад
#ai #ml #leaderboard #benchmark #arena #llm #biznesmysli Modeli LLM to aktualnie gorący temat. Aby efektywnie wdrożyć te modele w swojej firmie, konieczne jest stworzenie własnego leaderboardu, dopasowanego do konkretnych potrzeb biznesowych. Podpowiadam jak to zrobić, czyli od czego można zacząć (3 proste kroki). Choć istnieją zewnętrzne rozwiązania, to nie dają one pełnej kontroli i gwarancji...
Fine-tuning LLM: fakty i mity
Просмотров 10 тыс.Месяц назад
🎙️ Czy zdarza Ci się zastanawiać, jak powstają zaawansowane modele AI, takie jak ChatGPT? Czy wiesz, że trening takiego modelu może kosztować tyle, co luksusowy apartament w Warszawie (a w skali GPT nawet znacznie więcej)? A może ciekawi Cię, ile czasu zajmuje przygotowanie dużego modelu językowego? No właśnie! Tym zajmiemy się w 123. odcinku podcastu "Biznes Myśli", gdzie zgłębiamy tajniki fin...
BM122: 7 mitów o sztucznej inteligencji
Просмотров 4,4 тыс.Месяц назад
Czy wiesz, jakie są najpopularniejsze mity na temat modeli językowych (LLM) i generatywnej sztucznej inteligencji? W tym odcinku podcastu "Biznes Myśli" Vladimir Alekseichenko wyjaśnia różnice między otwartymi i zamkniętymi modelami oraz podkreśla, że LLM i generatywna AI to część szerszego obszaru machine learningu i sztucznej inteligencji. biznesmysli.pl/7-mitow-o-sztucznej-inteligencji/ Najw...
🎙️BM121: Sztuczna inteligencja zmienia szukanie odpowiedzi
Просмотров 1,5 тыс.2 месяца назад
QA w praktyce: trendy, wyzwania i wdrożenia. Czy wiesz, że obecna technologia osiągnęła już poziom 9-9,5 na 10 w obszarze odpowiadania na pytania? W dzisiejszym odcinku zagłębiamy się w świat question answering, czyli technologii, która pozwala maszynom rozumieć pytania i udzielać na nie trafnych odpowiedzi. Gościem jest Piotr Rybak. W rozmowie z Vladimirem Alekseichenko omawiają kluczowe aspek...
PML od środka
Просмотров 5192 месяца назад
Chcesz wejść do świata Data Science i Machine Learning, ale nie wiesz od czego zacząć? A może już pracujesz w tej branży, ale chcesz podnieść swoje umiejętności na wyższy poziom? Nasz praktyczny kurs online "Data Science" to idealne rozwiązanie dla Ciebie! dataworkshop.eu/pl/practical-machine-learning?X4k5Q9GBo-o& Korzyści z kursu: - Nauczysz się Machine Learning w praktyce od podstaw - Zbuduje...
BM120 - Sztuczna inteligencja pod własnym dachem
Просмотров 13 тыс.2 месяца назад
🎙️ Witaj w 120 odcinku podcastu "Biznes Myśli"! Dzisiaj zagłębiamy się w temat wytrenowania własnych modeli LLM, czyli dużych modeli językowych, pod własnym dachem. Gościem odcinka jest Marek Kozłowski, ekspert od NLP (Natural Language Processing) i machine learning, pracujący w AI Labie w OPI (Ośrodku Przetwarzania i Informacji, Państwowy Instytut Badawczy). W tym odcinku rozmawiamy o: - Dlacz...
DWthon - zaproszenie
Просмотров 2,7 тыс.3 года назад
DWthon - zaproszenie
COLLECT DATA NOT VIRUSES | Best wishes :)
Просмотров 3363 года назад
COLLECT DATA NOT VIRUSES | Best wishes :)
Q&A z Deep Learning Researcher | Michalina Wojtkowska
Просмотров 3673 года назад
Q&A z Deep Learning Researcher | Michalina Wojtkowska
Uczenie maszynowe - to działa!
Просмотров 2 тыс.3 года назад
Uczenie maszynowe - to działa!
Czy uczenie maszynowe działa?
Просмотров 1083 года назад
Czy uczenie maszynowe działa?
Praktyczne uczenie maszynowe - kurs online
Просмотров 6 тыс.3 года назад
Praktyczne uczenie maszynowe - kurs online
Natural Language Processing (NLP) - kurs online
Просмотров 2303 года назад
Natural Language Processing (NLP) - kurs online
NLP w Twojej firmie - kurs online
Просмотров 4033 года назад
NLP w Twojej firmie - kurs online
Mateusz Opala: Debugging Machine Learning - 5 największych pułapek, z którymi musiałem się zmierzyć
Просмотров 5313 года назад
Mateusz Opala: Debugging Machine Learning - 5 największych pułapek, z którymi musiałem się zmierzyć
Zarabiaj na swoich danych. Reguła 20/80 - zapowiedź webinarium (30.07)
Просмотров 2834 года назад
Zarabiaj na swoich danych. Reguła 20/80 - zapowiedź webinarium (30.07)
Predykcja opóźnień transportu publicznego - cz. II | DW Community
Просмотров 2094 года назад
Predykcja opóźnień transportu publicznego - cz. II | DW Community
Deep Fake - mini warsztat | DW Community
Просмотров 4344 года назад
Deep Fake - mini warsztat | DW Community
TensorBoard + Neptune.ml | DW Community
Просмотров 2024 года назад
TensorBoard Neptune.ml | DW Community
Predykcja opóźnień transportu publicznego - przygotowanie danych do analizy | DW Community
Просмотров 3224 года назад
Predykcja opóźnień transportu publicznego - przygotowanie danych do analizy | DW Community
Matrix - poznaj reguły gry w uczeniu maszynowym | 3 Transformacja
Просмотров 1624 года назад
Matrix - poznaj reguły gry w uczeniu maszynowym | 3 Transformacja
Prognozowanie szeregów czasowych - praktyczny kurs online
Просмотров 2204 года назад
Prognozowanie szeregów czasowych - praktyczny kurs online
Podstawy KERAS - co to jest i jak tego użyć do nauki NLP | DW Community
Просмотров 1,1 тыс.4 года назад
Podstawy KERAS - co to jest i jak tego użyć do nauki NLP | DW Community
Prognozowanie szeregów czasowych - praktyczny kurs online
Просмотров 2974 года назад
Prognozowanie szeregów czasowych - praktyczny kurs online
Matrix - poznaj reguły gry w uczeniu maszynowym | 3 Transformacja
Просмотров 1794 года назад
Matrix - poznaj reguły gry w uczeniu maszynowym | 3 Transformacja
Q&A z Machine Learning Engineer | Kamil Krzyk
Просмотров 1194 года назад
Q&A z Machine Learning Engineer | Kamil Krzyk
Przetwarzanie danych z filmweb cz. VI | Finałowy projekt systemu rekomendacji | DW Community
Просмотров 944 года назад
Przetwarzanie danych z filmweb cz. VI | Finałowy projekt systemu rekomendacji | DW Community
Przetwarzanie danych z filmweb cz. V | Algorytmy systemu rekomendacji | DW Community
Просмотров 1104 года назад
Przetwarzanie danych z filmweb cz. V | Algorytmy systemu rekomendacji | DW Community

Комментарии

  • @jakubjanecki6064
    @jakubjanecki6064 3 дня назад

    Dobry materiał, dzięki 🎉. Naiwnie myślałem, że LLM ustrukturyzuje mi dane bez względu na format i będę się cieszył poprawnym outputem beż wysiłku neuronów 😂

    • @DataWorkshop
      @DataWorkshop 2 дня назад

      No jednak, nadal trzeba myśleć :)

  • @runnerwithwolves8369
    @runnerwithwolves8369 3 дня назад

    Super materiały! Dzięki!

  • @ghs7233
    @ghs7233 3 дня назад

    Vlad, aby uzyskać powtarzalność odpowiedzi musimy startować zawsze w tym samym miejscu sieci, w gpt odpowiada za to parametr 'seed': def generate_response(client, messages): response = client.chat.completions.create( model=DEPLOYMENT_NAME, messages=messages, #max_tokens=8000, seed=1 ) return response.choices[0].message.content co do 'wyrzucenia chunków'. czyli jak nie chunki to co? przecież nie ma alternatywy. po prostu trzeba używać dynamicznego chunkowania i z 60% skuteczności robi się 90%. Pzdr

  • @KatarzynaSzydo
    @KatarzynaSzydo 4 дня назад

    Jesteście głupi

  • @marekjankozlowski5929
    @marekjankozlowski5929 7 дней назад

    Dziekuje, nareszcie znalazlem informacje o AI in NLP po Polsku.

  • @mxlinuxpl
    @mxlinuxpl 15 дней назад

    Świetna, doskonała rozmowa, wyjaśnienia, wiedza! Dzięki!

  • @Krzysztof-zq9nk
    @Krzysztof-zq9nk 15 дней назад

    To proste należy odrzucić sztuczna inteligencję widzimy co się dzieje to odczlowieczania czysty satanizm lucy fer

  • @ewamarchewa4049
    @ewamarchewa4049 16 дней назад

    Na początek parę słów pochwały: Świetny kanał! Dużo wiedzy podanej w przystępny sposób, tylko tak dalej! :) A przy okazji mam propozycję tematu odcinka, może rozmowa z praktykami, wdrażającymi AI w firmie. Chodzi mi dokładnie oto, aby opowiedzieli do czego faktycznie możemy wykorzystać modele AI w codziennej pracy, a do czego póki co jeszcze się nie nadają. Moja propozycja wynika z mojego doświadczenia. Pewnego dnia przybył do mnie mój szef i zafascynowany filmami i tekstami reklamowymi twórców AI krzyczy od progu "Wdrażamy AI", a na pytanie "gdzie?" odpowiada "Wszędzie!!!". Gdy szefa konfrontujemy z faktami, że nie wszędzie jest to możliwe to winą za to obarcza nas, że się nie znamy i na pewno się da. Szef ma kolejny pomysł na maksymalizację zysków poprzez cięcie kosztów i chce zastąpić przynajmniej połowę pracowników AI :( Dodam, że większość pracy naszych pracowników to praca kreatywna i nie da się całkowicie zastąpić ich osoby sztuczną inteligencją - AI nie wymyśli i nie stworzy czegoś nowego, jest bardzo dobrym pomocnikiem a nie wykonawcą...

    • @DataWorkshop
      @DataWorkshop 16 дней назад

      Dziękuję Ewa z miłe słowa, i bardzo dobrze rozumiem ten ból ;) Myślę, że to nawet standard teraz, właśnie krok po kroku obalmy mity, tłumaczę ważne rzeczy. Co do use case'ów o tym będzie i to w różnych inicjatywach. W tym odcinku też padło trochę przykładów, druga sprawa, że różne firmę potrzebują rożnych rzeczy. Na spokojnie, krok po kroku będziemy rozwijać temat. Warto obserwować podcast Biznes Myśli i inne inicjatywy w ramach DataWorkshop.

  • @jakubkopczynski779
    @jakubkopczynski779 18 дней назад

    Ciekawa perspektywa, jak wygląda użycie LLMs w dużej korporacji, na początku ery AI.

  • @MrPawel013
    @MrPawel013 18 дней назад

    Czasami model generatywny w odpowiedzi na pytanie generuje jakiś swój kod, który nie działa. Następnie po kolejnych zapytaniach poprawia go. Niestety tylko do pewnego poziomu. Później niezależnie od pytań podaje ten sam skrypt, który się nie kompiluje. Żadne narzędzie nie jest idealne i nie rozwiąże wszystkich problemów.

    • @MrPawel013
      @MrPawel013 18 дней назад

      No GPT 3.5 zaczyna odpowiadać na różne pytania tymi samymi odpowiedziami lub odpowiada nie na temat np. Zaczyna wymieniać daty i informacje historii USA gdy zadano pytania z debugowania kodu, później przeprasza za odp… itp.

  • @piotr780
    @piotr780 24 дня назад

    no i stworzycie polski model językowy open source, który skopiują sobie rosjanie, przerobia go i zaczną używać do produkowania skuteczniejszej propagandy w polskiej infosferze, a jeśli myślicie, że go nawet zabezpieczycie przed fine tuningiem i złośliwymi promptami to i tak ich modele mogą go wykorzystać do uzyskiwania np. - jak to określiliście - wiedzy kulturowej którą następnie wykorzystają do tworzenia swoich postów

  • @piotr780
    @piotr780 24 дня назад

    z modelami będzie tak jak z wyszukiwarką - skończą jako usługa - trening jest zbyt trudny, infrastruktura zbyt zlożona

  • @sawomirbaszczyk6103
    @sawomirbaszczyk6103 26 дней назад

    Świetny materiał. Zwraca uwagę na temat, o których nie słyszałem u innych popularyzatorów wiedz w tej dziedzinie. Dziękuje.

  • @AngelikaStajkowska
    @AngelikaStajkowska 29 дней назад

    😊😊

  • @wisniowabron2253
    @wisniowabron2253 Месяц назад

    Dobry materiał, dziękuję 🥰

  • @kleopcia89
    @kleopcia89 Месяц назад

    Nirsamowicie wartowciowy material, zrobilam sobie kilka steon notatek! Dzieki Panowie

    • @DataWorkshop
      @DataWorkshop 12 дней назад

      Dziękujęmy, staramy się :)

  • @nabunabu7893
    @nabunabu7893 Месяц назад

    Świetny wywiad. Mnóstwo ciekawej wiedzy podanej w bardzo przystępny sposób. No i serce rośnie, że mamy tak mocnych ludzi w branży jak p.Remigiusz czy wspomniani ludzie ze Spichlerza. Duże DZIĘKI i proszę o więcej !

  • @ghs7233
    @ghs7233 Месяц назад

    JSA łatwo obejść - co kilka zdań wstawiamy jedno zdanie o diametralnie innym kontekście, ofc nie jest to trywialne ale da się

  • @piotrpeter8346
    @piotrpeter8346 Месяц назад

    Starałem się zrozumieć to mambo-jumbo i opis. ale Pan Kinas nie dotknął w najmniejszym stopniu opisu jak ten model działa tj dla czego Bielik nie myśli !! Te jego odpowiedzi są całkowicie pozbawione myślenia . Jak trenowaliście ten model ? Czy te drogie maszyny miałyby spowodować myślenie ?

  • @dannod2333
    @dannod2333 Месяц назад

    Vlad, jak zwykle ciekawy wywiad. Tak trzymaj.

    • @DataWorkshop
      @DataWorkshop Месяц назад

      Bardzo dziękuję :) staramy się

  • @Damon_Sieputovsky
    @Damon_Sieputovsky Месяц назад

    Koleś robi bardzo fajny nikomu nie potrzebny LLM

    • @maciejszymanski3900
      @maciejszymanski3900 Месяц назад

      Dlaczego Twoim zdaniem jest niepotrzebny?

    • @DataWorkshop
      @DataWorkshop Месяц назад

      Bielik nigdy wprost nie będzie konkurencją dla GPT czy innych podobnych modeli (np. Claude), ale jeśli mówimy TYLKO o języku polskim i do tego jeszcze będzie miał licencję umożliwiającą używanie komercyjne, to może być bardzo przydatnym modelem.

  • @punk3900
    @punk3900 Месяц назад

    Super rozmowa.

  • @dannod2333
    @dannod2333 Месяц назад

    Bardzo ciekawy podcast

  • @tenkrzysiekslowik
    @tenkrzysiekslowik Месяц назад

    Bardzo fajny materiał, dużo szczegółowej wiedzy, chociaż brakło informacji o fine tuningu LoRA. Trzymam kciuki za Bielika... oby był lepszy od llama3-8b.

    • @DataWorkshop
      @DataWorkshop Месяц назад

      To zawsze jest wyzwanie, jak głęboko zanurzyć się od razu. Do LoRA i podobnych tematów myślę, że jeszcze będzie okazja - na razie wyrównuję wiedzę, aby nadążała większość. Też to już bardziej szczegół implementacyjny. Inna sprawa to bardziej techniczne tematy, jest trudno przekazywać w formie podcastu. W takich przypadkach lepiej sprawdzają się warsztaty lub podobne formy. Dzięki za komentarz - od razu generuję pomysły, co z tym można zrobić.

  • @1972kotek
    @1972kotek Месяц назад

    Bardzo dobry materiał, sporo treści takich "dla przypomnienia/utrwalenia" i wiele o Bieliku. Ciekawa zapowiedź Bielika z obrazkami :-). Mam nadzieje, że Gościa jeszcze posłuchamy na tym kanale.

    • @DataWorkshop
      @DataWorkshop Месяц назад

      Niech rzeczy wydarzą się. Np. pojawi się multimodal czy może już Bielik 3 :)

  • @ghs7233
    @ghs7233 Месяц назад

    Cześć. Dzięki za bardzo wartościowy materiał. Pytanie: czy Bielik docelowo będzie wystawiał moduł do embeddingu?

  • @dannod2333
    @dannod2333 Месяц назад

    Kolejne, bardzo ciekawy wywiad i garść informacji o AI.

    • @DataWorkshop
      @DataWorkshop Месяц назад

      Dziękuję, staram się ;) przygotuję już kolejny odcinek, obserwuj

  • @qazqwertyas
    @qazqwertyas Месяц назад

    dobra robota! tematy clickbaitowe ale odpowiedzi konkretne i przydatne

    • @DataWorkshop
      @DataWorkshop Месяц назад

      Stawiamy duży na przekaz merytorycznej wiedzy, super, że doceniasz :)

  • @alangner65langner47
    @alangner65langner47 Месяц назад

    W jednym miejscu zgromadziłeś Vladimir odpowiedź na wiele pytań.

    • @DataWorkshop
      @DataWorkshop Месяц назад

      A to bardzo dziękuję, trochę zajmuję czasu przygotowanie. Chociaż i tak zawsze chce się powiedzieć więcej. Dzięki za komentarz, motywuje to ;)

  • @Rebellious1997
    @Rebellious1997 Месяц назад

    Super materiał

    • @DataWorkshop
      @DataWorkshop Месяц назад

      Dziękuję, zawsze to daje motywacji dzielić się więcej :)

  • @andrzejwodynski
    @andrzejwodynski 2 месяца назад

    27:45 Google powstało 26 lat temu

  • @sabalunax
    @sabalunax 2 месяца назад

    Super :)

  • @GoWithAndy-cp8tz
    @GoWithAndy-cp8tz 2 месяца назад

    Włodek jesteś super gość! Miło się Ciebie słucha! Dzięki za nagrania! Pozdrowienia!

  • @MrPawel013
    @MrPawel013 2 месяца назад

    Szczegółowe wyjaśnienie tematów jest potrzebne. Więc mogą powstawać np. Odcinek krótszy i dłuższy z szczegółami.

    • @DataWorkshop
      @DataWorkshop 2 месяца назад

      Dzięki Paweł, są tutaj plany podziałać w tym kierunku :) obserwuj

  • @stanst2755
    @stanst2755 3 месяца назад

    Joanna ma ciekawą prezentację 1:15:00

  • @ciekawska563
    @ciekawska563 6 месяцев назад

    "Delta rozwoju" - fajne określenie 😉

    • @DataWorkshop
      @DataWorkshop 6 месяцев назад

      Dokładnie tak, warto mierzyć i patrzeć tylko na swoją, aby z radością się rozwijać :)

  • @ciekawska563
    @ciekawska563 6 месяцев назад

    Dobry materiał! Dzięki!

  • @FelaIgjen
    @FelaIgjen 6 месяцев назад

    Świetny film, dzięki!

    • @DataWorkshop
      @DataWorkshop Месяц назад

      Dziękuję, statystyka na kotach robi swoją robotę ;)

  • @Becia667
    @Becia667 9 месяцев назад

    Ten filmik bardzo mi pomógł na studiach! Dziękuję, za Twoją pracę! :)

  • @MA-ee4ez
    @MA-ee4ez 11 месяцев назад

    To było inspirujące.

  • @juliabednarczyk4672
    @juliabednarczyk4672 Год назад

    Dzień dobry! Jaka będzie odpowiedz na to pytanie? Osoby A, B i C uzyskały w teście inteligencji wyniki równe 20, 40, 60 centylowi, więc A) różnica inteligencja między AIB jest większe niż różnica między B i C B) różnica w inteligencji pomiędzy A I B jest mniejsza niż różnica między B I C C) Różnica w inteligencji pomiędzy A I C jest mniejsza niż różnica pomiędzy B i C D) nie da się porównać wielkości różnicy A I B oraz B I C

  • @trochymiak
    @trochymiak Год назад

    Vladimir wielkie dzięki, jak zwykle wszytko tip top

  • @bartoszbadlewski8968
    @bartoszbadlewski8968 Год назад

    27 minuta to jakieś masło maślane wyszło. Autor pokręcił to 3 raz i wrócił do pkt wyjścia.

  • @jaroslawnadolski8407
    @jaroslawnadolski8407 Год назад

    Super kilka lat z Wami i to pokazuje ze ma to sens:) Dziekuje i powodzenia dla wszystkich:)

    • @DataWorkshop
      @DataWorkshop Год назад

      Jarek, serdecznie dziękujemy i cieszymy się! Działamy dalej :))

  • @arnoldnowak962
    @arnoldnowak962 Год назад

    tu nie ma nic powiązanego z tytułem

  • @izaw4401
    @izaw4401 Год назад

    1