#pandas

27.10.2024, 14:50:03

0

Potrzebuję przekonwertować rok hydrologiczny do formatu kalendarza gregoriańskiego. Rok hydrologiczny zaczyna się 1.11, wiec wszystko jest przesunięte o 2 miesiące. Mam dane w #pandas DataFrame, w osobnych kolumnach rok, miesiąc i dzień. Nie mogę wykorzystać pd.to_datetime, bo mi wyrzuca ValueError (nie zgadzają się liczby dni w miesiącach). Finalnie chciałbym zwizualizować codzienne przepływy.

#python

heniek_8

28.10.2024, 09:14:51 via Wykop

0

@Daldek: abstrahując od pythona, jak byś to zrobił ręcznie na kartce?
Może po prostu nie zapisuj tego w formacie daty tylko jako text

Daldek

28.10.2024, 14:34:01 via Wykop

0

@heniek_8: Chyba masz rację z tym tekstem, to powinno być wystarczająco ok.

Ręcznie zrobiłbym to tak: dla listopada i grudnia dodaję rok i od numeru miesiące odejmuję 10. Dla okresu od stycznia do października do numeru miesiąca dodaję 2. Tutaj jest opis ze strony IMGW:

Dane hydrologiczne są opracowywane i udostępniane w układzie lat hydrologicznych.
Rok hydrologiczny zaczyna się 1 listopada poprzedniego roku kalendarzowego, a kończy 31 października, np. rok hydrologiczny 2016

tyrytyty

22.09.2024, 11:19:49

0

Dlaczego typy się nie zgadzają?

return elo_ratings.loc[team][0] if team in elo_ratings.index else None
Expression of type "Unknown | Series[Unknown] | None" is incompatible with return type "float | None"
#python #pandas

tyrytyty

22.09.2024, 14:28:35 via Wykop

1

@blacktyg3r: to nie to ale na prowadziłeś mnie jakoś pokrętnie na rozwiążanie. .loc zwraca ALBO raw value albo pd.series. Do mojej funkcji poprawnie nadaje się metoda .at z takim samym argumentem jak loc, która gwarantuje zwrócenie floata i nigdy pd.series

Dziękuję

tyrytyty

22.09.2024, 14:30:44 via Wykop

1

@blacktyg3r: zaraz pewnie rzucisz słuszny komentarz że nie powinienem korzystać z pandas do takich rzeczy zwłaszcza jeśli korzystam z typów

dopiero bawię się z tym jak ma każda baza danych wyglądać więc łatwiej żonglować dfami. potem to przepiszę do sql jakiegoś gdzie bazy danych będą jasno opisane i miały określone poprawne typy.

jakismadrynickpolacinsku

05.04.2024, 18:14:53

0

https://www.youtube.com/watch?v=EmALxO7V7y0&list=PLbmr31Ozd_E6VGQ8hJGLqxYaA-IJDoMPq&index=2

6:30
dlaczego

(dataset.loc[5:10, 'x'])

blacktyg3r

05.04.2024, 18:55:52 via Wykop

1

Nie mam jak obejrzeć, ale zgaduje że chce kolumny od 5 do 10 (czyli 5, 6,7,8,9 z wyłączeniem 10) oraz kolumnę 'x', stąd w rezultacie 6 kolumn.

saviola7

05.04.2024, 18:57:43 via Wykop

2

@jakismadrynickpolacinsku: Po prostu zaczyna od pozycji numer 6 do 11, taki przedział sobie wybrał. 0:5 zwróciłoby od 1 do 6.

wasylzlasu

20.03.2024, 19:45:35

1

Poszukuję kontaktu do specjalisty od PANDAS dla dziecka.

Ktoś coś? Szukam lekarza specjalistę a nie wypisywacza recept i zwolnień.

W USA wystarczy że wpisze miasto i są adresy specjalistycznych przychodni od PANDAS.. ale w PL zero nie ma nic i nikogo ;/

#pandas #choroby #lekarze #pytanie #zdrowie #medycyna #leki #leczenie

harnasiek

23.12.2023, 14:56:31

0

#python #programowanie #programista15k #python3 #pandas #ghostscript
Czy ktoś może mi pomóc z kodem konwersji pliku PDF na XLSX?
Męczę się już kilka godzin i nie otrzymuję oczekiwanego rezultatu czyli przeniesienia zawartości PDF 1:1 do XLSX, ciągle otrzymuję zły format
To co otrzymuje na ten czas
Moj kod

W zdjeciach na imgur przedstawil co jest zawarte w pliku PDF, a co

Oo-oO

23.12.2023, 18:39:48 via Wykop

0

to raczej nie jest możliwe, tzn - nie bez dużych nakładów czasowych - rozumiem że nie podoba ci się że tracisz formatowanie, kolory itd, to przeważnie nie są rzeczy które łatwo się przenosi

xavhowk

23.12.2023, 19:47:50 via Wykop

0

@harnasiek: W kodzie chyba wiele nie poprawisz, bo on parsuje tylko surowe, tekstowe dane, rozbija na linijki a potem na pojedyncze wyrażenia. Nie ma tu miejsca na formatowanie, grafikę, itp.
Są jakieś komercyjne rozwiązania, które nawet sobie radzą z tabelami, ale dość drogie:
https://docs.aspose.com/pdf/python-net/convert-pdf-to-excel/
Można też spróbować napisać jakiegoś bota, który wykorzysta taki zaawansowany konwerter online.

E.....e

konto usunięte 30.11.2023, 14:23:25

6

Muszę powiedzieć, że #chatgpt zaskakująco dobrze radzi sobie z #pandas. Właśnie sobie klepię notebooka, trochę pozapominałem Pandasa, znacząco mi przyspiesza robotę. Czasem go trzeba trochę nakierować i trzeba wiedzieć jak to w miarę dobrze zrobić, ale ogólnie na plus

#python #programowanie #datascience

ch1nczyk

30.11.2023, 14:45:16 via Android

2

@ElMatadore To fakt Mirku, znacznie przyspiesza pisanie kodu który byś w końcu napisał sam, ale trzeba by chwilę nad dokumentacją spędzić. Z innymi bibliotekami, czy nawet PySpark też daje nieźle radę.

ch1nczyk

01.12.2023, 10:00:56 via Wykop

2

Treść przeznaczona dla osób powyżej 18 roku życia...

arct2

26.09.2023, 19:09:20

0

Cześć, mam problem z taką oto listą:

QTY Part number Part name          Zone
2   1486E87-7   Wheel - Test       B13
                Specimen
2   1589E56-99  Bar - Non Test     C18

heniek_8

26.09.2023, 19:22:35 via Wykop

1

@arct2: bo tam jest bałagan, trzeba ręcznie - przeczytać drugą linijkę (pierwszą można pominąć dać nazwy ręcznie)
rozdzielić po długości czyli liczbie znaków na 4 pola
potem przeczytać następną linijkę i jeżeli pierwsze pole jest puste, to to co jest w trzecin dopisać na końcu tego co jest w 3 polu
potem przeczytać następną i dopiero jeżeli pierwsze pole nie jest puste to traktować to jak nowy rekord

S0Cool

27.09.2023, 11:10:27 via Wykop

1

@heniek_8: Ło panie, to by trzeba ręcznie kod pisać. Mamy XXI wiek przecież, są do tego narzędzia, a nie jak neandertalczyk jakiś algorytmy samemu budować.

dexterpol

13.04.2023, 16:55:22

0

Wie ktoś dlaczego mimo zdefiniowania filtra nadal wyrzuca mi cały arkusz w konsoli zamiast wyfiltrowanych wartości?

import pandas as pd

df = pd.readexcel(r'C:\Users\User1\Downloads\dane.xlsx', sheetname='Tabele Przestawne 6',

dexterpol

13.04.2023, 17:24:52 via Wykop

1

@Arogancky: wywalenie nawiasa pomogło, dziękuje mireczku :)

Arogancky

13.04.2023, 18:25:46 via Wykop

1

@dexterpol: no i git. Nawiasu używasz bodajże jak masz w środku jakieś bardziej złożone warunki logiczne

heniek_8

19.12.2022, 13:50:21

0

mam współrzędne obiektów w data frame w krotce

import pandas as pd
dane = pd.DataFrame({'coord':[(52.232,21.006)]})

potrzebuję to rozparsować na oddzielne pola x, y

zrobiłem

Arogancky

19.12.2022, 14:02:21

2

@heniek_8: https://stackoverflow.com/questions/32468402/how-to-explode-a-list-inside-a-dataframe-cell-into-separate-rows
kilka pomysłów ¯\_(ツ)_/¯ ale pewnie explode() najlepszy będzie

narowerzesamochodem

19.12.2022, 23:18:50

1

@heniek_8: jak odpowiednio zwrócisz z apply() to możesz od razu w dwie kolumny zapisać.
Zobacz tutaj w sekcji „ … jedną kolumnę podzielić na kilka”, ten blok „Szybko” ;)
https://uczymymaszyny.pl/hej-pandas-chce/

Davidvia0

17.08.2022, 16:16:58

0

Mam taki problem, że próbuję sobie posegregować dane i zapisać je w jednym pliku CSV.
W skrócie:
- Robię listę wszystkich plików w zdefiniowanym folderze
- Przeszukuję tę listę plików, aby znaleźć pierwszą liczbę całkowitą znajdującą się przed literą R (to identyfikator baterii)
- Przeszukuję tę listę plików, aby znaleźć pierwszą liczbę stałoprzecinkową (powiedzmy, że zawsze z 1 miejscem po przecinku) -> to identyfikator napięcia
- Przeszukuję tę listę plików, aby znaleźć ostatnią liczbę całkowitą -> to

IamHater

17.08.2022, 16:23:17

1

Co robię źle?

@Davidvia0: zacznijmy od tego że nie wrzucasz kodu na pastebina

# tutaj kod sie wali

jak wrzucisz co konkretnie się dzieje to może ktoś pomyśli

G.....y

konto usunięte 17.08.2022, 16:29:02

0

jak wrzucisz co konkretnie się dzieje to może ktoś pomyśli

@IamHater: no wali sie, wyciaga reke z mlotkiem i sie wali po sobie

maciekXDDD

23.07.2022, 07:40:14

0

mam dane godzinowe i chcę je zsumować do pełnych dni.

mam coś takiego:

1 2020-01-02 00:00:00 -13
2 2020-01-02 01:00:00 22

przecietnyczlowiek

23.07.2022, 09:07:41

1

@maciekXDDD: nie wiem jak wyglądają twoje dane ale na logikę potrzebujesz niedzielę oznaczyć jako poniedziałek i na tym zagregować/zgrupować. W zależności jakiego dialektu sql używasz mozesz uzyc funkcji np. Datename w sql serverze które ci zwróci dzień tygodnia.

Druga opcja to zrobić temp tabele/cte z zagregowanymi danymi dla niedziel.
I nastepnie polaczyc ja z twoja tabela glowna w ten sposob ze laczysz po tabelaglowna.dzien - 1 = tabelazniedziela.dzien (czyli dla

1001001

23.07.2022, 09:17:49

1

natomiast potrzebuje wartości z niedzieli dodać do wartości poniedziałkowej.

@maciekXDDD: Mając już dane w pandas napisałbym sobie funkcję sprawdzającą czy dany dzień jest niedzielą i zamienił ten dzień na poniedziałek, co z resztą powyżej już wskazano.

from datetime import datetime as dt
from datetime import timedelta

przecietnyczlowiek

15.07.2022, 12:51:25

0

Myślicie, że kiedykolwiek zostanie naprawdę usunięte?

FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.

#pandas #python

przecietnyczlowiek - Myślicie, że kiedykolwiek zostanie naprawdę usunięte?

Future... — **źródło:** comment_1657889484bnCb3FkrUycKH1OK5yBGYX.jpg
Pobierz

Arogancky

15.07.2022, 13:03:47

0

@przecietnyczlowiek: no w głównej wersji być może. Ale stara dalej może mieć taką funkcjonalność ¯\_(ツ)_/¯

Henryhenry

15.07.2022, 14:53:58

0

@przecietnyczlowiek: tak

hoszak

14.07.2022, 00:11:16

1

#datascience

Hej Mirki, tak sobie dlubie proste ETL w #pandas #numpy #python i glowkuje jak tu skrocic czas ladowania trzech duzych (1GB kazdy 900k x 200) CSV. Jedyne co przychodzi mi jeszcze do glowy to dorzucenie multiprocesingu bo duzo sie dzieje, z %pruna widze ze w tej chwili CPU jest waskim gardlem. Probowalem w prymitywny sposob zaladowac to w multi rozrzucajac kazdy plik na osobny

d.....z

konto usunięte 14.07.2022, 05:17:18

3

@hoszak: zobacz na rozwiązania w tym wątku: https://stackoverflow.com/questions/6475328/how-can-i-read-large-text-files-line-by-line-without-loading-it-into-memory

A.....c

konto usunięte 16.07.2022, 20:55:50

2

@hoszak: Spróbuj Polars, sporo szybsza biblioteka, wrapper Rust-a.
https://www.pola.rs/

Ewentualnie Pyarrow - https://arrow.apache.org/docs/python/generated/pyarrow.csv.read_csv.html

Oake

10.07.2022, 17:24:34

0

mam plik csv, taki jak na screenie. Mój cel to utworzenie nowej kolumny, której wartości będą wynikiem formuły: (Adjusted Open - Adjusted Close z poprzedniego wiersza)/Adjusted Close z poprzedniego wiersza. W jaki sposób najłatwiej to osiągnąć? Najlepiej nie zmieniając indeksu na numeryczny. Muszę pętlą czy da się jakoś inaczej? #python #pandas

Oake - mam plik csv, taki jak na screenie. Mój cel to utworzenie nowej kolumny, które... — **źródło:** comment_16574738721qrCQevM6J8oAYmf75VySb.jpg
Pobierz

heniek_8

10.07.2022, 17:38:02

1

@Oake: wartość z poprzedniego wiersza to jest df.shift()['Adj Close'] - dodaj taką kolumnę i używaj jej w obliczeniach

A.....c

konto usunięte 10.07.2022, 22:23:27

1

@Oake: @heniek_8:

W sumie to nie trzeba dodawać kolumny:

df["new_col"] = (df["Adj Open"] -

Oake

03.07.2022, 17:39:17

0

mam dwa pliki csv, oba mają takie same kolumny. Powiedzmy, że jednen z nich składa się z wierszy a i b a drugi z wierszy b i c. Jak mogę połączyć te dwa pliki tak, żeby nie duplikowało mi wiersza b, który w tych dwóch plikach jest taki sam? Kombinowałem różnie z pd.concat, ale cały czas te powtarzające się wiersze duplikują się. #python #pandas

Oake - mam dwa pliki csv, oba mają takie same kolumny. Powiedzmy, że jednen z nich sk... — **źródło:** comment_1656869901EruoGvPBc9yLUjC4ZbL7l6.jpg
Pobierz

kfc_chicken

03.07.2022, 17:42:35 via Android

5

@Oake może po prostu z drop_duplicates() na koniec?

saviola7

03.07.2022, 17:44:12

2

@Oake: https://stackoverflow.com/a/21317570

FantaZy

19.03.2022, 10:47:10

0

poleca ktoś jakiś kurs/ćwiczenia gdzie można się podszkolić w operacjach na tabelach typu dataframe? chodzi mi o nabranie wprawy w joinach, groupby i innych transformacjach. Fajnie by bylo poznać jakieś zaawansowane techniki itp itd.

#python #pandas #numpy #dataengineering

jszafran

19.03.2022, 12:46:10

1

@FantaZy: Obczaj https://github.com/guipsamora/pandas_exercises

FantaZy

19.03.2022, 14:57:59

0

@jszafran: thx, dokladnie o cos takiego mi chodzi... learning by doing...

scorpio18k

12.01.2022, 09:18:42

0

Próbuję otworzyć plik w pandas:

import pandas as pd
df = pd.readcsv('D:\podglad\podglad.xlsx', encoding='Windows-1250', onbad

IamHater

12.01.2022, 09:29:13

1

pd.readcsv

podglad.xlsx

@scorpio18k: gdzie masz źle, tutaj czy w kodzie?

filozof900

12.01.2022, 12:45:40

0

@scorpio18k: spróbuj utf-16

Kapitalis

03.01.2022, 15:42:41

0

Potrzebuję w pliku excel zhashować kolumny password i pesel. W pycharm taki kod wpisuję i po uruchomieniu wyrzuca jakieś errory i nic. Plik users.csv rozumiem, że ma być w tym folderze co projekt pycharmowy z plikiem python?
Help pls
Nie zajmuję się programowaniem więc proszę mieć to na uwadze.

import pandas as pd
import hashlib

Elkoss

03.01.2022, 15:48:40

2

@Kapitalis: nie masz kolumny password w dataframe. Zobacz co ci wyswietla jak wpiszesz print(df.columns)

Elkoss

03.01.2022, 16:07:57

1

@Elkoss: Powinno to tak wygladac:
df['pesel'] = df['pesel'].apply(lambda x: hashlib.sha256(str(x).encode('utf-8')).hexdigest())

thomeq

20.12.2021, 21:03:14

0

#pandas Jak unikacie wielokrotnego uzywanie .loc
np.
tabela.loc[warunek, kolumna]=tabela.loc[warunek, kolumna]+tabela.loc[warunek, kolumna_inna]

Jestem pewien, ze kiedys widzialem jakies sprytne obejscie, ale nie pamietam jakie ;)

r44y

06.12.2021, 21:40:40 via Wykop Mobilny (Android)

4

Mirki jakie strony polecacie do ćwiczeń Pythona oraz SQL pod analizę danych? Kursy są ok ale bez praktyki to wszystko o dupsko rozbić. #sql #python #pandas #numpy

WodnySzajbus

06.12.2021, 21:56:07

2

@r44y: jak panda to Corey Schafer na yt.

janek_

07.12.2021, 00:30:30

1

@r44y: datacamp jest spoko, i mają w tej chwili dużą promocję