Wpis z mikrobloga

Skopiuj link

23.07.2022, 07:40:14

mam dane godzinowe i chcę je zsumować do pełnych dni.

mam coś takiego:

1 2020-01-02 00:00:00 -13
2 2020-01-02 01:00:00 22
3 2020-01-02 02:00:00 65
4 2020-01-02 03:00:00 -17
5 2020-01-02 04:00:00 -4
6 2020-01-02 05:00:00 5

i chcę uzyskać nowy dataframe, który będzie wyglądał tak:

1 2020-01-02 00:00:00 -58 <--suma wartości godzinowych z tego dnia
danych jest dużo, na kilkanaście lat. jakieś pomysły jak mogę to zrobić?

#python #sql #pandas

przecietnyczlowiek

23.07.2022, 07:41:44

@maciekXDDD: z datetime robisz date bez godzin i grupujesz po niej

maciekXDDD

Z.....a

konto usunięte 23.07.2022, 07:42:27

Select date, sum(value) from table group by day(date).
Mniejwięcej tak, tylko index na date zrób.

maciekXDDD

Z.....a

konto usunięte 23.07.2022, 07:46:59

@maciekXDDD: nie rób day(date) - to zwraca tylko numerek dnia. Chcesz castować na date bez czasu jak @przecietnyczlowiek napisał ;p

1001001

23.07.2022, 07:56:30

@maciekXDDD: Możesz sobie to ogarnąć od razu SQL z bazy albo zaciągnąć pełne dane do pandas i zrobić df.groupby([pd.Grouper(key='nazwakolumnyzdata', freq='D')]) albo zrobić df.resample('D') jeśli będziesz miał kolumnę z datą jako index dla swojej dataframe.

maciekXDDD

maciekXDDD

23.07.2022, 08:54:43 via iOS

@przecietnyczlowiek: @ZabiliMiZolwia: @1001001: rewelacja panowie, udało się. to jeszcze szybkie pytanie - w danych, które otrzymałem, niedziela jest osobnym wierszem. natomiast potrzebuje wartości z niedzieli dodać do wartości poniedziałkowej. macie pomysł jak to zrobić?

przecietnyczlowiek

23.07.2022, 09:07:41

@maciekXDDD: nie wiem jak wyglądają twoje dane ale na logikę potrzebujesz niedzielę oznaczyć jako poniedziałek i na tym zagregować/zgrupować. W zależności jakiego dialektu sql używasz mozesz uzyc funkcji np. Datename w sql serverze które ci zwróci dzień tygodnia.

Druga opcja to zrobić temp tabele/cte z zagregowanymi danymi dla niedziel.
I nastepnie polaczyc ja z twoja tabela glowna w ten sposob ze laczysz po tabelaglowna.dzien - 1 = tabelazniedziela.dzien (czyli dla kazdego

maciekXDDD

1001001

23.07.2022, 09:17:49

natomiast potrzebuje wartości z niedzieli dodać do wartości poniedziałkowej.

@maciekXDDD: Mając już dane w pandas napisałbym sobie funkcję sprawdzającą czy dany dzień jest niedzielą i zamienił ten dzień na poniedziałek, co z resztą powyżej już wskazano.

from datetime import datetime as dt
from datetime import timedelta as td
def is_sunday(date):
if date.isoweekday() == 7:
return date+td(days=1)
else:
return date
i dalej już w dataframe:

df['nowadata'] = df.loc[:,'nazwakolumnyzdata'].map(is_sunday)

maciekXDDD

janek_

23.07.2022, 21:02:44

@1001001: @maciekXDDD:
tutaj inny - calkiem elegancki - sposób: https://pastebin.com/yVVTcuUM

from io import StringIO

import numpy as np
import pandas as pd

data = StringIO("""date_and_time,value
2020-01-05 00:00:00,-13
2020-01-02 01:00:00,22
2020-01-02 02:00:00,65
2020-01-02 03:00:00,-17
2020-01-02 04:00:00,-4
2020-01-02 05:00:00,5
""")

df = pd.read_csv(data,parse_dates=['date_and_time']) # type: ignore

`df['dt_sundays_as_mondays'] = np.select(`
 `[df['date_and_time'].dt.dayofweek == 6],`
 `[df['date_and_time'].dt.date+pd.Timedelta(days=1)],`
 `default=df['date_and_time'].dt.date`
`)`

aggregated_df = df.groupby('dt_sundays_as_mondays').sum('value')

print(aggregated_df)