#pandas - strona 2

29.05.2021, 17:19:47

0

#python #pytanie #pandas

potrzebuję pomocy w sprawdzeniu poprawności danych w skrypcie używającym pandas i datetime w pythonie.

Mam sobie taki input, gdzie start_time, end_time oraz session_time mam podane jako string. Konwertuję to sobie do datetime.timedelta, dodaję start_time do start_date (które na wejściu nie ma podanych godzin i minut, sam rok, miesiąc, dzień), uzyskując start_time jako datetime z godzinami. Następnie dodaję do tego session_time i wychodzi mi datetime z poszukiwaną przeze mnie

ehhhh

29.05.2021, 17:28:14

0

@CancerLight: no właśnie to się sprowadza w sumie do tego samego, bo end_time i end_date będą mieć różną datę, jeśli skonwertuję. w sumie jak teraz pomyślałem, to chyba najprostsze rozwiązanie to skonwertować to do stringa i porównać stringi, ale trochę to denerwujące, bo nie po to konwertowałem na datetime wszystko, żeby później z powrotem wracać na stringi ( ͡° ʖ̯ ͡°)

ehhhh

29.05.2021, 17:43:46

1

dobra, poradziłem sobie na stringach, ale dla potomnych: timedelta może przyjąć parametr .abs - https://stackoverflow.com/questions/41782920/how-do-i-format-a-pandas-timedelta-object

tomek7322

thomeq

03.04.2021, 12:38:09

0

Cześć,
mam pytania z zakresu #python, #pandas i ogólnie #datascience.
Zasysam dośc duża tabelę z bazy danych (ok 1,5GB). Po zakonczeniu procesu sprawdzam jakiego typu mam kolumny ( tabela.info() ). Wszystkie sa typem 'object'. Jednak jak dam type(tabela[kolumna][0]) to otrzymuje np. decimal.Decimal.
W zwiazku z tym mam pytania:
1. W koncu jakiego typu jest taka kolumna?
2. Z uwagi na dosc duza liczbe wierszy (ok 13 milionow) chce pozmieniac typy

Kura_Wasylisa

03.04.2021, 13:20:18 via Android

1

@thomeq object na category zazwyczaj daje dobre efekty. No i do zmiany numerycznych możesz uzyc pd downcast. Zazwyczaj domyslnie jest jakis 64bitowy int/float

thomeq

leoshelby

05.04.2021, 06:20:21

1

@thomeq: 3. Przy zmiennych binarnych mozesz sobie zrobic get dummies i zdropowac pierwsza (czyli cos na zasadzie is_male z wartosciami 0 i 1 lub bool). Jesli chodzi o wiek to zazwyczaj warto sobie to pokubelkowac jakos sensownie. Jesli pracujesz np. na miejscu zamieszkania to mozesz sociagnac sobie skads wielkosc miejscowosci i pokubelkowac na male, srednie i duze miasta lub np wyliczyc odleglosc od najblizszej siedziby Waszej firmy. Co do wydajnosci -

thomeq

tyrytyty

30.03.2021, 06:41:48

0

Mam coś takiego, grupujące df po 'name' i wyrzucające sumy dodatnich i ujemnych wartosci z 'xTAdded':

df.groupby(df['name'])['xTAdded'].agg([('neg' , lambda x : x[x < 0].sum()) , ('pos' , lambda x : x[x > 0].sum())])
Jak mogę dodać kolejną kolumnę, gdzie byłaby podobna suma tylko liczona tylko dla kolumn spełniających warunek? Np. chciałbym kolumnę 'buildup', która sumuje dodatnie 'xTAdded' ale tylko, gdy w kolumnie 'endX' jest wartość <70. Tutaj ta lambda się odwołuje sama

Zendemion

30.03.2021, 06:57:16

0

@tyrytyty: chyba chodzi Ci o to? Lambda jako funkcja wartości z dwóch kolumn

rosso_corsa

15.03.2021, 11:32:50

0

mam dwa źródła, w każdym źródle jest wachlarz wartości. chciałbym sprawdzić oraz ładnie zwizualizować korelację w #powerbi albo #python #pandas moze być w czymś innym chodzi o to aby jakos ciekawie i najlepiej to zrobić #bazydanych #wizualizacjadanych #naukaprogramowania

mxzm

15.03.2021, 14:21:35

1

@rosso_corsa: Jeśli o samą korelację ci chodzi to możesz również użyć regplot() lub lmplot() z biblioteki seaborn

rosso_corsa

xstempolx

16.03.2021, 03:53:56

1

@rosso_corsa:
sns.heatmap(df.corr())

rosso_corsa

Mr_NiceGuy

31.01.2021, 17:49:50

1

Mirki, mam pytanie które wydaje się dość podstawowe ale naprawdę nie mogę nigdzie znaleźć satysfakcjonującej odpowiedzi.

Powiedzmy, że chcę generować dane finansowe dotyczące spółek giełdowych. Ponieważ cena akcji podawana jest codziennie a raporty dotyczące zadłużenia, zysków, czy wartości księgowej rzadziej (na przykład kwartalnie), wydaje mi się że optymalne jest rozdzielenie tych dwóch danych na dwie różne tabele:
- OHLC za każdy dzień
- Snapshot pokazujący dane finansowe z raportu za dany okres

blazek

IamHater

01.02.2021, 21:07:37

1

@Mr_NiceGuy: Na końcu jest forward fill - na puste "miejsca" wstawi pierwszą wartość leżącą powyżej

Mr_NiceGuy

IamHater

03.02.2021, 19:19:23

0

@Mr_NiceGuy: my pleasure.

thomeq

22.01.2021, 13:52:38

0

Cześć, mam pytanie z #python, dokladniej z #pandas.
Mam ramke danych z kolumnami: X, Y Q i Z, przy czym Z powstała w wyniku .unique() (tj zawiera w sobie numpy.ndarray z kilkoma wartosciami - wczesniej dla kazdego X i Y bylo kilka roznych wartosci Z, ale zostały ta komenda zebrane do tablicy numpy, tak, ze teraz jedna linijka to jeden unikalny zestaw X i Y) np.
A | B |

narowerzesamochodem

22.01.2021, 14:56:47

1

df['match'] = df.apply(lambda x: x['Q'] in x['Z'], axis=1)
i potem filtorowanie po df.match? Trochę naokoło ale powinno zadziałać.

thomeq

kamilek98PL

03.12.2020, 14:58:55

0

#!$%@?, jak dwa wiersze polaczyc razem w pandas?

Chodzi mi ze np, jak jeden wiersz nazywa sie Telefon, a drugi Komputer, to chce je polaczyc ze soba w Telefon, nie chce laczyc calej tabeli, jak to zrobic?

#python #pandas #datascience #programowanie

kamilek98PL

03.12.2020, 18:05:36

1

@MlodyWilk: Na pewno to jest jakies rozwiazanie z linijka kodu bo taki poziom studiow xD no ale #!$%@? tak pokrecone ze za #!$%@? nie ide sie domyslic, dzieki mordo jak nie znajde nic to tak zrobie

konto usunięte

HefiDL

05.12.2020, 10:22:44

1

@kamilek98PL: Z doświadczenia panadas jest spoko, jak masz dużo danych, żeby coś wyszukać, wyciągnąć itp. jako kontener ala baza danych. Obróbkę tych danych zawsze wolałem robić poza. Aczkolwiek znam ludzi, którzy jak wgłębili się w dokumentację to robią turbo rzeczy na data frame. Także kto co woli. Jak to się mówi jeśli masz problem prawdopodobnie w pythonie już go rozwiązano Ty musisz tylko znaleźć to które Ci pasuje. I data frame

Dorken

rosso_corsa

11.11.2020, 11:43:32

0

szukam prostego sposobu w #pandas #python aby w df zliczyć i wyswietlic a nastepnie usunac wiersze ktore beda mialy 3x nan w trzech wskazanych przeze mnie kolumnach. jest tu moze jakis majster-ekspert ktory mi podopowie? #naukaprogramowania

1001001

11.11.2020, 13:10:18

1

@rosso_corsa:
Tu masz taki bardziej elegancki sposób.
Założenie jest takie, że szukamy wsród kolumn A, B, C stąd to list('ABC')
df.loc[df[list('ABC')].isna().all(axis=1), :]

rosso_corsa

rosso_corsa

11.11.2020, 13:38:52

0

@1001001: a ja tak pyknalem, najwazniejsze ze dziala

dane[dane['P1'].isnull() & dane['P2'].isnull()& dane['P0'].isnull()]

login_zajety_sic

27.08.2020, 18:38:14

0

Chce zautomatyzować sobie tworzenie makra po przez pythona i zastanwiam się jak to osiągnąć.

Przykładowy case:

Mam plik .xlsx gdzie mam table z kolumnami: kolumna1, kolumna2, kolumna3

chce aby docelowy użytkownik musiał jedyne co zrobić to utworzyć plik np. txt i w nim zapisze:

wartość kolumny1: {kolumna1} wartość kolumny2: {kolumna2} wartość kolumny3: {kolumna3}

gdzie plik wynikowy będzie mieć postać:

wartość kolumny1: 232
wartość kolumny2: 548
wartość kolumny3: 874

etc....

i później uruchomił

login_zajety_sic

27.08.2020, 19:09:29

0

@znowu_musze_wymyslac:

tak sądziłem... jeszcze raz:

użytkownik tworzy dwa pliki wejścia, plik z danymi (*.xslx) i plik szablonu (*.txt)
skrypt iteruje po każdym wierszu w pliku z danymi (*.xlsx) i kolumnach zdefiniowanych w szablonie (*.txt) w formacie: {nazwa_kolumny}

Poniżej obrazek, może to coś rozjaśni

loginzajetysic - @znowumuszewymyslac:

tak sądziłem... jeszcze raz:

użytkownik... — **źródło:** comment_15985553486iZc5HkyKg8ADV10rBFRVk.jpg
Pobierz

M.....k

konto usunięte 27.08.2020, 23:07:17

0

@login_zajety_sic: Ja bym to zrobił w sposób następujący
1. Przechodzisz po pierwszym wierszu i parujesz nazwę z literą oznaczającą kolumnę np. (kolumna1,A), (kolumna2,b)
2. Przechodzisz przez resztę wierszy podmieniając wszystkie {kolumnaX} na odpowiadające im wartości
np. jesteś w wierszu drugim, w szablonie napotykasz na {kolumna1}, sprawdzasz z którą kolumną zostało sparowane i podstawiasz tam wartość z A2

cohontes

11.08.2020, 06:09:04

0

#python #selenium #pandas

cześć, muszę wykonać kilka operacji na kilkuset obiektach w apce webowej z wykorzystaniem selenium. Kod jest napisany, dane są zaciągane do df z Excela. Moje pytanie dotyczy tego jak "poprawnie i ładnie" to napisać.

Mój pomysł był dosyć prosty i kilka razy go wykorzystywałem, ale czy programista napisałby to w taki sam sposób?

Piszę funkcję, która przyjmuje dwa argumenty (dwie wartości z kolumn DF)
a potem na całym DF

tomblock

11.08.2020, 06:23:06

0

Jesteś programistą i to napisałeś, więc tak, napisałby.

xstempolx

11.08.2020, 08:28:37

0

@cohontes: z tego co wiem lambda nie jest najszybszą z metod ale do twojego zastosowania pewnie w zupelnosci wystarczy

botereq

13.03.2020, 13:44:39

5

KoronaScience za darmo: kurs z podstaw Data Science w Pythonie

https://www.facebook.com/events/1094217857617583/

W trakcie kursu:
Poznasz podstawy #python, biblioteki #numpy, #pandas, #matplotlib i innych między innymi napiszemy razem prosty algorytm uczelnia maszynowego. Nauczysz się także pracować z obrazkami oraz tworzyć wykresy.
Kurs jest w 100% bezpłatny, online, od podstaw - prowadzony za pomocą tranismisji online. Nie trzeba nic instalować - wystarczy konto Google i dostęp do przeglądarki.

#studia #studbaza #

KwasneJablko

10.06.2019, 08:27:00

0

Mam to co na screane. W jaki sposob moglbym zrobic tak aby tabela wygladala w taki sposob:

Intervaltype Australia Belgium Germany France
5/27 100 2000 800 200
5/28 159 777 7993 232
5/29
.
.
.

Dodatkowo czemu jak daje na poczatku 'mail = df[[.....' to mi nie generuje tabeli.

ktos cos?

#python #pandas #jupyter #programowanie

KwasneJablko - Mam to co na screane. W jaki sposob moglbym zrobic tak aby tabela wygl... — **źródło:** comment_kEFJivYsDE309r1QEcpbYiK5hYyQNnX3.jpg
Pobierz

konik_polanowy

19.04.2019, 05:10:44

12

Dzisiaj Mastering Python Data Analysis with Pandas [Video] (Thursday, September 28, 2017)

https://www.packtpub.com/packt/offers/free-learning

#packtpubfreelearning #python #analizadanych #pandas

odpowiedź dlaczego nie możesz pobrać "nowych" książek

pdfy/epub/kindle są dostępne dla pozycji zgarniętych za darmo do końca 2018. Nowe pozycje wchodzą tylko na readera. Jeśli coś macie zgarniętego wcześniej a pozycja pojawia się ponownie, to w "moje ebooki" pojawi się dwa razy, raz z pobieraniem a raz tylko z readerem

konik_polanowy - Dzisiaj Mastering Python Data Analysis with Pandas [Video] (Thursday... — **źródło:** comment_D9yeNC3fRloYNKCwYZxkbb2yWKYcFCb4.jpg
Pobierz

TymRazemNieBedeBordo

19.04.2019, 08:50:48

2

@konik_polanowy: dziekuje :)

Griffith

19.04.2019, 19:10:37

1

@konik_polanowy: Imię i nazwisko autora nie brzmi zachęcająco.

Freakz

bohater

08.04.2019, 13:21:47

1

Mirki, jak to zapisac w #python 2.7 ? Nie ma w nim * do rozpakowywania kolekcji w argumenty :(

correlated = data.corr()['target'][lambda c: c > 0.1]
data = data[[*correlated.index]]

#pandas #numpy #sklearn

JLMNSJCTELCTM

filozof900

08.04.2019, 13:27:17

0

@bohater: a sprobuj

data = data[list(correlated.index)]

filozof900

08.04.2019, 13:28:45

1

@luzny_lori: ona zle napisala, jej chodzi ze tworzenie listy jako [*x] jest nieprawidlowe w pythonie 2.7

Budek24

konik_polanowy

03.12.2018, 05:44:42

14

Dzisiaj Pandas Cookbook (October 2017)

https://www.packtpub.com/packt/offers/free-learning

#packtpubfreelearning #pandas #python

konik_polanowy - Dzisiaj Pandas Cookbook (October 2017)

https://www.packtpub.com/p... — **źródło:** comment_hpVTDnHsY4Cyg1Nl07KnSO4J1PZ7PgV3.jpg
Pobierz

polik95

03.12.2018, 09:36:21 via Wykop Mobilny (Android)

2

@konik_polanowy: to jakaś azjatycka książka kucharska?

gusioo

03.12.2018, 09:42:49

0

@polik95: NiemieckaL Pan das cookbook ¯\_(ツ)_/¯

aleteior

05.09.2018, 10:41:30

10

#python #pandas #inwestycje #polska #ekonomia #programowanie

Zrobiłem interaktywną mapę prezentującą najnowszy wynalazek rządzących, czyli Polską Strefę Inwestycji. Może kogoś zainteresuje. W analizie danych wykorzystałem dwie biblioteki pythonowe czyli xlrd i pandas. A sama mapa zrobiona w QGIS.

Tu link do znaleziska.

https://www.wykop.pl/link/4512601/nie-widac-zaborow-mapa-powiatow-polskiej-strefy-inwestycji/#

Morzan

24.03.2018, 16:02:15

2

Znajdzie się ktoś kto ogarnia #pandas, #machinelearning, #scikitlearn i #python? Za cholerę nie mogę wykminić odpowiedniego przygotowania danych do klasyfikacji tekstu. Problem opisałem tutaj: https://stackoverflow.com/questions/49466193/sklearn-text-classification-attributes , jak będzie trzeba mogę to zrobić jeszcze dokładniej.

#programowanie

Poczmistrz_z_Tczewa

24.03.2018, 16:23:25 via iOS

0

Komentarz usunięty przez autora

erwit

19.03.2018, 09:20:48

2

Mirki, mam timeseries z sieci basenow (czas, liczba wejsc, lokalizacja itp..) Chcialbym stworzyc model predykcyjny na podstaiwe tych danych, uzywajac #python #pandas. Przyznaje, ze z metodami stochastycznymi jestem troche na bakier i wlasicie #datascience dopiero zaczynam sie uczyc. Moglby ktos mnie nakierowac jak sie do tego zabrac?

#statystyka #machinelearning

m.....u

konto usunięte 19.03.2018, 10:10:55

2

@erwit: poczytaj sobie o modelach typu ARIMA, ETS oraz o zwykłej regresji dla szeregów czasowych.

Kura_Wasylisa

19.03.2018, 10:19:02

1

@erwit: szeregi czasowe beda dobre jak nie masz innych zmiennych, w przeciwnym przypadku moglbys wyjac z timestampa np godzine, dzien tygodnia, miesiac itd i wrzucic je jako zmienne + do tego np liczba ludnosci w miescie, wojewodztwo itd wszystko zalezy od kreatywnosci :D

w przypadku szeregow polecam uzyc SARIMA bo na pewno bedzie to szereg sezonowy i mozliwe ze pojawi sie heteroskedastycznosc (wtedy trzeba bedzie siegnac po nieco bardziej zaawansowane modele

erwit

m.....i

konto usunięte 21.01.2018, 18:31:39

1

Dlaczego w pythonie nie da się normalnie zrobić etykiet z wartościami na wykresach np. na bar charcie tylko trzeba odwalać jakieś #!$%@? muje? W ggplot2 w R robi się to normalnie, jako element wizualizacji.
#python #pandas #seaborn #datascience

Cronox

piotrb

22.01.2018, 15:42:34

1

Dlaczego w pythonie nie da się normalnie zrobić etykiet z wartościami na wykresach np. na bar charcie

@madry_i_mieciutki: To raczej nie problem pythona, tylko wybranej biblioteki. Nie do końca jestem pewien, czy o coś takiego chodzi, ale to najbardziej pokręcony wykres (w zasadzie obrazek), który mi sie rzucił w oczy na szybko.

Kontestator

piotrb

23.01.2018, 16:58:36

1

@Kontestator: Cała galeria jest warta przejrzenia.

Kontestator

kretson

06.01.2018, 18:25:53

3

#python #programowanie #pytanie #pandas

Mirki, pomocy bo męczę się już jakiś czas z tym i nie mogę znaleźć rozwiązania.
Wszystko wydaję się oczywiste i proste, ale nie działa :D
Mam dwa dataframy : jeden (fdi) z jakimiś tam danymi gdzie jest kolumna powiedzmy kraj1 i kraj2 (w kodzie ISO). Drugi (rel) gdzie indeksem jest właśnie kod ISO kraju a kolumny to udziały procentowe różnych religii.
Chcę dodać do pierwszego zmienną zgodności religii