#pandas - strona 2

24.11.2021, 19:05:21

0

#pandas #python
Mam dwie tabele (tab1 - kolumny A, B; tab2- kolumny C, D). Jedna ma 2 wiersz3, druga - trzy. Dla ulatwienia - jedna ma wartosci x, a druga - y.Chce je połączyc wierszami (dokladnie w kolejnosci wystepowania w tabeli), a brakujace wiersze wypelnic np. 'z'.
Pożądany efekt końcowy:
A B C D
x x y y
x x y y

IamHater

24.11.2021, 19:45:00

2

concate mi laczy jakby oddzielnie

@thomeq: bo domyślnie concat łączy po wierszach, zmień parametr axis

thomeq

24.11.2021, 20:13:18

1

@IamHater: Mam (jednak rozmowa z kims pomaga :P )
te tabele to wyimki z wiekszych tabel. Skubany patrzyl na indeks wierszy oryginalnej tabeli i brał go pod uwage...

5h siedzenia... (concat na poczatku probowalem)... :/

thomeq

02.07.2021, 09:32:09

0

Cześć, mam problem - mam dosc duzy plik csv - na tyle duzy, ze samo wczytywanie trwa kilkanascie sekund (a bedzie bardzieł puchł). mocno spowalni mi dzialanie aplikacji - poustawialem juz recznie rodzaje danych w kolumnach, wstawilem gdzuie sie da dane kategoryczne, ale nadal wolno. W zwiazku w tym mam pytaie (jak na razie nic nie znalalem na ten temat w sieci): czy jest opcja wczytywania z pliku csv tylko interesujacyh mnei

jgruszka93

02.07.2021, 09:54:19

3

@thomeq: sqlite + np. peewee a nie jakieś csv ;)

Kura_Wasylisa

02.07.2021, 10:20:13 via Android

1

@thomeq skonwertuj csv do parquet to Ci pomoże trochę, możesz tu uzyc sparka on nie będzie tego explicite ladowal do pamieci a mozesz uzywac sqla na tych danych

ehhhh

29.05.2021, 17:19:47

0

#python #pytanie #pandas

potrzebuję pomocy w sprawdzeniu poprawności danych w skrypcie używającym pandas i datetime w pythonie.

Mam sobie taki input, gdzie start_time, end_time oraz session_time mam podane jako string. Konwertuję to sobie do datetime.timedelta, dodaję start_time do start_date (które na wejściu nie ma podanych godzin i minut, sam rok, miesiąc, dzień), uzyskując start_time jako datetime z godzinami. Następnie dodaję do tego session_time i wychodzi

ehhhh

29.05.2021, 17:28:14

0

@CancerLight: no właśnie to się sprowadza w sumie do tego samego, bo end_time i end_date będą mieć różną datę, jeśli skonwertuję. w sumie jak teraz pomyślałem, to chyba najprostsze rozwiązanie to skonwertować to do stringa i porównać stringi, ale trochę to denerwujące, bo nie po to konwertowałem na datetime wszystko, żeby później z powrotem wracać na stringi ( ͡° ʖ̯ ͡°)

ehhhh

29.05.2021, 17:43:46

1

dobra, poradziłem sobie na stringach, ale dla potomnych: timedelta może przyjąć parametr .abs - https://stackoverflow.com/questions/41782920/how-do-i-format-a-pandas-timedelta-object

thomeq

03.04.2021, 12:38:09

0

Cześć,
mam pytania z zakresu #python, #pandas i ogólnie #datascience.
Zasysam dośc duża tabelę z bazy danych (ok 1,5GB). Po zakonczeniu procesu sprawdzam jakiego typu mam kolumny ( tabela.info() ). Wszystkie sa typem 'object'. Jednak jak dam type(tabela[kolumna][0]) to otrzymuje np. decimal.Decimal.
W zwiazku z tym mam pytania:
1. W koncu jakiego typu jest taka kolumna?
2. Z uwagi na dosc duza liczbe wierszy (ok 13 milionow) chce

Kura_Wasylisa

03.04.2021, 13:20:18 via Android

1

@thomeq object na category zazwyczaj daje dobre efekty. No i do zmiany numerycznych możesz uzyc pd downcast. Zazwyczaj domyslnie jest jakis 64bitowy int/float

leoshelby

05.04.2021, 06:20:21

1

@thomeq: 3. Przy zmiennych binarnych mozesz sobie zrobic get dummies i zdropowac pierwsza (czyli cos na zasadzie is_male z wartosciami 0 i 1 lub bool). Jesli chodzi o wiek to zazwyczaj warto sobie to pokubelkowac jakos sensownie. Jesli pracujesz np. na miejscu zamieszkania to mozesz sociagnac sobie skads wielkosc miejscowosci i pokubelkowac na male, srednie i duze miasta lub np wyliczyc odleglosc od najblizszej siedziby Waszej firmy. Co do wydajnosci

tyrytyty

30.03.2021, 06:41:48

0

Mam coś takiego, grupujące df po 'name' i wyrzucające sumy dodatnich i ujemnych wartosci z 'xTAdded':

df.groupby(df['name'])['xTAdded'].agg([('neg' , lambda x : x[x < 0].sum()) , ('pos' , lambda x : x[x > 0].sum())])
Jak mogę dodać kolejną kolumnę, gdzie byłaby podobna suma tylko liczona tylko dla kolumn spełniających warunek? Np. chciałbym kolumnę 'buildup', która sumuje dodatnie 'xTAdded' ale tylko, gdy w kolumnie 'endX' jest wartość <70. Tutaj ta lambda się odwołuje sama

Zendemion

30.03.2021, 06:57:16

0

@tyrytyty: chyba chodzi Ci o to? Lambda jako funkcja wartości z dwóch kolumn

rosso_corsa

15.03.2021, 11:32:50

0

mam dwa źródła, w każdym źródle jest wachlarz wartości. chciałbym sprawdzić oraz ładnie zwizualizować korelację w #powerbi albo #python #pandas moze być w czymś innym chodzi o to aby jakos ciekawie i najlepiej to zrobić #bazydanych #wizualizacjadanych #naukaprogramowania

mxzm

15.03.2021, 14:21:35

1

@rosso_corsa: Jeśli o samą korelację ci chodzi to możesz również użyć regplot() lub lmplot() z biblioteki seaborn

xstempolx

16.03.2021, 03:53:56

1

@rosso_corsa:
sns.heatmap(df.corr())

Mr_NiceGuy

31.01.2021, 17:49:50

1

Mirki, mam pytanie które wydaje się dość podstawowe ale naprawdę nie mogę nigdzie znaleźć satysfakcjonującej odpowiedzi.

Powiedzmy, że chcę generować dane finansowe dotyczące spółek giełdowych. Ponieważ cena akcji podawana jest codziennie a raporty dotyczące zadłużenia, zysków, czy wartości księgowej rzadziej (na przykład kwartalnie), wydaje mi się że optymalne jest rozdzielenie tych dwóch danych na dwie różne tabele:
- OHLC za każdy dzień
- Snapshot pokazujący dane finansowe z raportu za dany okres

IamHater

01.02.2021, 21:07:37

1

@Mr_NiceGuy: Na końcu jest forward fill - na puste "miejsca" wstawi pierwszą wartość leżącą powyżej

IamHater

03.02.2021, 19:19:23

0

@Mr_NiceGuy: my pleasure.

thomeq

22.01.2021, 13:52:38

0

Cześć, mam pytanie z #python, dokladniej z #pandas.
Mam ramke danych z kolumnami: X, Y Q i Z, przy czym Z powstała w wyniku .unique() (tj zawiera w sobie numpy.ndarray z kilkoma wartosciami - wczesniej dla kazdego X i Y bylo kilka roznych wartosci Z, ale zostały ta komenda zebrane do tablicy numpy, tak, ze teraz jedna linijka to jeden unikalny zestaw X i Y) np.
A |

narowerzesamochodem

22.01.2021, 14:56:47

1

df['match'] = df.apply(lambda x: x['Q'] in x['Z'], axis=1)
i potem filtorowanie po df.match? Trochę naokoło ale powinno zadziałać.

kamilek98PL

03.12.2020, 14:58:55

0

Treść przeznaczona dla osób powyżej 18 roku życia...

kamilek98PL

03.12.2020, 18:05:36

1

Treść przeznaczona dla osób powyżej 18 roku życia...

HefiDL

05.12.2020, 10:22:44

1

@kamilek98PL: Z doświadczenia panadas jest spoko, jak masz dużo danych, żeby coś wyszukać, wyciągnąć itp. jako kontener ala baza danych. Obróbkę tych danych zawsze wolałem robić poza. Aczkolwiek znam ludzi, którzy jak wgłębili się w dokumentację to robią turbo rzeczy na data frame. Także kto co woli. Jak to się mówi jeśli masz problem prawdopodobnie w pythonie już go rozwiązano Ty musisz tylko znaleźć to które Ci pasuje. I data

rosso_corsa

11.11.2020, 11:43:32

0

szukam prostego sposobu w #pandas #python aby w df zliczyć i wyswietlic a nastepnie usunac wiersze ktore beda mialy 3x nan w trzech wskazanych przeze mnie kolumnach. jest tu moze jakis majster-ekspert ktory mi podopowie? #naukaprogramowania

1001001

11.11.2020, 13:10:18

1

@rosso_corsa:
Tu masz taki bardziej elegancki sposób.
Założenie jest takie, że szukamy wsród kolumn A, B, C stąd to list('ABC')
df.loc[df[list('ABC')].isna().all(axis=1), :]

rosso_corsa

11.11.2020, 13:38:52

0

@1001001: a ja tak pyknalem, najwazniejsze ze dziala

dane[dane['P1'].isnull() & dane['P2'].isnull()& dane['P0'].isnull()]

login_zajety_sic

27.08.2020, 18:38:14

0

Chce zautomatyzować sobie tworzenie makra po przez pythona i zastanwiam się jak to osiągnąć.

Przykładowy case:

Mam plik .xlsx gdzie mam table z kolumnami: kolumna1, kolumna2, kolumna3

chce

login_zajety_sic

27.08.2020, 19:09:29

0

@znowu_musze_wymyslac:

tak sądziłem... jeszcze raz:

użytkownik tworzy dwa pliki wejścia, plik z danymi (*.xslx) i plik szablonu (*.txt)
skrypt iteruje po każdym wierszu w pliku z danymi (*.xlsx) i kolumnach zdefiniowanych w szablonie (*.txt) w

loginzajetysic - @znowumuszewymyslac:

tak sądziłem... jeszcze raz:

użytkownik... — **źródło:** comment_15985553486iZc5HkyKg8ADV10rBFRVk.jpg
Pobierz

M.....k

konto usunięte 27.08.2020, 23:07:17

0

@login_zajety_sic: Ja bym to zrobił w sposób następujący
1. Przechodzisz po pierwszym wierszu i parujesz nazwę z literą oznaczającą kolumnę np. (kolumna1,A), (kolumna2,b)
2. Przechodzisz przez resztę wierszy podmieniając wszystkie {kolumnaX} na odpowiadające im wartości
np. jesteś w wierszu drugim, w szablonie napotykasz na {kolumna1}, sprawdzasz z którą kolumną zostało sparowane i podstawiasz tam wartość z A2

c.....s

konto usunięte 11.08.2020, 06:09:04

0

#python #selenium #pandas

cześć, muszę wykonać kilka operacji na kilkuset obiektach w apce webowej z wykorzystaniem selenium. Kod jest napisany, dane są zaciągane do df z Excela. Moje pytanie dotyczy tego jak "poprawnie i ładnie" to napisać.

Mój pomysł był dosyć prosty i kilka razy go wykorzystywałem, ale czy programista napisałby to w taki sam sposób?

Piszę

tomblock

11.08.2020, 06:23:06

0

Jesteś programistą i to napisałeś, więc tak, napisałby.

xstempolx

11.08.2020, 08:28:37

0

@cohontes: z tego co wiem lambda nie jest najszybszą z metod ale do twojego zastosowania pewnie w zupelnosci wystarczy

botereq

13.03.2020, 13:44:39

5

KoronaScience za darmo: kurs z podstaw Data Science w Pythonie

https://www.facebook.com/events/1094217857617583/

W trakcie kursu:
Poznasz podstawy #python, biblioteki #numpy, #pandas, #matplotlib i innych między innymi napiszemy razem prosty algorytm uczelnia maszynowego. Nauczysz się także pracować z obrazkami

KwasneJablko

10.06.2019, 08:27:00

0

Mam to co na screane. W jaki sposob moglbym zrobic tak aby tabela wygladala w taki sposob:

Intervaltype Australia Belgium Germany France
5/27 100 2000 800 200
5/28 159 777 7993 232
5/29

KwasneJablko - Mam to co na screane. W jaki sposob moglbym zrobic tak aby tabela wygl... — **źródło:** comment_kEFJivYsDE309r1QEcpbYiK5hYyQNnX3.jpg
Pobierz

konik_polanowy

19.04.2019, 05:10:44

12

Dzisiaj Mastering Python Data Analysis with Pandas [Video] (Thursday, September 28, 2017)

https://www.packtpub.com/packt/offers/free-learning

#packtpubfreelearning #python #analizadanych #pandas

odpowiedź

konik_polanowy - Dzisiaj Mastering Python Data Analysis with Pandas [Video] (Thursday... — **źródło:** comment_D9yeNC3fRloYNKCwYZxkbb2yWKYcFCb4.jpg
Pobierz

TymRazemNieBedeBordo

19.04.2019, 08:50:48

2

@konik_polanowy: dziekuje :)

Griffith

19.04.2019, 19:10:37

1

@konik_polanowy: Imię i nazwisko autora nie brzmi zachęcająco.

bohater

08.04.2019, 13:21:47

1

Mirki, jak to zapisac w #python 2.7 ? Nie ma w nim * do rozpakowywania kolekcji w argumenty :(

correlated = data.corr()['target'][lambda c: c > 0.1]
data = data[[*correlated.index]]

#pandas #numpy #sklearn

filozof900

08.04.2019, 13:27:17

0

@bohater: a sprobuj

data = data[list(correlated.index)]

filozof900

08.04.2019, 13:28:45

1

@luzny_lori: ona zle napisala, jej chodzi ze tworzenie listy jako [*x] jest nieprawidlowe w pythonie 2.7

konik_polanowy

03.12.2018, 05:44:42

14

Dzisiaj Pandas Cookbook (October 2017)

https://www.packtpub.com/packt/offers/free-learning

#packtpubfreelearning #pandas #python

konik_polanowy - Dzisiaj Pandas Cookbook (October 2017)

https://www.packtpub.com/p... — **źródło:** comment_hpVTDnHsY4Cyg1Nl07KnSO4J1PZ7PgV3.jpg
Pobierz

polik95

03.12.2018, 09:36:21 via Wykop Mobilny (Android)

2

@konik_polanowy: to jakaś azjatycka książka kucharska?

gusioo

03.12.2018, 09:42:49

0

@polik95: NiemieckaL Pan das cookbook ¯\_(ツ)_/¯

aleteior

05.09.2018, 10:41:30

10

#python #pandas #inwestycje #polska #ekonomia #programowanie

Zrobiłem interaktywną mapę prezentującą najnowszy wynalazek rządzących, czyli Polską Strefę Inwestycji. Może kogoś zainteresuje. W analizie danych wykorzystałem dwie biblioteki pythonowe czyli xlrd i pandas. A sama mapa zrobiona w QGIS.

Tu link do znaleziska.

https://www.wykop.pl/link/4512601/nie-widac-zaborow-mapa-powiatow-polskiej-strefy-inwestycji/#

Morzan

24.03.2018, 16:02:15

2

Znajdzie się ktoś kto ogarnia #pandas, #machinelearning, #scikitlearn i #python? Za cholerę nie mogę wykminić odpowiedniego przygotowania danych do klasyfikacji tekstu. Problem opisałem tutaj: https://stackoverflow.com/questions/49466193/sklearn-text-classification-attributes , jak będzie trzeba mogę to zrobić jeszcze dokładniej.

#programowanie

Poczmistrz_z_Tczewa

24.03.2018, 16:23:25 via iOS

0

Komentarz usunięty przez autora

erwit

19.03.2018, 09:20:48

2

Mirki, mam timeseries z sieci basenow (czas, liczba wejsc, lokalizacja itp..) Chcialbym stworzyc model predykcyjny na podstaiwe tych danych, uzywajac #python #pandas. Przyznaje, ze z metodami stochastycznymi jestem troche na bakier i wlasicie #datascience dopiero zaczynam sie uczyc. Moglby ktos mnie nakierowac jak sie do tego zabrac?

#statystyka #machinelearning

m.....u

konto usunięte 19.03.2018, 10:10:55

2

@erwit: poczytaj sobie o modelach typu ARIMA, ETS oraz o zwykłej regresji dla szeregów czasowych.

Kura_Wasylisa

19.03.2018, 10:19:02

1

@erwit: szeregi czasowe beda dobre jak nie masz innych zmiennych, w przeciwnym przypadku moglbys wyjac z timestampa np godzine, dzien tygodnia, miesiac itd i wrzucic je jako zmienne + do tego np liczba ludnosci w miescie, wojewodztwo itd wszystko zalezy od kreatywnosci :D

w przypadku szeregow polecam uzyc SARIMA bo na pewno bedzie to szereg sezonowy i mozliwe ze pojawi sie heteroskedastycznosc (wtedy trzeba bedzie siegnac po nieco bardziej zaawansowane