#python #pytanie #pandas

potrzebuję pomocy w sprawdzeniu poprawności danych w skrypcie używającym pandas i datetime w pythonie.

Mam sobie taki input, gdzie start_time, end_time oraz session_time mam podane jako string. Konwertuję to sobie do datetime.timedelta, dodaję start_time do start_date (które na wejściu nie ma podanych godzin i minut, sam rok, miesiąc, dzień), uzyskując start_time jako datetime z godzinami. Następnie dodaję do tego session_time i wychodzi mi datetime z poszukiwaną przeze mnie
ehhhh - #python #pytanie #pandas

potrzebuję pomocy w sprawdzeniu poprawności danyc...

źródło: comment_1622308692E1yYkE2yevKQyvAXkJskBb.jpg

Pobierz
@CancerLight: no właśnie to się sprowadza w sumie do tego samego, bo end_time i end_date będą mieć różną datę, jeśli skonwertuję. w sumie jak teraz pomyślałem, to chyba najprostsze rozwiązanie to skonwertować to do stringa i porównać stringi, ale trochę to denerwujące, bo nie po to konwertowałem na datetime wszystko, żeby później z powrotem wracać na stringi ( ͡° ʖ̯ ͡°)
Cześć,
mam pytania z zakresu #python, #pandas i ogólnie #datascience.
Zasysam dośc duża tabelę z bazy danych (ok 1,5GB). Po zakonczeniu procesu sprawdzam jakiego typu mam kolumny ( tabela.info() ). Wszystkie sa typem 'object'. Jednak jak dam type(tabela[kolumna][0]) to otrzymuje np. decimal.Decimal.
W zwiazku z tym mam pytania:
1. W koncu jakiego typu jest taka kolumna?
2. Z uwagi na dosc duza liczbe wierszy (ok 13 milionow) chce pozmieniac typy
@thomeq: 3. Przy zmiennych binarnych mozesz sobie zrobic get dummies i zdropowac pierwsza (czyli cos na zasadzie is_male z wartosciami 0 i 1 lub bool). Jesli chodzi o wiek to zazwyczaj warto sobie to pokubelkowac jakos sensownie. Jesli pracujesz np. na miejscu zamieszkania to mozesz sociagnac sobie skads wielkosc miejscowosci i pokubelkowac na male, srednie i duze miasta lub np wyliczyc odleglosc od najblizszej siedziby Waszej firmy. Co do wydajnosci -
Mam coś takiego, grupujące df po 'name' i wyrzucające sumy dodatnich i ujemnych wartosci z 'xTAdded':

df.groupby(df['name'])['xTAdded'].agg([('neg' , lambda x : x[x < 0].sum()) , ('pos' , lambda x : x[x > 0].sum())])
Jak mogę dodać kolejną kolumnę, gdzie byłaby podobna suma tylko liczona tylko dla kolumn spełniających warunek? Np. chciałbym kolumnę 'buildup', która sumuje dodatnie 'xTAdded' ale tylko, gdy w kolumnie 'endX' jest wartość <70. Tutaj ta lambda się odwołuje sama
Mirki, mam pytanie które wydaje się dość podstawowe ale naprawdę nie mogę nigdzie znaleźć satysfakcjonującej odpowiedzi.

Powiedzmy, że chcę generować dane finansowe dotyczące spółek giełdowych. Ponieważ cena akcji podawana jest codziennie a raporty dotyczące zadłużenia, zysków, czy wartości księgowej rzadziej (na przykład kwartalnie), wydaje mi się że optymalne jest rozdzielenie tych dwóch danych na dwie różne tabele:
- OHLC za każdy dzień
- Snapshot pokazujący dane finansowe z raportu za dany okres
Cześć, mam pytanie z #python, dokladniej z #pandas.
Mam ramke danych z kolumnami: X, Y Q i Z, przy czym Z powstała w wyniku .unique() (tj zawiera w sobie numpy.ndarray z kilkoma wartosciami - wczesniej dla kazdego X i Y bylo kilka roznych wartosci Z, ale zostały ta komenda zebrane do tablicy numpy, tak, ze teraz jedna linijka to jeden unikalny zestaw X i Y) np.
A | B |
@kamilek98PL: Z doświadczenia panadas jest spoko, jak masz dużo danych, żeby coś wyszukać, wyciągnąć itp. jako kontener ala baza danych. Obróbkę tych danych zawsze wolałem robić poza. Aczkolwiek znam ludzi, którzy jak wgłębili się w dokumentację to robią turbo rzeczy na data frame. Także kto co woli. Jak to się mówi jeśli masz problem prawdopodobnie w pythonie już go rozwiązano Ty musisz tylko znaleźć to które Ci pasuje. I data frame
Chce zautomatyzować sobie tworzenie makra po przez pythona i zastanwiam się jak to osiągnąć.

Przykładowy case:

Mam plik .xlsx gdzie mam table z kolumnami: kolumna1, kolumna2, kolumna3

chce aby docelowy użytkownik musiał jedyne co zrobić to utworzyć plik np. txt i w nim zapisze:

wartość kolumny1: {kolumna1} wartość kolumny2: {kolumna2} wartość kolumny3: {kolumna3}

gdzie plik wynikowy będzie mieć postać:

wartość kolumny1: 232
wartość kolumny2: 548
wartość kolumny3: 874

etc....

i później uruchomił
@login_zajety_sic: Ja bym to zrobił w sposób następujący
1. Przechodzisz po pierwszym wierszu i parujesz nazwę z literą oznaczającą kolumnę np. (kolumna1,A), (kolumna2,b)
2. Przechodzisz przez resztę wierszy podmieniając wszystkie {kolumnaX} na odpowiadające im wartości
np. jesteś w wierszu drugim, w szablonie napotykasz na {kolumna1}, sprawdzasz z którą kolumną zostało sparowane i podstawiasz tam wartość z A2
#python #selenium #pandas

cześć, muszę wykonać kilka operacji na kilkuset obiektach w apce webowej z wykorzystaniem selenium. Kod jest napisany, dane są zaciągane do df z Excela. Moje pytanie dotyczy tego jak "poprawnie i ładnie" to napisać.

Mój pomysł był dosyć prosty i kilka razy go wykorzystywałem, ale czy programista napisałby to w taki sam sposób?

Piszę funkcję, która przyjmuje dwa argumenty (dwie wartości z kolumn DF)
a potem na całym DF
KoronaScience za darmo: kurs z podstaw Data Science w Pythonie

https://www.facebook.com/events/1094217857617583/

W trakcie kursu:
Poznasz podstawy #python, biblioteki #numpy, #pandas, #matplotlib i innych między innymi napiszemy razem prosty algorytm uczelnia maszynowego. Nauczysz się także pracować z obrazkami oraz tworzyć wykresy.
Kurs jest w 100% bezpłatny, online, od podstaw - prowadzony za pomocą tranismisji online. Nie trzeba nic instalować - wystarczy konto Google i dostęp do przeglądarki.

#studia #studbaza #
Dzisiaj Mastering Python Data Analysis with Pandas [Video] (Thursday, September 28, 2017)

https://www.packtpub.com/packt/offers/free-learning

#packtpubfreelearning #python #analizadanych #pandas

odpowiedź dlaczego nie możesz pobrać "nowych" książek

pdfy/epub/kindle są dostępne dla pozycji zgarniętych za darmo do końca 2018. Nowe pozycje wchodzą tylko na readera. Jeśli coś macie zgarniętego wcześniej a pozycja pojawia się ponownie, to w "moje ebooki" pojawi się dwa razy, raz z pobieraniem a raz tylko z readerem
konik_polanowy - Dzisiaj Mastering Python Data Analysis with Pandas [Video] (Thursday...

źródło: comment_D9yeNC3fRloYNKCwYZxkbb2yWKYcFCb4.jpg

Pobierz
#python #pandas #inwestycje #polska #ekonomia #programowanie

Zrobiłem interaktywną mapę prezentującą najnowszy wynalazek rządzących, czyli Polską Strefę Inwestycji. Może kogoś zainteresuje. W analizie danych wykorzystałem dwie biblioteki pythonowe czyli xlrd i pandas. A sama mapa zrobiona w QGIS.

Tu link do znaleziska.

https://www.wykop.pl/link/4512601/nie-widac-zaborow-mapa-powiatow-polskiej-strefy-inwestycji/#
@erwit: szeregi czasowe beda dobre jak nie masz innych zmiennych, w przeciwnym przypadku moglbys wyjac z timestampa np godzine, dzien tygodnia, miesiac itd i wrzucic je jako zmienne + do tego np liczba ludnosci w miescie, wojewodztwo itd wszystko zalezy od kreatywnosci :D

w przypadku szeregow polecam uzyc SARIMA bo na pewno bedzie to szereg sezonowy i mozliwe ze pojawi sie heteroskedastycznosc (wtedy trzeba bedzie siegnac po nieco bardziej zaawansowane modele
#python #programowanie #pytanie #pandas

Mirki, pomocy bo męczę się już jakiś czas z tym i nie mogę znaleźć rozwiązania.
Wszystko wydaję się oczywiste i proste, ale nie działa :D
Mam dwa dataframy : jeden (fdi) z jakimiś tam danymi gdzie jest kolumna powiedzmy kraj1 i kraj2 (w kodzie ISO). Drugi (rel) gdzie indeksem jest właśnie kod ISO kraju a kolumny to udziały procentowe różnych religii.
Chcę dodać do pierwszego zmienną zgodności religii