#pandas

05.04.2024, 18:14:53

0

https://www.youtube.com/watch?v=EmALxO7V7y0&list=PLbmr31Ozd_E6VGQ8hJGLqxYaA-IJDoMPq&index=2

6:30
dlaczego

(dataset.loc[5:10, 'x'])

Zwraca 6 kolumn? Wiem, że indexowanie od 0.
Ale czemu w takim razie nie wpisze 0:5 ? Skąd 10 tam?
#python #pandas #programowanie

blacktyg3r

05.04.2024, 18:55:52 via Wykop

1

Nie mam jak obejrzeć, ale zgaduje że chce kolumny od 5 do 10 (czyli 5, 6,7,8,9 z wyłączeniem 10) oraz kolumnę 'x', stąd w rezultacie 6 kolumn.

ch1nczyk

saviola7

05.04.2024, 18:57:43 via Wykop

2

@jakismadrynickpolacinsku: Po prostu zaczyna od pozycji numer 6 do 11, taki przedział sobie wybrał. 0:5 zwróciłoby od 1 do 6.

wasylzlasu

20.03.2024, 19:45:35

1

Poszukuję kontaktu do specjalisty od PANDAS dla dziecka.

Ktoś coś? Szukam lekarza specjalistę a nie wypisywacza recept i zwolnień.

W USA wystarczy że wpisze miasto i są adresy specjalistycznych przychodni od PANDAS.. ale w PL zero nie ma nic i nikogo ;/

#pandas #choroby #lekarze #pytanie #zdrowie #medycyna #leki #leczenie

robertx

harnasiek

23.12.2023, 14:56:31

0

#python #programowanie #programista15k #python3 #pandas #ghostscript
Czy ktoś może mi pomóc z kodem konwersji pliku PDF na XLSX?
Męczę się już kilka godzin i nie otrzymuję oczekiwanego rezultatu czyli przeniesienia zawartości PDF 1:1 do XLSX, ciągle otrzymuję zły format
To co otrzymuje na ten czas
Moj kod

W zdjeciach na imgur przedstawil co jest zawarte w pliku PDF, a co niestety otrzymuje w XLSX. Chodzi mi o konwersje pliku w taki sposob

Oo-oO

23.12.2023, 18:39:48 via Wykop

0

to raczej nie jest możliwe, tzn - nie bez dużych nakładów czasowych - rozumiem że nie podoba ci się że tracisz formatowanie, kolory itd, to przeważnie nie są rzeczy które łatwo się przenosi

xavhowk

23.12.2023, 19:47:50 via Wykop

0

@harnasiek: W kodzie chyba wiele nie poprawisz, bo on parsuje tylko surowe, tekstowe dane, rozbija na linijki a potem na pojedyncze wyrażenia. Nie ma tu miejsca na formatowanie, grafikę, itp.
Są jakieś komercyjne rozwiązania, które nawet sobie radzą z tabelami, ale dość drogie:
https://docs.aspose.com/pdf/python-net/convert-pdf-to-excel/
Można też spróbować napisać jakiegoś bota, który wykorzysta taki zaawansowany konwerter online.

ElMatadore

30.11.2023, 14:23:25

6

Muszę powiedzieć, że #chatgpt zaskakująco dobrze radzi sobie z #pandas. Właśnie sobie klepię notebooka, trochę pozapominałem Pandasa, znacząco mi przyspiesza robotę. Czasem go trzeba trochę nakierować i trzeba wiedzieć jak to w miarę dobrze zrobić, ale ogólnie na plus

#python #programowanie #datascience

ch1nczyk

30.11.2023, 14:45:16 via Android

2

@ElMatadore To fakt Mirku, znacznie przyspiesza pisanie kodu który byś w końcu napisał sam, ale trzeba by chwilę nad dokumentacją spędzić. Z innymi bibliotekami, czy nawet PySpark też daje nieźle radę.

ch1nczyk

01.12.2023, 10:00:56 via Wykop

2

@ElMatadore @nad__czlowiek:

- 36k bibliotek zaleznych od Pandas
- 14 lat developmentu
- 1k contributorow
- 40k gwiazdek
- zapewne miliony pobran biblioteki

wykopek:

pandas to przecież gówno

ch1nczyk - @ElMatadore @nad__czlowiek:

- 36k bibliotek zaleznych od Pandas
- 14 lat... — **źródło:** pandas
Pobierz

arct2

26.09.2023, 19:09:20

0

Cześć, mam problem z taką oto listą:

QTY Part number Part name          Zone
2   1486E87-7   Wheel - Test       B13
                Specimen
2   1589E56-99  Bar - Non Test     C18
                Specimen - 
                For use only with
	        prod

próbuję ją przekonwertować na tabelę która wyglądała by tak jak na screenie poniżej. Macie jakieś wskazówki jak to zrobić w #pandas? Szukałem w internecie, pytałem o to ChatGPT i googlowego Barda, ale żaden nie jest w stanie

arct2 - Cześć, mam problem z taką oto listą:
QTY Part number Part name Zone
... — **źródło:** Zrzut ekranu 2023-09-26 210802
Pobierz

heniek_8

26.09.2023, 19:22:35 via Wykop

1

@arct2: bo tam jest bałagan, trzeba ręcznie - przeczytać drugą linijkę (pierwszą można pominąć dać nazwy ręcznie)
rozdzielić po długości czyli liczbie znaków na 4 pola
potem przeczytać następną linijkę i jeżeli pierwsze pole jest puste, to to co jest w trzecin dopisać na końcu tego co jest w 3 polu
potem przeczytać następną i dopiero jeżeli pierwsze pole nie jest puste to traktować to jak nowy rekord

ch1nczyk

S0Cool

27.09.2023, 11:10:27 via Wykop

1

@heniek_8: Ło panie, to by trzeba ręcznie kod pisać. Mamy XXI wiek przecież, są do tego narzędzia, a nie jak neandertalczyk jakiś algorytmy samemu budować.

Jone

dexterpol

13.04.2023, 16:55:22

0

Wie ktoś dlaczego mimo zdefiniowania filtra nadal wyrzuca mi cały arkusz w konsoli zamiast wyfiltrowanych wartości?

import pandas as pd

df = pd.readexcel(r'C:\Users\User1\Downloads\dane.xlsx', sheetname='Tabele Przestawne 6', skiprows=3)

filter = df[(df['Kraj']== 'BOSNIA')]

print(filter)

#python #pandas #programowanie #programista15k #informatyka

dexterpol

13.04.2023, 17:24:52 via Wykop

1

@Arogancky: wywalenie nawiasa pomogło, dziękuje mireczku :)

Arogancky

Arogancky

13.04.2023, 18:25:46 via Wykop

1

@dexterpol: no i git. Nawiasu używasz bodajże jak masz w środku jakieś bardziej złożone warunki logiczne

Kimbaloula

heniek_8

19.12.2022, 13:50:21

0

mam współrzędne obiektów w data frame w krotce

import pandas as pd
dane = pd.DataFrame({'coord':[(52.232,21.006)]})

potrzebuję to rozparsować na oddzielne pola x, y

zrobiłem tak, ale jak na to patrzę, to pewnie dałoby radę w jednym kroku policzyć obie?

dane['x'] = dane['coord'].apply(lambda c: c[1])
dane['y'] = dane['coord'].apply(lambda c: c[0])

#python #pandas

Arogancky

19.12.2022, 14:02:21

2

@heniek_8: https://stackoverflow.com/questions/32468402/how-to-explode-a-list-inside-a-dataframe-cell-into-separate-rows
kilka pomysłów ¯\_(ツ)_/¯ ale pewnie explode() najlepszy będzie

narowerzesamochodem

19.12.2022, 23:18:50

1

@heniek_8: jak odpowiednio zwrócisz z apply() to możesz od razu w dwie kolumny zapisać.
Zobacz tutaj w sekcji „ … jedną kolumnę podzielić na kilka”, ten blok „Szybko” ;)
https://uczymymaszyny.pl/hej-pandas-chce/

heniek_8

Davidvia0

17.08.2022, 16:16:58

0

Mam taki problem, że próbuję sobie posegregować dane i zapisać je w jednym pliku CSV.
W skrócie:
- Robię listę wszystkich plików w zdefiniowanym folderze
- Przeszukuję tę listę plików, aby znaleźć pierwszą liczbę całkowitą znajdującą się przed literą R (to identyfikator baterii)
- Przeszukuję tę listę plików, aby znaleźć pierwszą liczbę stałoprzecinkową (powiedzmy, że zawsze z 1 miejscem po przecinku) -> to identyfikator napięcia
- Przeszukuję tę listę plików, aby znaleźć

IamHater

17.08.2022, 16:23:17

1

Co robię źle?

@Davidvia0: zacznijmy od tego że nie wrzucasz kodu na pastebina

# tutaj kod sie wali

jak wrzucisz co konkretnie się dzieje to może ktoś pomyśli

konto usunięte

G.....y

konto usunięte 17.08.2022, 16:29:02

0

jak wrzucisz co konkretnie się dzieje to może ktoś pomyśli

@IamHater: no wali sie, wyciaga reke z mlotkiem i sie wali po sobie

maciekXDDD

23.07.2022, 07:40:14

0

mam dane godzinowe i chcę je zsumować do pełnych dni.

mam coś takiego:

1 2020-01-02 00:00:00 -13
2 2020-01-02 01:00:00 22
3 2020-01-02 02:00:00 65
4 2020-01-02 03:00:00 -17
5 2020-01-02 04:00:00 -4
6 2020-01-02 05:00:00 5

i chcę uzyskać nowy dataframe, który będzie wyglądał tak:

1 2020-01-02 00:00:00 -58 <--suma wartości godzinowych z tego dnia
danych jest dużo, na kilkanaście lat. jakieś pomysły jak mogę to zrobić?

#python #sql #pandas

przecietnyczlowiek

23.07.2022, 09:07:41

1

@maciekXDDD: nie wiem jak wyglądają twoje dane ale na logikę potrzebujesz niedzielę oznaczyć jako poniedziałek i na tym zagregować/zgrupować. W zależności jakiego dialektu sql używasz mozesz uzyc funkcji np. Datename w sql serverze które ci zwróci dzień tygodnia.

Druga opcja to zrobić temp tabele/cte z zagregowanymi danymi dla niedziel.
I nastepnie polaczyc ja z twoja tabela glowna w ten sposob ze laczysz po tabelaglowna.dzien - 1 = tabelazniedziela.dzien (czyli dla kazdego

maciekXDDD

1001001

23.07.2022, 09:17:49

1

natomiast potrzebuje wartości z niedzieli dodać do wartości poniedziałkowej.

@maciekXDDD: Mając już dane w pandas napisałbym sobie funkcję sprawdzającą czy dany dzień jest niedzielą i zamienił ten dzień na poniedziałek, co z resztą powyżej już wskazano.

from datetime import datetime as dt
from datetime import timedelta as td
def is_sunday(date):
if date.isoweekday() == 7:
return date+td(days=1)
else:
return date
i dalej już w dataframe:

df['nowadata'] = df.loc[:,'nazwakolumnyzdata'].map(is_sunday)

maciekXDDD

przecietnyczlowiek

15.07.2022, 12:51:25

0

Myślicie, że kiedykolwiek zostanie naprawdę usunięte?

FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.

#pandas #python

przecietnyczlowiek - Myślicie, że kiedykolwiek zostanie naprawdę usunięte?

Future... — **źródło:** comment_1657889484bnCb3FkrUycKH1OK5yBGYX.jpg
Pobierz

Arogancky

15.07.2022, 13:03:47

0

@przecietnyczlowiek: no w głównej wersji być może. Ale stara dalej może mieć taką funkcjonalność ¯\_(ツ)_/¯

Henryhenry

15.07.2022, 14:53:58

0

@przecietnyczlowiek: tak

hoszak

14.07.2022, 00:11:16

1

#datascience

Hej Mirki, tak sobie dlubie proste ETL w #pandas #numpy #python i glowkuje jak tu skrocic czas ladowania trzech duzych (1GB kazdy 900k x 200) CSV. Jedyne co przychodzi mi jeszcze do glowy to dorzucenie multiprocesingu bo duzo sie dzieje, z %pruna widze ze w tej chwili CPU jest waskim gardlem. Probowalem w prymitywny sposob zaladowac to w multi rozrzucajac kazdy plik na osobny proces ale naturalnie zabraklo RAMu, wiem, ze

blazek

d.....z

konto usunięte 14.07.2022, 05:17:18

3

@hoszak: zobacz na rozwiązania w tym wątku: https://stackoverflow.com/questions/6475328/how-can-i-read-large-text-files-line-by-line-without-loading-it-into-memory

A.....c

konto usunięte 16.07.2022, 20:55:50

2

@hoszak: Spróbuj Polars, sporo szybsza biblioteka, wrapper Rust-a.
https://www.pola.rs/

Ewentualnie Pyarrow - https://arrow.apache.org/docs/python/generated/pyarrow.csv.read_csv.html

Oake

10.07.2022, 17:24:34

0

mam plik csv, taki jak na screenie. Mój cel to utworzenie nowej kolumny, której wartości będą wynikiem formuły: (Adjusted Open - Adjusted Close z poprzedniego wiersza)/Adjusted Close z poprzedniego wiersza. W jaki sposób najłatwiej to osiągnąć? Najlepiej nie zmieniając indeksu na numeryczny. Muszę pętlą czy da się jakoś inaczej? #python #pandas

Oake - mam plik csv, taki jak na screenie. Mój cel to utworzenie nowej kolumny, które... — **źródło:** comment_16574738721qrCQevM6J8oAYmf75VySb.jpg
Pobierz

heniek_8

10.07.2022, 17:38:02

1

@Oake: wartość z poprzedniego wiersza to jest df.shift()['Adj Close'] - dodaj taką kolumnę i używaj jej w obliczeniach

Oake

A.....c

konto usunięte 10.07.2022, 22:23:27

1

@Oake: @heniek_8:

W sumie to nie trzeba dodawać kolumny:

df["new_col"] = (df["Adj Open"] - df["Adj Close"].shift(periods=1))/df["Adj Close"].shift(periods=1)

i dodatkowe pytanie: czy da się wywołać jakoś jedynie wartość indeksu?

Co masz na myśli? Indeks DataFrame?

heniek_8

Oake

03.07.2022, 17:39:17

0

mam dwa pliki csv, oba mają takie same kolumny. Powiedzmy, że jednen z nich składa się z wierszy a i b a drugi z wierszy b i c. Jak mogę połączyć te dwa pliki tak, żeby nie duplikowało mi wiersza b, który w tych dwóch plikach jest taki sam? Kombinowałem różnie z pd.concat, ale cały czas te powtarzające się wiersze duplikują się. #python #pandas

Oake - mam dwa pliki csv, oba mają takie same kolumny. Powiedzmy, że jednen z nich sk... — **źródło:** comment_1656869901EruoGvPBc9yLUjC4ZbL7l6.jpg
Pobierz

kfc_chicken

03.07.2022, 17:42:35 via Android

5

@Oake może po prostu z drop_duplicates() na koniec?

saviola7

03.07.2022, 17:44:12

2

@Oake: https://stackoverflow.com/a/21317570

FantaZy

19.03.2022, 10:47:10

0

poleca ktoś jakiś kurs/ćwiczenia gdzie można się podszkolić w operacjach na tabelach typu dataframe? chodzi mi o nabranie wprawy w joinach, groupby i innych transformacjach. Fajnie by bylo poznać jakieś zaawansowane techniki itp itd.

#python #pandas #numpy #dataengineering

jszafran

19.03.2022, 12:46:10

1

@FantaZy: Obczaj https://github.com/guipsamora/pandas_exercises

FantaZy

FantaZy

19.03.2022, 14:57:59

0

@jszafran: thx, dokladnie o cos takiego mi chodzi... learning by doing...

scorpio18k

12.01.2022, 09:18:42

0

Próbuję otworzyć plik w pandas:

import pandas as pd
df = pd.readcsv('D:\podglad\podglad.xlsx', encoding='Windows-1250', onbadlines='skip')
print(df.tostring())

Dla encoding='Windows-1250' wyskakuje błąd:
UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 16: character maps to

Dla encoding='utf8':
UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 14-16: invalid continuation byte

Dla encoding='Latin-1':
Otwiera ale wyskakują krzaki

Dla encoding='iso-8859-1':
Otwiera ale wyskakują krzaki

Nie mam już pomysłów co by jeszcze spróbować.
Excel otwiera

IamHater

12.01.2022, 09:29:13

1

pd.readcsv

podglad.xlsx

@scorpio18k: gdzie masz źle, tutaj czy w kodzie?

scorpio18k

filozof900

12.01.2022, 12:45:40

0

@scorpio18k: spróbuj utf-16

Kapitalis

03.01.2022, 15:42:41

0

Potrzebuję w pliku excel zhashować kolumny password i pesel. W pycharm taki kod wpisuję i po uruchomieniu wyrzuca jakieś errory i nic. Plik users.csv rozumiem, że ma być w tym folderze co projekt pycharmowy z plikiem python?
Help pls
Nie zajmuję się programowaniem więc proszę mieć to na uwadze.

import pandas as pd
import hashlib

# reading CSV input
df = pd.readcsv('users.csv')

# hashing
df['password'] = df['password'].apply(lambda x:
hashlib.sha256(x.encode('utf-8')).hexdigest())
df['pesel'] =

Elkoss

03.01.2022, 15:48:40

2

@Kapitalis: nie masz kolumny password w dataframe. Zobacz co ci wyswietla jak wpiszesz print(df.columns)

Elkoss

03.01.2022, 16:07:57

1

@Elkoss: Powinno to tak wygladac:
df['pesel'] = df['pesel'].apply(lambda x: hashlib.sha256(str(x).encode('utf-8')).hexdigest())

Kapitalis

thomeq

20.12.2021, 21:03:14

0

#pandas Jak unikacie wielokrotnego uzywanie .loc
np.
tabela.loc[warunek, kolumna]=tabela.loc[warunek, kolumna]+tabela.loc[warunek, kolumna_inna]

Jestem pewien, ze kiedys widzialem jakies sprytne obejscie, ale nie pamietam jakie ;)

r44y

06.12.2021, 21:40:40 via Wykop Mobilny (Android)

4

Mirki jakie strony polecacie do ćwiczeń Pythona oraz SQL pod analizę danych? Kursy są ok ale bez praktyki to wszystko o dupsko rozbić. #sql #python #pandas #numpy

WodnySzajbus

06.12.2021, 21:56:07

2

@r44y: jak panda to Corey Schafer na yt.

janek_

07.12.2021, 00:30:30

1

@r44y: datacamp jest spoko, i mają w tej chwili dużą promocję

r44y

thomeq

24.11.2021, 19:05:21

0

#pandas #python
Mam dwie tabele (tab1 - kolumny A, B; tab2- kolumny C, D). Jedna ma 2 wiersz3, druga - trzy. Dla ulatwienia - jedna ma wartosci x, a druga - y.Chce je połączyc wierszami (dokladnie w kolejnosci wystepowania w tabeli), a brakujace wiersze wypelnic np. 'z'.
Pożądany efekt końcowy:
A B C D
x x y y
x x y y
z z y y

(moze byc tez None zamiast 'z',

IamHater

24.11.2021, 19:45:00

2

concate mi laczy jakby oddzielnie

@thomeq: bo domyślnie concat łączy po wierszach, zmień parametr axis

thomeq

24.11.2021, 20:13:18

1

@IamHater: Mam (jednak rozmowa z kims pomaga :P )
te tabele to wyimki z wiekszych tabel. Skubany patrzyl na indeks wierszy oryginalnej tabeli i brał go pod uwage...

5h siedzenia... (concat na poczatku probowalem)... :/

IamHater

thomeq

02.07.2021, 09:32:09

0

Cześć, mam problem - mam dosc duzy plik csv - na tyle duzy, ze samo wczytywanie trwa kilkanascie sekund (a bedzie bardzieł puchł). mocno spowalni mi dzialanie aplikacji - poustawialem juz recznie rodzaje danych w kolumnach, wstawilem gdzuie sie da dane kategoryczne, ale nadal wolno. W zwiazku w tym mam pytaie (jak na razie nic nie znalalem na ten temat w sieci): czy jest opcja wczytywania z pliku csv tylko interesujacyh mnei

jgruszka93

02.07.2021, 09:54:19

3

@thomeq: sqlite + np. peewee a nie jakieś csv ;)

Kura_Wasylisa

02.07.2021, 10:20:13 via Android

1

@thomeq skonwertuj csv do parquet to Ci pomoże trochę, możesz tu uzyc sparka on nie będzie tego explicite ladowal do pamieci a mozesz uzywac sqla na tych danych

thomeq