Aktywne Wpisy

waters +8
źródło: temp_file4134585460114165376
Pobierz
dwieplaze +22
Jedliście pieczonego arbuza? Zupełnie jak łosoś, c'nie?
#memy #smiesznekotki #gotujzwykopem #dieta #zwierzatka #ryby #etyka
#memy #smiesznekotki #gotujzwykopem #dieta #zwierzatka #ryby #etyka
źródło: Screenshot_20250815-102625_Facebook
Pobierz




mam pytania z zakresu #python, #pandas i ogólnie #datascience.
Zasysam dośc duża tabelę z bazy danych (ok 1,5GB). Po zakonczeniu procesu sprawdzam jakiego typu mam kolumny ( tabela.info() ). Wszystkie sa typem 'object'. Jednak jak dam type(tabela[kolumna][0]) to otrzymuje np. decimal.Decimal.
W zwiazku z tym mam pytania:
1. W koncu jakiego typu jest taka kolumna?
2. Z uwagi na dosc duza liczbe wierszy (ok 13 milionow) chce pozmieniac typy kolumna tak, zeby maksymalnie przyspieszyc dzialanie pandasa. Czy ww. kolumne zmienic na int?
3. Czesc z tych kolumna ma mala zmienność danych - w ziwazku z tym chce je zmienic na categorical. I tu mam zagwozdke:
3a. Do jakiej liczby zmiennych warto to zmieniac?
3b. Jedna z kolumna to wiek. Tu lepiej int czy kategorie tez? Bo jesli dobrze rozumiem dzialanie kategorii, to mamy 'podlinkowanie' do ajkiejs wirtualnej tabeli do odpowiedniej pozycji. I w tym momencie informacja w int chyba zajmuje mniej miejsca w pamieci niz adres do tabeli? No i oszczedzam milisekudy na odwolania? Czy zle pojmuje (tj wniosek jest zeby to byl ina a nie kategoria)?
4. Lepiej z punktu widzenia wydajnosci date trzymac jako strong czy datetime?
1. https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html
2. Zależy co będziesz chciał robić na tym
3. A po co chcesz to robić? analizować? wrzucać do modelu?
4. Zmierz sobie timeit'em jakąś operację przy ustawieniu string vs. date i zobacz czy ugrasz cokolwiek
1. dzieki
2. Duzo kolumn to roznej masci ID - czyli nie bede zadnych matematycznych operacji, ale uzywal przy filtrowaniu i zliczaniu unikalnych wartosci.
3. Analiza reczna.
4. W kilu miejscach bed operowal na datach, ale w wiekszosci nie bede uzywal tych kolumn, wiec sadze, ze skonwertuje na poczatku (bo to tra chwile) i mam z glowy. Ale przetestuje to co piszesz :)
3. To już zależy od tego czego się chcesz dowiedzieć (wiedza domenowa :)) zacznij od df.colum.unique() i zobacz ile masz unikalnych wartości, porób sobie histogramy, boxploty itd i później decyduj, czy jakoś je grupować, zrzucać rzadkie kategorie