#python #scraping #ocr

Czy jest możliwe dokładne pobieranie danych z pdfu, który wygląda jak np. gazetka Biedronki?
Potrzebuję zebrać sporo danych historycznych i m.in. takie pdfy są znakomitym źródłem informacji jednak próbowałem różnych programów ocr i efekt jest słaby. Z kolei ręczne wklepywanie kilkuset pdf też wygląda słabo.

Znacie jakieś programy ocr, sposoby jak to zrobić?
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@inevitableserendipity: ale po co tak kombinować, zrób workaround tego
próbuj pobrać/wysłać dane po API, a gdy API zwróci Ci błąd o nieprawidłowym / wygasłym tokenie, przechwyć ten błąd, wyślij request po nowy token, a gdy go dostaniesz, wysyłasz normalnego requesta, którego wysyłałeś na samym początku
  • Odpowiedz
Jako laik zastanawiam się jakie są różnice pomiędzy #selenium a #beautifulsoup. Oba są do tego samego, ale czy któryś jest np. latwiejszy, bardziej rozbudowany itd? Mam zamiar napisać program który będzie monitorował ceny konkretnych produktów w sellgrosie a następnie wysyłał maila pod wskazany adres jeśli cena będzie mniejsza niż x. Z jakiego modułu byście skorzystali i dlaczego? Pozdrawiam #python
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Cześć, mam pytanie jak powinno wyglądać portfolio osoby ubiegającej się na stanowisko datascientist, analityka danych, itp itd.

Jak ubiegasz się o pracę na stanowisko webdeva to wiadomo jakaś stronka, może aplikacja internetowa, jak na gamę deva to jakaś gra. Ale jakie portfolio powinien n mieć człowiek który pracuje z danymi? Przecież strony www nie zrobi znaczy może zrobić ale to już inna dyscyplina.

#python #datascience #machinelearning
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@printHelloWorld: być może jakieś repo z kilkoma aplikacjami skupiającymi się nad problemami typu: image regognition, nlp, classification, cos z time-series. Często podczas rekrutacji dostaje się taki przekrój zadań do rozwiązania.
  • Odpowiedz
Jupyter notebook z całym procesem analizy danych jakiegoś datasetu (pobieranie danych, czyszczenie, walidacja, analiza, wizualizacja itd.)? Github renderuje notebooki, więc możesz wrzucić coś takiego do repo i podesłać komuś linka. Jeżeli znasz biblioteki typu Shiny (R) albo Bokeh/Dash (Python), to możesz zwizualizować jakieś dane i opublikować interfejs do nich w formie apki webowej.
  • Odpowiedz
Robię wyzwanie sobie i będę na tym tagu: #rokzpytonem [już 40 obserwatorów :D, to motywuje] opisywać czego nauczyłem się, wklejał programy moje itd. Zaczynam od początku jeszcze raz, by usystematyzować wiedze, może kogoś też wciągnie :).

8/365

01.02.2021
Start: 20:00
K.....i - Robię wyzwanie sobie i będę na tym tagu: #rokzpytonem [już 40 obserwatorów ...
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

3. Jaka jest podstawowa różnica pomiędzy słownikiem a listą?


W przeciwieństwie do elementów znajdujących się na liście, elementy

przechowywane w słowniku są nieuporządkowane


@Karoshi: to niestety nie jest już poprawna odpowiedź od wersji Pythona 3.7, tutaj masz trochę więcej
  • Odpowiedz
Wstawaj wykop, mamy dzieciaka do uratowania. Zbieramy na najdroższy lek na świecie. W akcji bierze udział coraz większe grono programistów, każda para kodujących rąk się przyda.

Chcesz pomóc?
1. Wrzucasz 16 linii kodu na FB i tagujesz #code16challenge
2. Nominujesz 3 osoby do wykonania tego samego.
3. Wpłacasz choć zeta na zbiórkę akcji.
  • 2
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@boguslaw-de-cubalibre: Z opisu wynika że ma służyć do integracji narzędzi poprawiających workflow pracy z projektami a nie do robienia gier. W filmiku podesłanym przez @tlustywalec jest używany namespace UnityEditor którego nie da się używać w buildzie więc wygląda na to że da się tylko tego pythona używać w edytorze i gry na pc czy mobilki w tym nie zrobisz.
  • Odpowiedz
#devopsiarz - kolejne zestawienie o ciekawych artykułach, programach, bibliotekach z działki #devops i nie tylko - najczęściej #golang i #python, ale też #rustlang, #wordpress, #pracait czy #produktywnosc

To samo zestawienie u mnie na stronie (lepsze formatowanie) https://devopsiarz.pl/zestawienia/zestawienie-linkow-materialow-01-02-2021

A jeśli chcesz jeszcze dostępu do większej ilości linków, zapisz się do mailingu
  • 8
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Wołam 24 osób na podstawie algorytmu: wołanie za plusy dla 2 ostatnich
materiałów lub plusy dla przynajmniej 3 z 6 ostatnich materiałów.

Jeśli plusowałeś/aś tylko 2 ostatnie(-nich) materiały(-ów) - nie plusuj posta
rozpoczynającego ten wątek, aby wyłączyć wołanie przy kolejnych wpisach.

Jeśli
  • Odpowiedz
Mirki, mam pytanie które wydaje się dość podstawowe ale naprawdę nie mogę nigdzie znaleźć satysfakcjonującej odpowiedzi.

Powiedzmy, że chcę generować dane finansowe dotyczące spółek giełdowych. Ponieważ cena akcji podawana jest codziennie a raporty dotyczące zadłużenia, zysków, czy wartości księgowej rzadziej (na przykład kwartalnie), wydaje mi się że optymalne jest rozdzielenie tych dwóch danych na dwie różne tabele:
- OHLC za każdy dzień
- Snapshot pokazujący dane finansowe z raportu za dany okres (np. pierwszy kwartał 2021)

Czy
  • 8
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Czy w pracy inżynierskiej z zakresu pentestingu mogę wrzucić teorię z inżynierii oprogramowania jeżeli tylko wykorzystam skrypt pythona (laczy sie z wybranym portem i nasluchuje) oraz exploit w pythonie? Usunę po otrzymaniu odp :)

Bo na 90% jestem przekonany, że nie

#python #programista15k #programowanie #itsecurity #pentesting

Czy mogę wykorzystać teorię

  • TAK 75.0% (15)
  • NIE 25.0% (5)

Oddanych głosów: 20

  • 6
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Koniec_przegrywania: z doświadczenia wiem, że można napisać zajebistą pracę bez promotora ale później siedzi i wymyśla byle obniżyć ocenę. Pytaj nawet jak się nie dowiesz to będziesz miał podkładkę, że pytanie było zadane.
  • Odpowiedz
@Mehatron: Pycharm do projektów niekomercyjnych jest darmowy, ogólnie prowadzi za rączkę przez cały kod, tworzy venv, pomaga z kodem jak tylko się da
vscode ten edytor nieco mniej dba o swojego kodera niż pycharm, ale też spoko
  • Odpowiedz
Szybka niedzielna aktualizacja, bot *powinien* nie wysyłać powiadomienia, jeśli ostatni komentarz jest od osoby, do której właśnie miał wysłać powiadomienie.

O co chodzi z @taktyk-bot ?
Prosty bot, którego można zwołać w komentarzu do wpisu na mirko i będzie wysyłał PW kiedy pojawi się nowy wpis.

Kod na githubie (będę wdzięczny za gwiazdki ( ͡°
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Robię wyzwanie sobie i będę na tym tagu: #rokzpytonem [już 33 obserwatorów :D, to motywuje] opisywać czego nauczyłem się, wklejał programy moje itd. Zaczynam od początku jeszcze raz, by usystematyzować wiedze, może kogoś też wciągnie :).

6/365

Start: 17:00
30.01.2021

Który styl pisania wam się najbardziej podoba?

  • diety, przemyśleń, protipy, cytatyKsiążki, nauka 63.6% (7)
  • o programowaniu + moje skriny z pracy 36.4% (4)
  • sucha teoria + wklejanie kodu tak jak teraz 0% (0)

Oddanych głosów: 11

K.....i - Robię wyzwanie sobie i będę na tym tagu: #rokzpytonem [już 33 obserwatorów ...
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Hej!

piszę w #python moduł monitorujący #rpi poprzez wykonywanie komend w #linux. Nic skomplikowanego, sprawdzanie połączenia z netem, sprawdzanie dostępnych aktualizacji, temperatury, kontrola led i wysyłanie powiadomień.

Podejście numer 1:
napisałem to funkcjami - jeden check jedna funkcja, skrypt wykonywał wszystkie funkcje z góry do dołu. Pojawiały się wady takiego rozwiązania: mimo, że funkcje był podobne (wykonaj komendę, sprawdź/obrób zawartość, ustal wynik, jeżeli NOK to ledy i powiadomienie) to implementacja nowej funkcjonaliści wiązała się z poprawienie każdej funkcji z osobna - fatalne
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@aHmuX: ja bym wypierdzielił do JSON'a lub YAMLA wyniki z każdego checka, a jednemu - osobnemu serwisowi kazał cyklicznie interpretować zebrane dane (lub "on write" przy pomocy np. inotify).
Powstaje wtedy coś w rodzaju API pomiędzy warstwą sprawdzającą, a raportującą. Zobacz, że mniej więcej tak to też w linuxie wygląda: katalog /proc i /dev (też trochę /var)
  • Odpowiedz
Musiałem niestety w związku z większym refactoringiem przeorać też zapisane dane, więc nastąpił mały rest. ( ͡° ʖ̯ ͡°) Powinien to być ostatni już taki.

Dla tych co pierwszy raz słyszą:

Co to i po co?
Prosty bot, którego można zwołać w komentarzu do wpisu na mirko i będzie wysyłał PW kiedy
  • 14
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

via Wykop Mobilny (Android)
  • 0
@krasnoludkolo: działania. Jak wszyscy korzystają z niego i działa to nie ma co na nowo wymyślać. Jak znajdę troche czasu i sił to się odezwę. Taki ze mnie pythonowiec ze raczej hobbystycznie i w robocie czasami cos pisze (w sumie to codziennie), ale to głównie skryptopisaratwo automatyzujące jakies zapytania do wszelkich api
  • Odpowiedz
Hejka #programowanie #machinelearning #datascience #python #naukaprogramowania
Czy jest tu ktoś, kto mógłby spojrzeć na dane, które sobie skleiłam i poinstruować co można z nim dalej zrobić w kierunku machine learningu? Notebook na google colab - chcę przeprowadzić predykcję plonów na podstawie zmiennych środowiskowych/klimatycznych. Mam dataset z dużą ilością parametrów (59 kolumn w tym czas posadzenia, czas zbiorów, temperatura, liczba dni poniżej różnych
  • 6
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Networks_PowerCat: to tak:
dane kategoryczne (np. country albo item) zamienić na numerki i zakodować, najlepiej, one-hot encoderem, wartości liczbowe ujednolicić (bo widzę że są podane w różnych jednostkach, bo nawet jest taka kolumna) jeśli się da oczywiście, potem ustandaryzować lub znormalizować w przedziale [0;1] lub [-1;1]

Sprawdzić ile elementów brakuje w danych kolumnach, jeśli są spore braki, kolumny wywalić, jeśli są dosyć duże ale można je w miarę przystępnie wypełnić,
  • Odpowiedz