Wpis z mikrobloga

Skopiuj link

16.05.2020, 17:50:20

TL;DR: Jak w #python zaimplementować zapamiętanie sesji https z autentykacją?

Piszę sobie w programik pobierający dane z pewnego portalu, ale do pełnej funkcjonalności potrzebuję się do niego zalogować. Korzystam z requests i requests-html żeby otworzyć sesję i pobierać dane, potem beautifulsoup4 do parsowania HTML. Działa to mniej więcej tak:

session = requests_html.HTMLSession()
response = session.post('[https://portal.pl/login',](https://portal.pl/login',) data=auth_data)
response = session.get('[https://portal.pl/dane')](https://portal.pl/dane'))
page = bs4.BeautifulSoup(response.html.html)

To zupełnie dobrze śmiga ale tylko tak długo, jak działa skrypt. Chciałem zachować sesję pomiędzy uruchomieniami poprzez serializację obiektu sesji za pomocą pickle, trochę inspirując się tym rozwiązaniem, w skrócie zapisuję uzyskaną sesję:

with open('session.pickle', 'wb') as file:
 pickle.dump(session, file)

a potem normalnie odczytuję ją i robię dalej requesty:

with open('session.pickle', 'rb') as file:
 session = pickle.load(file)
response = session.get('[https://portal.pl/dane')](https://portal.pl/dane'))

Problem: taka sesja pozostaje "żywa" tylko przez paręnaście minut. Jeśli odpalę skrypt np. pół godziny potem, to gety nie udadzą się i będę musiał logować się ponownie.

O co jeszcze muszę zadbać, co jeszcze zapisać, żeby to działało permanentnie? Jak to jest, że na tym samym portalu mogę zalogować się raz, wyłączyć na noc (albo na weekend) komputer, wrócić, a w przeglądarce sesja będzie zapamiętana?

#webdev #python

ProfesorBigos

16.05.2020, 18:00:02

@salad_fingers: Może sprawdź termin wygasania cookies, które dostajesz. Nie znam się na tym, więc to tylko pomysł.

salad_fingers

16.05.2020, 18:03:49

@ProfesorBigos: Z tego, co widzę, to ciasteczka nie mają terminu wygaśnięcia.

print(session.cookies)
jest jeszcze drugie, ale też ma expires=None...

sokytsinolop

16.05.2020, 18:06:02

@salad_fingers: to że nie mają nie oznacza, że backend je odrzuci

salad_fingers

16.05.2020, 18:07:26

@sokytsinolop: I właśnie tego nie rozumiem - dlaczego ciasteczko, które uzyskuje moja przeglądarka, jest nadal akceptowane nawet po paru dniach nieaktywności, a to, które otrzymuje mój skrypt jest nic nie warte już po pół godzinie?

sokytsinolop

16.05.2020, 18:09:55

@salad_fingers: to backend przechowuje waliduje sesje, samo ciasteczko nic nie znaczy jest tylko identyfikatorem.

I właśnie tego nie rozumiem - dlaczego ciasteczko, które uzyskuje moja przeglądarka, jest nadal akceptowane nawet po paru dniach nieaktywności, a to, które otrzymuje mój skrypt jest nic nie warte już po pół godzinie?

to już zależy od logiki która się wykonuje na backendzie. sprawdz czy na pewno request logowania jest taki sam z pythona jak

ProfesorBigos

16.05.2020, 18:11:40

@salad_fingers: Jeśli mam zgadywać, to serwer przypisuje ci krótką sesję, bo widzi, że nie łączysz się z przeglądarki. Może da się jakoś podrobić User-Agent z chrome albo firefoxa i otrzymać normalną sesję.

salad_fingers

16.05.2020, 18:24:46

moze nie wysylasz pola "zapamietaj mnie"

@sokytsinolop: Sprawdziłem teraz formularz logowania i w `-ie do wprowadzania nazwy i hasła nie ma w ogóle czegoś takiego jak "zapamiętaj mnie". Natomiast są jeszcze dwa

-y, których nie przekazywałem do mojego oryginalnego posta - jeden z login z URLem do przekierowania po zalogowaniu a inny jeszcze o jakiejś enigmatycznej nazwie

_prm`. Spróbuję przekazać tak jak to robi przeglądarka i zobaczymy.

Na sprawach

dziekuje

16.05.2020, 18:56:51 via iOS

@salad_fingers: Używasz default user agenta? Część stron w ogóle nie puszcza takiego ruchu, a inne mogą go ograniczać.
Zmień na któryś i daj znać czy pomogło.

https://developers.whatismybrowser.com/useragents/explore/software_name/chrome/

L.....k

konto usunięte 16.05.2020, 19:07:26

autentykacją

@salad_fingers: uwierzytelnianiem

salad_fingers

16.05.2020, 20:02:54

@sokytsinolop: Dosłałem pozostałe parametry (łącznie z tym _prm) i sesja trzyma już ponad godzinę - zobaczymy, czy dociągnie do rana.

@dziekuje: Tak, domyślny user agent, nie pamiętam teraz jaki daje mi requests ale nic tam nie zmieniałem. Mój cel pozwala mi się jednak z niego zalogować. Spróbuję potem z innych, dzięki za radę.

@Lunatik: Heh, większość czasu operuję w przestrzeni angielskojęzycznej, czasami mi przeciekają takie

sokytsinolop

17.05.2020, 10:24:16

@salad_fingers: F12 -> networking i patrzysz na request ktory zwraca sesje - jak jego odtworzysz 1:1 to raczej dostaniesz długą sesje

powodzenia, mam nadzieję ze udało się rozwiązać problem :)

salad_fingers

17.05.2020, 12:08:27

@sokytsinolop: Nie znałem tego, dzięki! Na razie wysłałem request tak jak to odczytałem z formy i sesja od jakichś 12 godzin pozostaje żywa. Trochę inny zestaw ciasteczek otrzymałem, więc na pewno coś się zmieniło i wygląda to dobrze. Będę obserwował dalej, jakby co skorzystam z analizy ruchu.

Wielkie dzięki za podpowiedzi! :)

salad_fingers

25.05.2020, 11:23:04

@sokytsinolop: Sorki za spam, tylko chciałem jeszcze raz podziękować i się pochwalić, że wszystko działa i złożyłem w swoim programiku funkcjonalność "zapamiętaj mnie" ;)

Aktywne Wpisy

retromirek

retromirek +412

3 godz. i 54 min temu

W ciągu zaledwie kilku lat pochowałem całą swoją najbliższą rodzinę. Zostałem na świecie zupełnie sam, mając pod opieką dorastające dziecko. Robię za ojca, matkę i tarczę ochronną.

Po drugiej stronie mam byłą żonę, której jedynym celem życiowym stało się zniszczenie mnie psychicznie, finansowo i zdeptanie spokoju naszego dziecka. Od lat toczę wykańczającą walkę z patologią systemu, złośliwością urzędników i kłamstwami. Ex zdołała zmanipulować i przeciągnąć na swoją stronę resztki mojej dalszej rodziny, robiąc