Wpis z mikrobloga

Słuchajcie mam zagadkę. Z zakresu troche fanaberii i sci-fi.

Raczej mniej istotne tło problemu:

Tworzę sobie Wheela w #pythonie i do pełnego wykorzystania tej libki, którą zbuduje jest potrzebna inna libka udostępniana jako plik .JAR.
Lokalnie jak sobie z tym pracuje i odpalam kod w ramach mojego develpmentu na sparku to mam zwyczajnie załączony ten JAR w odpowiedniej lokalizacji i wskazuje go podczas budowania SparkSession. Tak jak na uproszczonym przykłądzie poniżej:

spark = SparkSession.builder.config("spark.jars", "./lib/.jar").getOrCreate()


o odpowiednie dostarczenie tego pliku dba moj prosty skrypt bashowy, ktory sobie dany develper juz sam odpali pdczas konfigurowania lokalnego środowiska develperskiego.

No i teraz problem wlaściwy:
Chce zbudowanego przeze mnie wheela używać an databricksach. Żeby móc to zrobić muszę oprócz mojego zbudowanego wheela zaisntalować też ręcznie na klastrze wspomnianego JARa.

Jak podejść do tematu zarządzenia taką zależnością aby w przyszłości użytkownik nie musiał ręcznie instalować wspomnianego JARa na databricksowych clustrze?
Czy w ogóle byłoby to możliwe aby po instalacji mojego wheela z ADSL'a automatycznie też "dogrywała" się dodatkowa zależność w postaci zewnętrznego JARa z mavena na wybranym klastrze databricksowym? Chciałbym zdjąć tę odpowiedzialność z przyszłego użytkownika mojego pythonowego wheela.

Jak do tego tamatu możnaby podejść?

#apachespark #spark #databricks #python
#jvm (z racji tego, że potrzebuję wspomnianego JARa zaisntalowanego na saprkowym klastrze obok Pythonowego Wheela)
#programowanie
#azure (mam databricksy na cloudzie microsoftu - jeżeli może się to jakkolwiek okazać istotne)
  • 3