Wczoraj pytałem o możliwość wczytania tabel z Apache Drilla do Informatica PowerCenter, temat nadal nierozwiązany, ale stwierdziłem, że opiszę szerzej bo ciekawi mnie niezmiernie czy uda mi się to rozgryźć. Póki co założyłem sobie pierwszy cel jakim jest zaczytanie infą tabel (kolekcji?) #mongodb na których stoi Drill. Skonfigurowałem połączenie ODBC, klikam connect w infie żeby wczytać źródła, mongo potwierdza to statusem connect po swojej stronie, ale nie widzę żadnych collectów.
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

#informatyka #bigdata #python #pytanie
Mireczki,

w internecie można wiele przeczytać na temat użycia Pythona w Big Data/Data analysis. Znacie przykłady dużych firm które używają Pythona właśnie w taki sposób? Nie chodzi mi o firmy które używają Pythona do budowy serwisów internetowych czy jako język skrpytów (to akurat bardzo łatwo znaleźć), a konkretnie o stosujące go w Big Data. Z góry dzięki za pomoc
  • 10
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@barteb: Do data analysis to bardzo często jest wykorzystywany, bo ma dużo bibliotek. Do big data rzadziej, ale też jest - topowy obecnie Apache Spark ma moduł PySpark na przykład ;) CERN wykorzystał PySparka do benchmarków, więc może go też wykorzystywać produkcyjnie
  • Odpowiedz
@venomik @damianbeat: Znam gościa, który się tym zajmuje. Sam nie jestem 'zawodowym' testerem, ale tak na 'oko' to się niczym nie różni. Gość generalnie sprawdza wydajność kodu w różnych konfiguracjach plus czy wogóle np. sieć neuronowa się uczy (np. poprzez sprawdzanie na jakims typowym zbirze danych uzywanym w publikacjach naukowaych (np. Cifar). Ponadto dogadał się z programisatmi co powinno być sprawdzane. Ma on wiedzę (chyba) podstawową co do
  • Odpowiedz
Niedługo (11.10) startuje ciekawy,darmowy ( ͡° ͜ʖ ͡°) kurs od Stanford University dot. big data i grzebania w dużych zbiorach danych.

The major topics covered include: MapReduce systems and algorithms, Locality-sensitive hashing, Algorithms for data streams, PageRank and Web-link analysis, Frequent itemset analysis, Clustering, Computational advertising, Recommendation systems, Social-network graphs, Dimensionality reduction, and Machine-learning algorithms.
  • 6
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Wiem, że logi sporo mówią, ale czy nie można napisać zamiast:

1/1 local-dirs are bad: /var/lib/hadoop-yarn/cache/yarn/nm-local-dir;

1/1 log-dirs are bad: /var/log/hadoop-yarn/containers

Zużycie dysku w 92%. Obecny limit to 90%.


Bo
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Jakoś powoli idzie mi nauka bigdata. Postanowiłem, że przeanalizuję sobie komentarze z reddita. Pobrałem około 30GB komentarzy z jednego miesiąca i przeanalizowałem 10 000 000 z nich. Trochę czasu mieliło na maszynie virtualnej.
Jeden z przykładów:

Nazwa reddita i ile komentarzy dostało gold.

AskReddit;712
  • 4
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@WincyjBroni: Udało mi się znaleźć na reddit gotowy plik z komentarzami z jednego miesiąca. Jeżeli chodzi o komentarze to istnieje API dzięki któremu można pobrać to wszystko. Dane udostępnia w json.
Tutaj link do tematu na którym są komentarze:
https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
https://www.reddit.com/r/datasets/comments/3icas8/reddit_july_comments_are_now_available/
Ogólnie Stuckinthe_Matrix ma sporo ciekawych rzeczy opublikowanych.
  • Odpowiedz
Wytłumaczy mi ktoś dlaczego kod wpisywany w GRUNT w konsoli działa a wpisany w Script Editor w Hue nie. Po paru godzinach w końcu zmusiłem do działania elephantpig który wygląda na to, że nie działał tylko dlatego, że coś jest nie tak ze script editorem.

Prościutki kod:

REGISTER '/home/cloudera/Downloads/elephant-bird-hadoop-compat-4.1.jar';

REGISTER
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Wie ktoś może w jaki sposób mogę zmusić do działania elephantpig w VM cloudera. Szukam już kilka godzin i wszystko nie działa. Błędy przy uruchamianiu nic mi nie mówią. Chcę tylko załadować plik json i na nim przeprowadzić kilka operacji.
#programowanie #bigdata #pig
  • 3
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Kod to coś prostego:

REGISTER 'hdfs:///user/cloudera/json-simple-1.1.1.jar';
REGISTER 'hdfs:///user/cloudera/elephant-bird-hadoop-compat-4.1.jar';
REGISTER 'hdfs:///user/cloudera/elephant-bird-pig-4.1.jar';
REGISTER 'hdfs:///user/cloudera/elephant-bird-core-4.1.jar';
  • Odpowiedz
@programistalvlhard: Tak na teraz nic sobie nie przypominam, ale coś sobie przypomnę to dam znać. Generalnie ogarnij podstawy MR, ale nie skupiaj się tylko na kodzie - bo to w sumie proste - poczytaj też o data locality, po co HDFS i jak obsługiwać YARNa, który jest naprawdę dobry i nawet inne frameworki z niego korzystają do zarządzania zasobami
  • Odpowiedz
@programistalvlhard: Moim zdaniem powinieneś zacząć od Sparka, który jest dużo łatwiejszy, przyjemniejszy i wydajniejszy niż Hadoop MapReduce. Zaczynając od tego drugiego możesz się niestety szybko zrazić :P No i musisz pamiętać o tym że Hadoop składa się z trzech modułów (MapReduce, YARN, HDFS) i że Spark jest konkurencją tylko wobec tego pierwszego. Z dwoma pozostałymi i tak będziesz miał styczność pisząc aplikacje Sparkowe.
  • Odpowiedz
#machinelearning #datascience #programowanie #bigdata #python #praktyki #warszawa #deeplearning

witam serdecznie, czy zna ktoś warszawską firmę, w której można by złapać praktyki/staż ( nawet bezpłatne, zależy mi na zdobyciu doświadczenia "od kuchni" ) w dziale analizy danych, tym słynnym Big Data, ewentualnie jakimś pokrewnym?

zawodowego doświadczenia nie posiadam, znam jednakże całkiem nieźle Pythona z całym arsenałem w
  • 16
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

Apache Spark 2.0.0 wydany! A w wydaniu ponad 2500 poprawek od ponad 300 osób.

Zmian bardzo dużo, m.in.:
1. Dodanie Structured Streaming
2. Pełna obsługa SQL2003
3. Kolejny etap projektu Tungsten, m.in. Whole-stage Code Generation
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Turysta10: Pierwsza rada: z tego co wiem, to lepiej bedzie, jezeli nastawisz sie na teksty w angielskim. No i to, o co pytasz jest mega szerokim zagadnieniem. Co konkretnie w tym Azure? Ostatnio troszke urzeduje w ML (przy Twoim tagu dotyczacym amazon) i tutaj jest to, z czego sie uczylam: ML: Azure, jezeli chcesz troche ogolniej to masz tutaj. Warto tez zajrzec na Googlowa chmure.
  • Odpowiedz
@adremsoft: Widzę, że nie chwalicie się na stronie ile kosztujecie, ale może przynajmniej powiecie czy macie jakieś procedury konwersji zabbixa/nagiosa/cacti do waszego NetCrunch czy trzeba ręcznie "wyklikiwać"?
  • Odpowiedz