Wczoraj pytałem o możliwość wczytania tabel z Apache Drilla do Informatica PowerCenter, temat nadal nierozwiązany, ale stwierdziłem, że opiszę szerzej bo ciekawi mnie niezmiernie czy uda mi się to rozgryźć. Póki co założyłem sobie pierwszy cel jakim jest zaczytanie infą tabel (kolekcji?) #mongodb na których stoi Drill. Skonfigurowałem połączenie ODBC, klikam connect w infie żeby wczytać źródła, mongo potwierdza to statusem connect po swojej stronie, ale nie widzę żadnych collectów.
Wszystko
Najnowsze
Archiwum
2
Dlaczego i do czego wykorzystać Hadoop

Jak to się stało, że akurat ta technologia, pomimo wad i problemów wieku dziecięcego, stała się tak istotnym elementem mega trendu Big Data? Aby odpowiedzieć na to pytanie spróbujmy przyjrzeć się procesowi powstania i rozwoju Hadoopa jako oprogramowania, ale także towarzyszącemu mu...
z- 0
- #
- #
- #
- #
- #
- #
- 4
#informatyka #bigdata #python #pytanie
Mireczki,
w internecie można wiele przeczytać na temat użycia Pythona w Big Data/Data analysis. Znacie przykłady dużych firm które używają Pythona właśnie w taki sposób? Nie chodzi mi o firmy które używają Pythona do budowy serwisów internetowych czy jako język skrpytów (to akurat bardzo łatwo znaleźć), a konkretnie o stosujące go w Big Data. Z góry dzięki za pomoc
Mireczki,
w internecie można wiele przeczytać na temat użycia Pythona w Big Data/Data analysis. Znacie przykłady dużych firm które używają Pythona właśnie w taki sposób? Nie chodzi mi o firmy które używają Pythona do budowy serwisów internetowych czy jako język skrpytów (to akurat bardzo łatwo znaleźć), a konkretnie o stosujące go w Big Data. Z góry dzięki za pomoc
Jest tu ktoś zajmujący się testowaniem oprogramowania w projektach mających cokolwiek wspólnego z big data/machine learning?
#testowanieoprogramowania #bigdata #machinelearning #programowanie
#testowanieoprogramowania #bigdata #machinelearning #programowanie
- 6
@damianbeat: Ja nie. Ale jestem ciekaw - jak to się różni od pracy testera w innych projektach? :)
@venomik @damianbeat: Znam gościa, który się tym zajmuje. Sam nie jestem 'zawodowym' testerem, ale tak na 'oko' to się niczym nie różni. Gość generalnie sprawdza wydajność kodu w różnych konfiguracjach plus czy wogóle np. sieć neuronowa się uczy (np. poprzez sprawdzanie na jakims typowym zbirze danych uzywanym w publikacjach naukowaych (np. Cifar). Ponadto dogadał się z programisatmi co powinno być sprawdzane. Ma on wiedzę (chyba) podstawową co do
Krux sprzedany Salesforce za 700 mln $ w akcjach i gotówce. Krux oferuje rozwiązanie pozwalające wlaścicielom stron internetowych zarządzać informacjami o użytkownikach, dzięki czemu zwiększa się także sprzedaż.
http://www.usatoday.com/story/tech/2016/10/03/salesforce-snaps-up-krux-700m-eve-dreamforce/91490708/
#it #bigdata #biznes
http://www.usatoday.com/story/tech/2016/10/03/salesforce-snaps-up-krux-700m-eve-dreamforce/91490708/
#it #bigdata #biznes
Niedługo (11.10) startuje ciekawy,darmowy ( ͡° ͜ʖ ͡°) kurs od Stanford University dot. big data i grzebania w dużych zbiorach danych.
The major topics covered include: MapReduce systems and algorithms, Locality-sensitive hashing, Algorithms for data streams, PageRank and Web-link analysis, Frequent itemset analysis, Clustering, Computational advertising, Recommendation systems, Social-network graphs, Dimensionality reduction, and Machine-learning algorithms.
- 2
btw. niedawno został uruchomiony w trybie self-paced kurs wprowadzający do Statistical Learning na tej samej platformie, mogę go polecić, bardzo dobre wprowadzenie w tematykę data science :)
Statistical Learning
Statistical Learning
Komentarz usunięty przez autora
Łapcie ponad 80 darmowych ebooków o data science, big data i sztucznej inteligencji.
#datascience #bigdata #ai #sztucznainteligencja #nieprogramowanie #ebook
#datascience #bigdata #ai #sztucznainteligencja #nieprogramowanie #ebook
- 0
@MasterSoundBlaster: z 10 ściągnąłem, jedną tygodniowo będę czytał. Ale średnio to mają ok 30 stron( ͡° ͜ʖ ͡°)
Wiem, że logi sporo mówią, ale czy nie można napisać zamiast:
Bo
1/1 local-dirs are bad: /var/lib/hadoop-yarn/cache/yarn/nm-local-dir;
1/1 log-dirs are bad: /var/log/hadoop-yarn/containers
Zużycie dysku w 92%. Obecny limit to 90%.
Bo
7
30 tys. Polaków na sekundę. Za chwilę sięgną po Rosjan.

TL;TR - przy instalacji appek warto zwrócić uwagę na co wyrażamy zgodę. Osoby z artykułu śmieją się z tego, że nikt nie czyta regulaminów i sami na tym zarabiają
z- 1
- #
- #
- #
- #
- #
- #
Jakoś powoli idzie mi nauka bigdata. Postanowiłem, że przeanalizuję sobie komentarze z reddita. Pobrałem około 30GB komentarzy z jednego miesiąca i przeanalizowałem 10 000 000 z nich. Trochę czasu mieliło na maszynie virtualnej.
Jeden z przykładów:
Nazwa reddita i ile komentarzy dostało gold.
AskReddit;712
Jeden z przykładów:
Nazwa reddita i ile komentarzy dostało gold.
AskReddit;712
- 1
@WincyjBroni: Udało mi się znaleźć na reddit gotowy plik z komentarzami z jednego miesiąca. Jeżeli chodzi o komentarze to istnieje API dzięki któremu można pobrać to wszystko. Dane udostępnia w json.
Tutaj link do tematu na którym są komentarze:
https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
https://www.reddit.com/r/datasets/comments/3icas8/reddit_july_comments_are_now_available/
Ogólnie Stuckinthe_Matrix ma sporo ciekawych rzeczy opublikowanych.
Tutaj link do tematu na którym są komentarze:
https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
https://www.reddit.com/r/datasets/comments/3icas8/reddit_july_comments_are_now_available/
Ogólnie Stuckinthe_Matrix ma sporo ciekawych rzeczy opublikowanych.
- 1
@WincyjBroni: reddit udostępnia swoje API. https://www.reddit.com/dev/api/. Jest dużo scraperów dostępnych w oparciu o API
Wytłumaczy mi ktoś dlaczego kod wpisywany w GRUNT w konsoli działa a wpisany w Script Editor w Hue nie. Po paru godzinach w końcu zmusiłem do działania elephantpig który wygląda na to, że nie działał tylko dlatego, że coś jest nie tak ze script editorem.
Prościutki kod:
REGISTER '/home/cloudera/Downloads/elephant-bird-hadoop-compat-4.1.jar';
REGISTER
Prościutki kod:
REGISTER '/home/cloudera/Downloads/elephant-bird-hadoop-compat-4.1.jar';
REGISTER
Wie ktoś może w jaki sposób mogę zmusić do działania elephantpig w VM cloudera. Szukam już kilka godzin i wszystko nie działa. Błędy przy uruchamianiu nic mi nie mówią. Chcę tylko załadować plik json i na nim przeprowadzić kilka operacji.
#programowanie #bigdata #pig
#programowanie #bigdata #pig
- 0
- 0
Kod to coś prostego:
REGISTER 'hdfs:///user/cloudera/json-simple-1.1.1.jar';
REGISTER 'hdfs:///user/cloudera/elephant-bird-hadoop-compat-4.1.jar';
REGISTER 'hdfs:///user/cloudera/elephant-bird-pig-4.1.jar';
REGISTER 'hdfs:///user/cloudera/elephant-bird-core-4.1.jar';
REGISTER 'hdfs:///user/cloudera/json-simple-1.1.1.jar';
REGISTER 'hdfs:///user/cloudera/elephant-bird-hadoop-compat-4.1.jar';
REGISTER 'hdfs:///user/cloudera/elephant-bird-pig-4.1.jar';
REGISTER 'hdfs:///user/cloudera/elephant-bird-core-4.1.jar';
- 1
@programistalvlhard: Tak na teraz nic sobie nie przypominam, ale coś sobie przypomnę to dam znać. Generalnie ogarnij podstawy MR, ale nie skupiaj się tylko na kodzie - bo to w sumie proste - poczytaj też o data locality, po co HDFS i jak obsługiwać YARNa, który jest naprawdę dobry i nawet inne frameworki z niego korzystają do zarządzania zasobami
@programistalvlhard: Moim zdaniem powinieneś zacząć od Sparka, który jest dużo łatwiejszy, przyjemniejszy i wydajniejszy niż Hadoop MapReduce. Zaczynając od tego drugiego możesz się niestety szybko zrazić :P No i musisz pamiętać o tym że Hadoop składa się z trzech modułów (MapReduce, YARN, HDFS) i że Spark jest konkurencją tylko wobec tego pierwszego. Z dwoma pozostałymi i tak będziesz miał styczność pisząc aplikacje Sparkowe.
#machinelearning #datascience #programowanie #bigdata #python #praktyki #warszawa #deeplearning
witam serdecznie, czy zna ktoś warszawską firmę, w której można by złapać praktyki/staż ( nawet bezpłatne, zależy mi na zdobyciu doświadczenia "od kuchni" ) w dziale analizy danych, tym słynnym Big Data, ewentualnie jakimś pokrewnym?
zawodowego doświadczenia nie posiadam, znam jednakże całkiem nieźle Pythona z całym arsenałem w
witam serdecznie, czy zna ktoś warszawską firmę, w której można by złapać praktyki/staż ( nawet bezpłatne, zależy mi na zdobyciu doświadczenia "od kuchni" ) w dziale analizy danych, tym słynnym Big Data, ewentualnie jakimś pokrewnym?
zawodowego doświadczenia nie posiadam, znam jednakże całkiem nieźle Pythona z całym arsenałem w
@phogel: Osoba znakomicie obeznana ze statystyką i tylko z nią niewiele zrobi z dużymi, heterogenicznymi źródłami danych, jakimi zajmuje się Data Science. Utożsamianie tych dwóch terminów to błąd.
Komentarz usunięty przez autora
- 6
Apache Spark 2.0.0 wydany! A w wydaniu ponad 2500 poprawek od ponad 300 osób.
Zmian bardzo dużo, m.in.:
1. Dodanie Structured Streaming
2. Pełna obsługa SQL2003
3. Kolejny etap projektu Tungsten, m.in. Whole-stage Code Generation
Zmian bardzo dużo, m.in.:
1. Dodanie Structured Streaming
2. Pełna obsługa SQL2003
3. Kolejny etap projektu Tungsten, m.in. Whole-stage Code Generation
Jaką stronę / forum polecacie w tematyce #chmura #chmury #azure #aws #amazon #bigdata ?
Najlepiej w języku polskim.
Coś, żeby poczytać i wdrożyć się w temat.
#pytaniedoeksperta #pytanie #kiciochpyta
Najlepiej w języku polskim.
Coś, żeby poczytać i wdrożyć się w temat.
#pytaniedoeksperta #pytanie #kiciochpyta
- 1
@Turysta10: Pierwsza rada: z tego co wiem, to lepiej bedzie, jezeli nastawisz sie na teksty w angielskim. No i to, o co pytasz jest mega szerokim zagadnieniem. Co konkretnie w tym Azure? Ostatnio troszke urzeduje w ML (przy Twoim tagu dotyczacym amazon) i tutaj jest to, z czego sie uczylam: ML: Azure, jezeli chcesz troche ogolniej to masz tutaj. Warto tez zajrzec na Googlowa chmure.
















#leagueoflegends #podsumowanie2016 #bigdata #statystyka
źródło: comment_neXOKdJIjIoID1ueqTPAyR8LphKeC9hx.jpg
Pobierz