#bigdata - strona 28

Wszystko

Najnowsze

Archiwum

MysGG

13.12.2016, 20:49:37

To się nazywa big data

#leagueoflegends #podsumowanie2016 #bigdata #statystyka

MysGG

13.12.2016, 20:56:04

@Refusek: https://review2016.eune.leagueoflegends.com/pl_PL/year-in-review/personal-stats

MysGG

13.12.2016, 22:45:44 via Android

@Aura_ zostałem zmiażdżony

puchacz22

15.11.2016, 20:34:02

Wczoraj pytałem o możliwość wczytania tabel z Apache Drilla do Informatica PowerCenter, temat nadal nierozwiązany, ale stwierdziłem, że opiszę szerzej bo ciekawi mnie niezmiernie czy uda mi się to rozgryźć. Póki co założyłem sobie pierwszy cel jakim jest zaczytanie infą tabel (kolekcji?) #mongodb na których stoi Drill. Skonfigurowałem połączenie ODBC, klikam connect w infie żeby wczytać źródła, mongo potwierdza to statusem connect po swojej stronie, ale nie widzę żadnych collectów.

puchacz22

14.11.2016, 10:58:42

Czy da się czytać za pomocą Informatica PowerCenter z tabel utworzonych w apache drill? Jak do tego podejść?
#bigdata #hadoop

Dlaczego i do czego wykorzystać Hadoop

Jak to się stało, że akurat ta technologia, pomimo wad i problemów wieku dziecięcego, stała się tak istotnym elementem mega trendu Big Data? Aby odpowiedzieć na to pytanie spróbujmy przyjrzeć się procesowi powstania i rozwoju Hadoopa jako oprogramowania, ale także towarzyszącemu mu...

z dodany: 09.11.2016, 17:10:40

barteb

03.11.2016, 14:44:13

#informatyka #bigdata #python #pytanie
Mireczki,

w internecie można wiele przeczytać na temat użycia Pythona w Big Data/Data analysis. Znacie przykłady dużych firm które używają Pythona właśnie w taki sposób? Nie chodzi mi o firmy które używają Pythona do budowy serwisów internetowych czy jako język skrpytów (to akurat bardzo łatwo znaleźć), a konkretnie o stosujące go w Big Data. Z góry dzięki za pomoc

@barteb: Google.

@barteb: Do data analysis to bardzo często jest wykorzystywany, bo ma dużo bibliotek. Do big data rzadziej, ale też jest - topowy obecnie Apache Spark ma moduł PySpark na przykład ;) CERN wykorzystał PySparka do benchmarków, więc może go też wykorzystywać produkcyjnie

damianbeat

11.10.2016, 19:40:17

Jest tu ktoś zajmujący się testowaniem oprogramowania w projektach mających cokolwiek wspólnego z big data/machine learning?

#testowanieoprogramowania #bigdata #machinelearning #programowanie

venomik

11.10.2016, 20:00:20

@damianbeat: Ja nie. Ale jestem ciekaw - jak to się różni od pracy testera w innych projektach? :)

fake_name

11.10.2016, 22:42:21

@venomik @damianbeat: Znam gościa, który się tym zajmuje. Sam nie jestem 'zawodowym' testerem, ale tak na 'oko' to się niczym nie różni. Gość generalnie sprawdza wydajność kodu w różnych konfiguracjach plus czy wogóle np. sieć neuronowa się uczy (np. poprzez sprawdzanie na jakims typowym zbirze danych uzywanym w publikacjach naukowaych (np. Cifar). Ponadto dogadał się z programisatmi co powinno być sprawdzane. Ma on wiedzę (chyba) podstawową co do

PanJapson

04.10.2016, 17:38:31

Krux sprzedany Salesforce za 700 mln $ w akcjach i gotówce. Krux oferuje rozwiązanie pozwalające wlaścicielom stron internetowych zarządzać informacjami o użytkownikach, dzięki czemu zwiększa się także sprzedaż.

http://www.usatoday.com/story/tech/2016/10/03/salesforce-snaps-up-krux-700m-eve-dreamforce/91490708/

#it #bigdata #biznes

Mr_Av3r4ge

20.09.2016, 16:31:46

Niedługo (11.10) startuje ciekawy,darmowy ( ͡° ͜ʖ ͡°) kurs od Stanford University dot. big data i grzebania w dużych zbiorach danych.

The major topics covered include: MapReduce systems and algorithms, Locality-sensitive hashing, Algorithms for data streams, PageRank and Web-link analysis, Frequent itemset analysis, Clustering, Computational advertising, Recommendation systems, Social-network graphs, Dimensionality reduction, and Machine-learning algorithms.

Mr_Av3r4ge

20.09.2016, 16:37:20

btw. niedawno został uruchomiony w trybie self-paced kurs wprowadzający do Statistical Learning na tej samej platformie, mogę go polecić, bardzo dobre wprowadzenie w tematykę data science :)

Statistical Learning

o.....j

konto usunięte 18.04.2018, 11:01:53

Komentarz usunięty przez autora

t.....i

konto usunięte 02.09.2016, 14:31:50

Łapcie ponad 80 darmowych ebooków o data science, big data i sztucznej inteligencji.

#datascience #bigdata #ai #sztucznainteligencja #nieprogramowanie #ebook

MasterSoundBlaster

03.09.2016, 12:35:45

@sa7o:
Przeczytałeś już wszystkie? ( ͡° ͜ʖ ͡°)

sa7o

05.09.2016, 19:38:46

@MasterSoundBlaster: z 10 ściągnąłem, jedną tygodniowo będę czytał. Ale średnio to mają ok 30 stron( ͡° ͜ʖ ͡°)

KrzysiekD

19.08.2016, 13:20:20

Wiem, że logi sporo mówią, ale czy nie można napisać zamiast:

1/1 local-dirs are bad: /var/lib/hadoop-yarn/cache/yarn/nm-local-dir;

1/1 log-dirs are bad: /var/log/hadoop-yarn/containers

Zużycie dysku w 92%. Obecny limit to 90%.

30 tys. Polaków na sekundę. Za chwilę sięgną po Rosjan.

TL;TR - przy instalacji appek warto zwrócić uwagę na co wyrażamy zgodę. Osoby z artykułu śmieją się z tego, że nikt nie czyta regulaminów i sami na tym zarabiają

z dodany: 10.08.2016, 21:29:37

KrzysiekD

09.08.2016, 13:26:54

Jakoś powoli idzie mi nauka bigdata. Postanowiłem, że przeanalizuję sobie komentarze z reddita. Pobrałem około 30GB komentarzy z jednego miesiąca i przeanalizowałem 10 000 000 z nich. Trochę czasu mieliło na maszynie virtualnej.
Jeden z przykładów:

Nazwa reddita i ile komentarzy dostało gold.

AskReddit;712

KrzysiekD

09.08.2016, 13:47:47

@WincyjBroni: Udało mi się znaleźć na reddit gotowy plik z komentarzami z jednego miesiąca. Jeżeli chodzi o komentarze to istnieje API dzięki któremu można pobrać to wszystko. Dane udostępnia w json.
Tutaj link do tematu na którym są komentarze:
https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
https://www.reddit.com/r/datasets/comments/3icas8/reddit_july_comments_are_now_available/
Ogólnie Stuckinthe_Matrix ma sporo ciekawych rzeczy opublikowanych.

sa7o

09.08.2016, 14:14:17

@WincyjBroni: reddit udostępnia swoje API. https://www.reddit.com/dev/api/. Jest dużo scraperów dostępnych w oparciu o API

KrzysiekD

09.08.2016, 11:04:52

Wytłumaczy mi ktoś dlaczego kod wpisywany w GRUNT w konsoli działa a wpisany w Script Editor w Hue nie. Po paru godzinach w końcu zmusiłem do działania elephantpig który wygląda na to, że nie działał tylko dlatego, że coś jest nie tak ze script editorem.

Prościutki kod:

REGISTER '/home/cloudera/Downloads/elephant-bird-hadoop-compat-4.1.jar';

REGISTER

KrzysiekD

09.08.2016, 08:45:28

Wie ktoś może w jaki sposób mogę zmusić do działania elephantpig w VM cloudera. Szukam już kilka godzin i wszystko nie działa. Błędy przy uruchamianiu nic mi nie mówią. Chcę tylko załadować plik json i na nim przeprowadzić kilka operacji.
#programowanie #bigdata #pig

KrzysiekD

09.08.2016, 09:01:53

http://pastebin.com/1Nis15mc
A sam log po pokazaniu się erroru to:

@rith

KrzysiekD

09.08.2016, 09:05:18

Kod to coś prostego:

REGISTER 'hdfs:///user/cloudera/json-simple-1.1.1.jar';
REGISTER 'hdfs:///user/cloudera/elephant-bird-hadoop-compat-4.1.jar';
REGISTER 'hdfs:///user/cloudera/elephant-bird-pig-4.1.jar';
REGISTER 'hdfs:///user/cloudera/elephant-bird-core-4.1.jar';

programistalvlhard

03.08.2016, 18:30:51

Hmm z racji że się nudzę to czas w końcu ruszyc temat #hadoop #bigdata. Możecie mi życzyć powodzenia ( ͡° ͜ʖ ͡°) Może się przydać

programistalvlhard - Hmm z racji że się nudzę to czas w końcu ruszyc temat #hadoop #b... — **źródło:** comment_2f6pm5fSPaodemIRcku8C0RY94MFO2WP.jpg
Pobierz

Tomek7

03.08.2016, 18:44:59

@programistalvlhard: Tak na teraz nic sobie nie przypominam, ale coś sobie przypomnę to dam znać. Generalnie ogarnij podstawy MR, ale nie skupiaj się tylko na kodzie - bo to w sumie proste - poczytaj też o data locality, po co HDFS i jak obsługiwać YARNa, który jest naprawdę dobry i nawet inne frameworki z niego korzystają do zarządzania zasobami

zajety_login

04.08.2016, 12:22:34

@programistalvlhard: Moim zdaniem powinieneś zacząć od Sparka, który jest dużo łatwiejszy, przyjemniejszy i wydajniejszy niż Hadoop MapReduce. Zaczynając od tego drugiego możesz się niestety szybko zrazić :P No i musisz pamiętać o tym że Hadoop składa się z trzech modułów (MapReduce, YARN, HDFS) i że Spark jest konkurencją tylko wobec tego pierwszego. Z dwoma pozostałymi i tak będziesz miał styczność pisząc aplikacje Sparkowe.

c.....a

konto usunięte 03.08.2016, 10:15:39

#machinelearning #datascience #programowanie #bigdata #python #praktyki #warszawa #deeplearning

witam serdecznie, czy zna ktoś warszawską firmę, w której można by złapać praktyki/staż ( nawet bezpłatne, zależy mi na zdobyciu doświadczenia "od kuchni" ) w dziale analizy danych, tym słynnym Big Data, ewentualnie jakimś pokrewnym?

zawodowego doświadczenia nie posiadam, znam jednakże całkiem nieźle Pythona z całym arsenałem w

Poczmistrz_z_Tczewa

03.08.2016, 10:35:53

@phogel: Osoba znakomicie obeznana ze statystyką i tylko z nią niewiele zrobi z dużymi, heterogenicznymi źródłami danych, jakimi zajmuje się Data Science. Utożsamianie tych dwóch terminów to błąd.

p.....l

konto usunięte 03.08.2016, 10:55:15

Komentarz usunięty przez autora

Tomek7

27.07.2016, 09:12:55

Apache Spark 2.0.0 wydany! A w wydaniu ponad 2500 poprawek od ponad 300 osób.

Zmian bardzo dużo, m.in.:
1. Dodanie Structured Streaming
2. Pełna obsługa SQL2003
3. Kolejny etap projektu Tungsten, m.in. Whole-stage Code Generation

adremsoft

21.07.2016, 14:08:46

4sysops przygląda się możliwościom nowego NetCruncha 9.2 - RECENZJA #sysadmin #devops #bigdata #technologia #informatyka #komputery

adremsoft - 4sysops przygląda się możliwościom nowego NetCruncha 9.2 - RECENZJA #sysa... — **źródło:** comment_uiwhQDYZBQX65J6RkGwti6WkYwgsbKsr.jpg
Pobierz

Turysta10

20.07.2016, 20:30:01

Jaką stronę / forum polecacie w tematyce #chmura #chmury #azure #aws #amazon #bigdata ?

Najlepiej w języku polskim.

Coś, żeby poczytać i wdrożyć się w temat.

#pytaniedoeksperta #pytanie #kiciochpyta

futu

27.07.2016, 23:59:03

@Turysta10: Pierwsza rada: z tego co wiem, to lepiej bedzie, jezeli nastawisz sie na teksty w angielskim. No i to, o co pytasz jest mega szerokim zagadnieniem. Co konkretnie w tym Azure? Ostatnio troszke urzeduje w ML (przy Twoim tagu dotyczacym amazon) i tutaj jest to, z czego sie uczylam: ML: Azure, jezeli chcesz troche ogolniej to masz tutaj. Warto tez zajrzec na Googlowa chmure.

adremsoft

20.07.2016, 16:31:03

Integracja z service deskami i komunitorami? Tak, w nowym NetCrunch 9.2 #sysadmin #bigdata #devops #komputery #informatyka #windows

adremsoft - Integracja z service deskami i komunitorami? Tak, w nowym NetCrunch 9.2 #... — **źródło:** comment_bBmInkSNb6N96I8UMO6JwqU7mM6Ogzhs.jpg
Pobierz

maniac777

20.07.2016, 17:06:51

@adremsoft: Widzę, że nie chwalicie się na stronie ile kosztujecie, ale może przynajmniej powiecie czy macie jakieś procedury konwersji zabbixa/nagiosa/cacti do waszego NetCrunch czy trzeba ręcznie "wyklikiwać"?

RottenKitten

21.07.2016, 14:36:39

@maniac777: podziękował :)