Wczoraj pytałem o możliwość wczytania tabel z Apache Drilla do Informatica PowerCenter, temat nadal nierozwiązany, ale stwierdziłem, że opiszę szerzej bo ciekawi mnie niezmiernie czy uda mi się to rozgryźć. Póki co założyłem sobie pierwszy cel jakim jest zaczytanie infą tabel (kolekcji?) #mongodb na których stoi Drill. Skonfigurowałem połączenie ODBC, klikam connect w infie żeby wczytać źródła, mongo potwierdza to statusem connect po swojej stronie, ale nie widzę żadnych collectów.
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@programistalvlhard: Tak na teraz nic sobie nie przypominam, ale coś sobie przypomnę to dam znać. Generalnie ogarnij podstawy MR, ale nie skupiaj się tylko na kodzie - bo to w sumie proste - poczytaj też o data locality, po co HDFS i jak obsługiwać YARNa, który jest naprawdę dobry i nawet inne frameworki z niego korzystają do zarządzania zasobami
  • Odpowiedz
@programistalvlhard: Moim zdaniem powinieneś zacząć od Sparka, który jest dużo łatwiejszy, przyjemniejszy i wydajniejszy niż Hadoop MapReduce. Zaczynając od tego drugiego możesz się niestety szybko zrazić :P No i musisz pamiętać o tym że Hadoop składa się z trzech modułów (MapReduce, YARN, HDFS) i że Spark jest konkurencją tylko wobec tego pierwszego. Z dwoma pozostałymi i tak będziesz miał styczność pisząc aplikacje Sparkowe.
  • Odpowiedz
Od czego zacząć naukę Hadoopa? Jakie środowisko do obsługi tego ciężaru? Książki (pozycje z it-ebooks wskazane). Chciałbym zrobić w tym pierwsze kroki ale nie chcę się od razu w--------ć w coś, czego nie ogarnę, bo to zniechęca.
#hadoop #bigdata #businessintelligence
  • 1
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Grizwold: Nie powinno być większych problemów - jak dokładnie zrobisz to co w dokumentacji, to Ambari w większości przypadków sobie poradzi. Co do stronki z GUI: zainstaluj sobie manualnie Hue - jest w repo pakietów Hortona. Potem trzeba go jeszcze ręczenie dokonfigurować (namiary na serwery itp) przez edycję hue.ini. To też jest krótko opisane w dokumentacji.
  • Odpowiedz
LinkedIn explains its complex Gobblin big data framework

LinkedIn shed more light Tuesday on a big-data framework dubbed Gobblin that helps the social network take in tons of data from a variety of sources so that it can be analyzed in its Hadoop-based data warehouses.

https://gigaom.com/2014/11/26/linkedin-explains-its-complex-gobblin-big-data-framework/

#
m.....q - LinkedIn explains its complex Gobblin big data framework

LinkedIn shed mor...

źródło: comment_EUKIpMU7RRnZIokqO1tGYrITqQteASWL.jpg

Pobierz
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach