Czy jakiś mirek pracował na ogromnych(miliardy rekordów, miliony aktywnych użytkowników), dobrej wydajności, wysokiej dostępności, skalowalnych bazach danych, oraz ogółem systemach informatycznych?
Może opowiedzielibyście swoje doświadczenia, a tym samym zaproponowali jakąś bazę, narzędzia, software?
W jakim środowisku działaliście(np. AWS/Azure/..., C++/Java/Python/PHP/..., Ubuntu/CentOS/Debian/..., Nginx/Apache/IIS/...)?
Jestem szczególnie ciekawy jak PHP współpracuje z takimi rozwiązaniami. ( )

Może znajdzie się tu jakiś inżynier Google'a, Facebooka, czy innego Microsoftu za $15k/tydzień. (
  • 14
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@5z7k9: Dla Hadoopa to raczej niewiele, wszak to raczej "offline storage", a nie baza danych "online". http://www.techrepublic.com/article/why-the-worlds-largest-hadoop-installation-may-soon-become-the-norm/ - "Yahoo! has more than 100,000 CPUs in over 40,000 servers running Hadoop, with its biggest Hadoop cluster running 4,500 nodes. All told, Yahoo! stores *455 petabytes* of data in Hadoop."

Z góry przepraszam za wrzucanie tu i ówdzie angielskiego słownictwa - niestety taki nawyk, bo to język, w którym "pracuję" i niektórych słów
  • Odpowiedz
@dagon_666: Nie do końca od nowa. Nie chcę się rozpisywać, ale spróbuję w skrócie opowiedzieć:

Hadoop / Spark (tego teraz używam) generuje dane "przyrostowo" - tzn. cały czas dodaje nowe dane do starych (tworząc nowe "zbiory" danych - słowo klucz to "immutable"), ale nigdy nie nadpisuje starych i na każdym etapie przetwarzania tworzy "snapshoty", od których potem potrafi "wznowić" przetwarzanie kolejnego dnia, a następnie ładuje dane do bazy nadpisując "stary" stan
  • Odpowiedz
Dla wszystkich, którzy zaczynają lub uczą się #programowanie:

lista list (słowem metalista (ʘʘ)) materiałów do nauki czego Wam sie tylko zamarzy ( ͡° ͜ʖ ͡
  • 9
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@Grizwold: Nie powinno być większych problemów - jak dokładnie zrobisz to co w dokumentacji, to Ambari w większości przypadków sobie poradzi. Co do stronki z GUI: zainstaluj sobie manualnie Hue - jest w repo pakietów Hortona. Potem trzeba go jeszcze ręczenie dokonfigurować (namiary na serwery itp) przez edycję hue.ini. To też jest krótko opisane w dokumentacji.
  • Odpowiedz
Big Data Technology Fundamentals

Big Data Technology Fundamentals provides baseline general knowledge of the technologies used in big data solutions. It covers the development of big data solutions using the Hadoop ecosystem, including MapReduce, HDFS, and the Pig and Hive programming frameworks. This web-based course helps you build a foundation for working with AWS services for big data solutions. This course is offered at no charge, and can be used on its own
  • 2
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach