Czy jakiś mirek pracował na ogromnych(miliardy rekordów, miliony aktywnych użytkowników), dobrej wydajności, wysokiej dostępności, skalowalnych bazach danych, oraz ogółem systemach informatycznych?
Może opowiedzielibyście swoje doświadczenia, a tym samym zaproponowali jakąś bazę, narzędzia, software?
W jakim środowisku działaliście(np. AWS/Azure/..., C++/Java/Python/PHP/..., Ubuntu/CentOS/Debian/..., Nginx/Apache/IIS/...)?
Jestem szczególnie ciekawy jak PHP współpracuje z takimi rozwiązaniami. ( )

Może znajdzie się tu jakiś inżynier Google'a, Facebooka, czy innego Microsoftu za $15k/tydzień. ( ͡
@5z7k9: Dla Hadoopa to raczej niewiele, wszak to raczej "offline storage", a nie baza danych "online". http://www.techrepublic.com/article/why-the-worlds-largest-hadoop-installation-may-soon-become-the-norm/ - "Yahoo! has more than 100,000 CPUs in over 40,000 servers running Hadoop, with its biggest Hadoop cluster running 4,500 nodes. All told, Yahoo! stores *455 petabytes* of data in Hadoop."

Z góry przepraszam za wrzucanie tu i ówdzie angielskiego słownictwa - niestety taki nawyk, bo to język, w którym "pracuję" i niektórych słów
@dagon_666: Nie do końca od nowa. Nie chcę się rozpisywać, ale spróbuję w skrócie opowiedzieć:

Hadoop / Spark (tego teraz używam) generuje dane "przyrostowo" - tzn. cały czas dodaje nowe dane do starych (tworząc nowe "zbiory" danych - słowo klucz to "immutable"), ale nigdy nie nadpisuje starych i na każdym etapie przetwarzania tworzy "snapshoty", od których potem potrafi "wznowić" przetwarzanie kolejnego dnia, a następnie ładuje dane do bazy nadpisując "stary" stan
@Grizwold: Nie powinno być większych problemów - jak dokładnie zrobisz to co w dokumentacji, to Ambari w większości przypadków sobie poradzi. Co do stronki z GUI: zainstaluj sobie manualnie Hue - jest w repo pakietów Hortona. Potem trzeba go jeszcze ręczenie dokonfigurować (namiary na serwery itp) przez edycję hue.ini. To też jest krótko opisane w dokumentacji.
Big Data Technology Fundamentals

Big Data Technology Fundamentals provides baseline general knowledge of the technologies used in big data solutions. It covers the development of big data solutions using the Hadoop ecosystem, including MapReduce, HDFS, and the Pig and Hive programming frameworks. This web-based course helps you build a foundation for working with AWS services for big data solutions. This course is offered at no charge, and can be used on its
Researchers build pattern-recognition model that acts like a human

A trio of MIT researchers has developed a machine learning model that might help humans make better sense of big data by helping us make better sense of the patterns it discovers. Its creators call it the Bayesian Case Model, but a simpler description might be the example-creator.

https://gigaom.com/2014/12/08/researchers-build-pattern-recognition-model-that-acts-like-a-human/

#bigdata #datascience

#msqspam
LinkedIn explains its complex Gobblin big data framework

LinkedIn shed more light Tuesday on a big-data framework dubbed Gobblin that helps the social network take in tons of data from a variety of sources so that it can be analyzed in its Hadoop-based data warehouses.

https://gigaom.com/2014/11/26/linkedin-explains-its-complex-gobblin-big-data-framework/

#bigdata #datascience #hadoop

#msqspam
Pobierz m.....q - LinkedIn explains its complex Gobblin big data framework

LinkedIn shed mor...
źródło: comment_EUKIpMU7RRnZIokqO1tGYrITqQteASWL.jpg