#programowanie #bigdata
Wszystko
Najnowsze
Archiwum
3
Mapping dokumentów w ElasticSearch - Cztery Tygodnie

Tym razem we wpisie skupiam się na omówieniu mappingu i jego możliwościach w ElasticSeach. Z wpisu dowiesz się jak tworzony jest mapping przez ElasticSearch-a oraz jak możesz sam nad tym zapanować tworząc taki mapping ręcznie.
z- 0
- #
- #
- #
- #
- #
3
Eksploracja danych w akcji: "wykopywanie" cech artykułów Wikipedii

Artykuł naukowy o sposobach pozyskania cech (parametrów) artykułów Wikipedii, które mogą być używane do automatycznej oceny jakości treści. Na podstawie analizy literatury oraz własnych doświadczeń zostały określone miary, opisujące różne aspekty jakości i źródła ich pochodzenia.
z- 0
- #
- #
- #
- #
- #
- #
1474
Statystyki wykopu od początku istnienia do końca 2017 r.

Napisałem web scrapera który zebrał dane z wykopu od początku jego istnienia i zrobiłem kilka wykresów.
z- 297
- #
- #
- #
- #
- #
- #
12
Automatyczna ocena jakości artykułów Wikipedii w różnych językach

Przedstawiam przegląd artykułów naukowych na temat oceny jakości Wikipedii w różnych językach, w których jestem bezpośrednim uczestnikiem i autorem. Postanowiłem podzielić się moją wiedzą i doświadczeniem w tej dziedzinie dla użytkowników Wykopu. Chętnie wysłucham komentarzy i sugestii.
z- 2
- #
- #
- #
- #
- #
- #
- 7
#programowanie #bigdata
1
Jak stworzyć własny analizer w ElasticSearch - Cztery Tygodnie

W przypadku, gdy żaden z wbudowanych analizer-ów nie spełnia naszych wymagań. ElasticSearch daje nam możliwość zbudowania własnych. Jednak jeśli mamy już stworzony indeks to dodanie nowego analizer-a wymaga odrobiny gimnastyki. Mianowicie konieczne jest zamknięcie indeksu: Po czym...
z- 3
- #
- #
- #
mam pustkę w głowie co wpisać w googla a potrzebował bym bazę danych zwracającą starty i londowania samolotów pasażerskich ze wszystkich stolic na świecie z ostatnich 100-200 dni.
Docelowo chcę odpowiedzieć na pytanie. Czy da się wysrać w każdym kraju na świecie w mniej niż 80dni, i fajnie było by znać marszrutę co robi to.
- 10
big data set flights
https://docs.microsoft.com/en-us/machine-learning-server/r/tutorial-revoscaler-large-data-airline
to dla USA z ostatnich 30 lat
Od czego warto zacząć? Jakieś książki, blogi, cokolwiek? Jak w ogóle uczyć się big daty w praktyce? Ściągać jakąś przykładową bazę z neta (chyba IBM ma dosyć spore bazy przykładowe) i na nich operować? Poratujcie, bo kompletnie nie
Później stwierdz co Chcesz robić. Real time czy batch / analiza.
Jak real-time to tyraj Kafka, flink, spark streaming
Jak batch /ml to spark, spark, spark, hive/impala, h2o. To się teraz robi. Pig osraj bo to gowno.
Poza tym scala I pajton
15k w big data to zarabiają frajerzy ( ͡º ͜ʖ͡º)
Java i SQL to raczej nie narzędzia big data
Dementuję ( ͡° ͜ʖ ͡°)
W Javie piszesz swoje klaski do dużej ilości narzędzi. Co do SQLa to przecież używasz go tyrając Hive czy
1
Z jakich aplikacji w święta korzystali Polacy?

Wigilia oraz sylwester to dni, na których mobilna rewolucja także odcisnęła piętno. Z jakich aplikacji korzystają wówczas Polacy? Okazuje się, że wyjątkową popularnością w te dni cieszą się aplikacje randkowe.
z- 0
- #
- #
- #
- #
- #
- 3
Mirki muszę jakoś przekonwertować dane.
Mam plik(csv) który zawiera dane numeryczne i symboliczne, przetworzyć mogę tylko dane numeryczne(libsvm).
Jak się do tego zabrać? Wystarczy kazdej wartości symbolicznej nadać jakiś indeks? Czy bawić się z HashingTF, Word2Vec?
Masz zwykłe wczytywanie pliku, a nie bigdata. Czekają cie standardowe problemy jak z plikami csv: kodowanie, braki kolumn, separator występujący w tekście.
- 0
Z racji mojej obecnej pracy powinienem liznąć przynajmniej podstaw #vba, #cpp , #C, i może #pascal.
Jednak zaczęły mnie ostatnio jarać strasznie #siecineuronowe, #machinelearning, i wszystko co związane z #datascience i #bigdata, w związku z tym pewnie powinienem ruszyć również coś w stronę #python
- 3
Zaczynanie od języków skryptowych ma ten problem że będziesz przenosił z nich złe wzorce których tam jest cała masa.
8
Sztuczna inteligencja przyszłością logistyki?

AI oferuje szeroki wachlarz możliwości optymalizowania działań w magazynach i sklepach. Polska, która aspiruje do roli jednego z centrów logistycznych Europy, posiada łączną powierzchnię magazynową przekraczającą 11 mln m2, której roczny przyrost w latach 2013-2016 sięgał 15 proc.
z- 0
- #
- #
- #
- #
- #
- #
- 2
Graph API działa tylko dla otwartych. Próbowałem korzystać z Octoparse i różnie konfigurować, ale wyników brak/same duplikaty albo wyrzuca mi się straszny b----l, który w sumie nadal nie jest tym co trzeba.
#bigdata #datascience #parser #programowanie #facebook
4
Big Data - [Wykład] cz. 1z2
![Big Data - [Wykład] cz. 1z2](https://wykop.pl/cdn/c3397993/link_Z4gAri75c1ZzN8iIqF8ZgH9n2CcFc7gh,w220h142.jpg)
Gościem IT Szkoły był profesor Włodzimierz Gogołek, ekspert Naukowego Kolegium Ekspertów do spraw Rozwoju Technologii Informacyjno – Komunikacyjnych w Edukacji. Profesor Uniwersytetu Warszawskiego, gdzie poza pracą naukowo-badawczą, prowadzi zajęcia dydaktyczne w zakresie technologii...
z- 3
- #
- #
- #
- #
- #
- #
1
Technologia vs. intuicja

Czego boją się dziś dyrektorzy marketingu? Dokładnie tego samego, co zawsze: źle podjętych decyzji. Jednak paradoksalnie, w czasach big data, jest to wyzwanie większe niż kiedykolwiek.
z- 0
- #
- #
- #
- #
- #
- #















-wizualizacja
-czyszczenie danych
-szukanie korelacji
-wizualizacja rezultatow