Wpis z mikrobloga

#naukaprogramowania #programowanie #programista15k #it #pracait #nauka #chatgpt #analizadanych #dataengineering

Hej,

w nawiązaniu do postu https://wykop.pl/wpis/79482415/naukaprogramowania-programowanie-programista15k-sz
Wklejam moje przemyślenia i porady. Wyszło tego ok. 12 stron. Jeśli ktoś chciałby doc/pdf proszę o kontakt. Jako wstęp dodałem realny wstęp, który kończy się jakoś po GPT2 czy 3. "Nowe AI " wymaga osobnego dokumentu. Dodałem porady dot. wejścia w ai, pracy z ai, konwersji na data engineera, rozpoczęcia korzystania z AI czy rzeczy, które moim zdaniem będą trendować w 25, i których wypada się poduczyć. Mogłem coś pominąć, skrócić lub zapomnieć. Jestem tylko człowiekiem. Jeśli znajdziecie coś takiego, proszę o info. Pozdrawiam.

Subiektywny poradnik dot. AI, by JamesJoyce, wykop.pl

1. Książki wprowadzające do AI:

Poziom początkujący:

"Wstęp do Sztucznej Inteligencji" - Marek Flasiński
Kompleksowe omówienie podstaw teoretycznych
Silne podstawy matematyczne
Używana na polskich uczelniach technicznych
"Metody i Techniki Sztucznej Inteligencji" - Leszek Rutkowski
Dogłębna analiza algorytmów
Mocne podstawy statystyczne
Cytowana w polskich publikacjach naukowych
"Statistics and Machine Learning in Python" - Gaël Varoquaux
Niezbędne, głównie statystyczne
„Podstawy Matematyki w data science” – Thomas Nield
Niezbędne, głównie matematyczne
"Data Science od podstaw" - Joel Grus
Solidne podstawy programowania w Pythonie
Praktyczne przykłady implementacji algorytmów
Wykorzystywana na kursach ML na AGH i PW

Poziom średniozaawansowany

"Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow" - Aurélien Géron – początki tworzenia ai w scikit, kerasie i tf
Regularnie aktualizowana (ostatnie wydanie 2022)
Używana w kursach Stanford CS229
Praktyczne podejście z kodem i przykładami
"Python Machine Learning" - Sebastian Raschka
Regularnie aktualizowana
Uznana w środowisku ML
Szczegółowe wyjaśnienia implementacji
"Artificial Intelligence: A Modern Approach" - Stuart Russell, Peter Norvig – niekoniecznie 1 do przeczytania. To klasyka dot. Klasycznego AI – opcjonalnie. Jeśli zależy Ci na czasie, zostaw na koniec.
Standardowe wprowadzenie używane na większości uczelni
Cytowana w ponad 170,000 publikacjach naukowych
Najnowsze wydanie (2021) zawiera aktualny materiał o deep learning

Poziom zaawansowany

"Deep Learning" - Ian Goodfellow, Yoshua Bengio, Aaron Courville – matma w data science
Napisana przez pionierów dziedziny
Dostępna za darmo online: deeplearningbook.org
"Deep Learning. Receptury" - Douwe Osinga
Gotowe rozwiązania typowych problemów DL
Kod w PyTorch i TensorFlow
Przykłady z NLP i Computer Vision
Dość trudna dla nowicjuszy
"Deep Learning with Python" - Sebastian Raschka, Vahid Mirjalili
Kompleksowe omówienie DL w Keras/TensorFlow
Uznana w przemyśle i cytowana w publikacjach
Ostatnie wydanie (2022) zawiera najnowsze architektury i techniki
Szczegółowe wyjaśnienia matematyczne i implementacyjne
Książka jest używana w kursach DL na University of Wisconsin-Madison i Michigan State University.

2. Materiały internetowe

Kursy:
Coursera: Stanford AI/ML specializations
Fast.ai: Praktyczne deep learning
DeepLearning.AI: Specjalizacje od Andrew Ng
DataCamp: Interaktywne kursy DS
Platformy praktyczne:
Kaggle: Konkursy, datasety, notebooks
LeetCode: Algorytmy i struktury danych
HackerRank: SQL i programowanie
Blogi/Newsletter:
Towards Data Science
Papers with Code
Sebastian Raschka Blog
KDnuggets
arXiv-sanity.com
Testy/Certyfikaty:
AWS Machine Learning Specialty
Google Professional ML Engineer
Azure AI Engineer
TensorFlow Developer Certificate
Społeczności:
Reddit: r/MachineLearning, r/datascience
Stack Overflow
AI/ML Discord servers
GitHub Discussions

3. Praktyka
Praktyczna ścieżka rozwoju w AI/ML:
1. Projekty własne:
Rozpoznawanie obrazów (MNIST, CIFAR)
Analiza sentymentu tekstu
Predykcja szeregów czasowych
Systemy rekomendacji
2. Open Source:
Kontrybutowanie do scikit-learn
Hugging Face - modele NLP
PyTorch - implementacje modeli
TensorFlow - tutorials
3. Realne projekty:
Kaggle competitions
GitHub portfolio (3-5 zaawansowanych projektów)
MLOps pipeline
Deployowanie modeli
4. Praktyki/Staże:
Startupy AI
Zespoły R&D
Projekty badawcze
Hackathony AI
5. Narzędzia:
Git/GitHub
Docker
AWS/GCP/Azure
MLflow/Weights & Biases
Każdy projekt powinien mieć dokumentację, testy i deployment.
4. Środowiska pracy i narzędzia

IDE: PyCharm, VSCode, Jupyter
Cloud: AWS SageMaker, GCP Vertex AI, Azure ML
Monitoring: MLflow, W&B, TensorBoard
Version Control: DVC, Git LFS
CI/CD: GitHub Actions, Jenkins
Containerization: Docker, Kubernetes
Workflow: Airflow, Kubeflow
Dashboards: Streamlit, Gradio
Eksperymenty: Optuna, Ray Tune

5. Specjalizacje

Computer Vision:
OpenCV, YOLO, detectron2
Segmentacja, detekcja, klasyfikacja
Transformers Vision
NLP:
BERT, GPT, LLama
Spacy, NLTK, transformers
RAG, embeddingi
MLOps:
CI/CD dla ML
Monitoring modeli
A/B testing
Time Series:
Prophet, statsmodels
Forecasting
Anomaly detection
Reinforcement Learning:
OpenAI Gym
Deep RL
Multi-agent systems

6. Gotowe materiały do przebranżowienia się

A) AI/ML:
Stanford CS229: Machine Learning
DeepLearning.AI Specialization (Coursera)
Fast.ai Practical Deep Learning
MIT 6.S191: Introduction to Deep Learning
Google Machine Learning Crash Course
CS50's Introduction to AI (Harvard)
Berkeley CS 188: Introduction to AI
B) Data Engineer:
Data Engineering Zoomcamp (DataTalksClub)
Fundamentals of Data Engineering (Coursera)
Database Engineering (Stanford Online)
AWS Data Analytics Specialty
GCP Data Engineer Learning Path
Databricks Data Engineer Learning Path
IBM Data Engineering Professional Certificate
Każda ścieżka zawiera:
Teoria + praktyka
Projekty do portfolio
Certyfikaty
Hands-on labs

7. Ogólne podstawowe ścieżki kariery

MLOps Engineer:
Wymagania techniczne:
o CI/CD (Jenkins, GitHub Actions)
o Kubernetes, Docker
o Monitoring (Prometheus, Grafana)
o ML frameworks (TensorFlow, PyTorch)
o Cloud (AWS, GCP, Azure)
o Python, Go
Projekty do portfolio:
o System monitoringu modeli ML
o Automatyczny pipeline retrainingu
o A/B testing framework
o Feature store implementation
AI Engineer:
Wymagania:
o Deep Learning (PyTorch, TensorFlow)
o NLP/Computer Vision
o Distributed training
o Model optimization
o API development (FastAPI, Flask)
o Production ML systems
Projekty:
o LLM deployment system
o Real-time CV system
o Multimodal AI application
o Custom training pipeline
Data Engineer → AI:
Ścieżka rozwoju:
1. ML fundamentals (algorithms, math)
2. Feature engineering dla ML
3. ML pipelines i orchestration
4. Model deployment
5. ML infrastructure
Kluczowe umiejętności:
o Spark/Hadoop
o ETL dla ML
o Feature stores
o Data validation
o ML workflow orchestration
Machine Learning Engineer:
Wymagania:
o Solid CS/Math background
o Advanced ML/DL
o System design
o Scalable ML solutions
o Research implementation
Specjalizacje:
o NLP Engineering
o Computer Vision Engineering
o Speech Recognition
o Reinforcement Learning
Trendy rynkowe 2024/2025:
1. LLMOps:
o Custom LLM deployment
o Prompt engineering
o RAG systems
o Fine-tuning pipelines
2. Edge AI:
o Model optimization
o Mobile deployment
o IoT integration
o Real-time processing
3. AutoML/ML Platform Engineering:
o Automated pipeline building
o Model governance
o Experiment tracking
o Resource optimization
4. Responsible AI:
o Fairness metrics
o Model explainability
o Bias detection
o Privacy-preserving ML
Jak się przygotować:
1. Podstawy:
o Python advanced
o ML fundamentals
o Cloud platforms
o System design
2. Specjalizacja:
o Wybór domeny (NLP/CV/RL)
o Głęboka znajomość frameworków
o Praktyczne projekty
o Certyfikacje
3. Praktyka:
o Open source contributions
o Kaggle competitions
o Personal projects
o Hackathons
4. Networking:
o Konferencje ML/AI
o Meetupy
o LinkedIn presence
o Tech communities
Czego szukają firmy:
1. Techniczne:
o End-to-end ML systems
o Scalable solutions
o Production experience
o Cloud expertise
2. Soft skills:
o Problem solving
o Communication
o Team collaboration
o Project management
3. Domain expertise:
o Industry knowledge
o Business understanding
o Research awareness
o Best practices
4. Proven experience:
o Portfolio projects
o GitHub activity
o Blog posts/articles
o Conference talks

8. Java/coś innego – Data Engineering

Skoro chcesz przejść z Javy do Data Engineering, to powiem Ci jak ja bym to zrobił. To świetny ruch, bo rynek mocno potrzebuje ludzi łączących solidne podstawy programowania z data skills.
Przede wszystkim, nie musisz wszystkiego się uczyć od zera - Twoje doświadczenie z Javy jest mega wartościowe. Znasz już programowanie, architekturę, pracę z bazami danych. To świetna baza.
Zacznij od Pythona - nie dlatego, że jest trudny (jest łatwiejszy od Javy), ale bo cały ekosystem data engineering jest w nim zbudowany. Weź kurs na Udemy albo DataCamp, ale szybko przechodź do praktyki.
Następnie wejdź w podstawy big data. Tu Twoja Java się świetnie przydaje - Spark ma API javowe. Postaw lokalnie Spark, pobaw się przetwarzaniem danych. Zrób potem to samo w Pythonie - zobaczysz różnice i podobieństwa.
Kolejny krok to cloud. Wybierz jedną platformę (AWS, GCP czy Azure) i skup się na jej usługach do przetwarzania danych. Zrób darmowe kursy na ich platformach. Tu ważne - nie próbuj ogarniać wszystkiego, skup się na data services.
Teraz ETL/ELT - naucz się Airflow (orchestration) i dbt (transformacje). Postaw je lokalnie, zrób kilka pipeline'ów. To będzie Twój chleb powszedni jako Data Engineer.
Równolegle rób własny projekt - najlepiej coś, co łączy streaming (Kafka), batch processing (Spark), i ładowanie do hurtowni (np. Snowflake). Wrzuć na GitHuba, opisz dokładnie w README. To będzie Twoja przepustka na rozmowy.
Co do pracy - zacznij rozmawiać z firmami, które mają i Javę, i data engineering. Często szukają właśnie ludzi do przejścia między światami. Możesz zacząć od pomocy przy data taskach w swoim zespole. Możesz też skorzystać z poleceń itd.

Nie przejmuj się, jak na początku nie będziesz wszystkiego rozumiał. Data engineering to ogromna dziedzina. Skup się na podstawach: skąd dane przychodzą, jak je przetwarzać efektywnie, gdzie je składować.
Na rozmowy o pracę przygotuj się pokazując, jak Twoje doświadczenie z Javy przekłada się na data engineering. Znasz już clean code, testowanie, CI/CD - to wszystko jest tak samo ważne w data świecie.
Co do kasy - na początek może być lekki spadek, ale średnio po roku-dwóch zarobki są wyższe niż w klasycznej Javie. Szczególnie jak dorzucisz do tego ML/AI skills.
Jakbyś potrzebował konkretnych materiałów albo pogadać o szczegółach któregoś z tematów, daj znać.
P.S. Zapisz się na DataTalksClub - masa ludzi tam przechodzi podobną ścieżkę, świetne materiały i networking.

9. Praca z/w AI

Wejście do pracy nad AI jest obecnie niemal nierealne. Praca korzystająca z AI, to jednak inna kwestia. To świetny kierunek, ale trzeba to zrobić mądrze. Zacznij od solidnych podstaw - matematyka (algebra liniowa, rachunek prawdopodobieństwa) i Python. Bez tego będzie ciężko.
Najlepiej zacznij od ML basics - scikit-learn, podstawowe algorytmy. Zrób kilka projektów z Kaggle, naucz się pracować z danymi. Nie rzucaj się od razu w deep learning.
Potem możesz iść w dwóch kierunkach:
1. ML Engineering - skupiasz się na deploymencie modeli, MLOps, skalowaniu
2. Research/Development - głębsze uczenie się algorytmów, tworzenie nowych rozwiązań
Dla ML Engineering:
Naucz się cloud (AWS SageMaker/Vertex AI)
Kubernetes, Docker
MLflow, Weights & Biases
CI/CD dla modeli
Dla Research:
PyTorch/TensorFlow
Papers with Code
Implementacja najnowszych algorytmów
Uczestnictwo w konkurach
Projekty do portfolio:
End-to-end ML system
Custom training pipeline
Model deployment z monitoringiem
Coś związanego z LLM/Computer Vision
Gdzie szukać pracy:
Startupy AI (często łatwiej zacząć)
Zespoły R&D w większych firmach
AI consulting
In-house AI teams
Najważniejsze - nie próbuj ogarniać wszystkiego naraz. Wybierz konkretną domenę (NLP/CV/RL) i się w niej specjalizuj. Buduj portfolio na GitHubie, udzielaj się w społeczności.
Dobre miejsca do nauki:
Fast.ai
DeepLearning.AI
Stanford CS229/CS230
Papers with Code
I pamiętaj - AI to nie tylko modele. Musisz rozumieć data processing, infrastructure, deployment. To całe systemy, nie tylko algorytmy.

10. Końcówka – na co się przygotować w 2025, bez względu na to, co robisz w AI.

To tylko mój subiektywny punkt widzenia na to, co będzie kluczowe w AI w 2025 roku i jak się do tego przygotować.
Przede wszystkim, cała infrastruktura LLM stanie się standardem. Musisz ogarnąć vector databases - Pinecone czy Weaviate to będzie podstawa. Zacznij od ich dokumentacji i kursów na DeepLearning.AI o RAG. Zbuduj własny system wyszukiwania z embeddings, pobaw się z różnymi modelami. To da Ci solidne podstawy.
LangChain i LlamaIndex będą wszędzie. To nie jest rocket science, ale trzeba rozumieć jak orkiestrować LLMy, jak budować efektywne chainy i zarządzać promptami. Zrób kurs LLM specialization na deeplearning.ai, potem przejdź przez LangChain handbook. Koniecznie zbuduj własny system QA z dokumentami.
MLOps to będzie must-have I bardzo hot stanowisko. Weights & Biases albo MLflow - wybierz jedno i naucz się dogłębnie. Zrób ich certyfikacje, ale co ważniejsze, zbuduj system monitoringu modeli i pipeline do automatycznego retrainingu. MLOps Zoomcamp od DataTalks.Club to świetny start.
Feature stores będą standardem w większych projektach. Feast jest open source i ma świetną dokumentację - zacznij od tego. Zbuduj prosty system feature serving, naucz się jak zarządzać features online i offline.
Edge AI będzie się rozwijać. TensorRT, TensorFlow Lite - musisz umieć optymalizować modele do urządzeń brzegowych. NVIDIA Deep Learning Institute ma świetne kursy z tego. Zbuduj aplikację CV działającą na mobile, naucz się quantization.
Co do GPU i distributed training - to będzie coraz ważniejsze. Zacznij od NVIDIA DLI courses, naucz się Horovod albo PyTorch Distributed. Musisz rozumieć jak efektywnie wykorzystywać GPU i skalować training.
Responsible AI nie będzie już opcjonalne. Google ma świetne materiały o tym. Naucz się używać narzędzi jak AI Fairness 360 czy LIME/SHAP. Zbuduj dashboard do monitorowania bias w modelach. Może to droga dla Ciebie? Może chcesz zostać etykiem AI? Takie role pojawiają się w Polsce. Ja robię to dla klienta, bo nie mają kogoś innego.

No i Agenci! Będą wszędzie. Poczytaj jak to działa, co robi itd.
Najważniejsze - nie próbuj ogarniać wszystkiego naraz. Wybierz jeden obszar, zostań w nim ekspertem, potem rozszerzaj. Dołącz do MLOps Community i DataTalks.Club, tam masa praktyków dzieli się wiedzą.
Zaplanuj sobie naukę na rok. Pierwsze 3 miesiące podstawy MLOps i cloud, kolejne 3 vector DBs i LLMs, potem Edge AI i distributed training. Ostatni kwartał na specjalizację i end-to-end projekty.
A, i koniecznie dokumentuj naukę. Wtedy realnie będziesz widział swój rozwój. To bardzo ważne!
Jakbyś potrzebował konkretnych materiałów do któregoś z tych tematów albo chciał pogadać o szczegółach, daj znać. To sporo materiału, ale krok po kroku da się to ogarnąć.
  • 89
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@JamesJoyce: A co warto by było z tego na pewno sprawdzić dla prostego analityka danych/twórcy systemu raportowania dla małej firmy? Stack:

- SQL
- DAX
- podstawy Pythona (biblioteka Pandas)
  • Odpowiedz
@JamesJoyce: data engineer I analityk danych to to samo? U mnie w firmie przechowujemy eventy biznesowe co uzytkownik zrobil w aplikacji w bazie snowflake jako JSON. Ostatnio ja jako programista ustalalem z analitykiem danych structure nowego eventu, co ma sie znalezc w polach jsona to musialem tlumaczyc analitykowi danych, ktory pisze zapytania w tej bazie co to tablica w jsonie bo chcialem zawrzec w jsonie w tablicy kilka obiektow
  • Odpowiedz
@JamesJoyce: A nie jest czasem tak, że wiele z firm/projektów, które chcą zacząć korzystać z LLMów (albo generalnie z AI) próbują na siłę znaleźć zastosowanie nowej technologii, której w rzeczywistości nie potrzebują? Blockchain miał kiedyś taką bezsensowną falę popularności
  • Odpowiedz