#naukaprogramowania #programowanie #programista15k #it #pracait #nauka... (@JamesJoyce)

#naukaprogramowania #programowanie #programista15k #it #pracait #nauka #chatgpt #analizadanych #dataengineering

Hej,

w nawiązaniu do postu https://wykop.pl/wpis/79482415/naukaprogramowania-programowanie-programista15k-sz
Wklejam moje przemyślenia i porady. Wyszło tego ok. 12 stron. Jeśli ktoś chciałby doc/pdf proszę o kontakt. Jako wstęp dodałem realny wstęp, który kończy się jakoś po GPT2 czy 3. "Nowe AI " wymaga osobnego dokumentu. Dodałem porady dot. wejścia w ai, pracy z ai, konwersji na data engineera, rozpoczęcia korzystania z AI czy rzeczy, które moim zdaniem będą trendować w 25, i których wypada się poduczyć. Mogłem coś pominąć, skrócić lub zapomnieć. Jestem tylko człowiekiem. Jeśli znajdziecie coś takiego, proszę o info. Pozdrawiam.

Subiektywny poradnik dot. AI, by JamesJoyce, wykop.pl

1. Książki wprowadzające do AI:

Poziom początkujący:

"Wstęp do Sztucznej Inteligencji" - Marek Flasiński
• Kompleksowe omówienie podstaw teoretycznych
• Silne podstawy matematyczne
• Używana na polskich uczelniach technicznych
"Metody i Techniki Sztucznej Inteligencji" - Leszek Rutkowski
• Dogłębna analiza algorytmów
• Mocne podstawy statystyczne
• Cytowana w polskich publikacjach naukowych
"Statistics and Machine Learning in Python" - Gaël Varoquaux
• Niezbędne, głównie statystyczne
„Podstawy Matematyki w data science” – Thomas Nield
• Niezbędne, głównie matematyczne
"Data Science od podstaw" - Joel Grus
• Solidne podstawy programowania w Pythonie
• Praktyczne przykłady implementacji algorytmów
• Wykorzystywana na kursach ML na AGH i PW

Poziom średniozaawansowany

"Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow" - Aurélien Géron – początki tworzenia ai w scikit, kerasie i tf
• Regularnie aktualizowana (ostatnie wydanie 2022)
• Używana w kursach Stanford CS229
• Praktyczne podejście z kodem i przykładami
"Python Machine Learning" - Sebastian Raschka
• Regularnie aktualizowana
• Uznana w środowisku ML
• Szczegółowe wyjaśnienia implementacji
"Artificial Intelligence: A Modern Approach" - Stuart Russell, Peter Norvig – niekoniecznie 1 do przeczytania. To klasyka dot. Klasycznego AI – opcjonalnie. Jeśli zależy Ci na czasie, zostaw na koniec.
• Standardowe wprowadzenie używane na większości uczelni
• Cytowana w ponad 170,000 publikacjach naukowych
• Najnowsze wydanie (2021) zawiera aktualny materiał o deep learning

Poziom zaawansowany

"Deep Learning" - Ian Goodfellow, Yoshua Bengio, Aaron Courville – matma w data science
• Napisana przez pionierów dziedziny
• Dostępna za darmo online: deeplearningbook.org
• "Deep Learning. Receptury" - Douwe Osinga
• Gotowe rozwiązania typowych problemów DL
• Kod w PyTorch i TensorFlow
• Przykłady z NLP i Computer Vision
• Dość trudna dla nowicjuszy
"Deep Learning with Python" - Sebastian Raschka, Vahid Mirjalili
• Kompleksowe omówienie DL w Keras/TensorFlow
• Uznana w przemyśle i cytowana w publikacjach
• Ostatnie wydanie (2022) zawiera najnowsze architektury i techniki
• Szczegółowe wyjaśnienia matematyczne i implementacyjne
Książka jest używana w kursach DL na University of Wisconsin-Madison i Michigan State University.

2. Materiały internetowe

Kursy:
• Coursera: Stanford AI/ML specializations
• Fast.ai: Praktyczne deep learning
• DeepLearning.AI: Specjalizacje od Andrew Ng
• DataCamp: Interaktywne kursy DS
Platformy praktyczne:
• Kaggle: Konkursy, datasety, notebooks
• LeetCode: Algorytmy i struktury danych
• HackerRank: SQL i programowanie
Blogi/Newsletter:
• Towards Data Science
• Papers with Code
• Sebastian Raschka Blog
• KDnuggets
• arXiv-sanity.com
Testy/Certyfikaty:
• AWS Machine Learning Specialty
• Google Professional ML Engineer
• Azure AI Engineer
• TensorFlow Developer Certificate
Społeczności:
• Reddit: r/MachineLearning, r/datascience
• Stack Overflow
• AI/ML Discord servers
• GitHub Discussions

3. Praktyka
Praktyczna ścieżka rozwoju w AI/ML:
1. Projekty własne:
• Rozpoznawanie obrazów (MNIST, CIFAR)
• Analiza sentymentu tekstu
• Predykcja szeregów czasowych
• Systemy rekomendacji
2. Open Source:
• Kontrybutowanie do scikit-learn
• Hugging Face - modele NLP
• PyTorch - implementacje modeli
• TensorFlow - tutorials
3. Realne projekty:
• Kaggle competitions
• GitHub portfolio (3-5 zaawansowanych projektów)
• MLOps pipeline
• Deployowanie modeli
4. Praktyki/Staże:
• Startupy AI
• Zespoły R&D
• Projekty badawcze
• Hackathony AI
5. Narzędzia:
• Git/GitHub
• Docker
• AWS/GCP/Azure
• MLflow/Weights & Biases
Każdy projekt powinien mieć dokumentację, testy i deployment.
4. Środowiska pracy i narzędzia

• IDE: PyCharm, VSCode, Jupyter
• Cloud: AWS SageMaker, GCP Vertex AI, Azure ML
• Monitoring: MLflow, W&B, TensorBoard
• Version Control: DVC, Git LFS
• CI/CD: GitHub Actions, Jenkins
• Containerization: Docker, Kubernetes
• Workflow: Airflow, Kubeflow
• Dashboards: Streamlit, Gradio
• Eksperymenty: Optuna, Ray Tune

5. Specjalizacje

Computer Vision:
• OpenCV, YOLO, detectron2
• Segmentacja, detekcja, klasyfikacja
• Transformers Vision
NLP:
• BERT, GPT, LLama
• Spacy, NLTK, transformers
• RAG, embeddingi
MLOps:
• CI/CD dla ML
• Monitoring modeli
• A/B testing
Time Series:
• Prophet, statsmodels
• Forecasting
• Anomaly detection
Reinforcement Learning:
• OpenAI Gym
• Deep RL
• Multi-agent systems

6. Gotowe materiały do przebranżowienia się

A) AI/ML:
• Stanford CS229: Machine Learning
• DeepLearning.AI Specialization (Coursera)
• Fast.ai Practical Deep Learning
• MIT 6.S191: Introduction to Deep Learning
• Google Machine Learning Crash Course
• CS50's Introduction to AI (Harvard)
• Berkeley CS 188: Introduction to AI
B) Data Engineer:
• Data Engineering Zoomcamp (DataTalksClub)
• Fundamentals of Data Engineering (Coursera)
• Database Engineering (Stanford Online)
• AWS Data Analytics Specialty
• GCP Data Engineer Learning Path
• Databricks Data Engineer Learning Path
• IBM Data Engineering Professional Certificate
Każda ścieżka zawiera:
• Teoria + praktyka
• Projekty do portfolio
• Certyfikaty
• Hands-on labs

7. Ogólne podstawowe ścieżki kariery

MLOps Engineer:
• Wymagania techniczne:
o CI/CD (Jenkins, GitHub Actions)
o Kubernetes, Docker
o Monitoring (Prometheus, Grafana)
o ML frameworks (TensorFlow, PyTorch)
o Cloud (AWS, GCP, Azure)
o Python, Go
• Projekty do portfolio:
o System monitoringu modeli ML
o Automatyczny pipeline retrainingu
o A/B testing framework
o Feature store implementation
AI Engineer:
• Wymagania:
o Deep Learning (PyTorch, TensorFlow)
o NLP/Computer Vision
o Distributed training
o Model optimization
o API development (FastAPI, Flask)
o Production ML systems
• Projekty:
o LLM deployment system
o Real-time CV system
o Multimodal AI application
o Custom training pipeline
Data Engineer → AI:
• Ścieżka rozwoju:
1. ML fundamentals (algorithms, math)
2. Feature engineering dla ML
3. ML pipelines i orchestration
4. Model deployment
5. ML infrastructure
• Kluczowe umiejętności:
o Spark/Hadoop
o ETL dla ML
o Feature stores
o Data validation
o ML workflow orchestration
Machine Learning Engineer:
• Wymagania:
o Solid CS/Math background
o Advanced ML/DL
o System design
o Scalable ML solutions
o Research implementation
• Specjalizacje:
o NLP Engineering
o Computer Vision Engineering
o Speech Recognition
o Reinforcement Learning
Trendy rynkowe 2024/2025:
1. LLMOps:
o Custom LLM deployment
o Prompt engineering
o RAG systems
o Fine-tuning pipelines
2. Edge AI:
o Model optimization
o Mobile deployment
o IoT integration
o Real-time processing
3. AutoML/ML Platform Engineering:
o Automated pipeline building
o Model governance
o Experiment tracking
o Resource optimization
4. Responsible AI:
o Fairness metrics
o Model explainability
o Bias detection
o Privacy-preserving ML
Jak się przygotować:
1. Podstawy:
o Python advanced
o ML fundamentals
o Cloud platforms
o System design
2. Specjalizacja:
o Wybór domeny (NLP/CV/RL)
o Głęboka znajomość frameworków
o Praktyczne projekty
o Certyfikacje
3. Praktyka:
o Open source contributions
o Kaggle competitions
o Personal projects
o Hackathons
4. Networking:
o Konferencje ML/AI
o Meetupy
o LinkedIn presence
o Tech communities
Czego szukają firmy:
1. Techniczne:
o End-to-end ML systems
o Scalable solutions
o Production experience
o Cloud expertise
2. Soft skills:
o Problem solving
o Communication
o Team collaboration
o Project management
3. Domain expertise:
o Industry knowledge
o Business understanding
o Research awareness
o Best practices
4. Proven experience:
o Portfolio projects
o GitHub activity
o Blog posts/articles
o Conference talks

8. Java/coś innego – Data Engineering

Skoro chcesz przejść z Javy do Data Engineering, to powiem Ci jak ja bym to zrobił. To świetny ruch, bo rynek mocno potrzebuje ludzi łączących solidne podstawy programowania z data skills.
Przede wszystkim, nie musisz wszystkiego się uczyć od zera - Twoje doświadczenie z Javy jest mega wartościowe. Znasz już programowanie, architekturę, pracę z bazami danych. To świetna baza.
Zacznij od Pythona - nie dlatego, że jest trudny (jest łatwiejszy od Javy), ale bo cały ekosystem data engineering jest w nim zbudowany. Weź kurs na Udemy albo DataCamp, ale szybko przechodź do praktyki.
Następnie wejdź w podstawy big data. Tu Twoja Java się świetnie przydaje - Spark ma API javowe. Postaw lokalnie Spark, pobaw się przetwarzaniem danych. Zrób potem to samo w Pythonie - zobaczysz różnice i podobieństwa.
Kolejny krok to cloud. Wybierz jedną platformę (AWS, GCP czy Azure) i skup się na jej usługach do przetwarzania danych. Zrób darmowe kursy na ich platformach. Tu ważne - nie próbuj ogarniać wszystkiego, skup się na data services.
Teraz ETL/ELT - naucz się Airflow (orchestration) i dbt (transformacje). Postaw je lokalnie, zrób kilka pipeline'ów. To będzie Twój chleb powszedni jako Data Engineer.
Równolegle rób własny projekt - najlepiej coś, co łączy streaming (Kafka), batch processing (Spark), i ładowanie do hurtowni (np. Snowflake). Wrzuć na GitHuba, opisz dokładnie w README. To będzie Twoja przepustka na rozmowy.
Co do pracy - zacznij rozmawiać z firmami, które mają i Javę, i data engineering. Często szukają właśnie ludzi do przejścia między światami. Możesz zacząć od pomocy przy data taskach w swoim zespole. Możesz też skorzystać z poleceń itd.

Nie przejmuj się, jak na początku nie będziesz wszystkiego rozumiał. Data engineering to ogromna dziedzina. Skup się na podstawach: skąd dane przychodzą, jak je przetwarzać efektywnie, gdzie je składować.
Na rozmowy o pracę przygotuj się pokazując, jak Twoje doświadczenie z Javy przekłada się na data engineering. Znasz już clean code, testowanie, CI/CD - to wszystko jest tak samo ważne w data świecie.
Co do kasy - na początek może być lekki spadek, ale średnio po roku-dwóch zarobki są wyższe niż w klasycznej Javie. Szczególnie jak dorzucisz do tego ML/AI skills.
Jakbyś potrzebował konkretnych materiałów albo pogadać o szczegółach któregoś z tematów, daj znać.
P.S. Zapisz się na DataTalksClub - masa ludzi tam przechodzi podobną ścieżkę, świetne materiały i networking.

9. Praca z/w AI

Wejście do pracy nad AI jest obecnie niemal nierealne. Praca korzystająca z AI, to jednak inna kwestia. To świetny kierunek, ale trzeba to zrobić mądrze. Zacznij od solidnych podstaw - matematyka (algebra liniowa, rachunek prawdopodobieństwa) i Python. Bez tego będzie ciężko.
Najlepiej zacznij od ML basics - scikit-learn, podstawowe algorytmy. Zrób kilka projektów z Kaggle, naucz się pracować z danymi. Nie rzucaj się od razu w deep learning.
Potem możesz iść w dwóch kierunkach:
1. ML Engineering - skupiasz się na deploymencie modeli, MLOps, skalowaniu
2. Research/Development - głębsze uczenie się algorytmów, tworzenie nowych rozwiązań
Dla ML Engineering:
• Naucz się cloud (AWS SageMaker/Vertex AI)
• Kubernetes, Docker
• MLflow, Weights & Biases
• CI/CD dla modeli
Dla Research:
• PyTorch/TensorFlow
• Papers with Code
• Implementacja najnowszych algorytmów
• Uczestnictwo w konkurach
Projekty do portfolio:
• End-to-end ML system
• Custom training pipeline
• Model deployment z monitoringiem
• Coś związanego z LLM/Computer Vision
Gdzie szukać pracy:
• Startupy AI (często łatwiej zacząć)
• Zespoły R&D w większych firmach
• AI consulting
• In-house AI teams
Najważniejsze - nie próbuj ogarniać wszystkiego naraz. Wybierz konkretną domenę (NLP/CV/RL) i się w niej specjalizuj. Buduj portfolio na GitHubie, udzielaj się w społeczności.
Dobre miejsca do nauki:
• Fast.ai
• DeepLearning.AI
• Stanford CS229/CS230
• Papers with Code
I pamiętaj - AI to nie tylko modele. Musisz rozumieć data processing, infrastructure, deployment. To całe systemy, nie tylko algorytmy.

10. Końcówka – na co się przygotować w 2025, bez względu na to, co robisz w AI.

To tylko mój subiektywny punkt widzenia na to, co będzie kluczowe w AI w 2025 roku i jak się do tego przygotować.
Przede wszystkim, cała infrastruktura LLM stanie się standardem. Musisz ogarnąć vector databases - Pinecone czy Weaviate to będzie podstawa. Zacznij od ich dokumentacji i kursów na DeepLearning.AI o RAG. Zbuduj własny system wyszukiwania z embeddings, pobaw się z różnymi modelami. To da Ci solidne podstawy.
LangChain i LlamaIndex będą wszędzie. To nie jest rocket science, ale trzeba rozumieć jak orkiestrować LLMy, jak budować efektywne chainy i zarządzać promptami. Zrób kurs LLM specialization na deeplearning.ai, potem przejdź przez LangChain handbook. Koniecznie zbuduj własny system QA z dokumentami.
MLOps to będzie must-have I bardzo hot stanowisko. Weights & Biases albo MLflow - wybierz jedno i naucz się dogłębnie. Zrób ich certyfikacje, ale co ważniejsze, zbuduj system monitoringu modeli i pipeline do automatycznego retrainingu. MLOps Zoomcamp od DataTalks.Club to świetny start.
Feature stores będą standardem w większych projektach. Feast jest open source i ma świetną dokumentację - zacznij od tego. Zbuduj prosty system feature serving, naucz się jak zarządzać features online i offline.
Edge AI będzie się rozwijać. TensorRT, TensorFlow Lite - musisz umieć optymalizować modele do urządzeń brzegowych. NVIDIA Deep Learning Institute ma świetne kursy z tego. Zbuduj aplikację CV działającą na mobile, naucz się quantization.
Co do GPU i distributed training - to będzie coraz ważniejsze. Zacznij od NVIDIA DLI courses, naucz się Horovod albo PyTorch Distributed. Musisz rozumieć jak efektywnie wykorzystywać GPU i skalować training.
Responsible AI nie będzie już opcjonalne. Google ma świetne materiały o tym. Naucz się używać narzędzi jak AI Fairness 360 czy LIME/SHAP. Zbuduj dashboard do monitorowania bias w modelach. Może to droga dla Ciebie? Może chcesz zostać etykiem AI? Takie role pojawiają się w Polsce. Ja robię to dla klienta, bo nie mają kogoś innego.

No i Agenci! Będą wszędzie. Poczytaj jak to działa, co robi itd.
Najważniejsze - nie próbuj ogarniać wszystkiego naraz. Wybierz jeden obszar, zostań w nim ekspertem, potem rozszerzaj. Dołącz do MLOps Community i DataTalks.Club, tam masa praktyków dzieli się wiedzą.
Zaplanuj sobie naukę na rok. Pierwsze 3 miesiące podstawy MLOps i cloud, kolejne 3 vector DBs i LLMs, potem Edge AI i distributed training. Ostatni kwartał na specjalizację i end-to-end projekty.
A, i koniecznie dokumentuj naukę. Wtedy realnie będziesz widział swój rozwój. To bardzo ważne!
Jakbyś potrzebował konkretnych materiałów do któregoś z tych tematów albo chciał pogadać o szczegółach, daj znać. To sporo materiału, ale krok po kroku da się to ogarnąć.

malinq

01.01.2025, 14:22:36 via Wykop

@JamesJoyce: dodaj do ulubionych

Nie otwórz nigdy więcej

samolubnygen

01.01.2025, 14:25:41 via Wykop

@JamesJoyce: Czy uważasz, że studia magisterskie DS będą przydatne na rynku, czy samouk ma takie same szanse?

JamesJoyce

01.01.2025, 14:26:10 via iOS

@samolubnygen myślę że są konieczne. Nie zawsze z ds

01.01.2025, 14:30:07 via iOS

@malinq czemu nie otwierać nigdy więcej

01.01.2025, 14:30:47 via Wykop

@JamesJoyce: pytam bo wydaje mi się, że materiałem znacznie wykraczasz poza poziom typowej polskiej uczelni ( ͡° ͜ʖ ͡°)

01.01.2025, 14:33:15 via Wykop

czemu nie otwierać nigdy więcej

@JamesJoyce: adhd, słomiany zapał :P

01.01.2025, 14:33:38 via Wykop

@samolubnygen: o dziękuję za komplement. Moje zdanie nt. studiów z ds jest powiedzmy "mieszane"

01.01.2025, 14:36:48 via Wykop

@malinq: Medikinet, Atomowe nawyki i powolna zmiana. Powodzenia :)

Milo900

01.01.2025, 14:38:22 via Android

@JamesJoyce wow super dzieki, troche tego jest ale fajnie uporzadkowane :)

j557

01.01.2025, 14:56:53 via iOS

@JamesJoyce połowa osób noe przeczyta nawet tytułów co by musiała przeczytać XD

firmowy123

01.01.2025, 15:06:11 via Wykop

@JamesJoyce: A co warto by było z tego na pewno sprawdzić dla prostego analityka danych/twórcy systemu raportowania dla małej firmy? Stack:

- SQL
- DAX
- podstawy Pythona (biblioteka Pandas)

01.01.2025, 15:06:59 via Wykop

@JamesJoyce: PROSZĘ O WIADOMOŚĆ NA PRIV, KTO POTRZEBUJE WERSJI PDF

01.01.2025, 15:07:46 via Wykop

@firmowy123: to zupełnie inny stack. Napisz mi na priv szczegółu

01.01.2025, 15:07:59 via Wykop

@j557: eee może tak nie będzie

aleksc

01.01.2025, 15:29:40 via Wykop

@JamesJoyce: data engineer I analityk danych to to samo? U mnie w firmie przechowujemy eventy biznesowe co uzytkownik zrobil w aplikacji w bazie snowflake jako JSON. Ostatnio ja jako programista ustalalem z analitykiem danych structure nowego eventu, co ma sie znalezc w polach jsona to musialem tlumaczyc analitykowi danych, ktory pisze zapytania w tej bazie co to tablica w jsonie bo chcialem zawrzec w jsonie w tablicy kilka obiektow

gardziok

01.01.2025, 15:32:16 via Wykop

@JamesJoyce: A nie jest czasem tak, że wiele z firm/projektów, które chcą zacząć korzystać z LLMów (albo generalnie z AI) próbują na siłę znaleźć zastosowanie nowej technologii, której w rzeczywistości nie potrzebują? Blockchain miał kiedyś taką bezsensowną falę popularności