Wpis z mikrobloga

@piotrek-5: jeśli to ty chcesz nauczyć taką sieć neuronową, to niezaleznie od jej architektury po prostu skalujesz obrazek do wspolnego rozmiaru, pomnazasz dataset poprzez obrót kopi zdjecia po roznych kątach. W teorii powinno zadziałać. Jeśli szukasz lepszego rozwiązania lub gotowego programu to poszukaj po haśle OCR.
Trochę niejasne

Moim celem jest automatyczne znajdowanie i rozpoznanie liter bądź ikon ze screenshota z ekranu. Obiekty które chcę wykryć mogą różnić się pozycją, wielkością, ale nie spodziewam się że będą obrócone
@piotrek-5: W takim wypadku dobrym pomysłem byłoby skonstruowanie jakiegoś filtra, który próbowałby ujednolicić to wszystko, co jest widoczne na takim zrzucie ekranu.
Najpierw układasz wszystko w jakąś sensowna całość (data processing), a dopiero później stosujesz jakiś algorytm z zakresu ML.
Generalnie cała procedura tak powinna wyglądać.
Mam na myśli część programu, która będzie odpowiadać za przetwarzanie danych wejściowych,bo jak rozumiem, chcesz zrobić coś, co pozwoli na odczytanie cyfr z dowolnego dokumentu.
Zrobiłbym to tak:
- Program wczytuje obraz i skanuje, szukając wszystkich cyfr i zapisuje je jakoś w pamięci.
- Kolejnym krokiem byłoby ujednolicenie znalezionych cyfr - ujednolicenie rozdzielczości, usunięcie niepotrzebnych informacji (np. nadmiaru tła, jakichś resztek innych liter z dokumentu itd.)
- I dopiero po takich zabiegach