Wpis z mikrobloga

Skopiuj link

11.11.2019, 19:09:41

#machinelearning #datascience

jest taki przykład modelu sekwencyjnego w dokumentacji Keras, gdzie słowa są zastąpione integerami
jest to przykład klasyfikacji tekstu na podstawie ocen filmów z IMDB, może ktoś kojarzy

na oko to indeksy tych słów są przypisane dość losowo, mogą mieć coś wspólnego z częstotliwością ale na wszelki wypadek zapytam - bo chcę zrobić coś podobnego ale dla jęz. pol - czy te indeksy mają znaczenie bo np. słowa bliskie znaczeniowo są blisko na osi, czy po prostu podzielić na słowa i nadać numerację jak leci

ktoś, coś?

L.....G

konto usunięte 11.11.2019, 20:30:45

@heniek_8: chodzi ci o analizę sentymentu?

heniek_8

11.11.2019, 20:42:36

@LowcaG: tak, ale to nie jest ten słownik w którym są słowa jak abhor, hate na minus i love na plus

red-bearded

12.11.2019, 12:29:04

@heniek_8:

IMDB Movie reviews sentiment classification

Dataset of 25,000 movies reviews from IMDB, labeled by sentiment (positive/negative). Reviews have been preprocessed, and each review is encoded as a sequence of word indexes (integers). For convenience, words are indexed by overall frequency in the dataset, so that for instance the integer "3" encodes the 3rd most frequent word in the data. This allows for quick filtering operations such as: "only consider

heniek_8

12.11.2019, 14:36:57

@red-bearded: dzięki, tak się spodziewałem, ale miałem jakąś nadzieję że jakieś sprytniejsze encodowanie za tym stoi

Rub3n

12.11.2019, 23:27:42

@heniek_8: sprytniejsze enkodowanie pojawi się już w twoim modelu, bo te integery trzeba jeszcze zmapować na wektory, które następnie zostaną użyte dalej

Aktywne Wpisy

Aktywne Znaleziska

Rekordowe wyłączenia OZE w Polsce. "Marnujemy czystą i tanią energię"

Niemcy - 47% osób otrzymujących zasiłek obywatelski to obcokrajowcy

TEDx Kornelii Wieczorek

Uciszanie ekspertów przez Ministerstwo

Rząd: krytykując system kaucyjny, rozsyłasz fejki. Zaraz, co?

Popularne tagi