Wpis z mikrobloga

#machinelearning #datascience

jest taki przykład modelu sekwencyjnego w dokumentacji Keras, gdzie słowa są zastąpione integerami
jest to przykład klasyfikacji tekstu na podstawie ocen filmów z IMDB, może ktoś kojarzy

na oko to indeksy tych słów są przypisane dość losowo, mogą mieć coś wspólnego z częstotliwością ale na wszelki wypadek zapytam - bo chcę zrobić coś podobnego ale dla jęz. pol - czy te indeksy mają znaczenie bo np. słowa bliskie znaczeniowo są blisko na osi, czy po prostu podzielić na słowa i nadać numerację jak leci

ktoś, coś?
  • 5
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

@heniek_8:

IMDB Movie reviews sentiment classification

Dataset of 25,000 movies reviews from IMDB, labeled by sentiment (positive/negative). Reviews have been preprocessed, and each review is encoded as a sequence of word indexes (integers). For convenience, words are indexed by overall frequency in the dataset, so that for instance the integer "3" encodes the 3rd most frequent word in the data. This allows for quick filtering operations such as: "only consider
  • Odpowiedz
@heniek_8: sprytniejsze enkodowanie pojawi się już w twoim modelu, bo te integery trzeba jeszcze zmapować na wektory, które następnie zostaną użyte dalej
  • Odpowiedz