Predmet :Analiza podataka
Tema :Analiza raspoloženja recenzija proizvoda
Cilj :Cilj ovog zadatka je izvršiti analizu mišljenja o recenzijama proizvoda kako bi se utvrdilo mišljenje recenzenta o proizvodu.
Upute :
1. Priprema podataka :
- Prikupite skup podataka o recenzijama proizvoda iz odgovarajućeg izvora (npr. Amazon, Yelp).
- Očistite podatke uklanjanjem dvostrukih recenzija, obradom vrijednosti koje nedostaju i pretvaranjem teksta u mala slova.
2. Istraživačka analiza podataka :
- Istražite podatke kako biste razumjeli njihove karakteristike i distribuciju.
- Izvedite osnovnu statistiku, poput brojanja učestalosti i oblaka riječi, kako biste identificirali uobičajene riječi i fraze korištene u recenzijama.
3. Analiza osjećaja :
- Upotrijebite prikladnu biblioteku ili alat za analizu raspoloženja (npr. TextBlob, VADER ili spaCy) za dodjeljivanje rezultata raspoloženja svakoj recenziji.
- Grupirajte recenzije u pozitivne, negativne ili neutralne kategorije na temelju njihovih ocjena raspoloženja.
4. Inženjering značajki :
- Izdvojite relevantne značajke iz recenzija koje bi mogle pridonijeti raspoloženju. To može uključivati učestalost riječi, interpunkcijske znakove ili druge značajke povezane s NLP-om.
5. Model strojnog učenja :
- Razvijte nadzirani model strojnog učenja za klasificiranje recenzija kao pozitivne ili negativne.
- Uvježbajte model na označenim podacima i procijenite njegovu izvedbu koristeći odgovarajuće metrike (npr. točnost, preciznost, prisjećanje i F1 rezultat).
6. Tumačenje modela :
- Vizualizirajte predviđanja modela pomoću matrica zabune ili drugih relevantnih vizualizacija.
- Analizirajte pogrešno klasificirane recenzije kako biste identificirali područja za poboljšanje.
7. Izvješćivanje :
- Napišite izvješće sažimajući nalaze analize raspoloženja.
- Uključite pojedinosti o pripremi podataka, istraživačkoj analizi podataka, inženjeringu značajki, obuci modela i rezultatima evaluacije.
Podnošenje :
- Dostavite sljedeće:
- Jupyter Notebook ili Python skripta koja sadrži vaš kod i analizu.
- PDF izvješće sa sažetkom nalaza.
Rok :
- Zadatak treba predati [datum].
- Zakašnjele prijave će izazvati kaznu od 10% po danu.