====== Laboratorium 11 ======
Przetwarzamy teksty wpisów na [[https://www.reddit.com/]]
Opis zadań i kod w [[https://github.com/pszwed-ai/lab-eksploracja-danych/blob/main/NLP_reddit.ipynb|notatniku Colab]]
===== Problem z serwerem =====
Obecnie serwer zamiast treści wpisów zwraca następujący tekst:
Check back in the next few weeks for updates. - Pushshift team (May 19, 2023)
Problemy były już dostrzegalne podczas laboratorium (18 maja).
==== ZADANIE 1 ====
Dane do zadania I (zawartość datascience i MachineLearning) są dostępne pod tym adresem:
[[https://dysk.agh.edu.pl/s/dyc2QMs53FK9HK7]]
Po pobraniu nalezy je rozpakować ''!unzip'' i wczytać.
df_ds=pd.read_csv('datascience_2023-05-15 22_16_16.618871.csv')
df_ds.head()
df_ml=pd.read_csv('/content/MachineLearning_2023-05-15 22_16_40.906973.csv')
df_ml.head()
Są to oryginalne (nieprzetworzone ciągi wpisów). Nalezy je wyczyścić tak, jak w funkcji ''load_to_data_frame()'' a nastepnie scalić, używając ''concat''
# zabezpieczenie w przypadku pustych danych !
df['title']=df['title'].replace(np.nan, '', regex=True)
df['selftext']=df['selftext'].replace(np.nan, '', regex=True)
# sklej kolumny
df['text']=df['title'] + " " + df['selftext']
# zabezpieczenie w przypadku pustych danych !
df['text']=df['text'].apply(lambda t:clean(t))
df = df.loc[:,['text','subreddit','link_flair_text']]
df.head()
df = pd.concat([df_ds,df_ml],ignore_index=True)
# df.head()
len(df)
Dalej kontynuujemy od **TODO 11.1.1.1**
==== ZADANIE 2 ====
Dane są dostępne pod tym adresem. W tym przypadku są już wyczyszczone i scalone. Po pobraniu kontynuujemy od punktu 11.2.2
[[https://dysk.agh.edu.pl/s/qXz2B54Ctkm7Zgp/download/various_polish.csv.zip]]