====== Laboratorium 11 ======

Przetwarzamy teksty wpisów na [[https://www.reddit.com/]]

Opis zadań i kod w [[https://github.com/pszwed-ai/lab-eksploracja-danych/blob/main/NLP_reddit.ipynb|notatniku Colab]]

===== Problem z serwerem =====

Obecnie serwer zamiast treści wpisów zwraca następujący tekst:
<code>
Check back in the next few weeks for updates. - Pushshift team (May 19, 2023)
</code>

Problemy były już dostrzegalne podczas laboratorium (18 maja).
==== ZADANIE 1 ====
Dane do zadania I (zawartość datascience i MachineLearning) są dostępne pod tym adresem:
[[https://dysk.agh.edu.pl/s/dyc2QMs53FK9HK7]]

Po pobraniu nalezy je rozpakować ''!unzip'' i wczytać.


<code>
df_ds=pd.read_csv('datascience_2023-05-15 22_16_16.618871.csv')
df_ds.head()

df_ml=pd.read_csv('/content/MachineLearning_2023-05-15 22_16_40.906973.csv')
df_ml.head()


</code>

Są to oryginalne (nieprzetworzone ciągi wpisów). Nalezy je wyczyścić tak, jak w funkcji ''load_to_data_frame()'' a nastepnie scalić, używając ''concat''

<code>
# zabezpieczenie w przypadku pustych danych !
df['title']=df['title'].replace(np.nan, '', regex=True)
df['selftext']=df['selftext'].replace(np.nan, '', regex=True)  
 
# sklej kolumny  
df['text']=df['title'] + " " + df['selftext']
  
# zabezpieczenie w przypadku pustych danych !
  
df['text']=df['text'].apply(lambda t:clean(t))

df = df.loc[:,['text','subreddit','link_flair_text']]

df.head()
</code>


<code>
df = pd.concat([df_ds,df_ml],ignore_index=True)
# df.head()
len(df)

</code>

Dalej kontynuujemy od **TODO 11.1.1.1**
==== ZADANIE 2 ====
Dane są dostępne pod tym adresem. W tym przypadku są już wyczyszczone i scalone. Po pobraniu kontynuujemy od punktu 11.2.2 

[[https://dysk.agh.edu.pl/s/qXz2B54Ctkm7Zgp/download/various_polish.csv.zip]]