Table of Contents

Laboratorium 11

Przetwarzamy teksty wpisów na https://www.reddit.com/

Opis zadań i kod w notatniku Colab

Problem z serwerem

Obecnie serwer zamiast treści wpisów zwraca następujący tekst:

Check back in the next few weeks for updates. - Pushshift team (May 19, 2023)

Problemy były już dostrzegalne podczas laboratorium (18 maja).

ZADANIE 1

Dane do zadania I (zawartość datascience i MachineLearning) są dostępne pod tym adresem: https://dysk.agh.edu.pl/s/dyc2QMs53FK9HK7

Po pobraniu nalezy je rozpakować !unzip i wczytać.

df_ds=pd.read_csv('datascience_2023-05-15 22_16_16.618871.csv')
df_ds.head()

df_ml=pd.read_csv('/content/MachineLearning_2023-05-15 22_16_40.906973.csv')
df_ml.head()

Są to oryginalne (nieprzetworzone ciągi wpisów). Nalezy je wyczyścić tak, jak w funkcji load_to_data_frame() a nastepnie scalić, używając concat

# zabezpieczenie w przypadku pustych danych !
df['title']=df['title'].replace(np.nan, '', regex=True)
df['selftext']=df['selftext'].replace(np.nan, '', regex=True)  
 
# sklej kolumny  
df['text']=df['title'] + " " + df['selftext']
  
# zabezpieczenie w przypadku pustych danych !
  
df['text']=df['text'].apply(lambda t:clean(t))

df = df.loc[:,['text','subreddit','link_flair_text']]

df.head()
df = pd.concat([df_ds,df_ml],ignore_index=True)
# df.head()
len(df)

Dalej kontynuujemy od TODO 11.1.1.1

ZADANIE 2

Dane są dostępne pod tym adresem. W tym przypadku są już wyczyszczone i scalone. Po pobraniu kontynuujemy od punktu 11.2.2

https://dysk.agh.edu.pl/s/qXz2B54Ctkm7Zgp/download/various_polish.csv.zip