====== Laboratorium 11 ====== Przetwarzamy teksty wpisów na [[https://www.reddit.com/]] Opis zadań i kod w [[https://github.com/pszwed-ai/lab-eksploracja-danych/blob/main/NLP_reddit.ipynb|notatniku Colab]] ===== Problem z serwerem ===== Obecnie serwer zamiast treści wpisów zwraca następujący tekst: Check back in the next few weeks for updates. - Pushshift team (May 19, 2023) Problemy były już dostrzegalne podczas laboratorium (18 maja). ==== ZADANIE 1 ==== Dane do zadania I (zawartość datascience i MachineLearning) są dostępne pod tym adresem: [[https://dysk.agh.edu.pl/s/dyc2QMs53FK9HK7]] Po pobraniu nalezy je rozpakować ''!unzip'' i wczytać. df_ds=pd.read_csv('datascience_2023-05-15 22_16_16.618871.csv') df_ds.head() df_ml=pd.read_csv('/content/MachineLearning_2023-05-15 22_16_40.906973.csv') df_ml.head() Są to oryginalne (nieprzetworzone ciągi wpisów). Nalezy je wyczyścić tak, jak w funkcji ''load_to_data_frame()'' a nastepnie scalić, używając ''concat'' # zabezpieczenie w przypadku pustych danych ! df['title']=df['title'].replace(np.nan, '', regex=True) df['selftext']=df['selftext'].replace(np.nan, '', regex=True) # sklej kolumny df['text']=df['title'] + " " + df['selftext'] # zabezpieczenie w przypadku pustych danych ! df['text']=df['text'].apply(lambda t:clean(t)) df = df.loc[:,['text','subreddit','link_flair_text']] df.head() df = pd.concat([df_ds,df_ml],ignore_index=True) # df.head() len(df) Dalej kontynuujemy od **TODO 11.1.1.1** ==== ZADANIE 2 ==== Dane są dostępne pod tym adresem. W tym przypadku są już wyczyszczone i scalone. Po pobraniu kontynuujemy od punktu 11.2.2 [[https://dysk.agh.edu.pl/s/qXz2B54Ctkm7Zgp/download/various_polish.csv.zip]]