Przetwarzamy teksty wpisów na https://www.reddit.com/
Opis zadań i kod w notatniku Colab
Obecnie serwer zamiast treści wpisów zwraca następujący tekst:
Check back in the next few weeks for updates. - Pushshift team (May 19, 2023)
Problemy były już dostrzegalne podczas laboratorium (18 maja).
Dane do zadania I (zawartość datascience i MachineLearning) są dostępne pod tym adresem: https://dysk.agh.edu.pl/s/dyc2QMs53FK9HK7
Po pobraniu nalezy je rozpakować !unzip
i wczytać.
df_ds=pd.read_csv('datascience_2023-05-15 22_16_16.618871.csv') df_ds.head() df_ml=pd.read_csv('/content/MachineLearning_2023-05-15 22_16_40.906973.csv') df_ml.head()
Są to oryginalne (nieprzetworzone ciągi wpisów). Nalezy je wyczyścić tak, jak w funkcji load_to_data_frame()
a nastepnie scalić, używając concat
# zabezpieczenie w przypadku pustych danych ! df['title']=df['title'].replace(np.nan, '', regex=True) df['selftext']=df['selftext'].replace(np.nan, '', regex=True) # sklej kolumny df['text']=df['title'] + " " + df['selftext'] # zabezpieczenie w przypadku pustych danych ! df['text']=df['text'].apply(lambda t:clean(t)) df = df.loc[:,['text','subreddit','link_flair_text']] df.head()
df = pd.concat([df_ds,df_ml],ignore_index=True) # df.head() len(df)
Dalej kontynuujemy od TODO 11.1.1.1
Dane są dostępne pod tym adresem. W tym przypadku są już wyczyszczone i scalone. Po pobraniu kontynuujemy od punktu 11.2.2
https://dysk.agh.edu.pl/s/qXz2B54Ctkm7Zgp/download/various_polish.csv.zip