Visualisierung höherdimensionaler Krebsdaten
Biomedizinische Daten sind zunehmend höherdimensional. Es ist heutzutage möglich, Expressionen für zehntausende Gene aus zehntausenden Gewebeproben zu erhalten. Solche Datensätze wurden unter anderem zusammengetragen, um die genetischen Grundlagen verschiedener Krebsarten zu studieren.
Wir haben den deep autoencoder (eine besondere Art von deep neural network) auf den größten öffentlich zugänglichen Datensatz über Genexpressionen verschiedener Krebsarten angewandt (Torrente et al., 2016. Identification of cancer related genes using a comprehensive map of human gene expression. PloS One, 11:e0157484.) . Es handelt sich um einen Datensatz mit zehntausenden Dimensionen tausender Gewebeproben verschiedener Krebsarten. Um zu testen, ob das deep neural network in der Lage ist, die intrinsische Struktur der Daten zu erhalten, fütterten wir das Network mit keinerlei Informationen über die Krebsarten, aus denen die Gewebeproben entnommen wurden. Und dennoch wurden Proben gleicher Krebsarten in einer zweidimensionalen Darstellung eindeutig zusammengelegt. Das bedeutet, dass die Struktur der höherdimensionalen Daten trotz der Vereinfachung durch den deep autoencoder erhalten blieb.