Аналіз головних компонентів дає змогу проектувати багатовимірний набір даних (де кількість вимірів дорівнює кількості генів або транскриптів) на два або три виміри.
Показано графік аналізу головних компонентів (PCA). подібності між групами зразків у наборі даних.
Сюжет PCA є діаграма розсіювання, створена з використанням перших двох головних компонентів як осей. Перший головний компонент (PC1) є віссю x, а другий головний компонент (PC2) є віссю y.
Профільна ділянка показує кореляції між кожним ПК і вихідними змінними. Певною мірою ви можете здогадатися про знак і приблизну величину кореляції, дивлячись на коефіцієнти, які визначають кожен ПК як лінійну комбінацію вихідних змінних.
PCA — це перетворення багатовимірних даних у ортогональний базис, таким чином, що перший головний компонент (PC, він же «вісь») вирівнюється з найбільшим джерелом дисперсії, другий PC — із найбільшим джерелом дисперсії, що залишився, і так далі.
(a) Діаграми PCA даних RNA-seq показують характеристики зразків відповідно до рівнів експресії генів (FPKM) (ліворуч) і якості РНК (оцінка TIN). Кожна крапка позначає зразок. (b) Boxplot вказує на якість РНК зразків відповідно до балів TIN. Товста лінія (чорна) усередині поля позначає середнє значення.