Tyler Burns, Dr. Garry Nolan'ın Stanford'daki laboratuvarında Kanser Biyolojisi alanında Doktora Programı’ndadır ve Cytobank'ta danışmandır. Tyler'ın Nolan laboratuvarındaki çalışması, yüksek parametreli tek hücreli analiz için yeni hesaplama yöntemleri geliştirmeye odaklanmıştır.
T-dağıtımlı stokastik komşu gömme (t-SNE), 2008 yılında Laurens Van Der Maarten ve Geoffrey Hinton tarafından geliştirilen bir veri görselleştirme algoritmasıdır. Karmaşık yüksek parametreli verileri kolay anlaşılır iki boyutlu bir "haritaya" dönüştürür. 2013 yılında, El-ad David Amir ve çalışma arkadaşları bu yöntemi toplu sitometre veri analizine uygulamış ve buna viSNE adını vermiştir. O zamandan bu yana hem akademideki hem de sektördeki kütle ve floresan sitometre kullanıcıları tarafından verilerini görselleştirmek ve normalde geleneksel çift eksenli geçitleme kullandıklarında kaçıracakları keşifleri yapmak için kullanılmıştır.
Cytobank’taki varsayılan parametreler (2013 Amir vd. makalesinde tanıtılmıştır) birçok sitometre analizi için işe yarasa da, algoritmanın belirli analizler için ayarlanması gereken birçok parametresi vardır ve herhangi bir analizden en iyi şekilde yararlanmak için optimize edilebilir. Bu parametrelerin t-SNE haritasını nasıl etkilediğini görselleştirmek için harika bir interaktif araç Wattenberg ve çalışma arkadaşları tarafından geliştirilmiştir.
Cytobank’ta mevcut olan en son viSNE sürümü, kullanıcıların verilerinden en iyi şekilde yararlanmak için bu ayarlanabilir parametrelerin bir dizisini değiştirmelerine olanak tanır. Cytobank’ın destekleyici makalesi, bu parametrelerin neler olduğunu ve çıktıyı nasıl etkilediklerini detaylı olarak ele almaktadır. Bu blog gönderisinin amacı, belirli veri kümesi türleri ve klinik/biyolojik sorular için en iyi parametre değerleri hakkında etkili bir şekilde rehberlik sağlamaktır. Bu amaçla bu paylaşımı, Cytobank’ın kullanıcı arayüzü aracılığıyla viSNE parametrelerini test ettikten sonra çıktı ve çalışma süresini inceleyerek öğrenilen bir dizi derse ayırmaktayım.
Ders 1:
Yineleme ve perpleksite sayısını optimize etmek viSNE haritasındaki hücre popülasyonlarını ayırmaya yardımcı olur
Bir viSNE haritasında popülasyonların sayısını ve bu popülasyonların ayrılmasını görmenin faydalı bir yolu, konturların hücre yoğunluğunu temsil ettiği bir kontur diyagramı kullanmaktır. Konturlarda farklı hücre popülasyonları “pik” olarak görülecektir. İyi çözümlenmemiş viSNE haritaları popülasyonlar arasında net bir ayrıma sahip olmayacaktır. Popülasyonları otomatik olarak tanımlamak için viSNE haritasını manuel olarak geçitlemek veya kümelemek isterseniz (ör. SPADE'i viSNE üzerinde çalıştırarak) popülasyonların ayrılması da faydalı olacaktır.
Yinelemeler
Cytobank'taki viSNE, orijinal yüksek parametreli veriler ile çıktı olarak görüntülenen 2 boyutlu harita arasındaki Kullback-Liebler (KL) farkı adı verilen farkı yinelemeli olarak azaltır. 2 boyutlu harita, yüksek parametreli verilere daha fazla benzer hale geldikçe, KL farklılık değeri düşer ve sonuç olarak birleşir (alttan dışa doğru), ancak bu sadece yeterli yineleme gerçekleştirildiğinde meydana gelir. Aşağıda, varsayılan değer olarak 1000 yerine 10.000 yineleme kullanılması hücre alt kümelerinin daha fazla ayrılmasına yol açar (diğer her şey için varsayılan değerlerin tutulması). Bu durumda veriler çok farklı görünmez. Hala “anakaranın” kuzeydoğusunda dört “ada” bulunmaktadır. Daha temiz görünüyor, ancak viSNE çalışması daha uzun sürer. Ancak birçok uygulamada, daha fazla yineleme bir gerekliliktir (aşağıdaki 2. derse bakın). Bunu kolaylaştırmak için, Cytobank’ın arayüzü her 50 yinelemenin ne kadar sürdüğünü rapor edecektir, böylece kullanıcı 1000 yerine 10.000 yinelemenin ne kadar süreceğini tahmin edebilir.

Perpleksite
Perpleksite etkili bir şekilde, son viSNE haritasını oluşturmak için belirli bir hücrenin yüksek boyutlu alanda karşılaştırılacağı en yakın komşularının sayısıdır (https://lvdmaaten.github.io/tsne/). Cytobank varsayılan değeri 30 olarak ayarlar. Yinelemelerde olduğu gibi, perpleksitenin varsayılan değeri olan 30’un ötesine artırılması popülasyonların daha fazla ayrılmasına olanak tanır ve bir kontur diyagramında görülebilir.

Yinelemelerde olduğu gibi, bir viSNE haritasında hücre alt kümelerini manuel olarak geçitlemeyi veya kümelemeyi planlıyorsanız veya viSNE haritasının daha düşük ayarlarda birleşmediği durumlarda (2. derse bakınız) daha yüksek perpleksite (varsayılan değer olan 30’un üzerinde) faydalı olabilir. Ancak, bazı sorular için 30 değeri yeterli olabilir. Yinelemelerde olduğu gibi, daha yüksek perpleksite algoritmayı yavaşlatır. Cytobank’ın buluttaki viSNE uygulamasının faydalarından biri de, daha fazla yineleme veya daha yüksek perpleksite gerektiğinde, bu uzun viSNE çalışmalarının dizüstü bilgisayarınızı yerel bir masaüstü çözümünde çalıştırmanız durumunda olduğu gibi bloke etmemesidir.
Ders 2:
Daha büyük deneyler, birçok örnek birleştirildiğinde veya nadir hücre popülasyonları bir hedef olduğunda hücre popülasyonlarını ayırmak için daha fazla yineleme ve daha yüksek perpleksite gerektirebilir.
Yukarıda gösterdiğim üzere, özellikle çok sayıda dosyanız olduğunda ve her birinden yeterli sayıda hücrenin dahil edildiğinden emin olmanız gerektiğinde veya nadir hücre popülasyonları ile ilgilendiğinizde, bir veri kümesi için perpleksiteyi ve yineleme sayısını en üst düzeye çıkarmanın gerekli olabileceği durumlar olabilir.
1. dersteki 50.000 hücrenin maksimum perpleksite (100) ve yinelemelerin varsayılan sayısının 10 katı bir sayı (10.000) ile örneklendiği toplam 500.000 hücrelik veri kümesini kullandığımda, daha fazla hücre alt popülasyonunu (kontur diyagramında “pikler” ve adalar ile gösterildiği gibi) görebileceğiniz aşağıda yer alan kontur diyagramlarında bunun bir örneği gösterilmektedir. Bu sadece “en iyi” olası t-SNE çıktısının ne olduğunu görmek için çok aşırı bir örnek olsa da (çalışma 72 saat sürmüştür), bu çok yüksek parametrelerle nelerin mümkün olduğunu göstermektedir ve bu çözünürlük seviyesinin nadir hücre popülasyonlarını tanımlamaya yardımcı olabileceğini tahmin edebilirsiniz.

Aşağıdaki viSNE haritalarında belirli bir hücre popülasyonunu izole eden bir yüzey işaretleyici ile renklendirilen başka bir örnek gösterilmektedir. Bu viSNE haritaları, floresan verileri kullanılarak yapılan büyük bir deneyin parçası olan tek bir örnek içindir. Her örnekten yeterli sayıda hücrenin dahil edilmesini sağlamak için viSNE'ye 800.000 hücre dahil edilmiştir. Sadece 1000 yineleme ile, bu işaretleyiciyi eksprese eden hücre popülasyonu viSNE haritasında gruplandırılmamıştır. Ancak, 5000 yineleme ile popülasyon güzel bir şekilde küçültülür. Bu, viSNE haritasının bu kanal tarafından renklendirilmesiyle Cytobank’ta kolaylıkla görülebilir.

800.000 hücre ile 5.000 yinelemeli bu çalışma Cytobank’ın bulutunda 18 saat sürmüştür. Cytobank bulutta viSNE’yi çalıştırdığı için bu uzun analizlerin her ikisini de yapabilirim. Bilgisayarım hiç etkilenmedi ve viSNE analizim tamamlandığında bana haber veren otomatik bir e-posta aldım. Lokal masaüstü viSNE uygulamaları bir kullanıcının bilgisayarını açık ve çalışır durumda tutmasını gerektirir ve kullanıcının paralel olarak çalıştırdığı diğer tüm programların işleme hızını olumsuz etkileyebilir. Cytobank’ın bulutu da analizlerim için önemliydi çünkü bu viSNE analizlerinden birkaçını paralel olarak çalışıyordum ve bu da şu anda bir masaüstü çözümünde mümkün değil.
Ders 3:
viSNE analiziniz birleştirmeyi tamamlamamış olsa bile, kanala göre renklendiriyorsanız hücre popülasyonlarının birlikte gruplandığını görebilirsiniz.
Belirli bir veri kümesi için gereken perpleksite ve yineleme sayısı, sorunuza veya amacınıza bağlı olarak çok yüksek olmayabilir. Burada 10 perpleksite ve 100 perpleksite ile t-SNE gerçekleştirdim. Bu örnekte, 100 perpleksitenin hücre popülasyonlarını harita üzerinde daha iyi ayırdığını, ancak daha düşük perpleksite değerlerinin yüzey işaretleyici ekspresyonu açısından hücreleri birlikte gruplandırdığını göstermekteyim. Başka bir deyişle, harita daha az organize görünse dahi, hücre alt kümeleri bu veri kümesinde birlikte gruplanır ve kanala göre renklendirme görülebilir. Kullanıcının tek amacı hücreleri işaretleyici ekspresyonuna göre gruplandırmaksa, yüksek perpleksite ve yineleme gerekli olmayabilir. Öte yandan, viSNE haritasındaki hücre alt kümelerinin ayrılması önemliyse (ör. kullanıcı viSNE haritasından popülasyonları geçitlemek veya kümelemek istediğinde), daha yüksek perpleksite ve yinelemeler gerekebilir. Her şey kullanıcının hedeflerine bağlıdır.

Hepsini bir araya getirmek
Artan perpleksite ve yinelemelerin viSNE haritalarını daha temiz hale getirebileceğini ve haritada grup hücre popülasyonlarını “adalar” olarak iyileştirebileceğini gösterdim. Ancak bunun sonucunda algoritma yavaşlatılmaktadır! Cytobank’ın bulut çözümü, özellikle yeterli bir çözünürlük elde etmek için daha yüksek perpleksite ve yinelemelerin gerekli olduğu durumlarda bu daha uzun ve daha karmaşık viSNE çalışmaları için kritik öneme sahiptir. Ayrıca viSNE'niz bu adaları ayırmak için yeterince yakın olmasa bile yüzey işaretleyici ekspresyonuna göre renklendirmenin hücre popülasyonlarını görselleştirmenize izin verdiğini de gösterdim.
Şimdi önünüzde bir sitometre veri kümeniz var ve analiziniz için viSNE'yi en etkili şekilde nasıl kullanacağınızı bulmaya çalışıyorsunuz. Sizin yerinizde olsam ViSNE haritanızdan ne elde etmek istediğinizi düşünürüm. Bunu göz önünde bulundurarak, perpleksite ve yinelemeler için bazı farklı girdilerle birkaç deneme çalışması yapar ve bunun verilerinize ne yaptığını görürdüm. Unutmayın, bunların hepsi paralel olarak ve bulutta yapılabilir! Minimum gerekli çalışma süresi ile en iyi görünen t-SNE haritasına giden girdi değerlerini seçin ve büyütün!
