Panduan Analisis Filogenetik Victor dan Sembiring

 Klasifikasi Molekular Filogenetik Berdasarkan Gen RNA Ribosomal

 

A. Pengantar

Klasifikasi molekular filogenetik merupakan klasifikasi yang disusun dengan mempertimbangkan jalur evolusi setiap organisme yang dikaji. Hal ini berbeda dengan klasifikasi fenetik yang hanya melihat hubungan antar organisme berdasarkan karakter yang ada pada saat ini (Priest & Austin, 1993). Dalam prosesnya, klasifikasi molekular filogenetik menggunakan data berupa urutan (sequence) nukleotida pada DNA atau asam amino pada protein. Sequence nukleotida yang digunakan dalam klasifikasi molekular filogenetik harus merupakan sequence yang diwariskan langsung oleh nenek moyang (homolog) serta memiliki kesamaan sejarah evolusi. Sebuah sequence dapat disebut sebagai marker molekular apabila memenuhi persyaratan berupa: (1) terdistribusi pada seluruh organisme, (2) memiliki kesetaraan fungsi pada seluruh organisme, dan (3) memegang peranan vital bagi kehidupan organisme. Hal ini menjadikan marker molekular merupakan sequence yang tepat untuk digunakan dalam studi klasifikasi filogenetik.

Gen 16S rRNA merupakan salah satu contoh marker molekular karena terdapat pada organisme baik yang berada pada domain Bacteria, Archaea, serta Eukarya. Saat ini, informasi mengenai sequence gen 16S rRNA sudah sangat banyak tersedia pada database internasional dan juga sudah dijadikan standar penetapan suatu spesies baru dalam studi taksonomi. Pada praktikum ini kita akan mencoba mengklasifikasikan sejumlah bakteri dengan cara merekonstruksi pohon filogenetik berdasarkan sequence gen 16S RNA yang dimiliki.

 

B. Cara Kerja

1. Persiapan Data

Data yang digunakan dalam klasifikasi berbasis molekular filogenetik adalah berupa urutan (sequence) nukleotida atau asam amino. Kedua jenis sequence ini umumnya dapat diperoleh dari hasil sequencing DNA/protein maupun dari sequence database internasional yang tersedia di internet. Untuk kemudahan dalam praktikum ini, kita akan menggunakan cara kedua, yakni mengunduh sequence nukleotida/asam amino dari internet. Saat ini sudah banyak sekali situs yang memfasilitasi hal tersebut. Situs GenBank, DDBJ, serta EMBL merupakan situs dimana pencarian sequence nukleotida/asam amino umumnya dilakukan. Dalam acara praktikum ini, kita akan mencoba mengunduh data melalui GenBank (http://www. ncbi.nlm.nih.gov/Genbank/) dan untuk selanjutnya sequence DNA akan digunakan sebagai contoh persiapan data.

Pada GenBank kita dapat mencari sequence DNA berdasarkan nama gen, spesies pemilik gen, atau accession number pada kolom search yang tersedia. Accession number merupakan penanda/identitas dari setiap sequence DNA yang telah disimpan pada situs tersebut. Pada umumnya accession number tertulis pada artikel publikasi ilmiah yang penelitinya telah menyumbangkan hasil sequencing-nya ke database yang ada. Pencarian pada menu search di GenBank terdiri dari banyak menu sub-pencarian untuk memudahkan penelusuran data, namun dalam praktikum ini kita akan lebih fokus pada pencarian dengan menu Nucleotide, Protein, dan Genome. Sebagai contoh, apabila kita ingin melakukan pencarian gen 16S rRNA bakteri Escherichia coli maka kita dapat melakukan salah satu dari hal berikut:

1. Melakukan penelusuran pustaka, misalnya pada artikel jurnal untuk mendapatkan accession number. Sebagai contoh, Escherichia coli ATCC 11775T pada Bergey’s Manual of Systematic Bacteriology (Brenner et al., 2005) memiliki accession number X80725. Accession Number ini dapat diketikan pada kolom search nucleotide. Cara ini merupakan pencarian yang cukup spesifik karena setiap sequence dari setiap jenis organisme memiliki accession number tersendiri.

2. Melakukan penelusuran pada situs List of Prokaryotic names with Standing in Nomenclature (LPSN, http://www.bacterio.cict.fr/). Penelusuran melalui situs ini khusus untuk pencarian sequence bakteri dan archaea saja. Informasi yang diberikan mengenai suatu genus/spesies meliputi type species, type strain, tahun ditemukan, dan publikasi (valid/efektif) terkait genus/spesies tersebut.

3. Melakukan penelusuran pada kolom search nucleotide di GenBank dengan mengetik kata kunci, seperti “Escherichia coli 16S rRNA”. Cara ini kurang spesifik karena akan menghasilkan sejumlah daftar yang berisikan berbagai macam spesies bakteri yang mengandung sequence gen 16S rRNA dan kita harus mencarinya satu per satu.

4. Melakukan penelusuran pada kolom search genome di GenBank dan kemudian mengetik nama spesies yang kita inginkan. Umumnya hasil penelusuran meliputi sejumlah daftar complete genome dari spesies yang dicari. Kita dapat mencari gen yang diinginkan dalam daftar complete genome tersebut. Cara ini cukup memakan waktu, namun kita dapat menelusuri berbagai jenis gen dari spesies tersebut.

 

Contoh hasil pencarian dengan accession number X80725 akan ditampilkan sebagai berikut:

E.coli (ATCC 11775T) gene for 16S rRNA

GenBank: X80725.1

FASTA Graphics

LOCUS       X80725                  1450 bp    DNA     linear   BCT 29-MAR-1996

DEFINITION  E.coli (ATCC 11775T) gene for 16S rRNA.

ACCESSION   X80725

VERSION     X80725.1  GI:1240022

KEYWORDS    16S ribosomal RNA; 16S rRNA gene; 16S small subunit ribosomal RNA.

SOURCE      Escherichia coli DSM 30083

  ORGANISM  Escherichia coli DSM 30083

            Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;

            Enterobacteriaceae; Escherichia.

REFERENCE   1

  AUTHORS   Cilia,V., Lafay,B. and Christen,R.

  TITLE     Sequence heterogeneities among 16S ribosomal RNA sequences, and their effect on phylogenetic analyses at the species level

  JOURNAL   Mol. Biol. Evol. 13 (3), 451-461 (1996)

   PUBMED   8742634

REFERENCE   2  (bases 1 to 1450)

  AUTHORS   Lafay,B.

  TITLE     Direct Submission

  JOURNAL   Submitted (26-JUL-1994) B. Lafay, CNRS & Universite Paris 6,Station Zoologique, Observatoire Oceanologique, Villefranche Sur

            Mer, 06230, FRANCE

FEATURES             Location/Qualifiers

     source          1..1450

                     /organism="Escherichia coli DSM 30083"

                     /mol_type="genomic DNA"

                     /strain="ATCC 11775T"

                     /db_xref="taxon:866789"

     gene            1..1450

                     /gene="16S rRNA"

     rRNA            1..1450

                     /gene="16S rRNA"

                     /product="16S ribosomal RNA"

ORIGIN      

1   agtttgatca tggctcagat tgaacgctgg cggcaggcct aacacatgca

51  agtcgaacgg taacaggaag cagcttgctg ctttgctgac gagtggcgga

101 cgggtgagta atgtctggga aactgcctga tggaggggga taactactgg

151 aaacggtagc taataccgca taacgtcgca agcacaaaga gggggacctt

201 agggcctctt gccatcggat gtgcccagat gggatta...

 

Tulisan diatas mengandung informasi mengenai jenis sequence, asal sequence, produk yang dihasilkan, dan sequence itu sendiri. Dalam contoh ini jenis sequence adalah gen 16S rRNA yang berasal dari Escherichia coli ATCC 11775T. Gen ini akan menghasilkan produk berupa 16S RNA ribosomal (rRNA). Informasi mengenai hasil pengkodean dari sequence dapat dilihat pada FEATURES. Sequence dari DNA itu sendiri yang dituliskan per 10 nukleotida pada kolom ORIGIN. Sequence ini selanjutnya dapat diunduh dalam bentuk FASTA dengan cara meng-klik link FASTA pada baris ketiga, dan akan muncul:

 

E.coli (ATCC 11775T) gene for 16S rRNA

GenBank: X80725.1

GenBank Graphics

>gi|1240022|emb|X80725.1| E.coli (ATCC 11775T) gene for 16S rRNA

 

AGTTTGATCATGGCTCAGATTGAACGCTGGCGGCAGGCCTAACACATGCAAGTCGAACGGTAACAGGAAGCAGCTTGCTGCTTTGCTGACGAGTGGCGGACGGGTGAGTAATGTCTGGGAAACTGCCTGATGGAGGGGGATAACTACTGGAAACGGTAGCTAATACCGCATAACGTCGCAAGCACAAAGAGGGGGACCTTAGGGCCTCTTGCCATCGGATGTGCCCAGATGGGATTA...

Kedua jenis data ini (informasi sequence dan sequence FASTA) dikompilasi ke masing-masing arsip untuk membuat database sendiri.

 

2. Sequence Alignment dengan Program ClustalX 2.1 (Larkin et al., 2001)

Alignment bertujuan untuk menata sequence agar satu sama lain diletakkan sesuai dengan posisi homologi antar sequence. Hanya berdasarkan alignment inilah kita dapat membandingkan antar sequence gen 16S rRNA dari masing-masing strain mikrobia yang akan diklasifikasikan. Alignment menggunakan program ClustalX dilakukan dengan mempersiapkan data sequence dalam format FASTA. Dataset sejumlah sequence yang telah didapatkan dikumpulkan terlebih dahulu ke dalam 1 file Notepad dengan awalan dari setiap sequence diberikan tanda “>”. Contohnya dapat dilihat pada sequence berikut:

>Allochromatium vinosum DSM 180

agagtttgatcctggctcagattgaacgctggcggcatgcctaacacatgc...

>Chlorobium luteolum DSM 273

aggaaagcggcttcggccgggagtacttggcgcaagggtgagtaaggcata...

>Chloroflexus aurantiacus J-10-fl

aaaggaggtgatccagccgcaccttccggtacggctaccttgttacgactt...

Penamaan dalam pembuatan dataset sequence ini juga perlu diperhatikan. Disarankan untuk menyingkat nama dari setiap sequence yang ada karena program ClustalX akan secara otomatis memotong karakter nama apabila melebihi 30 karakter. Selain itu, hasil alignment ClustalX yang akan digunakan dalam program Phylip (.phy) juga akan secara otomatis memotong karakter nama apabila melebihi 10 karakter. Hal ini akan membingungkan apabila pembeda antar nama sequence satu dengan lainnya terletak pada posisi karakter >10, karena ketika dipotong akan menghasilkan nama yang sama antar sequence satu dengan lainnya. Dengan demikian, sebaiknya kita membuat daftar baru (dengan MS Word atau Notepad) yang berisi rincian nama sequence beserta singkatannya. Singkatan nama ini yang akan kita gunakan dalam dataset yang akan diproses dalam ClustalX. Contoh dataset diatas setelah namanya disingkat akan menjadi:

>AvinDSM180

agagtttgatcctggctcagattgaacgctggcggcatgcctaacacatgc...

>ClutDSM273

aggaaagcggcttcggccgggagtacttggcgcaagggtgagtaaggcata...

>ChaurJ-10-fl

aaaggaggtgatccagccgcaccttccggtacggctaccttgttacgactt...

Perlu diperhatikan bahwa pemberian nama tidak boleh mengandung spasi. Penyingkatan nama sequence hingga satu karakter (A-Z) sebaiknya tidak dilakukan karena akan membuat program ClustalX salah mengenali karakter nama menjadi salah satu komponen sequence nukleotida atau asam amino. Jadi, contoh seperti:

>A

caaaatggagagtttgatcctggctcaggatgaacgctggcggcgtgctt...

tidak boleh dilakukan karena nama “A” akan disalahartikan sebagai nukleotida oleh ClustalX. Dataset yang telah siap selanjutnya disimpan  dan selanjutnya dimasukan ke dalam ClustalX. Pertama buka program ClustalX, File Load Sequences. Pilih file dataset yang telah disimpan dan program tersebut akan secara otomatis menampilkan nama sequence pada kolom sebelah kiri dan sequence-nya di kolom sebelah kanan (Gambar 3.1).

Gambar 1. Hasil input dataset pada ClustalX.
 

3. Rekonstruksi Pohon Filogenetik dengan PHYLIP v3.6.9 (Felsenstein, 2005)

Rekonstruksi dengan program ini membutuhkan file input dalam format .phy yang dapat dihasilkan oleh program ClustalX atau MEGA. Program Phylip memiliki serangkaian aplikasi executeable yang dapat menganalisis data sequence dengan berbagai algoritme. Aplikasi yang terdapat pada Phylip antara lain:

 

clique

dnamlk

drawgram

neighbor

restml

concense

dnamove

drawtree

pars

retree

contml

dnapars

factor

penny

seqboot

contrast

dnapenny

fitch

proml

treedist

dnacomp

dollop

gendist

promlk

 

dnadist

dolmove

main

protdist

 

dnainvar

dolpenny

mix

protpars

 

dnaml

draw

move

restdist

 

 

Rekonstruksi pohon filogenetik pada Phylip dapat dilakukan dengan aplikasi neighbor, fitch, dnapars, dan dnaml untuk sequence nukleotida. Aplikasi neighbor juga dapat digunakan untuk merekonstruksi pohon dengan sequence asam amino, namun sebelumnya harus menggunakan input data yang dihasilkan dari aplikasi protdist. Aplikasi protml dan protpars memiliki prinsip analisis yang sama dengan dnaml dan dnapars, namun menggunakan sequence asam amino sebagai data inputnya. Rincian mengenai kegunaan aplikasi lainnya dapat dilihat pada manual program tersebut.

Untuk merekonstruksi pohon filogenetik, pertama copy file format .phy ke dalam folder exe yang terdapat di dalam folder Phylip dan kemudian ganti nama file tersebut menjadi infile tanpa menggunakan extension/format apapun. Folder exe terkadang sudah mengandung file dengan nama infile yang disebabkan oleh analisis data yang pernah dilakukan sebelumnya. Apabila kita menjumpai file infile tersebut, hapus terlebih dahulu dan kemudian baru mengganti nama file .phy menjadi infile. Sebelum beranjak ke rekonstruksi menggunakan algoritme Neighbor-Joining (neighbor), kita perlu terlebih dahulu membuat matriks distance pasangan OTU dengan aplikasi dnadist. Dengan demikian, buka aplikasi dnadist dan program tersebut akan langsung mengenali infile yang kita masukan. Apabila program tersebut tidak dapat melacak keberadaan infile, kemungkinan hal tersebut disebabkan infile masih berada dalam format .phy. Untuk mengatasi masalah ini, ketikan infile.phy pada command prompt aplikasi dnadist dan infile akan segera terbuka. Menu yang terdapat pada aplikasi dnadist berupa:

 

Nucleic acid sequence Distance Matrix program, version 3.69

Settings for this run:

  D  Distance (F84, Kimura, Jukes-Cantor, LogDet)?  F84

  G          Gamma distributed rates across sites?  No

  T                 Transition/transversion ratio?  2.0

  C            One category of substitution rates?  Yes

  W                         Use weights for sites?  No

  F                Use empirical base frequencies?  Yes

  L                      Form of distance matrix?  Square

  M                    Analyze multiple data sets?  No

  I                   Input sequences interleaved?  Yes

  0            Terminal type (IBM PC, ANSI, none)?  ANSI

  1             Print out the data at start of run  No

  2           Print indications of progress of run  Yes

 

  Y to accept these or type the letter for one to change

 

Setiap huruf yang tertera di sebelah kiri dapat dipakai untuk mengganti pilihan menu yang ada di sebelahnya. Untuk mengganti model substitusi nukleotida, tekan D diikuti dengan Enter hingga mendapatkan pilihan model substitusi yang diinginkan. Pengaturan di awal program akan memberikan pilihan model substitusi Felsenstein 84 (F84). Pilihan model substitusi yang tersedia mencakup F84, Kimura, Jukes-Cantor, LogDet, dan p-distance. Apabila pengaturan sudah selesai dilakukan, tekan Y diikuti dengan Enter untuk menjalankan analisis. Hasil analisis akan ditulis dalam outfile yang dapat dibuka dengan programt text editor seperti Notepad. Perlu diketahui bahwa rekonstruksi pohon filogenetik yang menggunakan data distance matrix berbasis seperti UPGMA, Neighbor-Joining, dan algoritme Fitch-Margoliash (minimum evolution) menggunakan outfile berupa matriks distance yang dihasilkan oleh aplikasi dnadist untuk sequence nukleotida atau protdist untuk sequence asam amino.

Setelah mendapatkan matriks distance, kita dapat melakukan rekonstruksi filogenetik dengan algoritme distance-matrix seperti Neighbor-Joining. Sebelum rekonstruksi dilakukan, hapus infile terlebih dahulu pada folder exe lalu kemudian ganti nama (rename) outfile (matriks distance) menjadi infile. Setelah pergantian nama selesai dilakukan, buka aplikasi neighbor dan akan tampil menu berupa:

 

Neighbor-Joining/UPGMA method version 3.69

Settings for this run:

  N Neighbor-joining or UPGMA tree?  Neighbor-joining

  O Outgroup root?  No, use as outgroup species  1

  L Lower-triangular data matrix?  No

  R Upper-triangular data matrix?  No

  S Subreplicates?  No

  J Randomize input order of species?  No. Use input order

  M Analyze multiple data sets?  No

  0 Terminal type (IBM PC, ANSI, none)?  ANSI

  1 Print out the data at start of run  No

  2 Print indications of progress of run  Yes

  3 Print out tree  Yes

  4 Write out trees onto tree file?  Yes

 

  Y to accept these or type the letter for one to change

 

Aplikasi neighbor selain menghasilkan pohon NJ juga dapat dipakai untuk menghasilkan pohon UPGMA dengan cara mengganti menu N. Apabila sudah tidak ada perubahan yang ingin dilakukan, tekan Y dan Enter. File hasil analisis akan dimuat ke dalam outfile dan gambar pohon dimuat pada outtree. File outfile dapat dibuka dengan Notepad dan dapat di-copy ke dalam MS Excel untuk memudahkan pembacaan, sedangkan file outtree dapat dibuka dengan program Treeview (Page, 1996). Rekonstruksi pohon filogenetik dengan algoritme berbasis character-based seperti maximum parsimony dan maximum likelihood menggunakan file .phy sebagai infile dan tidak perlu dibuat matriks p-distance. Dengan demikian kita dapat langsung menjalankan program dnapars untuk analisis parsimony atau dnaml untuk analisis likelihood langsung terhadap infile.

Rekonstruksi pohon filogenetik juga dapat dilakukan dengan analisis bootstrap. Analisis bootstrap pada Phylip dapat dilakukan dengan aplikasi seqboot. Tahapan analisis bootstrap dilakukan sebagai berikut:

· Jalankan aplikasi seqboot terhadap infile berupa sequence alignment. Pengaturan menu awal sudah disesuaikan untuk analisis bootstrap terhadap sequence molekular. Hal yang perlu diperhatikan adalah jumlah replikasi yang diperlukan (menu R). Pada umumnya digunakan sebanyak 1000 replikasi. Mengganti menu R akan menyuruh kita untuk memasukan jumlah replikasi yang diinginkan, dalam hal ini ketik 1000 dan enter. Setelah itu tekan Y kemudian enter, dan program akan menanyakan jumlah random seed (harus ganjil) yang perlu dimasukan, dan dalam hal ini ketik saja angka 5 dan enter. Aplikasi seqboot selanjutnya akan menghasilkan sejumlah replikasi yang dimasukan dalam outfile.

· Ubah outfile yang dihasilkan oleh seqboot menjadi infile dan kemudian jalankan dnadist. Pada dnadist, gunakan menu M untuk mengaktifkan analisis multiple datasets. Ketika diaktifkan, akan muncul pertanyaan untuk analisis multiple datasets (menu D) atau multiple weights (menu W). Tekan D kemudian enter dan selanjutnya dnadist akan menanyakan berapa dataset yang akan digunakan untuk dibuat matriksnya. Kita dapat memasukan semua dataset (dalam hal ini 1000) atau hanya sebagian saja apabila ingin menghemat waktu komputasi. Setelah memasukan jumlah dataset, tekan enter dan kemudian tekan Y diikuti dengan enter. Hasil berupa matriks sejumlah replikasi akan ditulis dalam outfile. Ubah outfile ini kembali menjadi infile untuk analisis selanjutnya.

· Jalankan neighbor dan aktifkan menu M. Seperti halnya dnadist, aplikasi neighbor juga akan menanyakan berapa dataset yang akan digunakan untuk rekonstruksi pohon NJ. Masukan jumlah dataset yang diinginkan dan enter. Masukan juga random seed number dengan angka ganjil, misalnya 5 dan setelah itu tekan Y diikuti enter. Hasil berupa data clustering untuk sejumlah replikasi akan kembali ditulis dalam outfile dan pohon NJ ditulis dalam outtree. Pohon NJ untuk sejumlah replikasi bootstrap ini perlu direkonstruksi menjadi sebuah concensus tree dan hal ini dilakukan oleh aplikasi concense. Namun sebelum menjalankan concense, ubah terlebih dahulu nama outtree menjadi intree.

· Jalankan aplikasi concense kemudian tekan Y dan enter. Hasil akan ditulis kembali menjadi outtree yang dapat dibuka dengan program TreeView. Pada program TreeView, aktifkan menu Tree Show Internal Edge Label. Jumlah replikasi bootstrap yang mendukung percabangan suatu clade akan ditampilkan pada setiap titik percabangan.

 

4. Rekonstruksi Pohon Filogenetik dengan MEGA 5.1 (Tamura et al. 2011)

Program MEGA memiliki format file tersendiri untuk menghasilkan rekonstruksi pohon filogenetik. Namun demikian, MEGA juga dapat menggunakan file hasil alignment ClustalX (.aln) sebagai input datanya. Rekonstruksi pohon filogenetik pada MEGA menggunakan data sequence dalam format .meg, sehingga sebelum merekonstruksi pohon filogenetik kita perlu terlebih dahulu membuat alignment file MEGA (.mas) dan sequence data MEGA (.meg).

Untuk membuat alignment file MEGA, jalankan program MEGA 5.1 dan kemudian masuk ke menu Align  Edit/Build Alignment  Retrieve sequences from a file. Kemudian pilih file format .aln yang dihasilkan oleh program ClustalX dan enter. Sebuah layar M5 Alignment Explorer akan muncul dan berisikan sequence alignment. Pada layar ini kita dapat melakukan alignment ulang (ClustalW atau Muscle), editing nama sequence, menambah sequence baru, serta menciptakan file data dalam format lainnya (MEGA, FASTA, & PAUP format). Dengan menu terakhir inilah kita dapat menghasilkan file sequence dalam format .meg. Masuk ke menu Data Export Alignment → MEGA Format. Save file output di tempat yang diinginkan dan kemudian kita akan diminta untuk memasukan Title Data. Title data dapat menggunakan nama gen atau apapun yang dapat membantu kita mengingat sequence apa yang digunakan dalam analisis. Setelah itu juga akan ditanyakan mengenai “protein coding sequence data?”. Klik “yes” apabila sequence yang kita gunakan merupakan sebuah coding gene. Apabila bukan, klik “no”. Kita juga dapat menyimpan alignment explorer ini dengan Data Save Session. Data akan disimpan dalam file dengan format .mas. Setelah selesai, tutup layar M5 Alignment Explorer.

Kembali ke layar utama MEGA, buka file format .meg yang dihasilkan sebelumnya dengan File Open A File/Session. File yang muncul dapat dilihat pada M5 Sequence Data Explorer (icon yang bertuliskan “TA”). Pada layar ini kita dapat menghasilkan beberapa perhitungan statistik seperti frekuensi nukleotida; perhitungan jumlah situs conserved, variable, parsimony informative, & singleton; hingga meng-export file. Kembali pada layar utama MEGA dan masuk ke menu Phylogeny Contruct/Test Neighbor-Joining Tree. Sebuah submenu akan muncul dengan serangkaian pilihan, diantaranya Test of Phylogeny, Substitution Models, Rates and Patterns, dan Data Subset to Use. Sekarang ini kita hanya mengatur submenu Test of Phylogeny dengan metode bootstrap dan 1000 replikasi dan menyerahkan sisa parameternya pada pengaturan awal program. Setelah itu klik Compute dan rekonstruksi pohon NJ akan berjalan.

Apabila proses komputasi telah selesai, akan muncul layar baru yang berisikan pohon filogenetik (M5 Tree Explorer). Pada layar ini kita dapat mengubah tampilan topologi pohon atau menentukan root menggunakan menu-menu yang terletak di sebelah kiri. Kita juga dapat menyimpan file pohon dalam format .mts dengan File Save Current Session. File pohon juga dapat dicetak menjadi file gambar dengan Image Save as PNG File.

 

5. Pembuatan Matriks Similaritas DNA dengan Phydit (Chun, 1995)

Program Phydit menggunakan data input berupa hasil alignment dengan format .gde yang dapat dihasilkan dengan program ClustalX. Salah satu analisis yang dilakukan oleh Phydit adalah penghasilan matriks similaritas nukleotida yang berisi persentase similaritas nukleotida antar pasangan sequence yang dibandingkan tanpa menggunakan model evolusi apapun.

Analisis dengan Phydit dilakukan dengan membuat file baru dengan membuka menu File New atau dengan menekan ikon New Phydit File yang terdapat pada panel atas bagian paling kiri. Sebuah menu akan muncul dimana kita dapat memasukan keterangan file. Isi keterangan apabila diperlukan dan apabila sudah, tekan OK. Phydit kemudian akan menampilkan layar baru bertuliskan No entry to tag. Pada tahap ini, masukan data melalui Data Import GDE (NT Replace) untuk sequence nukleotida. Pilih data dalam format .gde dan Phydit akan langsung memasukan sequence berdasarkan entry nama sequence. Penghasilan matriks similaritas nukleotida dapat dilakukan melalui Analysis SimTable: Generating Similarity Table yang terdapat pada panel atas.

Matriks similaritas nukleotida terdiri atas dua bagian, yakni bagian segitiga kanan atas (upper-right triangle) dan segitiga kiri bawah (lower-left triangle). Phydit akan menanyakan jenis data yang akan dimuat dalam masing-masing segitiga tersebut. Pada umumnya kita akan memasukan data similaritas nukleotida (NT Similarity) pada lower-left triangle dan jumlah nukleotida yang berbeda per total nukleotida yang dibandingkan (NT different/Total Nucleotides) pada upper-right triangle. Tekan OK dan akan muncul menu Options; tekan OK lagi untuk melanjutkan analisis. Hasil yang keluar berupa matriks yang dituliskan pada Notepad. Untuk memudahkan pembacaan, copy seluruh tulisan pada Notepad tersebut (ctrl+A kemudian ctrl+C) ke MS Excel dan kemudian simpan. Sebagai tambahan, Phydit juga menyediakan pilihan analisis lainnya yang mencakup:

· Alignment Reports, menu ini berfungsi untuk menampilkan hasil alignment sequence nukleotida/asam amino dalam bentuk text yang secara otomatis dibuka oleh Notepad.

· Sequence Statistics, menu ini berfungsi untuk menampilkan frekuensi nukleotida dan frekuensi asam amino dari sequence yang ada. Apabila kita menggunakan sequence nukleotida, adanya statistik frekuensi asam amino pada hasil diasumsikan bahwa sequnce yang dimiliki merupakan coding sequence.


 

Post a Comment

أحدث أقدم