MODE EXAMEN HORS-LIGNE

Enregistrer la collection

Entrez le nom du fichier à enregistrer :

.json

Exporter les données

Choisissez le type de données que vous voulez exporter :

Matrice de caractères seule (.nex, .csv)

Arbres phylogénétiques morphologiques seuls (.txt, .jpeg, .png)

Classification seule (.jpeg, .png)

Toutes les données morphologiques (.nex)

Séquences moléculaires alignées seules (.aln, .fasta, .nex)

Matrice des distances observées (.csv)

Dendrogrammes seuls (.txt)

Dendrogramme NJ, format A4 portrait (.jpeg, .png)

Dendrogramme UPGMA, format A4 portrait (.jpeg, .png)

Dendrogramme WPGMA, format A4 portrait (.jpeg, .png)

Séquences moléculaires, distances et dendrogrammes (.nex)

Matrice des distances patristiques reconstruites par NJ (.csv)

Matrice des distances patristiques reconstruites par UPGMA (.csv)

Matrice des distances patristiques reconstruites par WPGMA (.csv)

Entrez le nom du fichier à exporter et choisissez l'un des formats disponibles :

.aln .csv .fasta .html .nex .jpeg .png .txt

Bienvenue sur
PhyloGraphe !

par Damien Aubert Pennequin

Mode collège

PhyloGraphe (dernière MAJ : 17/11/2024)

PhyloGraphe succède au logiciel Phylogène. PhyloGraphe est une application pédagogique pour le collège et le lycée permettant de s'initier aux étapes de la reconstruction phylogénétique.

Auteur : Damien Aubert Pennequin. Email de l'auteur

icône de licence Licence : Les images des nouvelles collections sont libres de droit (domaine public) sauf indication contraire. Concernant les anciennes collections, les images et les données utilisées sont celles du logiciel Phylogène porté par l'ENS de Lyon. © Tous droits réservés. Le reste de l'application est sous licence de libre diffusion Creative Commons (CC). L'application peut être librement utilisée, à la condition de l'attribuer à l'auteur en citant son nom (BY). Aucune utilisation commerciale n'est autorisée (NC). Aucune modification de l'application n'est autorisée (ND).

RGPD : Cette application est compatible RGPD. Elle ne collecte aucune donnée. Elle n'utilise aucun cookie. Toutes les tâches s'exécutent côté client.

Remerciements : Merci à Philippe Cosentino pour son soutien et ses conseils dans la réalisation de ce projet. Merci à l'équipe de Phylogène de m'avoir permis de réutiliser les images et les données de leur logiciel. Merci enfin à l'ensemble des collègues qui ont testé et critiqué de manière constructive les premières versions de PhyloGraphe.

Générer une matrice aléatoire

Sans modèle évolutif

Nombre d'espèces : 4

Probabilité des espèces fossiles : 0 %

Nombre de caractères : 3

Probabilité des états absents : 50 %

Relancer automatiquement la simulation si toutes les espèces s'éteignent

Modèle "naissance-mort"

Nombre d'intervalles de temps : 100

Taux de cladogenèse par espèce λ : 55 ‰

Taux d'extinction par espèce μ : 45 ‰

Nombre de caractères : 32

Taux de mutation par caractère par espèce : 2 ‰

Échantillonnage des espèces vivantes : 100 %

Échantillonnage des espèces fossiles : 0 %

Filtrer les caractères constants

Échantillonnage des caractères restants : 100 %

Collections partagées

Banque morphoanatomique
Banque de séquences

Choisissez une collection :

Nouvelles collections

Anciennes collections de Phylogène

Niveau collège

Niveau lycée

Sélectionnez un type d'activité :

Commencer avec une matrice de caractères vide

Construire seulement un arbre phylogénétique

Classer seulement en groupes emboités

Choisissez un assortiment de séquences :

Exemples artificiels

Substitutions ponctuelles (ADN)

Substitutions ponctuelles avec lacunes (ADN)

Arthropodes

Arthropodes, ND5 (Pro)

Insectes, récepteur de la ryanodine (RyR) (Pro)

Cétacés et artiodactyles

Caséine bêta (ADN)

Caséine bêta (Pro)

Familles multigéniques (H. sapiens)

Hormones LH, FSH, TSH et HCG (Pro)

Hormones GH, HPRL et HLP (Pro)

Globines (Pro)

Opsines (ADN)

Opsines (Pro)

Kinases SRC, HCK, BLK, LYN, FGR, YES, FYN (ADN)

Immunologie

TLR1 (Pro)

TLR2 (Pro)

TLR3 (Pro)

TLR4 (Pro)

TLR5 (Pro)

TLR6 (Pro)

TLR7 (Pro)

TLR8 (Pro)

TLR9 (Pro)

TLR10 (Pro)

Lignée humaine

Concaténation de peptides de paranthropes (Pro)

Ensemble des primates (ADN mitochondrial)

Populations de chimpanzés et d'hommes (ADN mitochondrial)

Populations humaines (ADN mitochondrial)

Primates

ASPM (ADN)

ASPM (Pro)

Cyclooxygénase 2 (COX-2), catarhiniens (Pro)

Cyclooxygénase 2 (COX-2), primates (Pro)

Cytochrome oxydase I (COI), hominoïdes (ADN)

Cytochrome oxydase I (COI), primates (ADN)

Exon 18 de MYH16 (ADN)

Globine bêta, grande sélection (Pro)

Globine bêta, petite sélection (Pro)

Globine epsilon (Pro)

Microcéphaline MCPH1 (ADN)

Opsine bleue, primates (Pro)

Unité du vivant

Eucaryotes, actine (Pro)

Eucaryotes, CDC22/CDK1 (ADN)

Facteur d'élongation de la traduction (EF-Tu/eEF1-α) (Pro)

Végétaux (plantes vertes)

Rubisco (Pro)

Vertébrés

Hémoglobine sous-unité alpha (Pro)

Hémoglobine sous-unité bêta (Pro)

Myoglobine (Pro)

Opsine bleue, vertébrés (Pro)

Virus SARS-CoV-2

Génomes des souches de SARS-CoV-1 et de SARS-CoV-2 (ADN)

Génomes des SARS-CoV-2 de l'homme, du pangolin, et des chauve-souris (ADN)

Génomes des coronavirus humains (ADN)

Génomes des coronavirus humains et animaux (ADN)

Génomes des SARS-CoV-2 du Wuhan (ADN)

Domaine de fixation de Spike au recepteur ACE-1 (Pro)

Variants de la protéine de surface Spike (ADN)

Variants de la protéine de surface NSP3 (Pro)

Fusion de collections

En cas de conflits entre les deux matrices (état de caractère ou descripteur différents pour une même case), souhaitez-vous conserver les données actuelles ou bien les écraser avec les nouvelles données ?

Gestionnaire des descripteurs

Chargez des images et écrivez des textes décrivant les espèces ou leurs caractères.
Assignez ensuite ces descripteurs aux différentes espèces et aux différents caractères de chaque espèce en copiant leurs identifiants dans la matrice.
Double-cliquez sur une case de la matrice pour y coller un identifiant.
Cliquez-droit sur une case de la matrice pour retrouver le descripteur dans la liste.
Les espèces fossiles apparaissent en rouge et les caractères dont les colonnes sont complètes apparaissent en vert.

Matrices de poids

Dans les études moléculaires le critère de parcimonie maximale (ou "Maximum Parsimony") peut s'appliquer de manière non pondérée, toutes les transformations sont alors pénalisées de la même manière, ou bien de manière pondérée, certaines transformations sont alors davantage pénalisées que d'autres. Les poids proposés ci-dessous sont classiques.

Pour les séquences nucléotidiques les transversions (entre une purine et une pyrimidine) sont plus rares et mécaniquement plus difficiles que les transitions (entre deux purines ou bien entre deux pyrimidines), on peut donc leur attribuer un poids supérieur.

Pour les séquences peptidiques, on remarque que les codons des différents aminés peuvent avoir zéro, un ou deux nucléotides en commun dans le code génétique. Cela signifie que le passage d'un codon à l'autre, et donc d'un acide aminé à l'autre, peut nécessiter respectivement trois, deux ou une substitution nucléotidique ponctuelle. Le code génétique étant redondant, on choisit comme poids pour une transformation entre deux acides aminés le nombre minimal de substitutions parmi toutes les paires possibles de codons correspondants à ces deux acides aminés. Il faut noter qu'une matrice de poids doit impérativement respecter l'inégalité triangulaire pour être cohérente, 13 poids faisant partie de triplets ne la respectant pas ont donc dû être corrigés.

ADN/ARN

Aucune pondération

Petite pénalité des transversions

Grosse pénalité des transversions

Protéines

Aucune pondération

Nombre minimal de substitutions entre codons

Comparaisons statistiques des arbres stockés

Indices de cohérence réduits
Test des caractères favorables

L'indice de cohérence réduit ("Rescaled Consistency Index" ou RCI) est une mesure de l'adéquation d'un caractère à un arbre phylogénétique particulier. Il prend une valeur de 1 pour les caractères homologues (adéquation parfaite) et une valeur de 0 si le nombre maximal de transformations est atteint. Cet indice se calcule avec la formule suivante :

RCI =ms−mg1 −mg

Ici m est le nombre minimal de transformations (m = 1 pour un caractère binaire), s est le nombre effectif de transformations de ce caractère comptées sur l'arbre évalué, et g est le plus grand nombre possible de transformations que l'on peut atteindre sur un arbre quelconque (g = min(n₀, n₁) pour un caractère binaire, n₀ et n₁ étant respectivement le nombre de 0 et le nombre de 1 pour ce caractère).

Le RCI ne se calcule que pour les caractères informatifs (on ignore donc les caractères pour lesquels m = 0 ou g = 1 ou s = 0). Le RCI global de l'arbre est la moyenne des RCI de tous les caractères informatifs sur cet arbre.

Indices de cohérence réduits des caractères (RCI) :

* Il s'agit de poids calculés à postériori suivant la méthode de pondération implicite de Goloboff ("implied weighting"). Un caractère non constant doit se transformer au moins une fois, et s'il se transforme n fois alors on dit que son nombre d'homoplasie e (pour "extra step") est n − 1. Son poids w est alors donné par la formule suivante :

w = 1 +kek + e où k est une constante de concavité. Elle est ici égale à la moitié du nombre d'espèces dans la matrice.

Le test des caractères favorables ("winning sites test") est un test binomial unilatéral permettant de déterminer si un arbre A plus parcimonieux qu'un arbre B est significativement plus parcimonieux que ce dernier. On peut donc réaliser ce test asymétrique sur toutes les paires d'arbres ayant une longueur différente. Le principe consiste à compter le nombre n de caractères qui présentent un nombre différent de transformations entre les deux arbres comparés, et parmi ceux-ci compter le nombre r de caractères qui favorisent l'arbre le plus parcimonieux, autrement dit ceux qui se transforment moins de fois sur celui-ci.

L'hypothèse nulle est que les deux arbres sont équivalents et donc que chaque caractère est aussi susceptible à priori de soutenir un arbre que l'autre. La proportion rn serait alors à peu près égale à 0,5. L'hypothèse alternative est que le premier arbre est bien plus parcimonieux que le deuxième et donc la proportion rn serait significativement plus grande que 0,5. On rejette l'hypothèse nulle et on accepte l'alternative si la probabilité que la proportion soit supérieure ou égale au rapport rn constaté est inférieure à un certain seuil fixé à l'avance, par exemple 5 %. Ce test est donc identique à celui que l'on ferait pour déterminer si une pièce est biaisée et tombe significativement plus souvent sur pile que sur face (mais pas l'inverse). D'après la loi binomial on a :

P(X = k) = nks^k(1 − s)^n − k avec s la probabilité de succès.

Donc la probabilité p d'obtenir au moins autant de caractères r que ce que l'on constate est :

p = P(X ≥ r) =12ⁿnΣk = rnk

Dans la table de comparaison ci-dessous les valeurs significatives de p < 5 % sont indiquées en gras.

Test des caractères favorables

Inspecteur de caractère

Exercices de phylogénétique

Choisissez un exercice. Vous gagnez une étoile pour un exercice lorsque vous le terminez sans aucune erreur. Chaque exercice se présente sous trois niveaux de difficulté : novice, apprenti, expert. Vous pouvez donc gagner jusqu'à trois étoiles par exercice.

Vous pouvez générer un bilan de vos compétences à la fin de votre séance d'exercices (n'oubliez pas d'ajouter votre prénom et votre nom avant de l'imprimer) :

Les relations de parenté :

La disposition des arbres :

La distribution des caractères :

Difficulté :

Identifier le dernier ancêtre commun

Le dernier ancêtre commun (ou ancêtre commun le plus récent) est l'ancêtre le plus récent que deux espèces ont en commun dans l'arbre de l'évolution. Cliquez sur le dernier ancêtre commun de et de .

Difficulté :

Déterminer l'espèce la plus proche

La proximité historique est une mesure de la récence du dernier ancêtre commun entre deux espèces. Plus cet ancêtre est récent, plus les espèces sont considérées comme historiquement proches. Qui de ou de est historiquement le plus proche de ?

Difficulté :

Trouver l'intrus parmi plusieurs arbres

Dans un arbre phylogénétique l'ordre de lequel les branches partant d'un même ancêtre sont dessinées n'a pas d'importance, cela ne change pas les relations de parenté entre les espèces. Parmi les quatre arbres ci-dessous, trois représentent exactement les mêmes relations de parenté, et un seul représente des relations de parenté différentes. Où se trouve cet intrus ?

Difficulté :

Comparer les enracinements des arbres

Si on déplace la position de la racine dans un arbre phylogénétique alors il ne représente plus les mêmes relations de parenté entre les espèces. Cependant la structure de l'arbre reste identique. La racine a été déplacée dans les quatre arbres ci-dessous. Trois de ces arbres n'ont pas subi d'autres modifications et conservent donc la même structure, tandis qu'un seul a subi une modification supplémentaire, présentant ainsi une structure différente. Comparez les structures de ces arbres et retrouvez celui qui ne possède pas la même structure que les autres.

Difficulté :

Situer les transformations évolutives

Utilisez la distribution du caractère dans la matrice ci-dessous pour déduire sur quelle branche de cet arbre phylogénétique il s'est transformé (apparition ou disparition). Faites un clic gauche sur une branche pour placer la transformation.

Légende :

Absent

Présent

Difficulté :

Associer un arbre à la matrice

Étant donné une matrice de caractères, certains arbres requièrent moins de transformations de ces caractères pour expliquer la distribution observée. C'est le principe de parcimonie : l'explication la plus simple est la meilleure. Comparez la matrice ci-dessous aux quatre propositions d'arbres et sélectionnez le plus parcimonieux.

Légende :

Absent

Présent

1/ Matrice de caractères
2/ Matrice de compatibilité
3/ Graphe de compatibilité
4/ Arbre phylogénétique
5/ Classification des espèces

Étape 1 : Conception de la matrice de caractères

Nom de la collection :

Instructions :

Assignez un état (inconnu, présent, absent, inapplicable) à chaque caractère de chaque espèce en vous aidant des infobulles ou bien des documents fournis par votre professeur.
Les caractères logiquement inapplicables à une espèce ne doivent pas être codés comme absents (par exemple le caractère "yeux" pour une espèce n'ayant pas de tête).
Lorsque la matrice est complétée, décochez les caractères non informatifs (un caractère informatif doit avoir au moins deux états "présent" et au moins deux états "absent").
Verrouillez la matrice pour passer à l'étape suivante, un avertissement s'affichera s'il y a des erreurs de codage (disponible seulement pour les "collections partagées") ou des erreurs d'informativité.

Commandes :

Vous pouvez ouvrir une collection contenant une matrice de caractères déjà entièrement ou partiellement complétée.
Si vous avez ouvert une collection des infobulles s'affichent lorsque vous survolez les cases de la matrice.
Avec un appareil tactile gardez le doigt appuyé sur l'écran pour afficher l'infobulle.
Cliquez sur les cases de la matrice pour changer les états des caractères.

Verrouiller la matrice

Informatif ? →

Caractères →
↓ Espèces

Légende :

❤️ Espèce vivante

💀 Espèce fossile

⚓ Extragroupe

🌿 Intragroupe

Inconnu

Absent

Présent

Inapplicable

Étiquettes des caractères :

Étape 2 : Détermination des paires de caractères compatibles

Instructions :

L'objectif de cette étape est d'identifier les caractères les moins fiables afin de les écarter.
Comparez les états de toutes les paires possibles de caractères informatifs pour déterminer quels caractères sont compatibles entre eux.
Lorsque l'analyse est terminée verrouillez le résultat pour passer à l'étape suivante.

Commandes :

L'autocomplétion n'est disponible que pour les très grandes matrices (au moins 12 caractères informatifs).

Compatibilité des paires :

Verrouiller les paires

Légende :

Inconnu

Incompatible

Compatible

Analyse de la paire sélectionnée :
Deux caractères binaires sont incompatibles si les quatre combinaisons possibles de leurs deux états sont présentes dans la collection d'espèces (0/0, 0/1, 1/1, 1/0). Sinon ils sont compatibles. Les lignes sont triées automatiquement pour faciliter la lecture de ces quatre combinaisons. Ignorez les lignes contenant des états inconnus ou inapplicables.

Les deux caractères de cette paire sont-ils compatibles ?

Étape 3 : Identification de la clique maximum

Instructions :

Le graphe de compatibilité ci-dessous est automatiquement construit à l'aide de la matrice de compatibilité établie précédemment.
Chaque sommet représente un caractère informatif. Les caractères compatibles sont reliés entre eux par des arêtes (représentation par défaut).
Vous devez chercher la clique maximum, c'est-à-dire le plus grand ensemble de sommets qui sont tous reliés deux à deux (avec l'option par défaut "Montrer les compatibilités").
Si plusieurs cliques maximums existent, vous devez sélectionner l'intersection de ces cliques maximums, c'est-à-dire l'ensemble des sommets communs à toutes les cliques maximums.
Les sommets sont initialement disposés en cercle, mais vous pouvez les laisser se repousser librement tandis que les arêtes agissent comme des ressorts, cette animation pourrait produire un graphe plus facile à lire.
Lorsque vous avez sélectionné la clique maximum ou l'intersection des cliques maximums verrouillez-la et passez à la dernière étape.

Commandes :

Cliquez sur un sommet pour le sélectionner ou le dessélectionner.
Gardez la touche ⇧ Maj enfoncée pour sélectionner plusieurs sommets.
Avec un appareil tactile touchez simplement les sommets que vous voulez sélectionner et double-touchez n'importe où pour réinitialiser la sélection.
La sélection automatique n'est disponible que pour les très grands graphes (au moins 12 sommets).

Étape 5 : Décision de classification

Instructions :

Un groupe peut être entièrement à l'intérieur d'un autre groupe.
Si une espèce fait partie de deux groupes, alors l'un des deux doit être complètement à l'intérieur de l'autre.
Si deux espèces appartiennent à un même groupe, alors le chemin qui relie ces deux espèces doit être totalement à l'intérieur de ce groupe.

Commandes :

Ajoutez les boites de la classification une par une pour délimiter vos groupes.
Déplacez les coins des boites en maintenant le bouton gauche de la souris enfoncé.
Vous pouvez aussi déplacer l'ensemble du cadre de la boite en cliquant sur son étiquette.
Une fois que vous avez ajusté les contours d'une boite vous pouvez la nommer.

Actions sur les boites :

Boites délimitant les groupes sur l'arbre :	Masquer les icônes 🎭 Masquer l'arbre 🌵
➕ ➖

Montrer les caractères :

Localiser les transformations 🛰️

Légende :

Statut du caractère :

Supposé informatif et homologue

Supposé non homologue

Supposé non informatif

État du caractère :

Inconnu

Absent

Présent

Inapplicable

1/ Séquences biologiques
2/ Distances phylogénétiques
3/ Dendrogrammes

Étape 1 : Collection des données moléculaires

Instructions :

Chargez des séquences biologiques de même nature (ADN, ARN, ou protéines) déjà alignées.
Verrouillez vos séquences alignées pour passer à la suite, aucune autre opération n'est nécessaire.

Commandes :

PhyloGraphe n'est pas une application de traitement des séquences mais vous pouvez utiliser Geniegen 2 si un alignement est nécessaire, puis exporter cet alignement vers PhyloGraphe avec le menu prévu à cet effet.
Vous pouvez recoder de manière binaire les substitutions les séquences alignées d'ADN, d'ARN ou de protéines (les caractères non informatifs ou ayant plus de deux états différents sont ignorés, les lacunes sont traitées comme des états inapplicables).
Vous pouvez recoder de manière binaire les lacunes dans les séquences alignées d'ADN, d'ARN ou de protéines (les substitutions sont ignorées, les lacunes incluses dans d'autres sont traitées comme des états inconnus).
Les séquences de nature binaire peuvent être traitées dans l'onglet suivant avec certaines méthodes de distances, mais elles peuvent aussi être envoyées dans la section morphoanatomique pour effectuer une analyse de compatibilité.

Sélectionner :

Verrouiller les séquences

Afficher le taux de GC

Légende :

Nature :
🧬 ADN
✉️ ARN
🥩 Protéines
🪙 Binaire

Comparaison :
* Identité
. Différence

Bases azotées :
A Adénine
T Thymine
C Cytosine
G Guanine
U Uracile

Acides aminés :
RKH Chargés positivement (hydrophiles)
DENQ Amides ou chargés négativement (hydrophiles)
FYW Aromatiques non chargés (hydrophobes)
LVMI Aliphatiques (hydrophobes)
AG Minuscules et hydrophobes
ST Ayant un groupe hydroxyle (petits et hydrophiles)
C Très conservé, capable de former des ponts disulfures
P Très conservé, conformation spéciale très rigide

Étape 3 : Construction des dendrogrammes

Instructions :

Choisissez un algorithme de construction (NJ est le plus fiable).
Suivez les étapes de l'algorithme pas à pas.
Vous pouvez comparer les dendrogrammes obtenus avec les différents algorithmes.

Afficher les matrices Afficher les longueurs des branches Disposition en échelle

Automatiser la résolution pour les grandes matrices (au moins 10 séquences)

Le Neighbor-Joining (NJ) :

Lancez l'algorithme, puis à chaque étape cliquez sur la paire la moins divergente (score le plus négatif) dans la matrice des divergences (matrice violette). Placez une racine à la fin de cette procédure, soit en cliquant sur l'une des branches horizontales, soit en utilisant l'une des deux procédures d'enracinement automatique.

Distance totale (BME) : Transformations (MP) : Écart total (WLS) :

➕

➖

L'UPGMA :

Lancez l'algorithme, puis à chaque étape cliquez sur la paire la plus similaire (distance la moins grande).

Distance totale (BME) : Transformations (MP) : Écart total (WLS) :

➕

➖

Le WPGMA :

Lancez l'algorithme, puis à chaque étape cliquez sur la paire la plus similaire (distance la moins grande).

Distance totale (BME) : Transformations (MP) : Écart total (WLS) :

➕

➖

L'algorithme NJ (Neighbor Joining modifié par SK) calcule à partir de la matrice des distances une nouvelle matrice Q dite des scores de divergence, selon la formule suivante pour toutes les paires d'espèces I et J (avec n le nombre d'espèces restantes dans la matrice) :

Q(I, J) = (n − 2) × d(I, J) − nΣXd(I, X) − nΣXd(J, X)

On cherche alors à joindre les deux groupes ayant le score de divergence le plus faible, par exemple A et B. Ce ne sont pas nécessairement les deux groupes les proches dans la matrice des distances. On commence à construire le dendrogramme en joignant A et B à un nouveau sommet U représentant leur ancêtre. Les distances de A et B à U sont calculées avec les formules suivantes :

d(A, U) = d(A, B)2 + nΣXd(A, X) − nΣXd(B, X)2n − 4

d(B, U) = d(A, B) − d(A, U)

On construit ensuite une nouvelle matrice des distances où l'on remplace ces deux groupes par leur ancêtre U. On calcule les distances de cet ancêtre à tous les autres groupes X selon la formule :

d(U, X) = d(A, X) + d(B, X) − d(A, B)2

On construit alors à partir de cette nouvelle matrice des distances une nouvelle matrice de scores de divergences pour chercher la prochaine paire à joindre. On recommence jusqu'à l'épuisement de tous les groupes de la matrice. L'algorithme NJ ne suppose pas que la vitesse de l'évolution est constante, le dendrogramme qu'il construit n'a d'ailleurs même pas de racine. Le critère que l'algorithme cherche à minimiser est la longueur totale du dendrogramme à chaque étape. Les longueurs des différentes branches respectent donc généralement bien les distances de la matrice d'origine.

Si les distances de la matrice respectent au moins approximativement la condition des quatre points alors il est garanti que l'algorithme NJ trouvera l'arbre correct.

L'algorithme UPGMA (Unweighted Pair Group Method with Arithmetic Mean) permet de construire un dendrogramme en joignant à chaque étape les deux groupes les plus proches dans la matrice des distances, par exemple A et B. Une fois joints, une nouvelle matrice est construite en remplaçant ces deux groupes par leur union. La distance entre cette union et un autre groupe X de la matrice est alors la moyenne entre les distances de tous les membres de cette union U à ce groupe :

d(U, X) = n_A × d(A, X) + n_B × d(B, X)n_A + n_B

Le nombre d'éléments dans les groupes A et B sont respectivement n_A et n_B. On répète ces étapes jusqu'à l'épuisement de tous les groupes de la matrice. La pondération permet de tenir compte du nombre d'éléments présents dans chacun des deux sous-groupes joints à chaque itération, ce qui évite de fausser les distances. Cependant toutes les extrémités sont obligatoirement à la même distance de la racine, ce qui revient à supposer que la vitesse de l'évolution est constante comme pour le WPGMA. Les longueurs des branches du dendrogramme final peuvent donc refléter assez fidèlement les distances de la matrice d'origine si cette condition est respectée.

L'algorithme WPGMA (Weighted Pair Group Method with Arithmetic Mean) permet de construire un dendrogramme en joignant à chaque étape les deux groupes les plus proches dans la matrice des distances, par exemple A et B. Une fois joints, une nouvelle matrice est construite en remplaçant ces deux groupes par leur union. La distance entre cette union U et un autre groupe X de la matrice est alors la moyenne entre les distances des deux sous-groupes A et B de cette union à ce groupe X :

d(U, X) = d(A, X) + d(B, X)2

On répète ces étapes jusqu'à l'épuisement de tous les groupes de la matrice. Cet algorithme a l'avantage d'être très simple, mais il produit obligatoirement un dendrogramme où toutes les extrémités sont à la même distance de la racine : il suppose donc que la vitesse de l'évolution est constante. La formule ne tient pas non plus compte du nombre d'éléments présents dans chacun des deux sous-groupes joints à chaque itération. Les longueurs des branches du dendrogramme final peuvent donc être assez éloignées des distances de la matrice d'origine.

La distance de Hamming est simplement le nombre de positions où deux séquences de même longueur présentent un symbole différent. On peut normaliser cette distance pour pouvoir comparer des distances entre des paires de séquences de longueurs différentes en divisant le nombre de différences par la longueur des deux séquences comparées. Cette distance peut ainsi s'exprimer en pourcentage, elle représente la proportion de différences de les deux séquences, c'est pourquoi on l'appelle aussi la p-distance. On a donc :

p = fL où f est le nombre de différences et L la longueur des deux séquences.

On ignore donc les lacunes causées par les insertions et les délétions, on ne compte que les évènements de substitutions. Cette distance ne tient pas non plus compte de la possibilité qu'un même résidu puisse subir plusieurs substitutions, ni non plus que les différents types de substitutions aient des probabilités différentes de survenir. La p-distance sous-estime donc toujours la distance réelle entre deux séquences et n'est fiable que pour de très petites distances (inférieure à 2 %).

Enregistrer la collection

Exporter les données

Bienvenue surPhyloGraphe !

PhyloGraphe (dernière MAJ : 17/11/2024)

Générer une matrice aléatoire

Collections partagées

Fusion de collections

Gestionnaire des descripteurs

Matrices de poids

Comparaisons statistiques des arbres stockés

Indices de cohérence réduits des caractères (RCI) :

Test des caractères favorables

Inspecteur de caractère

Exercices de phylogénétique

Les relations de parenté :

La disposition des arbres :

La distribution des caractères :

Identifier le dernier ancêtre commun

Déterminer l'espèce la plus proche

Trouver l'intrus parmi plusieurs arbres

Comparer les enracinements des arbres

Situer les transformations évolutives

Légende :

Associer un arbre à la matrice

Légende :

Étape 1 : Conception de la matrice de caractères

Instructions :

Commandes :

Légende :

Étiquettes des caractères :

Étape 2 : Détermination des paires de caractères compatibles

Instructions :

Commandes :

Compatibilité des paires :

Légende :

Analyse de la paire sélectionnée :

Étape 3 : Identification de la clique maximum

Instructions :

Commandes :

Organisation automatique du graphe :

Étape 4 : Construction de l'arbre phylogénétique

Instructions :

Commandes :

Actions sur l'arbre :

Paramètres de l'arbre :

Algorithme de mappage :

Montrer les caractères :

Légende :

Statut du caractère :

État du caractère :

Arbres stockés :

Étape 5 : Décision de classification

Instructions :

Commandes :

Actions sur les boites :

Boites délimitant les groupes sur l'arbre :

Montrer les caractères :

Légende :

Statut du caractère :

État du caractère :

Étape 1 : Collection des données moléculaires

Instructions :

Commandes :

Sélectionner :

Légende :

Nature :

Comparaison :

Bases azotées :

Acides aminés :

Étape 2 : Calcul des distances

Instructions :

Commandes :

Choix de la méthode :

Matrice des distances calculées :

Étape 3 : Construction des dendrogrammes

Instructions :

Le Neighbor-Joining (NJ) :

L'UPGMA :

Le WPGMA :

Bienvenue sur
PhyloGraphe !