lien externe

Séance d'affiches

Envoyez-nous un courriel

Entre 8h30 et 9h30, en amont des conférences du colloque, une séance d'affiches sera présentée à l'atrium Jean-Guy-Paquet du pavillon Alphonse-Desjardins de l'Université Laval. À cette occasion, les étudiants-chercheurs seront présents, sur place, afin d'échanger avec les participants au colloque et de discuter plus avant leurs recherches. 

 
À noter, les affiches seront également visibles tout au long de la journée, tant lors des pauses-cafés, qu'au fil de la période du dîner, ou encore lors du cocktail qui concluera la journée.
 
 
Voici la liste des présentateurs, ainsi qu'un résumé de leurs propos : 
 

Adaptation de domaine en apprentissage automatique

Hana Ajakan (informatique et génie logiciel)
 
Le coût de production de données étiquetées pour chaque nouvelle tâche d'apprentissage est souvent un obstacle pour l'application des méthodes d'apprentissage automatique. Il est donc fortement recommandé de développer des techniques d’exploitation des connaissances et des règles apprises sur un problème et les appliquer sur un autre problème partageant quelques similitudes (nous parlons ici de l’adaptation de domaine). Dans ce sens, nous proposons un algorithme d’apprentissage de représentation de données, appelé DANN (Domain-Adversarial Neural Network), conçu pour le contexte de l'adaptation de domaine dans lequel les données d'entraînement (domaine source) et celles du test (domaine cible) proviennent de deux distributions similaires, mais différentes. Nous allons présenter notre algorithmes et les expérimentations empiriques effectuées sur plusieurs ensembles de données.
 

Correlation of Psychosis, Mania and Depression Symptom Dimensions with Polygenic Scores in the Eastern Quebec Kindred Study

Sébastien Boies (mathématiques et statistique)
 
The Psychiatric Genomics Consortium (PGC) results on SNPs association with Schizophrenia (SZ) and bipolar disorder (BD) can be used to calculate polygenic scores. There is an interest in studying the possible relation of polygenic scores with psychosis, mania and depression symptom dimensions for subjects affected by SZ, BD and schizoaffective disorder (SZA).
 
Our objective was to study the correlation between polygenic scores and the symptom dimensions in subjects affected by SZ, SZA and BD from the Eastern Quebec kindred study.
 
We used a sample of 333 subjects, including 153 affected (57 SZ, 13 SZA and 83 BD), from 17 SZ and BD families in the Eastern Quebec population. Polygenic scores were calculated based on the PGC SNPs association with SZ using p-value cut-offs of 0.05 and 0.1. Symptoms were rated according to the Comprehensive Assessment of Symptoms and History (CASH) instrument on a scale from 0 to 5 (0: None, 5: Severe). We estimated heritability of normalized symptom dimensions explained by polygenic scores using linear mixed models with random additive genetic effects.
 
Affected subjects had higher SZ polygenic scores than non-affected subjects (p=0.049, Nagelkerke R2=0.016). There was no statistical difference between SZ and BD. We found significant association between SZ polygenic scores and thought disorder in stabilized and acute states (p-values of 0.010 and 0.012 and proportion of explained heritability of 30% and 65% respectively). No other symptoms were associated with SZ polygenic scores.
 
SZ polygenic scores seem to be more specifically correlated with a symptom dimension associated to SZ.
 

Virtual Lock Masses: An Algorithmic Method to Enable Mass Spectra Comparison in Untargeted Studies

Francis Brochu (informatique et génie logiciel)
 
We propose a correction algorithm, virtual lock mass (VLM) correction, that complements the classical lock-mass approach in increasing the comparability of ToF mass spectra. When dealing with mass spectra spanning a wide range of masses, the classical lock-mass approach fails due to insufficient coverage. Hence, in this case, one loses the true position of each peak and thus corresponding peaks through different spectra are indistinguishable. This can have a detrimental effect on methods aiming to compare multiple spectra, such as machine learning analysis. Our VLM correction algorithm enables spectral comparisons, making such analysis possible.
 
VLMs are peaks that occur with high intensity in all spectra. Based on a set of spectra of the same nature (e.g.: multiple blood samples), our proposed algorithm automatically identifies a large amount of VLMs, ensuring proper coverage. Our method relies on complete-linkage hierarchical clustering, an unsupervised machine learning algorithm. The VLMs are then used to apply correction factors to the m/z values of each spectra with the objective of removing the ToF induced variation and therefore making the spectra comparable.
 
One hundred and ninety-two human blood plasma samples were used to validate the algorithm. The data were acquired in high-resolution mode using a Laser Diode Thermal Desorption (LDTD)-Q-ToF (Waters Synapt G2-Si) instrument in high-resolution using data-independent acquisition mode.
 
From the blood plasma sample spectra, 180 were randomly selected and were used to establish the VLM correction peaks. Three other spectra were randomly selected and used to validate the algorithm’s performance.
 
In silico perturbations were added to the spectra prior to applying the algorithm to test its robustness. Up to two types of perturbations
were added: a uniform shift in m/z values and a random variation of the intensity of each individual peak. Each validation spectrum was VLM-corrected and compared to its unperturbed version, indicating whether the algorithm could correctly infer the position of the peaks in the presence of m/z variations.
 
The metric used for comparison is the Root Mean Squared Error (RMSE). The difference in m/z values between the corrected spectrum and its unperturbed version was calculated in parts per million (ppm). The ppm unit was used to have a relative distance unit. The differences are then squared and summed, before taking the mean and the square root, giving the mean error in ppm per peak.
 
The algorithm has a RMSE of only 0.06 ppm per peak on spectra where only a uniform shift in m/z values was added, compared to a RMSE of 7.87 ppm without VLM correction. Furthermore, the algorithm proved robust against noise introduced in the intensity values of the peaks, which is a common type of noise in MS data.
 
We propose an efficient, fully automatic algorithm that processes mass spectra facilitating comparison and data analysis.
 

Guidage non-intrusif d'une prothèse de main myoélectrique à l'aide d'un bracelet à électrode sèche

Ulysse Côté-Allard ((informatique et génie logiciel)
 
L’objectif est de proposer un système de guidage de main robotique qui soit résistant aux bruits à court et moyen terme tout en étant nonintrusif pour un utilisateur. La partie non-intrusive est assurée par l’utilisation d’un bracelet à électrode sèche de 8 canaux (Myo Armband, www.myo.com). Contrairement aux appareils avec électrodes humides qui nécessitent de raser l’avant-bras, de laver le site ou seront apposées les électrodes et d’utiliser un gel conducteur, ce bracelet peut simplement être glissé sur l’avant-bras sans aucune autre préparation. En contrepartie, le bracelet Myo Armband est moins précis à la fois en termes de qualité du signal (électrodes sèches) et quantité d’informations (cadencé à 200 Hz, comparé aux électrodes cadencées à 1000 Hz généralement utilisé). Pour répondre à cette dégradation d’informations, le système utilise des réseaux à convolutions (RC) afin de classifier les signaux sEMG. Une première expérimentation impliquant 18 participants sans handicapes physique a été réalisée au printemps 2016 et seront présenté ici. 
 

CRISPR-PCA: Towards High-Throughput Identification of Protein-Protein Interaction Regulators

Philippe Després (Biochimie)
 
Understanding the dynamics of molecular networks within the cell is an important aspect of systems biology. Protein complementation assays (PCA) are techniques that enable us to detect and quantify interactions between two given proteins (PPI). While informative, PCA experiments alone rarely gives any insight on protein network regulation and potential signal integration. Perturbation studies, where a gene is deleted to observe the effect of its product’s absence on the overall PPI network, are a powerful tool to obtain this information. Such techniques are however often difficult to upscale because of time and cost constraints. Recently, the Crispr-Cas9 type II endonuclease system has been modified to allow for genome-wide gene deletion experiments. The reported rates of gene knock-out (KO) are however still too low, limiting its usefulness in PIN perturbation studies. This issue is solved by enhancing the current efficiency of the CRISPR-Cas9 system when generating gene (KO) by almost a thousand-fold, using a CRISPR-Cas9 activity dependant selection step. This is the first step in developing a new genome-wide PPI perturbation screening technique in yeast that combines PCA, a modified version of the CRISPR-Cas9 genomeedition tools and next generation barcode sequencing to systematically identify network regulators: CRISPR-PCA.
 

Set Covering Machines and Reference-Free Genome Comparisons Uncover Predictive Biomarkers of Antibiotic Resistance

Alexandre Drouin (informatique et génie logiciel)
 
En dépit d'une ère de super calculateurs et d’une instrumentation à haut débit de plus en plus précise, de nombreux phénomènes
biologiques demeurent mal compris. Les études cas-témoin, où des cohortes d’individus aux phénotypes distincts sont comparés, sont un outil de choix pour la compréhension de ces évènements. Nous proposons une approche par apprentissage automatique à ce type d’études, dont l’objectif final est l’identification de biomarqueurs prédictifs d’un phénotype. Nous nous concentrons sur l'identification de biomarqueurs génomiques, allant de simples substitutions, insertions et délétions, à des réarrangements génomiques à grande échelle. Nous utilisons des comparaisons génomiques sans référence basées sur des k-mer, à savoir, l’ensemble des séquences de k nucléotides composant le génome des individus. Une représentation du génome complet de chaque individu, basée sur la présence/absence de k-mers, ainsi que leur groupe (cas ou témoin) sont donnés en entrée à un algorithme d’apprentissage automatique appelé le Set Covering Machine (SCM). Cet algorithme génère un modèle permettant de différentier les individus en fonction de leur phénotype. Le modèle obtenu met en évidence l’importance de la présence ou de l’absence d’un petit nombre de k-mers pour la prédiction du phénotype, guidant ainsi la recherche de biomarqueurs. La méthode a été validée dans le contexte de la prédiction de la résistance aux antibiotiques de quatre pathogènes humains importants: C. difficile, M. tuberculosis, P. aeruginosa et S. pneumoniae. Celle-ci a généré des modèles précis pour 17 antibiotiques, la plupart ayant des taux d’erreur inférieurs à 10% sur un ensemble de validation. De plus, en quelques heures de calcul, notre méthode a permis, de retrouver, de novo, plusieurs mécanismes de résistance aux antibiotiques ayant été découverts au cours des dernières décennies. Cette méthode est applicable à d'autres organismes et elle pourrait orienter les efforts biologiques pour la compréhension d'un vaste éventail de phénotypes. Kover, notre implémentation de la méthode pouvant traiter de gros volumes de données, est un logiciel libre disponible à http://github.com/aldro61/kover.
 

Prediction of Prostate Cancer Biochemical Recurrence by Machine Learning Approaches

Michael Leclercq (bioinformatique)
 
Background: The emergence of high-throughput genomic technologies in the recent years has allowed a better understanding of the
genomic landscape of prostate cancer (PCa). Analyse of hundreds of prostate tumors showed important genomic heterogeneity. However, despite these extensive studies, the prognostication of prostate tumors has not yet been greatly improved and the knowledg e of the biology behind the recurrence after prostatectomy remains very limited.
 
Methods: Tumor RNA-Seq and miRSeq expression data of 326 PCa patients’ tumors from The Cancer Genome Atlas (TCGA) project were retrieved to predict biochemical recurrence (37 cases) and the time to biochemical recurrence of PCa. We first extracted features using various transformations and normalization on gene expression. Then we performed a 10 fold cross validation (CV) stepwise feature subset selection based on information gain ranking, using various machine learning algorithms, to identify the best feature subset that fits the data. Finally, we selected the most efficient algorithm to evaluate by leave-one-out cross validation (LOOCV) the prediction of biochemical recurrence and the time to biochemical recurrence. This last step was performed 10 times on random train and test subsets (75%/25% of the cohort).
 
Results: We found a model based on voting features intervals (bias 0.6) that predicts BCR with an area under curve (AUC) of 95.8% (avg. on 10 random LOOCV, MCC 69%), involving 298 genes in 353 features, including Gleason grade, and stages T and N. We found a second signature based on Gaussian processes with normalization and polynomial kernel with lower-order terms usages that predicts time to BCR with an average correlation coefficient of 94.3% (avg. on 10 random LOOCV), and involves 292 genes in 353 features. 
 
BCR prediction signature included genes involved in various biological processes and pathways, including DNA replication, DNA integrity checkpoint, regulation of pri-miRNA transcription and antigen presentation. Time to BCR prediction signature included a few group of genes involved in purine containing compound catabolic process, citrulline biosynthetic process, and sulfuric ester hydrolase activity.
 
Conclusions: PCa is a highly heterogeneous cancer and it is challenging to discover a specific combination of biomarkers to explain BCR. We propose here a machine learning approach that can identify a genetic signature based on gene expression. Further analysis on the genes involved in the signature also lead to a better understanding of the biology mechanisms underlying BCR. We believe that these results will help to design new emerging therapies based on highly specific biomarker combination. 
 

Patient Treatment Pathways Clustering

Ahmed Najjar (génie électrique et génie informatique)
 
Clustering electronic medical records allows discovery of information on healthcare practices. Entries in such medical records are usually made of a succession of diagnostics or therapeutic steps. The corresponding processes are complex and heterogeneous since they depend on medical knowledge integrating clinical guidelines, physicians individual experience, and patient data and conditions. To analyze such data, we are first proposing to cluster medical visits, consultations, and hospital stays into homogeneous groups, and then to construct higher-level patient trajectories over these different groups. These patient trajectories are then also clustered to distill typical pathways, enabling interpretation of clusters by experts. This approach is evaluated on a real-world administrative database of elderly people in Québec suffering from health failures.
 

Réseaux de neurones aléatoires : apprentissage rapide de réseaux de neurones à une couche

Gabriel Dubé (informatique et génie logiciel)
 
Dans les dernières années, les réseaux de neurones artificiels, spécifiquement les réseaux profonds, ont gagné fortement en popularité. Par contre, ils souffrent d'un temps de calcul et d'apprentissage souvent prohibitif, et aucun résultat théorique n'existe présentement pour garantir leur efficacité. Nous introduisons une méthode d'apprentissage des réseaux de neurones à une couche cachée qui remplace la rétropropagation du gradient par l'utilisation de la randomisation. Ce nouvel algorithme admet un apprentissage vastement plus rapide qu'un réseau de neurones traditionnel, et est naturellement résistant au surapprentissage grâce à une régularisation directement intégrée au problème d'optimisation résolu par l'algorithme. De plus, le temps de calcul croît seulement de façon linéaire en fonction du nombre d'exemples d'entraînement, ce qui en fait un algorithme particulièrement bien adapté aux grands volumes de données.
 

Identification of the Genetic Basis of Response to a Personalized Treatment for a Model of Human Disease in Yeast

Véronique Hamel (biologie)
 
Deleterious mutations segregate and often fix in small populations during the course of evolution. These deleterious mutations can be
compensated for by secondary mutations known as compensatory mutations. We examined if the trajectory of compensatory evolution to a strongly deleterious mutation is dependent on the environment and the genetic background in which compensatory evolution takes place. We performed an evolutionary rescue experiment in a yeast model for the Wiskott-Aldrich Syndrome (mutation in LAS17 that causes thermosensibility) in two genetic backgrounds and two carbon sources. We found that compensatory mutations tend to be overrepresented in the physical interaction network surrounding Las17p, showing that protein interaction partners are prime targets for compensatory mutations. In addition, we found that multiple aspects of the evolutionary rescue outcome depend on the genotype, the environment and their combination. Specifically, the compensatory mutation rate and type, the molecular rescue mechanism, the genetic target and the associated fitness cost varied across contexts. Overall, our results showed that the course of evolution following the fixation of a deleterious allele is highly contingent on the initial conditions in which a deleterious mutation occurs. With the specific example of response to cyclosporine A (CysA), we now want to better understand what is the difference between the two genetic backgrounds that makes them respond differently.
 

How Do PPIs and Protein Complexes Influence Gene Retention?

Claudine Lamothe (biologie)
 
Les duplications de gènes contribuent grandement à l'augmentation de la complexité des organismes en fournissant du nouveau matériel brut sur lequel agit la sélection naturelle. De ces duplications, la duplication de génome entier a un impact majeur dû à la quantité de gènes impliqués. Plusieurs événements de duplication de génome entier ont eu lieu au fil de l'évolution de nombreuses lignées d'organismes. Une grande partie des gènes dupliqués créés lors de ces événements accumuleront des mutations délétères et deviendront des pseudogènes ou disparaîtront du génome complètement, mais d'autres seront retenus. Certains de ces dupliqués conserveront leur fonction originale, créant une redondance offrant un niveau de robustesse contre les mutations délétères à l'organisme. D'autres développeront une nouvelle fonction différente de l'originale. Finalement, certaines paires accumuleront des mutations qui subdiviseront leur fonction originale en deux sous-fonctions complémentaires.
 
La rétention de certains gènes est liée à divers facteurs comme le dosage, le niveau d'expression, etc. Le but de mon projet est d'analyser chez les paramécies un des facteurs qui influencent la rétention des paralogues suite à un événement de duplication de génome entier, soit les interactions protéine-protéine, particulièrement dans le cadre de l'appartenance à un complexe protéique. Mon projet consiste à prédire le réseau d'interactions chez certaines espèces de paramécies à travers les relations d'orthologie, pour tenter de déceler le patron de rétention des paralogues à partir de ce réseau.
 

Méthode d’apprentissage de structures de dépendance basée sur la contraction de paramètres

Samuel Perreault (statistique)
 
Avec la considérations de problèmes d’estimation à dimensions de plus en plus élevées, il n’est pas rare que le nombre d’observations dépasse difficilement le nombre de paramètres du modèle (n ≈ p). Pour éviter le surapprentissage, des méthodes dites « de régularisation » sont alors souvent employées. L’efficacité des méthodes de contraction (shrinkage) comme le Lasso de Tibshirani (1996), parmi plusieurs autres, ont donné un nouveau souffle à la recherche dans le domaine. Les méthodes de contraction se présentent souvent sous forme de pénalité sur la complexité du modèle (par exemple une pénalité L1 sur le vecteurs des paramètres qui favorise une certaine parcimonie.) Les recherches présentées dans cette affiche concernent l’estimation de la structure de dépendance liant plusieurs variables aléatoires via l’estimation de la matrice des de Kendall (1938). Dans de nombreux cas, cette matrice est l’unique paramètre de la copule spécifiant la structure de dépendance des données. Une méthode est développée pour produire une séquence d’estimés pour lesquels le nombre de valeurs distinctes des paramètres est constamment réduit, jusqu’à ceux-ci soient tous égaux. L’estimé final est choisi dans la séquence selon des considérations théoriques rigoureuses. En guise de démonstration, la méthode est appliquée à l’analyse de la structure de dépendance des rendements d’un ensemble d’actions.
 

The Impact of Antibiotic Treatment on Gut Microbiome Genomic Composition

Frédéric Raymond (médecine moléculaire)
 
Antibiotics profoundly affect the gut microbiome and modulate microbial communities. To better understant the impact of antibiotic treatment on the gut microbiome, we exposed 18 healthy volunteers to a seven day course of cefprozil and performed shotgun sequencing on stool samples before, at the end and three months after the treatment. We also enrolled 6 controls that did not receive antibiotics. In addition to shotgun metagenomics, we cultured stool samples collected before and after antibiotic treatment using four culture conditions (media with or without cefoxitin in anaerobic or 5% CO2). These cultures were also analysed by deep sequencing. Culture allowed to observe increased bacterial genomic and taxonomic diversity (35-38 genera per media) compared to unselected metagenomes (25 genera). In addition to taxonomical profiling, we used the Ray Surveyor software to quantify comprehensive genomic differences at the sequence level before and after antibiotic treatment, and between culture conditions. We show that 7 day exposure to cefprozil leads to a statistically significant loss of metagenome sequences. Indeed, the Jaccard similarity coefficient between metagenomes at day 7 and day 0 of exposed participants was 38.4% k-mer similarity compared to 57.7% for controls. By contrast, there was a partial recovery of microbiomes three months after antibiotherapy, which was characterized by the apparition of new genome sequences not observed prior to antibiotic exposure. In conclusion, the gut microbiome is modulated by this specific antibiotic and the genomic content of bacterial communities is noticeably impacted.
 

Simulations intensives pour générer les données nécessaires à l'optimisation de la production de bois de plancher

Jean Wéry (informatique et génie logiciel)
 
Dans le but d’améliorer les décisions prises par un système de découpe de bois de plancher soumis à de fortes contraintes de production, nous proposons d’allier des techniques de simulation et d’optimisation. Une phase d’entraînement utilisant la simulation sur un ensemble d’images de planches provenant de productions passées nous permet de générer une base de données caractérisant la production attendue dans différentes configurations. Le simulateur est le système réel utilisé « hors ligne ». À partir des informations obtenues, nous établissons ensuite un horaire de production en utilisant un modèle d’optimisation linéaire maximisant la valeur attendue de la production. L’horaire permet de définir comment configurer le système de découpe tout au long de la production. Par la suite, lors de l’application de ce plan en production, l’horaire doit être actualisé à intervalles définis pour respecter de façon stricte les contraintes. L’approche a été évaluée en utilisant des données industrielles. Notre cas d’études montre que cette approche peut mener à une amélioration (en valeur produite) de l’ordre de 120 000 $ par an pour une usine de bois de plancher de taille moyenne. Cette méthode (entraînement grâce à la simulation et utilisation des données générées par un modèle d’optimisation pour la prise de décision) peut être utilisée dans d’autres contextes notamment pour la prise en compte de produits sur mesure pour l’industrie du bois d’oeuvre.