lien externe

Séance d'affiches

Envoyez-nous un courriel

Entre 8h30 et 9h30, en amont des conférences du colloque, une séance d'affiches sera présentée à l'atrium Jean-Guy-Paquet du pavillon Alphonse-Desjardins de l'Université Laval. À cette occasion, les étudiants-chercheurs seront présents, sur place, afin d'échanger avec les participants au colloque et de discuter plus avant leurs recherches. 

À noter, les affiches seront également visibles tout au long de la journée, tant lors des pauses-cafés, qu'au fil de la période du dîner, ou encore lors du cocktail qui concluera la journée.

 Téléchargez les résumés des publications de la séance d'affiches (PDF)

Voici la liste des présentateurs, ainsi qu'un résumé de leurs propos : 


Ensembles of Budgeted Kernel Support Vector Machines for Parallel Large Scale Learning

Julien-Charles Lévesque
Génie électrique
 
Dans ce travail, nous proposons de combiner plusieurs machines à vecteurs de support à noyau budgété (SVM) entraînés par descente du gradient stochastique (SGD) afin d'exploiter de grandes bases de données et les ressources de calcul parallèle disponibles de nos jours. La variance induite par les restrictions budgétaires des SVM à noyau est réduite grâce à la moyenne de plusieurs prévisions, entraînant une plus grande performance en généralisation. La variance des entraînements résulte en une plus grande diversité de prédictions, ce qui peut aider à expliquer la meilleure performance.
 
Enfin, le procédé proposé est intrinsèquement parallèle, ce qui signifie que les ressources computationnelles parallèles dont nous disposons peuvent être exploitées d'une manière simple.
 

Conception de la chaîne de valeur de la biomasse forestière dans un contexte d’incertitude – systèmes d’aide à la décision  pour la transformation de l’industrie forestière Canadienne 

Foroogh Abasian
Génie mécanique
 
L’industrie forestière Canadienne est en cours de transformation passant d’une industrie traditionnellement basée sur les produits de commodité vers une chaîne de valeur orientée vers des produits à valeur ajoutée, de nouveaux processus technologiques et de nouveaux marchés. Par conséquent, pour supporter cette transformation, nous allons concevoir une chaîne de création de valeur pour la biomasse forestière en considérant l’impact de l’incertitude de la demande et des prix des produits finis.
 
D’autre part, la chaîne logistique de la biomasse forestière est caractérisée par ses processus de transformation dits divergents, génère une quantité astronomique de données qui proviennent de plusieurs sources (unités de la chaîne logistique) et de différents instruments (capteurs, GIS, Lidar, etc.). Ces informations seront organisées et traitées par des systèmes d’aide à la décision afin de maximiser les performances de cette chaîne de valeur. Des outils de recherche opérationnelle et des analyses financières seront combinés pour optimiser le processus de planification de la chaîne de valeur de la biomasse forestière.
 

Patterns in Cancer Gene Fusions

Philippe Després
Biologie
 
Les réarrangements chromosomiques sont l’une des principales caractéristiques des génomes de cellules cancéreuses. Ces évènements peuvent mener à l’expression de protéines chimériques pouvant être des facteurs de prolifération, des cibles thérapeutiques potentielles ou des marqueurs pour le diagnostic. Les mécanismes de sélection des partenaires de fusion sont encore mal compris, tout comme plusieurs des mécanismes par lesquels certaines protéines de fusion sont oncogènes.
 
Pour tenter de mieux comprendre le processus de sélection de partenaires lors des fusions de gènes, les profils d’expression et d’interaction de 7887 paires de partenaires de fusion provenant d’échantillons de tumeurs chez l’humain ont été étudiés. Les partenaires de fusion ont à la fois tendance à être coexprimés et à interagir directement ensemble, et ce indépendamment des caractéristiques associées à l’ensemble des gènes impliqués dans les fusions. Ces résultats soulignent l’intérêt d’analyser les fusions de gènes à travers un large spectre de cancers différents, puisque des motifs ou des mécanismes communs existent potentiellement et pourraient avoir une grande importance clinique.
 

A Novel Mixed Values k-Prototypes Algorithm with Application to Administrative Health Care Databases Mining

Ahmed Najjar
Génie électrique
 
The current availability of large datasets composed of heterogeneous objects stresses the importance of large-scale clustering of mixed complex items. Several algorithms have been developed for mixed datasets composed of numerical and categorical variables, a well-known algorithm being the k-prototypes. This algorithm is efficient for clustering large datasets given its linear complexity. However, many fields are handling more complex data, for example variable-size sets of categorical values mixed with numerical and categorical values, which cannot be processed as is by the k-prototypes algorithm.
 
We are proposing a variation of the k-prototypes clustering algorithm that can handle these complex entities, by using a bag-of-words representation for the multivalued categorical variables. We evaluate our approach on a real-world application to the clustering of administrative health care databases in Quebec, with results illustrating the good performances of our method.
 

Ligand Binding Site Prediction From Molecular Modeling and Limited Experimental Results: The Case of A NPP1 Allosteric Inhibitor

Xavier Barbeau
Chimie
 
Ectonucleotide pyrophosphatase/phosphodiesterase 1 (ENPP1) is an ectoenzyme, which plays a role into several disorders, including the calcific aortic valve disease (CAVD). The compound QPS1 from the Quinazolin-4-piperidine-4-methyl sulfamide series was shown to be a highly potent allosteric inhibitor of ENPP1 preventing phosphate-induced CAVD. However, QPS1 binding site on ENPP1 is unknown, limiting rational optimisation. The potential binding sites of QPS1 on human ENPP1 was investigated using the Site Identification by Ligand Competitive Saturation (SILCS) molecular dynamics protocol.
 
In this method, simulations of the target protein is realized in the presence of an aqueous solution of organic solutes. These fragments, chemically representative of the ligand, are free to associate and dissociate from the protein, revealing regions of high binding affinities through occupancy maps. Five potential binding sites satisfying both the characters and the conformations of QPS1 were identified from these maps. Inclusion of limited experimental results in the analysis allowed to further discriminate to only one binding site. The binding conformation for the QPS1 in this site was derived from the SILCS occupancy mapsand refined with docking. The SAR established from this work will be used to optimize the QPS1 inhibition activity and specificity against ENPP1 and eventually design the first potential lead molecule for the treatment of CAVD.
 

Microbiome-Specific Effect of Antibiotics On the Gut Microflora and the Resistome

Frédéric Raymond
Médecine moléculaire
 
The microbial flora of individuals can react differently to the same treatment or intervention. To understand how antibiotics interact with the initial composition of microbiomes, 18 healthy volunteers received a seven day course of the second generation cephalosporin cefprozil. Using deep shotgun metagenomics, we compared their gut microbiomes before, at day 7 and at the end of the treatment, 90 days later. We observed that cefprozil had a limited but reproducible effect on the microbiome, significantly increasing three genera and decreasing six low abundance families. Specifically, after the antibiotic treatment, volunteers with an initial low diversity Bacteroides enterotype microbiome responded with a bloom of Enterobacter cloacae complex bacteria.
 
We also detected new resistance genes after antibiotic exposure, in some cases revealing specific alleles that were undetectable before the treatment. Our approach and observations could guide the development of better therapeutic interventions.
 

Une plateforme de détection et de gestion des patrons spatiotemporels

Foued Barouni
Informatique et génie logiciel
 
Les situations spatio-temporelles dynamiques sont des situations qui évoluent dans l’espace et dans le temps. L’être humain peut identifier des configurations de situations dans son environnement et les utilise pour prendre des décisions. Ces configurations de situations peuvent aussi être appelées « situations d’intérêt » ou encore « patrons spatio-temporels ». Dans un contexte des systèmes à données massives (Big Data), les situations sont obtenues par des systèmes d’acquisition de données (réseaux de capteurs et logiciels de traitement et stockage)  souvent présents dans diverses industries grâce aux récents développements technologiques et qui génèrent des bases de données de plus en plus volumineuses, enrichies en temps réel
 
Dans ce poster, nous présentons une plateforme de représentation et de gestion des situations d’intérêt s’appuyant sur la notion des patrons spatiotemporels. Notre approche utilise les graphes conceptuels pour offrir un aspect qualitatif au modèle de représentation. La plateforme est basée sur l’extension d’un moteur de traitement des événements complexes (Complex Event Processing). Nous illustrons quelques exemples tirés de cas réels dans le domaine de la distribution électrique.
 

Détection d'événements à partir de tweets

Sophie Baillargeon

Mathématiques
 
Le microblogue Twitter permet à ses abonnés de publier sur internet de courts messages, appelés tweets. Le contenu de ces tweets est très varié. Notamment, certains véhiculent des opinions ou de la publicité, d'autres contiennent des discussions entre les individus d'un groupe restreint, mais quelques-uns rapportent des événements publics. Il peut s'agir d'un événement sportif, d'un concert, d'une manifestation qui s'organise, etc. Nous travaillons à développer un système informatique capable de détecter de tels événements à partir d'un flux de tweets. En utilisant un média social plutôt qu'un média traditionnel pour identifier des événements, nous souhaitons découvrir plus d'événements et les détecter plus rapidement. Pour arriver à nos fins, nous allons d'abord regrouper automatiquement les tweets traitant d'un même sujet. Ensuite, les grappes de tweets seront classées en événement ou non. Ces étapes seront réalisées à l'aide d'algorithmes d'apprentissage automatique.
 
Un des grands défis du projet est d'être capable de traiter une grande quantité de messages arrivant de façon continue. D'un point de vue méthodologique, les algorithmes doivent être adaptés pour faire face à cette réalité. D'un point de vue technologique, le système doit communiquer efficacement avec l'infrastructure informatique stockant les données et effectuer les calculs assez rapidement pour réaliser un traitement en temps réel. Un autre défi important auquel nous faisons face est l'intégration de données hétérogènes. En effet, les tweets sont décrits par des attributs de natures diverses : le texte, bien sûr, mais aussi la date de publication, la provenance géographique, les caractéristiques de l'auteur et de son réseau sur Twitter, etc. Il s'agit donc d'une problématique d'analyse de données massives, présentant des caractéristiques de volume, de vélocité et de variété.
 
Ces travaux sont réalisés dans le cadre d'un projet de recherche en partenariat avec Thales Canada.
 

CqBoost: apprentissage automatique par une méthode d'ensemble avec garanties théoriques

Jean-Francis Roy
Informatique et génie logiciel
 
En apprentissage automatique, ou plus précisément lors de la résolution d'un problème de classification, un algorithme d'apprentissage a pour tâche de prédire la catégorie d'un nouvel élément observé après avoir été entraîné sur un ensemble d'éléments déjà classifiés. Les applications sont multiples : on pourrait par exemple s'intéresser à prédire si oui ou non un client s'intéressera à un produit en fonction de ses achats antérieurs, ou bien déterminer si un courriel est un «spam» ou non à partir de son contenu.
 
Plusieurs algorithmes d’apprentissage retournent la fonction de décision apprise sous la forme d’un vote de majorité pondéré. Nous présenterons une borne statistique sur le risque du classificateur par vote de majorité, qui dépend de la performance individuelle des votants et de la corrélation de leurs erreurs. À partir de cette garantie théroque, nous construirons un algorithme d'apprentissage nommé CqBoost. CqBoost offre l'état de l'art en terme de précision de classification, tout en choisissant un vote de majorité parcimonieux, permettant la classification de nouvelles données de manière plus efficace.
 

Découverte de biomarqueurs génomiques et application à la résistance aux antibiotiques

Alexandre Drouin
Informatique et génie logiciel
 
Les études cas-témoin comparent des groupes de génomes reliés dans le but d’identifier des biomarqueurs, c’est-à-dire des caractéristiques génomiques qui sont caractéristiques d’un état biologique donné. Les récentes avancées dans le domaine du séquençage de génomes complets ont contribué à rendre possible les études cas-témoin à grande échelle. Celles-ci engendrent des volumes de données sans précédents et il est nécessaire de développer de nouveaux algorithmes capables d’en extraire de l’information pertinente.
 
Nous proposons une nouvelle méthode de découvert de biomarqueurs génomiques, combinant un algorithme d’apprentissage automatique et une technique de comparaison de génomes ne nécessitant pas d’alignement. Notre méthode analyse deux ensembles de génomes divisés selon leur état biologique (cas ou témoin) et produit un modèle permettant de prédire l’état biologique de nouveaux génomes. De plus, les modèles obtenus sont concis et ont une forme qui les rend propices à l’interprétation par un expert du domaine. Nous avons appliqué cette méthode à la prédiction de l’antibiorésistance de quatre pathogènes humains, soit C. difficile, M. tuberculosis, P. aeruginosa et S. pneumoniae, à 17 antibiotiques. En quelques heures de calcul seulement, nous avons obtenu des modèles reflétant des mécanismes résistance bien documentés dans la littérature, ayant été découverts au cours des dernières décennies. Notre méthode est générale et peut être appliquée à n’importe quel état biologique. De plus, nous proposons une implémentation efficace pouvant analyser des ensembles de données énormes sans qu’ils soient entièrement chargés dans la mémoire de l’ordinateur. L’application de cette méthode à des états biologiques qui sont aujourd’hui moins bien compris, tel que ceux qui se présentent dans le domaine de la recherche sur le cancer, pourrait permettre de mieux les comprendre et ainsi, de développer de meilleurs tests diagnostics et des traitements plus efficaces.
 

L'apprentissage automatique et les données en simulation de scieries

Michael Morin
Informatique et génie logiciel
 
La simulation est couramment utilisée pour la prise de décision en modélisation de scieries. Dans ce contexte, les entrées d'un simulateur sont les données relatives à la scierie à simuler et la représentation virtuelle des billes disponibles. Durant la simulation, des billes numérisées sont virtuellement transformées en un panier de produits finis. La sortie de cette transformation est directement dépendante du modèle de la scierie. La prise de décision implique normalement plusieurs scénarios (modèles de scierie) et plusieurs ensembles de billes virtuelles. En utilisant ces données, il est possible pour un preneur de décision de déterminer une configuration efficace pour la scierie.
 
Cette approche qui utilise la simulation est toutefois coûteuse en temps de calcul et en temps de modélisation. Nous proposons l'utilisation de l'apprentissage automatique pour la prédiction du résultat de la transformation de billes virtuelles en scierie. Tout en étant plus rapide, la métamodélisation et l'apprentissage automatique a aussi l'avantage de permettre d'attaquer d'autres variantes encore plus complexes du problème de transformation des billes. Par exemple, le problème de prédire la matière première nécessaire à l'obtention d'un panier de produits précis.
 

 


Un réseau de neurones pour l'adaptation de domaine

Hana Ajakan
Informatique et génie logiciel
  
Le coût de production de données étiquetées pour chaque nouvelle tâche d'apprentissage est souvent un obstacle pour l'application des méthodes d'apprentissage automatique. Il est donc fortement recommandé de  développer des techniques d’exploitation des connaissances et des règles apprises sur un problème et les appliquer sur un autre problème partageant quelques similitudes (nous parlons ici de l’adaptation de domaine). Dans ce sens, nous proposons un nouvel algorithme d’apprentissage de représentation de données, appelé DANN, conçu pour le contexte de l'adaptation de domaine dans lequel les données d'entraînement (domaine source) et celles du test (domaine cible) proviennent de deux distributions similaires, mais différentes. Notre algorithme est motivé par la théorie de  Ben-David et al. (2006, 2010), suggérant qu’une bonne représentation de données pour l’adaptation de domaine est celle qui ne donne aucune information sur le domaine de provenance des exemples.
 
Nous  proposons une fonction objective qui implémente cette idée dans le cadre d’un réseau de neurones, dont la couche cachée est formée pour bien classifier le domaine source sans pour autant pouvoir déterminer le domaine de provenance des exemples. Nos expérimentations empiriques montrent que notre algorithme est compétitif avec l’état de l’art sur l’ensemble de données Amazon Reviews.
 

 

Algorithmes de recherche pour la prédiction de séquences en apprentissage automatique

Amélie Rolland
Informatique et génie logiciel
 
La prédiction de séquences est un problème d’apprentissage automatique où l’on cherche à apprendre un prédicteur qui prédit correctement la séquence associée à une entrée. Par exemple, on pourrait vouloir prédire la séquence de caractères contenue dans une image, la séquence de phonèmes représentant la prononciation d’un mot ou la protéine ayant la plus grande affinité de liaison avec une molécule cible.
 
Pour ce faire, l’algorithme d’apprentissage apprend d’abord une fonction, à partir d’un ensemble de données, qui permet de prédire le score d’une séquence pour une entrée donnée. Une fois cette fonction apprise, l’algorithme doit trouver, pour une entrée donnée, la séquence ayant le score maximal dans cette fonction. Puisque le nombre de séquences possibles est exponentiellement grand, il est souvent trop coûteux de calculer le score pour chacune des séquences possibles. Dans ce travail, nous présentons un algorithme permettant d’effectuer cette recherche en temps polynomial pour certains cas. Pour les cas plus complexes, nous présentons des bornes spécialisées pouvant être utilisées avec un algorithme de «Branch and Bound» afin d’effectuer cette recherche efficacement.
Enfin, nous présentons des résultats qui se comparent favorablement à l’état de l’art sur des tâches de reconnaissance de mots et de conception de médicaments assistée par ordinateur.
 

Analyse et intégration de jeux de données massifs dans le domaine de la bio-informatique

Charles Joly-Beauparlant
Médecine moléculaire
 
Le séquençage du génome humain a été acclamé comme un des plus grands accomplissements scientifiques posant les bases d'une nouvelle ère en recherche sur la santé humaine et l'identification des maladies humaines. L'analyse des variations entre individus est la pierre angulaire des études génomiques et épigénomiques. Il est cependant évident que les retombées  réelles d'un tel projet nécessitera des efforts considérables de la part des scientifiques afin d'identifier ce qui différencie les individus. Une des difficultés des projets réalisés à aussi grande échelle est la capacité de gérer, d'interpréter et d'analyser la vaste quantité de données accumulées.
 
En effet, l’accumulation des données produites par les instruments de nouvelles générations a créé un réel goulot d’étranglement dans la découverte de nouvelle connaissance scientifique.
 
Le développement de l'outil informatique appliqué à la biologie est devenu indispensable dans la gestion, l'interprétation et la compréhension de l'information. De plus, de nouveaux centres de calculs ayant une puissance de traitement importante se sont construits à travers le monde afin d'interpréter et d'identifier cette vaste quantité de données massives accumulées nécessitant un travail important de chercheurs. Notre laboratoire travail dans le développement de programmes afin d’analyser cette vaste quantité de données dans la compréhension des gènes humains. Pour cela, nous travaillons en étroite collaboration avec les infrastructures de hautes capacité de Calcul Canada / Calcul Québec dans le déploiement de pipelines spécialisés pour les analyses de jeux de données génomiques et protéomiques. De plus, nous élaborons des nouvelles approches facilitant l’intégration de données provenant de plusieurs expériences et/ou types d’expériences pour les représenter les données dans un contexte biologique de façon interactive. Un des défis majeurs est donc de simplifier l’intégration du déluge de données produites par les consortium internationaux (tels que ENCODE, Roadmap Epigenomics ou TCGA) aux données produites en laboratoire par chaque chercheur. Ainsi, des outils comme ENCODExplorer sont disponibles pour faciliter le l’automatisation des analyses à grande échelle, VEXOR permettant de représenter les données dans un contexte biologique. Des outils disponibles sur Bioconductor tels que metagene et Imetagene permettent de comparer rapidement un grand nombre de régions génomiques afin d’étudier le comportement des protéines qui interagissent avec la chromatine et régulent l’expression des gènes. Finalement, nous travaillons sur un portail nommé R-Omix pour offrir une interface conviviale pour les utilisateurs entre les infrastructures de calcul haute performance et les outils bioinformatiques.
 
Ainsi, notre laboratoire travail dans la recherche en génomique offrant la promesse de développer des outils efficaces d’analyse et d’intégrations des données massives afin de développer des outils diagnostic et d'avoir une meilleure compréhension des besoins de santé d'un individu.