Préhension robotique dans des environnements non structurés

Préhension robotique dans des environnements non structurés

L’Australian Centre for Robotic Vision (ACRV), dont le siège social se trouve à la Queensland University of Technology (QUT), est une institution établie qui effectue des recherches sur les tâches qu’un robot peut accomplir en lien avec la vision, comme la préhension, la perception et l’asservissement visuel. Il a été démontré à maintes reprises qu’il existe des solutions aux problèmes complexes de robotique, par exemple lorsqu'une équipe de chercheurs du ACRV a remporté le Amazon Picking Challenge.

Comme en témoignent ses fantastiques accomplissements et son succès avec son approche ouverte, modulaire et facile à intégrer, Kinova s’était donné comme objectif d’adapter la préhension d’objets assistée par la vision, dont fait état cet article, afin qu'elle fonctionne avec notre nouveau robot ultraléger KINOVAMDde troisième génération  muni d’un capteur de profondeur et de couleur intégré.

Le contexte

La préhension et la manipulation des objets se sont avérées difficiles pour les robots

La préhension et la manipulation exacte d’objets connus et inconnus dans des environnements nouveaux et changeants – c’est-à-dire, dans la vraie vie – pourraient fort bien représenter la quête du Graal de la recherche robotique. Bien que, pour la plupart des gens, saisir et déplacer des objets soient des mouvements innés (acquis au fil du temps par la répétition et la routine) pour les robots, ils s’avèrent complexes et difficiles. Afin d’être en mesure de saisir et de manipuler des objets dans des environnements non structurés du quotidien, un robot doit pouvoir calculer le nombre presque illimité d’objets qu’il est susceptible de rencontrer. De plus, il doit être en mesure d’agir dans des environnements dynamiques, qu’il s’agisse de changements dans son espace de travail, de bruits ou d’erreurs de perception, d’imprécisions dans ses commandes ou de perturbations du robot lui-même.

Le défi

Développer un moyen plus rapide et plus précis permettant aux robots de saisir des objets dans des environnements non structurés

Des progrès récents dans la synthèse de la préhension ont été réalisés avec la prolifération des techniques d’apprentissage profond basées sur la vision. Cependant, l’approche principale a été d’utiliser des versions adaptées d’architectures de réseaux de neurones convolutionnels (CNN) conçues pour la reconnaissance d’objets.

Dans la plupart des cas, cela se traduit par de longs délais de calcul en raison de l’échantillonnage individuel et du classement des objets. Cela dit, ces techniques sont rarement utilisées dans la préhension en boucle fermée et reposent sur une calibration précise de la caméra et sur un contrôle précis du robot, afin qu’il puisse saisir des objets avec succès, même dans des environnements statiques.

En fin de compte, le véritable défi consiste à mettre au point un moyen plus rapide et plus précis pour les robots de saisir des objets dans des environnements encombrés et changeants, améliorant ainsi leur utilité dans les environnements industriels et domestiques.

Le développement d’un moyen plus rapide et plus précis permettant aux robots de saisir des objets dans des environnements encombrés et changeants améliore leur utilité dans les environnements industriels et domestiques.

L’approche

Une méthode de synthèse de préhension en temps réel, indépendante de l’objet, pour la préhension en boucle fermée

L’équipe de recherche du Australian Centre for Robotic Vision s’est concentrée sur une approche qui diffère de la sélection de points de préhension pour des objets nouveaux – une méthode de synthèse de préhension en temps réel, indépendante de l’objet, pouvant être utilisée pour la préhension en boucle fermée.

L’approche générative proposée, GG-CNN (préhension générative – réseau de neurones convolutionnels), visait à surmonter les limites des techniques de l’apprentissage en profondeur actuel en évitant l’échantillonnage discret des objets et de longs délais de calcul.

Leur approche se concentrait plutôt sur une cartographie personnalisée provenant d’une image en profondeur, prédisant la qualité et la pose de prises à chaque pixel. Lors de ces essais, un robot Kinova Mico 6DOF muni d’une main robotisée KINOVAMD KG-2 à deux doigts a été utilisé (ce robot n’est plus commercialisé, mais nous vous invitons à consulter nos bras robotisés de nouvelle génération).

Les résultats

Taux de réussite oscillant entre 81 % et 88 % dans plusieurs applications.

Considérablement plus petit et plus rapide que les autres réseaux de neurones convolutionnels (CNN), le GG-CNN du Australian Centre for Robotic Vision a atteint des résultats exceptionnels permettant de saisir des objets inconnus et dynamiques, y compris dans des environnements encombrés et changeants. La version finale du GG-CNN contenait 62  420 paramètres, comparativement aux CNN utilisés pour saisir la classification des candidats dans d’autres travaux contenant des centaines de milliers ou des millions de paramètres.

La légèreté et la nature générative en un seul passage de leur réseau ont permis un contrôle en boucle fermée jusqu'à 50 Hz, permettant une préhension précise dans des environnements non statiques où les objets se déplacent et en présence d’imprécisions dans la commande du robot.

résultats