LCC 115 - Interview de Sam Bessalah sur la data science, Hadoop et Mesos

Published: Dec. 22, 2014, 9:35 a.m.

Dans cet \xe9pisose, on discute avec Sam Bessalah de ce \u201cnouveau\u201d m\xe9tier qu\u2019est le data scientist. On explore aussi l\u2019univers Apache Hadoop et l\u2019univers Apache Mesos. Ces endroits sont pleins de projets aux noms bizarres, cette interview permet de s\u2019y retrouver un peu dans cette mythologie.

\n

Enregistr\xe9 le 16 decembre 2014

\n

T\xe9l\xe9chargement de l\u2019\xe9pisode LesCastCodeurs-Episode\u2013115.mp3

\nInterview\nTa vie, ton oeuvre\n

@samklr
Ses pr\xe9sentations, encore ici et l\xe0

\nData scientist\n

Kesako ?!
C\u2019est nouveau ? On a toujours eu des donn\xe9es pourtant dans nos S.I. ?!
Le job le plus sexy du 21eme siecle ?
Drew conway\u2019s Data Science Venn diagram

\nTraiter les donn\xe9es, les plateformes\n

MapR, Hadoop, \u2026 C\u2019est Quoi ? C\u2019est nouveau ? Ca vient d\u2019o\xf9 ? Comment \xe7a marche ? A quoi \xe7a sert ?

\n

Ca s\u2019int\xe8gre \xe0 tout ? Et nos sources de donn\xe9es legacy (Mon bon vieux mainframe et son EBCDIC) ?

\n

O\xf9 sont pass\xe9s mes EAI, ETL, et autres outils d\u2019int\xe9gration B2C/B2B ?

\n

EAI
ETL
EBCDIC
BI (Business Intelligence)

\nHadoop\n

MapReduce
Doug Cutting
Apache Lucene - moteur de recherche full-text

\n

Apache Hadoop - platforme de process distribu\xe9s et scalables
HDFS - syst\xe8me de fichier distribu\xe9
Apache Hive - datawarehouse au dessus d\u2019Hadoop offrant du SQL-like
Terradata
Impala - database analytique (\u201creal time\u201d) SQL queries etc
Apache Tez - directed-acyclic-graph of tasks
Apache Shark remplac\xe9 par Spark SQL
Apache Spark - Spark has an advanced DAG execution engine that supports cyclic data flow and in-memory computing
Apache Storm - process de flux de donn\xe9es de mani\xe8re scalable et distribu\xe9e

\n

Data Flow
Machine Learning - apprendre de la donn\xe9e

\n

Graph Lab

\nEt l\u2019infrastructure dans tout \xe7a ?\n

De nos bons vieux serveurs qui remplissent les salles machines au cloud (IAAS, PAAS), en passant par la virtualisation (), les conteneurs (XLC, Docker, \u2026) \u2026. Des ressources \xe0 gogo c\u2019est bien mais comment les g\xe9rer ?

\n

YARN

\nApache Mesos\n

Apache Mesos
Comment d\xe9marrer Mesos
Tutoriaux
Data Center OS de Mesosphere
Presentation de Same \xe0 Devoxx sur Mesos
Mesos et les container docker
Cluster Management and Containerization by Benjamin Hindman
Integration continue avec Mesos par EBays

\nDocker\n

Docker
D\xe9marrer un cluster Spark avec Docker
Shell Spark dans Docker
Docker et Kubernetes dans Apache Hadoop YARN
Cluster Hadoop sur Docker
Docker, Kubernetes and Mesos

\n

cgroups
LXC
Docker vs LXC
Marathon
Chronos
Code de Chronos
Aurora

\n

Kubernetes
Kubernetes workshop

\n

Oscar Boykin
Scalding
Pr\xe9sentation Scala + BigData et une autre
Apache Ambari

\nComment je m\u2019y mets ?\n

Comment devient-on data scientist ? (se former, ouvrages de r\xe9f\xe9rences, sources d\u2019infos, \u2026) Mesosphere

\n

Cours de Andrew Ng sur le Machine Learning
Introduction to data science sur Coursera
Kaggle
MLlib
Mahoot
R
Scikit-learn (Python)
Machine Learning pour Hackers (livre)
Scala TypeSafe Activator

\n

iPython NoteBooks
Autres r\xe9f\xe9rence iPython NoteBooks
Notebooks temporaires en line - d\xe9marre un container docker sur rackspace gratuitement (pour vous)
Des notebooks
Parallel Machine Learning with scikit-learn and IPython
Visualiser les notebooks en ligne sans les t\xe9l\xe9charger
Spark / Scala notebooks for web based spark development
http://zeppelin-project.org/
Spark et Scala avec un notebook ipython

\nNous contacter\n

Contactez-nous via twitter http://twitter.com/lescastcodeurs
sur le groupe Google http://groups.google.com/group/lescastcodeurs
ou sur le site web http://lescastcodeurs.com/
Flattr-ez nous (dons) sur http://lescastcodeurs.com/
En savoir plus sur le sponsoring? sponsors@lescastcodeurs.com