🏠 Inicio 📚 Sesión 06
1 / 10

📊 Conjuntos de Datos

🗂️

Datos saludables para predicciones saludables

Technovation Girls

Beginner Division - Sesión 6

En esta sesión aprenderás: Qué es un conjunto de datos, cómo debe ser un conjunto de datos "saludable", y cómo recopilar datos para tu proyecto

Las 3 Partes de la IA 🧠

La Inteligencia Artificial aprende siguiendo estos 3 pasos:

1
CONJUNTO DE DATOS — Una gran colección de datos (fotos, textos, sonidos...)
2
ENCONTRAR PATRONES — El modelo aprende a reconocer patrones en los datos
3
HACER PREDICCIONES — El modelo usa los patrones para predecir o clasificar

Ejemplo: Perros vs Gatos 🐶🐱

1. Le damos muchas fotos de perros y gatos

2. El modelo aprende las diferencias entre ellos

3. Al ver una foto nueva, predice si es perro o gato

¿Qué es un Conjunto de Datos? 🗂️

📷📝🔊🤸

Un conjunto de datos es...

Una gran colección de datos que se usa para entrenar un modelo de IA

Tipos de datos:

📷
Imágenes — Fotos, dibujos, capturas de pantalla
📝
Texto — Palabras, frases, párrafos
🔊
Sonidos — Grabaciones de audio, música, voces
🤸
Poses — Posiciones del cuerpo, gestos

¿Qué son Datos "Saludables"? 💚

Un conjunto de datos saludable lleva a predicciones correctas

📦
Muchos datos — Al menos 50 ejemplos por cada categoría
Datos correctos — Bien etiquetados y sin errores
🎯
Relacionados con tu problema — Que sirvan para lo que quieres resolver
🌈
Variedad — Muchos ejemplos diferentes entre sí
🔑
Tipo correcto — El formato adecuado (fotos, texto, sonido...)
🤝
Con permiso — Tienes permiso para usar esos datos
"¡Datos saludables = Predicciones saludables!"

Datos NO Saludables 🚨

¿Qué pasa cuando los datos NO son saludables?

❌ Problemas comunes:

1
Pocos datos — El modelo no tiene suficientes ejemplos para aprender
2
Datos desequilibrados — Muchos ejemplos de una categoría y pocos de otra
3
Poca variedad — Todos los ejemplos son muy parecidos

Ejemplo de sesgo ⚠️

Si entrenas un modelo para detectar mascarillas solo con fotos de hombres con mascarillas azules...

¿Qué pasa cuando una mujer con mascarilla morada lo usa? ¡No funcionará bien!

Debes tener aproximadamente la misma cantidad de ejemplos para cada categoría para evitar el sesgo

La Cadena de Datos Saludables 🔗

🗂️

Datos saludables

➡️
🔍

Patrones correctos

➡️
🎯

Predicciones correctas

➡️

Acciones correctas

Recuerda

¡Todo empieza con unos buenos datos!

Si los datos son malos, todo lo demás también lo será

3 Formas de Recopilar Datos 📥

1. Recopilar tus propios datos 📸

Toma fotos, graba sonidos o recoge datos directamente de tu comunidad.

¡Asegúrate de tener permiso!

2. Usar conjuntos de datos públicos 🌐

Hay muchos datos disponibles en internet que puedes usar libremente.

Sitios útiles: Kaggle, Google Dataset Search

3. Usar sensores y hardware 🔌

Si necesitas datos en tiempo real, puedes usar sensores que recopilen datos automáticamente.

Para vuestro proyecto en App Inventor, lo más probable es que uséis las opciones 1 y 2

Datos Públicos 🌐

Hay organizaciones que comparten datos para que cualquiera pueda usarlos

Kaggle 📊

Una de las plataformas más grandes de conjuntos de datos del mundo.

Web: kaggle.com/datasets

Miles de conjuntos de datos gratuitos sobre todo tipo de temas.

Google Dataset Search 🔍

Un buscador de Google específico para encontrar conjuntos de datos.

Web: datasetsearch.research.google.com

Consejo 💡

Si necesitas muchos datos rápidamente, los datos públicos son tu mejor opción

Ética y Permisos 🤝

Recopilar datos conlleva una responsabilidad

🔒
Pide siempre permiso antes de recopilar datos de otras personas
⚖️
Evita el sesgo — Incluye ejemplos variados y equilibrados
🌍
Piensa en el impacto — ¿Cómo afectan tus datos a diferentes personas?
📋
Documenta tus fuentes — Apunta de dónde sacaste los datos

Para SonRISAS 💜

Si recogéis datos de personas mayores, pedid permiso y tratad la información con cuidado y respeto

Recordad: En la rúbrica de Technovation se evalúan las consideraciones éticas de vuestro proyecto

¡Ya Sabéis sobre Datos! 🌟

🎉
La IA necesita datos, patrones y predicciones
Los datos deben ser saludables: muchos, variados, correctos y con permiso
Podéis recopilar datos propios o usar datos públicos
Siempre hay que ser éticos y responsables con los datos

Siguiente Paso 🎯

Pensar qué datos podría necesitar SonRISAS y de dónde obtenerlos

¿Preguntas? 🙋‍♀️