Ciencia de datos

Текст

Книга на испанском

Авторы:Брендан Тирни, John D. Kelleher

Отзывы

Читать фрагмент

MasterCard Visa МИР QIWI кошелек PayPal ЮMoney Мегафон ApplePay

Отметить прочитанной

Как читать книгу после покупки

Смартфон,
планшет Компьютер,
ноутбук Ридер

Скачать:
FB2
EPUB
iOS.EPUB
Ещё 7

По вашей ссылке друзья получат скидку 10% на эту книгу, а вы будете получать 10% от стоимости их покупок на свой счет ЛитРес. Подробнее

Стоимость книги: 1 061,23 ₽
Ваш доход с одной покупки друга: 106,12 ₽

Чтобы посоветовать книгу друзьям, необходимо войти или зарегистрироваться

Объем: 250 стр. 20 иллюстраций
Жанр: математика Редактировать

Ciencia de datos

Брендан Тирни, John D. Kelleher

Шрифт:Меньше АаБольше Аа

EDICIONES UNIVERSIDAD CATÓLICA DE CHILE

Vicerrectoría de Comunicaciones

Av. Libertador Bernardo O’Higgins 390, Santiago, Chile

editorialedicionesuc@uc.cl

www.ediciones.uc.cl

CIENCIA DE DATOS.

MIT Press / Conocimientos esenciales

JOHN D. KELLEHER

Y BRENDAN TIERNEY

Inscripción N° 2020-A-10830

Octubre 2021

ISBN 978-956-14-2758-7

ISBN digital 978-956-14-2759-4

Traducción: English UC Language Center

Ilustración de portada: Joaquín Rosas Sotomayor

Diseño y diagramación: versión productora gráfica SpA

Diagramación digital: ebooks Patagonia

www.ebookspatagonia.com

info@ebookspatagonia.com

CIP - Pontificia Universidad Católica de Chile

Kelleher, John D., 1974-, autor.

Ciencia de datos / John D. Kelleher y Brendan Tierney. Serie de conocimientos esenciales de MIT Press.

Incluye bibliografía.

1. Big data.

2. Aprendizaje de máquina.

3. Minería de datos.

I. t.

II. Tierney, Brendan, 1970-, autor.

II. Data science. Español.

2020 005.7 + DDC23 RDA

CONTENIDOS

Prólogo de la serie

Prefacio

Agradecimientos

CAPÍTULO 1: ¿Qué es la ciencia de datos?

CAPÍTULO 2: ¿Qué son los datos y qué es un conjunto de datos?

CAPÍTULO 3: Un ecosistema de ciencia de datos

CAPÍTULO 4: Aprendizaje automático

CAPÍTULO 5: Tareas estándar de ciencia de datos

CAPÍTULO 6: Privacidad y ética

CAPÍTULO 7: Tendencias futuras y principios de éxito

Glosario

Notas

Lecturas adicionales

Referencias

PRÓLOGO DE LA SERIE

La serie de conocimientos esenciales de MIT Press ofrece libros de bolsillo accesibles, concisos y atractivos sobre temas de interés actual. Escritos por destacados pensadores, los libros de esta colección ofrecen una visión general de expertos sobre los más variados temas que van desde lo cultural e histórico a lo científico y técnico.

En la era actual de información instantánea, tenemos fácil acceso a opiniones, racionalizaciones y descripciones superficiales, mientras que el conocimiento fundamental que entrega una comprensión del mundo basada en principios es mucho más difícil de encontrar. Los libros de esta serie satisfacen esta necesidad. Al sintetizar conceptos especializados para un público no experto y abordar temas críticos a través de los fundamentos, cada uno de estos volúmenes compactos ofrece a los lectores un punto de acceso a ideas complejas.

BRUCE TIDOR

Profesor de Ingeniería Biológica e Informática

Instituto de Tecnología de Massachusetts

PREFACIO

El objetivo de la ciencia de datos es mejorar la toma de decisiones basándolas en información extraída de grandes conjuntos de datos. Como campo de actividad, la ciencia de datos abarca un conjunto de principios, definiciones de problemas, algoritmos y procesos para extraer patrones no obvios y útiles de grandes conjuntos de datos. Está estrechamente relacionada con los campos de la minería de datos y el aprendizaje automático, pero tiene un alcance más amplio. Hoy, la ciencia de datos impulsa la toma de decisiones en casi todos los sectores de las sociedades modernas. Algunas de las formas en que la ciencia de datos puede afectar tu vida diaria incluyen determinar: qué anuncios te presentan en línea; qué películas, libros y conexiones de amigos te recomiendan; qué correos electrónicos se filtran en tu carpeta de correo no deseado; qué ofertas recibes cuando renuevas tu servicio de teléfono celular; el costo de tu prima de seguro de salud; la secuencia y la sincronización de los semáforos en tu área; cómo se diseñaron los medicamentos que puedes necesitar; y qué lugares en tu ciudad son monitoreados por la policía.

El crecimiento en el uso de la ciencia de datos en nuestras sociedades está impulsado por la aparición del big data y las redes sociales, la aceleración de la potencia informática, la reducción masiva en el costo de la memoria de la computadora y el desarrollo de métodos más potentes para el análisis y modelado de datos, como el aprendizaje profundo. Todos estos factores juntos hacen que nunca haya sido tan fácil para las organizaciones recopilar, almacenar y procesar datos. Al mismo tiempo, estas innovaciones técnicas y la aplicación más amplia de la ciencia de datos hacen que los desafíos éticos relacionados con el uso de datos y la privacidad individual nunca han sido tan apremiantes. El objetivo de este libro es proporcionar una introducción a la ciencia de datos que cubra los elementos esenciales del campo de forma suficientemente profunda para permitir una comprensión basada en principios del mismo.

El capítulo 1 presenta el campo de la ciencia de datos y proporciona una breve historia de cómo se ha desarrollado y evolucionado. También examina por qué la ciencia de datos es importante hoy y algunos de los factores que impulsan su adopción. El capítulo termina revisando y desacreditando algunos de los mitos asociados con la ciencia de datos. El capítulo 2 presenta conceptos fundamentales relacionados con los datos. También describe las etapas comunes en un proyecto de ciencia de datos: comprensión del negocio, comprensión de los datos, preparación de los datos, modelado, evaluación y despliegue. El capítulo 3 se centra en la infraestructura de datos y los desafíos planteados por el big data y la integración de datos de múltiples fuentes. Un aspecto de una infraestructura de datos típica que puede ser desafiante es que los datos en las bases de datos y los almacenes de datos a menudo residen en servidores diferentes de los servidores utilizados para su análisis. Como consecuencia, cuando se manejan grandes conjuntos de datos, se puede pasar una gran cantidad de tiempo moviendo datos entre los servidores en los que está la base de datos o el almacén de datos y los servidores utilizados para el análisis de datos y el aprendizaje automático. El capítulo 3 comienza describiendo una infraestructura de ciencia de datos típica para una organización y algunas de las soluciones emergentes para el desafío de mover grandes conjuntos de datos dentro de una infraestructura de datos, que incluyen el uso del aprendizaje automático en la base de datos, el uso de Hadoop para el almacenamiento y procesamiento de datos, y el desarrollo de sistemas de bases de datos híbridas que combinan a la perfección el software de base de datos tradicional y las soluciones tipo Hadoop. El capítulo concluye destacando algunos de los desafíos para integrar datos de toda una organización en una representación unificada que sea adecuada para el aprendizaje automático. El capítulo 4 presenta el campo del aprendizaje automático y explica algunos de los algoritmos y modelos de aprendizaje automático más populares, incluidas las redes neuronales, el aprendizaje profundo y los modelos de árbol de decisión. El capítulo 5 se enfoca en vincular la experiencia de aprendizaje automático con problemas del mundo real al revisar una variedad de problemas comerciales estándar y describir cómo pueden resolverse mediante soluciones de aprendizaje automático. El capítulo 6 revisa las implicaciones éticas de la ciencia de datos, los desarrollos recientes en la regulación de datos y algunos de los nuevos enfoques computacionales para preservar la privacidad de las personas dentro del proceso de ciencia de datos. Finalmente, el capítulo 7 describe algunas de las áreas donde la ciencia de datos tendrá un impacto significativo en el futuro cercano y establece algunos de los principios que son importantes para determinar si un proyecto de ciencia de datos tendrá éxito.

AGRADECIMIENTOS

John y Brendan le agradecen a Paul McElroy y Brian Leahy por leer y comentar los primeros borradores. También le dan las gracias a los dos revisores anónimos que proporcionaron comentarios detallados y útiles sobre el manuscrito y al personal de MIT Press por su apoyo y orientación.

John agradece a su familia y amigos por su apoyo y aliento durante la preparación de este libro y lo dedica a su padre, John Bernard Kelleher, en reconocimiento por su amor y amistad.

Brendan agradece a Grace, Daniel y Eleanor por su constante apoyo mientras escribía nuevamente otro libro (el cuarto) y hacía malabares con los trabajos y viajes.

CAPÍTULO 1

¿Qué es la ciencia de datos?

La ciencia de datos abarca un conjunto de principios, definiciones de problemas, algoritmos y procesos para extraer patrones no obvios y útiles de grandes conjuntos de datos. Muchos de los elementos de la ciencia de datos se han desarrollado en campos relacionados, como el aprendizaje automático y la minería de datos. De hecho, los términos ciencia de datos, aprendizaje automático y minería de datos a menudo se usan indistintamente. Lo que comparten estas disciplinas es el enfoque de mejorar la toma de decisiones a través del análisis de datos. Sin embargo, aunque la ciencia de datos toma prestado de estos otros campos, tiene un alcance más amplio. El aprendizaje automático se centra en el diseño y la evaluación de algoritmos para extraer patrones de los datos. La minería de datos generalmente se ocupa del análisis de datos estructurados y a menudo implica un énfasis en las aplicaciones comerciales. La ciencia de datos tiene en cuenta todas estas consideraciones, pero también aborda otros desafíos, como la captura, limpieza y transformación de redes sociales y datos web no estructurados; el uso de tecnologías del big data para almacenar y procesar grandes conjuntos de datos no estructurados; y preguntas relacionadas con la ética y la regulación de datos.

Mediante la ciencia de datos podemos extraer diferentes tipos de patrones. Por ejemplo, podríamos querer extraer patrones que nos ayuden a identificar grupos de clientes que exhiben comportamientos y gustos similares. En la jerga empresarial, esta tarea se conoce como segmentación de clientes, y en la terminología de la ciencia de datos se llama agrupamiento. Alternativamente, podríamos querer extraer un patrón que identifique los productos que se compran frecuentemente juntos, un proceso llamado minería de reglas de asociación. O podríamos querer extraer patrones que identifiquen eventos extraños o anormales, como reclamos de seguro fraudulentos, un proceso conocido como anomalía o detección de valores atípicos. Finalmente, podríamos querer identificar patrones que nos ayuden a clasificar las cosas. Por ejemplo, la siguiente regla ilustra cómo se vería un patrón de clasificación extraído de un conjunto de datos de correo electrónico: Si un correo electrónico contiene la frase “Hacer dinero fácilmente”, es probable que sea correo no deseado. Identificar estos tipos de reglas de clasificación se conoce como predicción. La palabra predicción puede parecer una elección extraña porque la regla no predice lo que sucederá en el futuro: el correo electrónico ya es o no es un correo no deseado. Por lo tanto, es mejor pensar que los patrones de predicción predicen el valor faltante de un atributo en lugar de predecir el futuro. En este ejemplo, estamos prediciendo si el atributo de clasificación de correo electrónico debe tener el valor “correo no deseado” o no.

Si un experto humano puede crear fácilmente un patrón en su propia mente, entonces no vale la pena el tiempo y el esfuerzo que requiere la ciencia de datos para “descubrirlo”.

Aunque podemos usar la ciencia de datos para extraer diferentes tipos de patrones, siempre queremos que los patrones sean no obvios y útiles. El ejemplo de la regla de clasificación de correo electrónico del párrafo anterior es tan simple y obvia que si fuera la única regla extraída por un proceso de ciencia de datos, quedaríamos decepcionados. Por ejemplo, esta regla de clasificación de correo electrónico verifica solo un atributo: ¿contiene la frase “ganar dinero fácilmente”? Si un experto humano puede crear fácilmente un patrón en su propia mente, entonces no vale la pena el tiempo y el esfuerzo que requiere la ciencia de datos para “descubrirlo”. En general, la ciencia de datos se vuelve útil cuando tenemos una gran cantidad de ejemplos de datos y cuando los patrones son demasiado complejos para que los humanos los descubran y extraigan manualmente. Como límite inferior, podemos tomar una gran cantidad de ejemplos de datos para definir que supere lo que un experto humano puede verificar fácilmente. Con respecto a la complejidad de los patrones, podemos definirla en relación con las habilidades humanas. Los humanos somos razonablemente buenos para definir reglas que marcan un, dos, cientos, miles y, en casos extremos, millones de atributos.

Los patrones que extraemos mediante la ciencia de datos son útiles solo si nos dan una idea del problema que nos permite hacer algo para ayudar a resolverlo. La frase conocimiento procesable a veces se usa en este contexto para describir lo que queremos que nos den los patrones extraídos. El término conocimiento destaca que el patrón debería proporcionarnos información relevante sobre el problema que no sea obvia. El término procesable destaca que la información que obtenemos también debe ser algo que tengamos la capacidad de usar de alguna manera. Por ejemplo, imagina que estamos trabajando para una compañía de teléfonos celulares que está tratando de resolver un problema de abandono de clientes, es decir, demasiados clientes se están cambiando a otras compañías. Una forma en que se podría utilizar la ciencia de datos para abordar este problema es extraer patrones de los datos sobre clientes anteriores que nos permitan identificar a los clientes actuales que tienen riesgos de abandono y luego contactar a estos clientes e intentar convencerlos de que se queden con nosotros. Un patrón que nos permite identificar a los posibles clientes que abandonarían es útil para nosotros solo si (a) los patrones identifican a los clientes con suficiente anticipación para que podamos contactarlos antes de que abandonen y (b) nuestra empresa pueda formar un equipo para contactarlos. Ambas cosas son necesarias para que la empresa pueda actuar según el conocimiento que nos brindan los patrones.

Una breve historia de la ciencia de datos

El término ciencia de datos tiene una historia específica que se remonta a la década de 1990. Sin embargo, los campos en los que se basa tienen una historia mucho más larga. Un aspecto en esta historia más larga es la historia de la recopilación de datos; otro es la historia del análisis de datos. En esta sección, revisaremos los principales desarrollos en estos aspectos y describiremos cómo y por qué convergieron en el campo de la ciencia de datos. Por necesidad, esta revisión introduce una nueva terminología a medida que describimos y nombramos las innovaciones técnicas importantes a medida que vayan surgiendo. Para cada nuevo término proporciorenamos una breve explicación de su significado. Más adelante en el libro volveremos a muchos de estos términos y proporcionaremos una explicación más detallada de ellos. Comenzaremos con la historia de la recopilación de datos, luego presentaremos la historia del análisis de datos y, finalmente, cubriremos el desarrollo de la ciencia de datos.

La historia de la recopilación de datos

Los primeros métodos para registrar datos pueden haber sido marcas en palos para registrar el paso de los días o postes clavados en el suelo para marcar el amanecer en los solsticios. Con el desarrollo de la escritura, sin embargo, nuestra capacidad de registrar nuestras experiencias y los eventos en nuestro mundo aumentó enormemente la cantidad de datos que recopilamos. La primera forma de escritura se desarrolló en Mesopotamia alrededor del 3.200 a. C. y se utilizó para mantener registros comerciales. Este tipo de mantenimiento de registros captura lo que se conoce como datos transaccionales. Los datos transaccionales incluyen información de eventos como la venta de un artículo, la emisión de una factura, la entrega de bienes, el pago con tarjeta de crédito, las reclamaciones de seguros, etc. Los datos no transaccionales, como los datos demográficos, también tienen una larga historia. Los primeros censos conocidos tuvieron lugar en el Egipto faraónico alrededor del año 3.000 a. C. La razón por la cual los primeros estados pusieron tanto esfuerzo y recursos en grandes operaciones de recolección de datos fue que estos estados necesitaban aumentar los impuestos y los ejércitos, lo que demuestra la afirmación de Benjamin Franklin de que solo hay dos cosas ciertas en la vida: la muerte y los impuestos.

En los últimos 150 años, el desarrollo del sensor electrónico, la digitalización de datos y la invención de la computadora han contribuido a un aumento masivo en la cantidad de datos que se recopilan y almacenan. Un hito en la recopilación y el almacenamiento de datos ocurrió en 1970 cuando Edgar F. Codd publicó un artículo que explicaba el modelo de datos relacionales, que fue revolucionario en términos de establecer cómo se almacenaban, indexaban y recuperaban (en ese momento) los datos de las bases de datos. El modelo de datos relacionales permitió a los usuarios extraer datos de una base de datos mediante consultas simples que definían qué datos deseaba el usuario sin requerir que se preocupara por el estándar internacional de estructura subyacente para definir consultas de base de datos. Las bases de datos relacionales almacenan datos en tablas con una estructura de una fila por instancia y una columna por atributo. Esta estructura es ideal para almacenar datos porque puede descomponerse en atributos naturales.

Las bases de datos son la tecnología natural que se utiliza para almacenar y recuperar datos transaccionales u operativos estructurados (es decir, el tipo de datos generados por las operaciones diarias de una empresa). Sin embargo, a medida que las compañías se han vuelto más grandes y más automatizadas, la cantidad y variedad de datos generados por diferentes partes de estas compañías han aumentado dramáticamente. En la década de 1990, las empresas se dieron cuenta de que a pesar de que estaban acumulando enormes cantidades de datos, se encontraban repetidamente con dificultades para analizar esos datos. Parte del problema era que los datos a menudo se almacenaban en numerosas bases de datos separadas dentro de una organización. Otra dificultad era que las bases de datos estaban optimizadas para el almacenamiento y la recuperación de datos, actividades caracterizadas por altos volúmenes de operaciones simples, como SELECCIONAR, INSERTAR, ACTUALIZAR y ELIMINAR. Para analizar sus datos, estas compañías necesitaban tecnología que pudiera reunir y conciliar los datos de bases de datos dispares y que facilitara las operaciones de datos analíticos más complejos. Este desafío empresarial condujo al desarrollo de almacenes de datos. En un almacén de datos, los datos se toman de toda la organización y se integran, lo que proporciona un conjunto de datos más completo para el análisis.

En las últimas décadas, nuestros dispositivos se han vuelto móviles y conectados en red, y muchos de nosotros pasamos muchas horas en línea todos los días usando tecnologías sociales, juegos de computadora, plataformas de medios y motores de búsqueda web. Estos cambios en la tecnología y en cómo vivimos han tenido un impacto dramático en la cantidad de datos recopilados. Se estima que la cantidad de datos recopilados durante los cinco milenios desde la invención de la escritura hasta 2003 es de aproximadamente 5 exabytes. Desde 2013, los humanos generan y almacenan esta misma cantidad de datos todos los días. Sin embargo, no solo es la cantidad de datos recopilados lo que ha crecido dramáticamente sino también la variedad de datos. Solo considera la siguiente lista de fuentes de datos en línea: correos electrónicos, blogs, fotos, tweets, me gusta, recursos compartidos, búsquedas en la web, carga de videos, compras en línea, podcasts. Y si consideramos los metadatos (datos que describen la estructura y las propiedades de los datos brutos) de estos eventos, podemos comenzar a comprender el significado del término big data. El big data a menudo se define en términos de las tres V: el volumen extremo de datos, la variedad de los tipos de datos y la velocidad a la que deben procesarse los datos.

La llegada del big data ha impulsado el desarrollo de una gama de nuevas tecnologías de bases de datos. Esta nueva generación de bases de datos a menudo se conoce como “bases de datos NoSQL”. Por lo general, tienen un modelo de datos más simple que las bases de datos relacionales tradicionales. Una base de datos NoSQL almacena datos como objetos con atributos, utilizando un lenguaje de notación de objetos como el JavaScript Object Notation (JSON). La ventaja de usar una representación de datos de objetos (en contraste con un modelo basado en tablas relacionales) es que el conjunto de atributos para cada objeto está encapsulado dentro del objeto, lo que resulta en una representación flexible. Por ejemplo, puede ser que uno de los objetos en la base de datos, en comparación con otros objetos, solo tenga un subconjunto de atributos. Por el contrario, en la estructura de datos tabular estándar utilizada por una base de datos relacional, todos los puntos de datos deben tener el mismo conjunto de atributos (es decir, columnas). Esta flexibilidad en la representación de objetos es importante en contextos donde los datos no pueden (por variedad o tipo) descomponerse naturalmente en un conjunto de atributos estructurados. Por ejemplo, puede ser difícil definir el conjunto de atributos que deberían usarse para representar texto libre (como tweets) o imágenes. Sin embargo, aunque esta flexibilidad de representación nos permite capturar y almacenar datos en una variedad de formatos, estos datos aún deben extraerse en un formato estructurado antes de que se pueda realizar un análisis en ellos.

La existencia del big data también ha llevado al desarrollo de nuevos marcos de procesamiento de datos. Cuando se trata de grandes volúmenes de datos a altas velocidades, puede ser útil desde una perspectiva computacional y de velocidad distribuir los datos en varios servidores, procesar consultas calculando resultados parciales de una consulta en cada servidor y luego combinar estos resultados para generar la respuesta a la consulta. Este es el enfoque adoptado por el marco de MapReduce en Hadoop. En el marco de MapReduce, los datos y las consultas se asignan a (o se distribuyen en) varios servidores, y los resultados parciales calculados en cada servidor se reducen (fusionan).

La historia del análisis de datos

La estadística es la rama de la ciencia que se ocupa de la recopilación y el análisis de datos. El término estadística originalmente se refería a la recopilación y análisis de datos sobre el Estado, como datos demográficos o datos económicos. Sin embargo, con el tiempo se amplió el tipo de datos a los que se aplicaba el análisis estadístico, de modo que hoy las estadísticas se utilizan para analizar todo tipo de datos. La forma más simple de análisis estadístico de datos es el resumen de un conjunto de datos en términos de estadísticas de resumen (descriptivas) (incluidas medidas de una tendencia central, como la media aritmética, o medidas de variación, como el rango). Sin embargo, en los siglos XVII y XVIII, el trabajo de personas como Gerolamo Cardano, Blaise Pascal, Jakob Bernoulli, Abraham de Moivre, Thomas Bayes y Richard Price sentó las bases de la teoría de la probabilidad, y a lo largo del siglo XIX muchos estadísticos comenzaron a utilizar distribuciones de probabilidad como parte de su kit de herramientas analíticas. Estos nuevos desarrollos en matemáticas permitieron a los estadísticos ir más allá de las estadísticas descriptivas y comenzar a hacer aprendizaje estadístico. Pierre Simon de Laplace y Carl Friedrich Gauss son dos de los matemáticos más importantes y famosos del siglo XIX, y ambos hicieron importantes contribuciones al aprendizaje estadístico y la ciencia de datos moderna. Laplace tomó las intuiciones de Thomas Bayes y Richard Price y las desarrolló en la primera versión de lo que ahora conocemos como la regla de Bayes. Gauss, en su búsqueda del planeta enano desaparecido Ceres, desarrolló el método de mínimos cuadrados, que nos permite encontrar el mejor modelo que se ajusta a un conjunto de datos de modo que el error en el ajuste minimice la suma de las diferencias al cuadrado entre los puntos de datos en el conjunto de datos y el modelo. El método de mínimos cuadrados proporcionó la base para los métodos de aprendizaje estadístico como la regresión lineal y la regresión logística, así como el desarrollo de modelos de redes neuronales artificiales en inteligencia artificial (volveremos a los mínimos cuadrados, análisis de regresión y redes neuronales en el capítulo 4).

Entre 1780 y 1820, casi al mismo tiempo que Laplace y Gauss estaban haciendo sus contribuciones al aprendizaje estadístico, un ingeniero escocés llamado William Playfair estaba inventando gráficos estadísticos y sentando las bases para la visualización de datos y el análisis exploratorio de datos modernos. Playfair inventó el gráfico de líneas y el gráfico de área para datos de series temporales, el gráfico de barras para ilustrar comparaciones entre cantidades de diferentes categorías y el gráfico circular para ilustrar proporciones dentro de un conjunto. La ventaja de visualizar datos cuantitativos es que nos permite usar nuestras poderosas habilidades visuales para resumir, comparar e interpretar datos. Es cierto que es difícil visualizar conjuntos de datos grandes (muchos puntos de datos) o complejos (muchos atributos), pero la visualización de datos sigue siendo una parte importante de la ciencia de datos. En particular, es útil para ayudar a los científicos de datos a explorar y comprender los datos con los que están trabajando. Las visualizaciones también pueden ser útiles para comunicar los resultados de un proyecto de ciencia de datos. Desde la época de Playfair, la variedad de gráficos de visualización de datos ha crecido constantemente, y hoy en día hay investigaciones en curso sobre el desarrollo de enfoques novedosos para visualizar grandes conjuntos de datos multidimensionales. Un desarrollo reciente es el algoritmo de incrustación de vecino estocástico distribuido en t (t-SNE), que es una técnica útil para reducir datos de alta dimensión a dos o tres dimensiones, lo que facilita la visualización de esos datos.

Los desarrollos en la teoría de la probabilidad y las estadísticas continuaron hasta el siglo XX. Karl Pearson desarrolló pruebas de hipótesis modernas, y R. A. Fisher desarrolló métodos estadísticos para el análisis multivariado e introdujo la idea de la estimación de máxima verosimilitud en la inferencia estadística como un método para sacar conclusiones basadas en la probabilidad relativa de eventos. El trabajo de Alan Turing en la Segunda Guerra Mundial condujo a la invención de la computadora electrónica, que tuvo un impacto dramático en las estadísticas porque permitió cálculos estadísticos mucho más complejos. A lo largo de la década de 1940 y las décadas posteriores, se desarrollaron varios modelos computacionales importantes que todavía se usan ampliamente en la ciencia de datos. En 1943, Warren McCulloch y Walter Pitts propusieron el primer modelo matemático de una red neuronal. En 1948, Claude Shannon publicó “Una teoría matemática de la comunicación” y al hacerlo fundó la teoría de la información. En 1951, Evelyn Fix y Joseph Hodges propusieron un modelo para el análisis discriminatorio (lo que ahora se llamaría un problema de clasificación o reconocimiento de patrones) que se convirtió en la base de los modelos de vecinos más cercanos modernos. Estos desarrollos posguerra culminaron en 1956 con el establecimiento del campo de la inteligencia artificial en un taller en Dartmouth College. Incluso en esta etapa temprana del desarrollo de la inteligencia artificial, el término aprendizaje automático estaba comenzando a usarse para describir programas que le daban a una computadora la capacidad de aprender de los datos. A mediados de la década de 1960, se hicieron tres contribuciones importantes al aprendizaje automático. En 1965, el libro de Nils Nilsson titulado Learning Machines mostró cómo las redes neuronales podían usarse para aprender modelos lineales para clasificar. Al año siguiente, Earl B. Hunt, Janet Marin y Philip J. Stone desarrollaron el marco del sistema de aprendizaje de conceptos, que fue el progenitor de una importante familia de algoritmos del aprendizaje automático que indujeron modelos de árbol de decisión a partir de datos según un modelo descedente. Casi al mismo tiempo, varios investigadores independientes desarrollaron y publicaron versiones tempranas del algoritmo de agrupamiento k-means, ahora el algoritmo estándar utilizado para la segmentación de (clientes) datos.

El campo del aprendizaje automático está en el núcleo de la ciencia de datos moderna porque proporciona algoritmos que pueden analizar automáticamente grandes conjuntos de datos para extraer patrones potencialmente interesantes y útiles. El aprendizaje automático ha seguido desarrollándose e innovando hasta el día de hoy. Algunos de los desarrollos más importantes incluyen modelos de conjunto, donde las predicciones se realizan utilizando un conjunto (o comité) de modelos, con cada modelo votando en cada consulta, y redes neuronales de aprendizaje profundo, que tienen múltiples (es decir, más de tres) capas de neuronas. Estas capas más profundas de la red pueden descubrir y aprender representaciones de atributos complejos (compuestos de múltiples atributos de entrada interactivos que han sido procesados por capas anteriores), que a su vez permiten a la red aprender patrones que se generalizan a través de los datos de entrada. Debido a su capacidad para aprender atributos complejos, las redes de aprendizaje profundo son particularmente adecuadas para datos de alta dimensión y, por lo tanto, han revolucionado una serie de campos, incluida la visión artificial y el procesamiento del lenguaje natural.

12 3 След.

Ciencia de datos

С этой книгой читают