Me acaba de explotar la cabeza con esta reflexión. Y a la vez me genera decenas de preguntas, planteamientos, supuestos, bifurcaciones… ¿qué tiempo deberá pasar para que deje de ser una tendencia y pase a ser una expectativa sobre el producto?
Te diré que ya casi he sustituido google por chatgpt, y eso que el agente IA no "hace" aún nada, sólo habla y arroja info. Imagina cuando pueda hacer cosas: negociar con alguien en wallapop, comprarme los billetes para dar clase en Coruña el jueves u otras tareas que requieren conocerme y no son especialmente complejas...
Uf… ¿dos años? ¿No estaremos en el punto en el que la tecnología aún está por delante de un uso habitual y recurrente? ¿No se trataría de disociar un producto en dos? Uno transaccional y otro “tradicional” de contenidos.
Lo que está claro es que sólo dando el primer paso, se obtendrán las respuestas.
¿Habrán voces que crezcan (edad) con la marca? ¿Variará la voz en función del momento del día, de los acontecimientos, del tiempo que haga, de la manera en la que nos dirijamos a ella? ¿Podrá una marca tener varias voces que sean una solo voz?
Buah, preguntazas. ¿Variará en función de con quién hable? ChatGPT ya sabe cuando habla con mi hijo Jaime de 4 años y ajusta el tono a su entendimiento mejor de lo que lo hacen la mayoría de adultos. Igual que Nike no es la misma en Arabia Saudí y en Oregón, imagino que su proyección vocal tampoco lo será.
Supongo que, como siempre, tendremos que pensar hasta donde queremos llegar. ¿Cuánto de humana queremos que sea una máquina? ¿Ignoramos el medio y entendemos que simplemente es un canal a través del que se materializa algo que trasciende a él?
Cuando mi abuela vio internet se preguntaba la diferencia entre el papel y lo que veía en la pantalla. "¿Cuánto de humana queremos que sea una máquina?" Esa pregunta nos la hacemos nosotros, también mi hijo de 17 años, pero se la hará mi hijo de 4?
Excelente post! Y en efecto, cuando lanzaste el podcast del Fin de la Interfaz lo compartí con varios colegas. Sin haberlo pasado en limpio, tengo la idea de que la combinación de interfaz de voz y pantalla generan el mejor resultado posible en muchos ámbitos: la interfaz de voz sirve para requerir información filtrada, y la pantalla es más efectiva para mostrar una serie de resultados. El límite de la interfaz en pantalla es la cantidad de píxeles disponibles, y el límite de la interfaz de voz es la linealidad en el tiempo. Pongo un simple ejemplo:
Supongamos que queremos ordenar comida en una aplicación de delivery. Una aplicación sólo puede mostrar cierta cantidad de controles y resultados y filtros a la vez, antes de volverse imposible de navegar. El lenguaje es muchísimo más directo, atraviesa todos los filtros de la aplicación pero también permite crear nuevos, con una simple enunciación: "Quiero ordenar algo que llegue dentro de los 30 minutos, que comí esta semana y que no cueste más de 15 euros". La cantidad de filtros y botones que se ahorra el usuario con una enunciación tan personal (y esto es importante) triunfa frente a una interfaz tradicional.
Ahora bien, ¿qué pasa si la aplicación devuelve 5 o 10 resultados? ¿Es mejor mostrar esos resultados en una pantalla, o expresarlos mediante voz? Siempre que llamo a un número de un banco, odio la idea de tener que memorizar 6 opciones de un mensaje similar:
- si llama por sus tarjetas de crédito marque 1
- si llama por robos marque 2
- etc.
Obviamente, el ida y vuelta de una conversación con una Interfaz de Voz puede resolver varios de estos problemas, pero sigo pensando que en tanto y en cuanto aceptemos o creamos que la respuesta que nos de de primeras, será la mejor.
Creo que metes el dedo en la llaga. Yo también intuyo que habrá cosas, productos que compramos, lugares que necesitamos ver, que requerirán de una pantalla y, como dices, será algo combinado. Quizás pronto llevemos una pantalla en el bolsillo o en la muñeca que saquemos sólo puntualmente.
Respecto a los resultados múltiples (buscando hoteles, productos, películas, etc.) ahora son producto de motores de indexación y tecnologías poco avanzadas. Es decir, muchas de las cosas que vemos como listas podrían no serlo con una pregunta bien formulada o con lenguaje natural.
Hay otro escenario que es el de las vistas sintéticas: mapas, visualizaciones de datos, etc. que requieren ver el conjunto, ¿verdad? No creo que dejemos de usar pantallas grandes para cosas así (en el coche, en escritorios, etc.) pero tampoco creo que necesitemos eso en nuestros bolsillos las 24 horas.
Muy bueno el podcast. Y la reflexión de fondo. Al final, todo lo que aproxime más la tecnología a la naturaleza humana triunfará, tal y como lo hizo el tacto frente a la tecla, la movilidad frente al cableado, o los multidispositivos a un único bolsillo, porque el hombre sigue siendo la medida de todas las cosas (https://jajugon.substack.com/p/protagoras-y-el-metaverso). Regresar a la voz será siempre una buena idea, porque es el gran interfaz, como dices, uno de los que mejor democratiza el acceso a la información, del mismo modo que el alfabeto revolucionó la escritura al aproximarla al habla frente a la codificación críptica de los escribas (https://jajugon.substack.com/p/la-revolucion-del-alfabeto).
Solo un par de matices a tu narración: el habla no transmite mayor ancho de banda que el vídeo, como bien sabemos. Otra cosa es que 200.000 años de experimentación haya afinado muchísimo su capacidad para contener información útil frente al total de información y la energía consumida para transmitirla. Y que desde luego a la IA todavía le quede mucho por enriquecerse en la transmisión de los aspectos que mencionas (entonación, musicalidad, comprensión del contexto,…). Pero basta ver la diferencia abismal entre bits por segundo entre ambos contenidos.
El segundo pequeño reparo, sobre el que no me extenderé, es ese intento de analogía al fenómeno y noúmeno kantianos. Aunque la voz se manifieste de manera más sutil que lo audiovisual, que creo que es por donde ibas, no deja de ser un fenómeno… ¿o me he perdido algo?
Creo que se han cruzado algunos cables y estás entendiendo algo de forma distinta a como yo pretendía que se entendiese, quizás por error mío. Cuando digo que la voz tiene más ancho de banda me refiero a si la comparamos con la interacción con interfaces gráficas de usuario (GUIs), no respecto al video (que es imagen y voz). Pedir un taxi por una app, por ejemplo, tiene un consumo cognitivo, visual, gestual y hasta corporal que no plantearía pedirlo por voz:
— Mandame un taxi a gran via 32
— Entendido. Va de camino, tardará unos 13 minutos.
El video es un canal mucho más rico, pero aún costoso de producir si queremos moldear un mensaje. Tampoco es un canal con el que nos expresemos de forma natural, casi todo son códigos artificiales y culturales. Quién sabe en unos años, ¿verdad?
Entendido ahora, gracias y disculpa. A golpe de clic y de movimientos de ratón o contacto por pantalla táctil, efectivamente, nuestra interacción con las interfaces gráficas es mucho más pobre que la del habla. Es posible que el salto al habla y al reconocimiento de vídeo vayan más parejos de lo que creemos. El reconocimiento facial de nuestras expresiones es consustancial a la comunicación oral (de hecho, perdemos muchos matices sin ella), y las máquinas ya están dando asombrosas muestras de ser capaces de reconocerlas...
A mi me está entrando la risa. Menos mal que no me he quitado de LinkedIn lo de Trascendiendo al lenguaje a través del lenguaje 😂😂
Me acaba de explotar la cabeza con esta reflexión. Y a la vez me genera decenas de preguntas, planteamientos, supuestos, bifurcaciones… ¿qué tiempo deberá pasar para que deje de ser una tendencia y pase a ser una expectativa sobre el producto?
Puf, yo estoy igual, Alberto 😅
Te diré que ya casi he sustituido google por chatgpt, y eso que el agente IA no "hace" aún nada, sólo habla y arroja info. Imagina cuando pueda hacer cosas: negociar con alguien en wallapop, comprarme los billetes para dar clase en Coruña el jueves u otras tareas que requieren conocerme y no son especialmente complejas...
¿2 años? ¿Tú a qué apostarías?
Uf… ¿dos años? ¿No estaremos en el punto en el que la tecnología aún está por delante de un uso habitual y recurrente? ¿No se trataría de disociar un producto en dos? Uno transaccional y otro “tradicional” de contenidos.
Lo que está claro es que sólo dando el primer paso, se obtendrán las respuestas.
¿Habrán voces que crezcan (edad) con la marca? ¿Variará la voz en función del momento del día, de los acontecimientos, del tiempo que haga, de la manera en la que nos dirijamos a ella? ¿Podrá una marca tener varias voces que sean una solo voz?
Buah, preguntazas. ¿Variará en función de con quién hable? ChatGPT ya sabe cuando habla con mi hijo Jaime de 4 años y ajusta el tono a su entendimiento mejor de lo que lo hacen la mayoría de adultos. Igual que Nike no es la misma en Arabia Saudí y en Oregón, imagino que su proyección vocal tampoco lo será.
Supongo que, como siempre, tendremos que pensar hasta donde queremos llegar. ¿Cuánto de humana queremos que sea una máquina? ¿Ignoramos el medio y entendemos que simplemente es un canal a través del que se materializa algo que trasciende a él?
Cuando mi abuela vio internet se preguntaba la diferencia entre el papel y lo que veía en la pantalla. "¿Cuánto de humana queremos que sea una máquina?" Esa pregunta nos la hacemos nosotros, también mi hijo de 17 años, pero se la hará mi hijo de 4?
Excelente post! Y en efecto, cuando lanzaste el podcast del Fin de la Interfaz lo compartí con varios colegas. Sin haberlo pasado en limpio, tengo la idea de que la combinación de interfaz de voz y pantalla generan el mejor resultado posible en muchos ámbitos: la interfaz de voz sirve para requerir información filtrada, y la pantalla es más efectiva para mostrar una serie de resultados. El límite de la interfaz en pantalla es la cantidad de píxeles disponibles, y el límite de la interfaz de voz es la linealidad en el tiempo. Pongo un simple ejemplo:
Supongamos que queremos ordenar comida en una aplicación de delivery. Una aplicación sólo puede mostrar cierta cantidad de controles y resultados y filtros a la vez, antes de volverse imposible de navegar. El lenguaje es muchísimo más directo, atraviesa todos los filtros de la aplicación pero también permite crear nuevos, con una simple enunciación: "Quiero ordenar algo que llegue dentro de los 30 minutos, que comí esta semana y que no cueste más de 15 euros". La cantidad de filtros y botones que se ahorra el usuario con una enunciación tan personal (y esto es importante) triunfa frente a una interfaz tradicional.
Ahora bien, ¿qué pasa si la aplicación devuelve 5 o 10 resultados? ¿Es mejor mostrar esos resultados en una pantalla, o expresarlos mediante voz? Siempre que llamo a un número de un banco, odio la idea de tener que memorizar 6 opciones de un mensaje similar:
- si llama por sus tarjetas de crédito marque 1
- si llama por robos marque 2
- etc.
Obviamente, el ida y vuelta de una conversación con una Interfaz de Voz puede resolver varios de estos problemas, pero sigo pensando que en tanto y en cuanto aceptemos o creamos que la respuesta que nos de de primeras, será la mejor.
Gracias, Nicolas!
Creo que metes el dedo en la llaga. Yo también intuyo que habrá cosas, productos que compramos, lugares que necesitamos ver, que requerirán de una pantalla y, como dices, será algo combinado. Quizás pronto llevemos una pantalla en el bolsillo o en la muñeca que saquemos sólo puntualmente.
Respecto a los resultados múltiples (buscando hoteles, productos, películas, etc.) ahora son producto de motores de indexación y tecnologías poco avanzadas. Es decir, muchas de las cosas que vemos como listas podrían no serlo con una pregunta bien formulada o con lenguaje natural.
Hay otro escenario que es el de las vistas sintéticas: mapas, visualizaciones de datos, etc. que requieren ver el conjunto, ¿verdad? No creo que dejemos de usar pantallas grandes para cosas así (en el coche, en escritorios, etc.) pero tampoco creo que necesitemos eso en nuestros bolsillos las 24 horas.
Muy bueno el podcast. Y la reflexión de fondo. Al final, todo lo que aproxime más la tecnología a la naturaleza humana triunfará, tal y como lo hizo el tacto frente a la tecla, la movilidad frente al cableado, o los multidispositivos a un único bolsillo, porque el hombre sigue siendo la medida de todas las cosas (https://jajugon.substack.com/p/protagoras-y-el-metaverso). Regresar a la voz será siempre una buena idea, porque es el gran interfaz, como dices, uno de los que mejor democratiza el acceso a la información, del mismo modo que el alfabeto revolucionó la escritura al aproximarla al habla frente a la codificación críptica de los escribas (https://jajugon.substack.com/p/la-revolucion-del-alfabeto).
Solo un par de matices a tu narración: el habla no transmite mayor ancho de banda que el vídeo, como bien sabemos. Otra cosa es que 200.000 años de experimentación haya afinado muchísimo su capacidad para contener información útil frente al total de información y la energía consumida para transmitirla. Y que desde luego a la IA todavía le quede mucho por enriquecerse en la transmisión de los aspectos que mencionas (entonación, musicalidad, comprensión del contexto,…). Pero basta ver la diferencia abismal entre bits por segundo entre ambos contenidos.
El segundo pequeño reparo, sobre el que no me extenderé, es ese intento de analogía al fenómeno y noúmeno kantianos. Aunque la voz se manifieste de manera más sutil que lo audiovisual, que creo que es por donde ibas, no deja de ser un fenómeno… ¿o me he perdido algo?
Gracias por la reflexión inspiradora.
Qué lujo de comentario, Javier :)
Creo que se han cruzado algunos cables y estás entendiendo algo de forma distinta a como yo pretendía que se entendiese, quizás por error mío. Cuando digo que la voz tiene más ancho de banda me refiero a si la comparamos con la interacción con interfaces gráficas de usuario (GUIs), no respecto al video (que es imagen y voz). Pedir un taxi por una app, por ejemplo, tiene un consumo cognitivo, visual, gestual y hasta corporal que no plantearía pedirlo por voz:
— Mandame un taxi a gran via 32
— Entendido. Va de camino, tardará unos 13 minutos.
El video es un canal mucho más rico, pero aún costoso de producir si queremos moldear un mensaje. Tampoco es un canal con el que nos expresemos de forma natural, casi todo son códigos artificiales y culturales. Quién sabe en unos años, ¿verdad?
Gracias otra vez, Javier.
Entendido ahora, gracias y disculpa. A golpe de clic y de movimientos de ratón o contacto por pantalla táctil, efectivamente, nuestra interacción con las interfaces gráficas es mucho más pobre que la del habla. Es posible que el salto al habla y al reconocimiento de vídeo vayan más parejos de lo que creemos. El reconocimiento facial de nuestras expresiones es consustancial a la comunicación oral (de hecho, perdemos muchos matices sin ella), y las máquinas ya están dando asombrosas muestras de ser capaces de reconocerlas...
Gracias a ti.