Hacia el futuro con Samsung Research (2):Instituto de I&D de Samsung de Polonia – Creación de tecnologías impulsadas por inteligencia artificial para brindar un mundo de conveniencia completamente nuevo

En esta serie, Samsung Newsroom presenta a expertos en tecnología de los centros de I&D de Samsung de todo el mundo para conocer más sobre el trabajo que realizan y las formas en las que están mejorando directamente la vida de los consumidores.

El segundo experto es Lukasz Slabinski, Líder del Equipo de Inteligencia Artificial del Instituto de I&D de Samsung de Polonia (SRPOL). Slabinski se incorporó a SRPOL en 2013 como Ingeniero Sénior y, tras ocho años de trabajo dedicado, ahora dirige el Equipo de IA de SRPOL. Siga leyendo para saber más sobre la emocionante innovación con la que Slabinski y su equipo están involucrados en SRPOL.

P&R de retransmisión

P: En comparación con el desarrollo de la tecnología de inteligencia visual, se sabe que diseñar soluciones para el reconocimiento de voz es muy complejo. ¿Qué dificultades encuentra y cómo las supera?

Sergey Lytvynenko (Instituto de I&D de Samsung de Ucrania)

R: El lenguaje humano está en constante evolución, es increíblemente subjetivo y contiene infinitas variaciones como acento, tono y dialecto. Superamos estos desafíos utilizando tecnologías de aprendizaje automático de última generación, que crean modelos que memorizan los estándares generales del lenguaje reconocidos automáticamente en los datos analizados.

P: Se sabe que diseñar soluciones para el campo del reconocimiento de voz es muy complejo. Al trabajar en tecnologías relacionadas con el lenguaje, ¿qué desafíos ha encontrado y cómo los ha superado?

Lukasz Slawinski (Instituto de I&D de Samsung Polonia)

R: En mi opinión, las tecnologías relacionadas con el lenguaje son mucho más complejas que cualquier otra. La humanidad se comunica en casi 7.000 idiomas en constante evolución, subdivididos en un sinfín de acentos y dialectos. Además, el lenguaje humano es mucho menos objetivo que, por ejemplo, una imagen, que puede describirse en fórmulas matemáticas. Las personas codifican sus pensamientos como un conjunto de sonidos o caracteres en un mensaje, que luego debe ser descodificado e interpretado por otros. Debido a que cada fase de este proceso es personal, creativa y no determinista, la comunicación humana basada en el lenguaje es muy compleja y ambigua. Así, por un lado, podemos disfrutar de hermosas poesías y chistes divertidos, y por otro, sufrir ocasionalmente malentendidos.

Las personas de I&D que trabajan en el Procesamiento del Lenguaje Natural (NLP) a menudo alcanzan sus propias limitaciones innatamente humanas. Incluso nos encontramos con problemas para comunicarnos claramente con los compañeros en el trabajo o la familia en casa. Entonces, ¿cómo, por ejemplo, un ingeniero que habla dos idiomas puede diseñar y codificar un sistema de traducción automática para 40 idiomas diferentes? Resolvemos esta paradoja utilizando tecnologías de aprendizaje automático.

Durante el proceso conocido como “entrenamiento”, automáticamente extraemos estándares generales basados en ejemplos de nuestros conjuntos de datos y los memorizamos en forma de modelo. Para construir un sistema de traducción automática, entrenamos una red neuronal para mapear una oración en diferentes idiomas en base a millones de ejemplos, todos cuidadosamente recopilados y refinados de antemano. Suena fácil, pero aquí nos enfrentamos a tres desafíos fundamentales.

El primero es el diseño de una arquitectura de modelo de aprendizaje automático adecuada, capaz de memorizar y generalizar suficientes estándares de lenguaje para problemas determinados, como traducción automática, análisis de sentimientos, resumen de texto y otros.
El segundo desafío es la preparación de una cantidad suficiente de datos de entrenamiento, ya que los sistemas de aprendizaje automático pueden reconocer y memorizar solo los estándares presentados en el conjunto de datos de entrenamiento.
El desafío final es la implementación de un modelo de aprendizaje automático ya capacitado en una nube dedicada o en una plataforma en el dispositivo.

Abordamos estos desafíos aprovechando la vasta experiencia de nuestros ingenieros, los enfoques sofisticados para la recopilación de datos y la experimentación con las arquitecturas de aprendizaje automático de última generación.

P: ¿Podría presentar brevemente a su Equipo de IA, el Instituto de I&D de Samsung en Polonia (SRPOL) y el tipo de trabajo que se lleva a cabo allí?

R: El SRPOL es uno de los centros internacionales de I&D de software más grandes de Polonia. Está ubicado en dos ciudades: Varsovia, la capital de Polonia, y Cracovia, que es un importante hub tecnológico en su región. Colaboramos estrechamente con startups, universidades e instituciones de investigación locales.

La misión del Equipo de IA en SRPOL es la creación de funciones, herramientas y servicios basados en IA capaces de facilitar y enriquecer vidas humanas. Nos centramos en las áreas de NLP e Inteligencia de Audio, pero también poseemos experiencia en muchas especialidades diferentes, incluidos los sistemas de recomendación, el posicionamiento en interiores, el análisis visual y la realidad aumentada (AR).

P: Como Líder del Equipo de IA del Instituto de Polonia desde 2018, ha supervisado una gran cantidad de proyectos con y sin el enfoque de NLP. ¿En qué están trabajando usted y su equipo ahora?

R: Con respecto al área de NLP, hemos continuado nuestra trayectoria que ha comenzado hace más de 10 años con el desarrollo de sistemas como la Traducción Automática y los Sistemas de Diálogo, incluida la Respuesta a Preguntas y el Análisis de Texto. Trabajamos tanto en servicios escalables y potentes basados en la nube como en aplicaciones de dispositivos que funcionan rápidamente y sin conexión.

Inteligencia de audio es un área más nueva para nosotros. Comenzamos a enfocar nuestras capacidades de investigación en ella hace varios años, ya que ha comenzado a ganar importancia. Actualmente trabajamos en el reconocimiento, separación, mejora y análisis de sonido. Durante nuestro trabajo, tenemos en cuenta todos los niveles de procesamiento de audio, desde la comprensión de la escena acústica hasta el ajuste fino de los algoritmos de audio integrados en dispositivos con recursos de hardware muy limitados, como los auriculares inalámbricos.

P: Sus enfoques tecnológicos incluyen NLP, minería de datos & texto, inteligencia de audio y más. ¿Su investigación ha afectado directamente el desarrollo de algún producto o servicio específico de Samsung? ¿Qué beneficio ha ofrecido a los usuarios la contribución de su equipo?

R: El SRPOL tiene un largo historial de comercialización de tecnologías de IA, pero no las hicimos solos. Estamos orgullosos de ser parte de un panorama más amplio, en el que SRPOL trabaja en estrecha colaboración con otros centros de I&D de Samsung y contribuye a la comercialización.

Por ejemplo, hemos contribuido al desarrollo de varias funciones de entrada de texto inteligente para los dispositivos móviles de Samsung, incluido el teclado en pantalla, la función de hashtag, la recomendación de título de Samsung Note y las respuestas de texto inteligente en smartwatches.

También hemos contribuido al Sistema de Recomendación de Galaxy Store, que sugiere los juegos más interesantes al usuario según sus preferencias.

P: Como defensor de los nuevos campos de IA, como la inteligencia de audio, ¿cuáles considera como las principales tendencias dentro de su industria en este momento? ¿Cómo esta tecnología afectará a la vida diaria de las personas?

R: Creo que la inteligencia de audio será el próximo actor de cambio para todos los dispositivos electrónicos de consumo. Trabajar en análisis de audio es extremadamente importante, ya que es la parte que falta en los sistemas avanzados basados en IA verdaderamente centrados en el ser humano.

Los potentes sistemas de NLP analizan la intención del usuario expresada por texto y voz. Los algoritmos de visión por computadora están detrás de casi todas las cámaras y la salida de contenido visual. Para la mayoría de nosotros, es difícil imaginarse conduciendo un automóvil sin navegación, escribiendo un mensaje sin correctores ortográficos o buscando información sin Internet. Pero, a excepción de algunas aplicaciones profesionales, hasta ahora, rara vez usamos tecnología de audio inteligente para mejorar nuestra audición. En mi opinión, esto cambiará pronto.

Vamos a imaginar que tenemos una tecnología comúnmente disponible que permite a las personas seleccionar qué y cómo quieren escuchar. Por ejemplo, durante un almuerzo con un amigo en un parque ubicado en un concurrido centro de la ciudad, alguien podría elegir escuchar solo los sonidos de la naturaleza y la persona con la que está hablando. O imaginemos un sistema avanzado de realidad virtual (RV) o realidad aumentada (RA), recientemente denominado Metaverso, que crea una experiencia de audio 3D inmersiva directamente en la cabeza de las personas. Solo estos dos conceptos generan cientos de nuevos casos de uso posibles, pero vayamos más allá. ¿Qué tal escuchar cosas que actualmente son inaudibles para la gente? Ahora los humanos solo pueden escuchar un espectro reducido de sonidos diferentes. Nuestro mundo está lleno de sonidos significativos en los que, en su mayor parte, las tecnologías de IA actuales no están involucradas. Con el desarrollo de las tecnologías de inteligencia de audio, creo que todo esto afectará enormemente la vida de las personas.

▲ Investigadores del Instituto de I&D de Samsung en Polonia trabajan en el desarrollo de la tecnología de Cancelación Activa de Ruido (ANC) con un Simulador de Cabeza & Torso (HATS) en una sala anecoica.

P: ¿Cómo se han incorporado las tendencias actuales en la investigación que realiza en el Instituto de I&D de Samsung en Polonia?

R: Aparte del NPL y el audio, también estamos trabajando para encontrar las formas más efectivas de construir sistemas verdaderamente multimodales. Para ello, procedemos con la investigación y el análisis de casos de uso desde diferentes perspectivas. Dicho análisis es posible gracias a nuestro equipo diverso e interdisciplinario que consta de ingenieros, lingüistas, científicos de datos y más.

P: ¿Cuál ha sido su logro más importante en SRPOL hasta ahora?

R: Sería nuestra solución de Traducción Automática. Esta solución ha obtenido logros en varios concursos durante cinco años consecutivos: el Taller Internacional sobre Traducción de Lenguas Habladas (IWSLT) de 2017 a 2020; el Taller sobre Traducción Automática (WMT) en 2020; y el Taller sobre Traducción Asiática (WAT) en 2021. Estos se encuentran entre los concursos internacionales más prestigiosos en nuestro campo.

Ganar el reconocimiento en WAT este año fue un hito particularmente satisfactorio, ya que desarrollar nuestra solución para los idiomas asiáticos fue originalmente una hazaña difícil para nosotros como ingenieros polacos, pero este logro ha demostrado el verdadero poder de nuestra tecnología, que va más allá de una simple demostración.

Otro logro del que estoy muy orgulloso es la velocidad de crecimiento que ha logrado el equipo de inteligencia de audio y su desarrollo tecnológico. En solo unos años, después de comenzar prácticamente desde cero, pudimos estar en el podio del taller sobre Detección y Clasificación de Escenas y Eventos Acústicos durante dos años consecutivos, 2019 y 2020. También hemos publicado varios artículos científicos y patentes en esta área. Estoy seguro de que este es solo el comienzo de nuestras actividades prolíficas en este campo.

[Hacia el futuro con Samsung Research]

Un experto en IA cuestiona a un experto en aprendizaje automático

El aprendizaje automático (ML) es una de las tecnologías base detrás de las soluciones de IA, tanto que los términos “IA” y “ML” a menudo se usan indistintamente. Al desarrollar nuevos algoritmos de aprendizaje automático, supongo que también se enfrenta a una serie de desafíos. ¿Puede compartir algunos de los desafíos y esfuerzos innovadores para superarlos que encuentra en su instituto?

En el siguiente episodio se puede encontrar una entrevista con Bin Dai, un experto en aprendizaje automático del Instituto de Investigación de Samsung, Instituto de China – Beijing.

Notas de prensaTecnología e InnovaciónAI Expert VoicesInteligencia ArtificialInto the futureLukasz SlabinskiNatural Language ProcessingNLPResearch and DevelopmentSamsung R&D InstituteSamsung R&D Institute PolandSRPOL