Java stream distinct: eliminación de duplicados

En el contexto de la programación funcional en Java, los Streams representan una secuencia de elementos que pueden ser procesados en paralelo o secuencialmente. La operación intermedia distinct() es una de las muchas operaciones disponibles en la API de Streams de Java. Esta operación devuelve un stream que consta de elementos únicos, eliminando los duplicados. Esta es una operación intermedia, lo que significa que puede utilizarla en combinación con otras operaciones, como map(), filter(), flatMap(), y sorted(), para formar una cadena de operaciones.

La sintaxis de distinct() es muy sencilla. Solo necesita invocar el método sobre el stream sin ningún argumento, como se muestra a continuación:

stream.distinct()

Ejemplo de uso de distinct()

Consideremos un simple ejemplo de cómo se puede usar distinct() para eliminar elementos duplicados de un stream.

import java.util.Arrays;
import java.util.List;
import java.util.stream.Collectors;

public class Main {
    public static void main(String[] args) {
        List<String> fruits = Arrays.asList("Manzana", "Banana", "Manzana", "Naranja", "Banana", "Naranja");
        List<String> distinctFruits = fruits.stream().distinct().collect(Collectors.toList());
        System.out.println(distinctFruits);
    }
}

En el código anterior, primero creamos una lista de frutas donde algunas frutas están duplicadas. Luego creamos un stream a partir de la lista y usamos distinct() para filtrar las frutas duplicadas. Por último, convertimos el stream a una lista y la imprimimos. El resultado será una lista de frutas sin duplicados.

Cómo funciona distinct()

Internamente, distinct() utiliza equals() para comparar los elementos y determinar si son duplicados. Por lo tanto, si está trabajando con objetos personalizados, debe asegurarse de que ha sobrescrito el método equals() en su clase. Si no sobrescribe equals(), distinct() considerará diferentes instancias del mismo objeto como distintas, incluso si sus campos son idénticos.

Aquí hay un ejemplo que ilustra este punto. Supongamos que tenemos una clase Fruit que representa una fruta:

public class Fruit {
    private String name;

    public Fruit(String name) {
        this.name = name;
    }

    // getters y setters omitidos para brevedad
}

Si creamos una lista de Fruit y tratamos de eliminar los duplicados con distinct(), obtendremos resultados inesperados:

List<Fruit> fruits = Arrays.asList(new Fruit("Manzana"), new Fruit("Banana"), new Fruit("Manzana"));
List<Fruit> distinctFruits = fruits.stream().distinct().collect(Collectors.toList());
System.out.println(distinctFruits.size());  // Imprime 3, aunque esperábamos 2

Para solucionar este problema, debemos sobrescribir equals() en la clase Fruit:

@Override
public boolean equals(Object obj) {
    if (this == obj) return true;
    if (obj == null || getClass() != obj.getClass()) return false;
    Fruit fruit = (Fruit) obj;
    return name.equals(fruit.name);
}

Con este cambio, distinct() funcionará como se esperaba.

Consideraciones de rendimiento

Aunque distinct() es una herramienta poderosa, no es libre de costos. Para eliminar los duplicados, distinct() debe mantener un conjunto de elementos previamente vistos. Esto implica un coste de memoria adicional, que puede ser significativo para streams muy grandes. Además, si está trabajando con un stream paralelo, distinct() puede tener que realizar un costoso paso de combinación para fusionar los conjuntos de elementos vistos en diferentes hilos.

Por lo tanto, si la memoria o la velocidad son una preocupación, puede que desee considerar alternativas a distinct(). Por ejemplo, si sus datos provienen de una base de datos, puede ser más eficiente eliminar los duplicados en el lado de la base de datos mediante una consulta SQL. O si sus datos están en una lista, puede considerar el uso de un Set para eliminar los duplicados, que puede ser más rápido y consumir menos memoria que distinct().

Conclusión

En resumen, distinct() es una operación intermedia en la API de Streams de Java que puede ser utilizada para eliminar duplicados de un stream. Aunque distinct() es fácil de usar y puede ser muy útil en algunas situaciones, también tiene costos de memoria y rendimiento que deben ser considerados. Si está trabajando con objetos personalizados, también debe asegurarse de que ha sobrescrito el método equals(), ya que distinct() lo usa para comparar elementos.

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, Java es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.

Más tutoriales de Java

Explora más contenido relacionado con Java y continúa aprendiendo con nuestros tutoriales gratuitos.

Ver más tutoriales de Java Explorar todas las tecnologías

Aprendizajes de esta lección

1.\\tComprender el concepto y la funcionalidad del método distinct()\\ \\ en Java. 2.\\tAprender cómo usar distinct() en un stream. 3.\\tComprender la importancia\\ \\ de sobrescribir el método equals() al trabajar con objetos personalizados. 4.\\t\\ Apreciar las implicaciones de rendimiento y memoria del uso de distinct(). 5.\\t\\ Conocer alternativas a distinct() cuando la eficiencia es crucial.