viernes, 4 de diciembre de 2009

Rendimiento de la plataforma LGA1156 con memoria DDR3

En la web de iXBT Labs publican un interesante artículo dedicado al funcionamiento y rendimiento de la plataforma LGA 1156 con memoria DDR3 al que vale la pena echarle una ojeada.

Lo primero que nos recuerdan es que ahora ya no quedan sistemas modernos con controlador de la memoria en el Northbridge, el último caso es el actual Core 2, pero que ya no es "lo más moderno". Así pues, el rendimiento del sistema de memoria ya no depende del chipset, cosa que permite una comunicación más rápida y que una mala implementación por parte del fabricante lastre su rendimiento. Evidentemente del chipset aún depende el rendimiento de otros dispositivos, como el sistema de almacenamiento o el sistema de E/S.

A su vez, el hecho que la controladora de memoria esté integrada en el procesador impide aislar este factor y por lo tanto analizar un procesador se convierte en algo más complejo. Por ejemplo, ahora el controlador de memoria está en la CPU y esto provoca más calor y problemas de microparones para evitar que supere cierto límite de temperatura. Así que hay más variables dentro de un mismo componente.

Citan que ahora que hay menos intermediarios entre el procesador y la memoria, las latencias ganan importancia. Reconocen que esto no es nuevo ya que AMD lleva haciendo esto desde hace años, pero ahora que se ha trasladado a Intel la cuota de usuarios aumenta mucho, de hecho pronto no habrá equipo nuevo que no tenga este tipo de controladora de memoria.

La plataforma LGA 1156 puede soportar como máximo 16GB mientras que la LGA1366 puede alcanzar 24GB, dicha limitación no parece muy preocupante a día de hoy, por lo menos en equipos para el hogar, incluidos los videojuegos. Nos explican que podemos encontrar placa con 6 bancos de memoria en ambos sistemas, sin embargo la plataforma LGA 1366 hace uso del triple canal de memoria y esta cantidad es la ideal para sus sistemas, mientras que la LGA 1156 utiliza doble canal de memoria y por lo tanto lo ideal es poner módulos por parejas y no trios. Así la plataforma LGA 1366 soporta hasta 4 GB por módulo. En cambio la plataforma LGA 1156 sólo soporta 3 módulos por canal de memoria y como máximo se pueden ocupar 8 canales (hay módulos de memoria de un canal y de dos, creemos que es básicamente lo mismo que hablar de un módulo de una cara o de doble cara). Así pues utilizando módulos de doble cara como máximo podemos ocupar 4 slots de memoria.

También nos explican la complejidad del sistema de memoria del socket LGA 1366 y que en este aspecto podemos salir ganando con el LGA1156, ya que una controladora más simple permite que todo funcione bien a mayor velocidad, aunque una cosa es la lógica y la otra será la práctica. Ya a modo aún más complejo nos explican que el socket LGA 1366 soporta hasta 18 bancos de memoria y no 12 como cabría esperar, sin embargo esto lo hace con ciertas limitaciones como es la de velocidad DDR3-800

Ahí cabe recordar que oficialmente los procesadores Core i7-900 con núcleo Bloomfield soportan memoria DDR3-1067, no superior, el resto se considera overclock. Con los Core iX Lynnfield el soporte para DDR3 ha subido oficialmente a DDR3-1333 y para los AMD Phenom II AM3 también estamos con DDR3-1333.

Realizan dos baterías de pruebas, una corta para comprobar algunos datos sobre el rendimiento de la memoria y una más larga para probar todos los tests. Realizan comparaciones con un Core i7-920 LGA 1366, un Core i5-750 e incluso un Phenom II AM3.

Todas las pruebas se centran en el Core i7-860 Lynnfield LGA 1156 el cual funciona a 2,8 GHz. Nos hablan de la velocidad de núcleo del Core i7-860 marcada como 2,8 GHz, sin embargo este procesador tiene una velocidad UnCore de 2,4 GHz, así que deciden realizar pruebas con otros procesadores como el Core i7-920 y Core i5-750 que tienen una velocidad UnCore de 2,13 GHz, este parámetro tiene relevancia en el rendimiento final.

Bien, ¿qué es la velocidad UnCore?
pues es la velocidad del controlador de memoria de los Core iX y que también controla la velocidad de la caché L3 de los procesadores, el controlador de memoria funciona a una velocidad distinta a la del procesador. Por ejemplo un Core i7-920 tiene una velocidad de base o BCLK de 133 MHz, un multiplicador de núcleo de x20 y un multiplicador de UnCore de x16. En cambio el i7-950 tiene un multiplicador de x23 pero sigue con el de x16 en la velocidad del controlador de memoria. El Core i7-965 y 975 ya disponen de un multiplicador de x20 en la velocidad UnCore.

Así las velocidades habituales de los Core i7 son de 2,13 GHz y de 2,66 GHZ en el apartado de UnCore, dependiendo del modelo. Los procesadores LGA 1156 tienen una velocidad UnCore distinta si hablamos de Core i5, 2,13 GHz o si lo hacemos de los Core i7-800 la velocidad sube a 2,4 GHz, ya que el multiplicador es de x18 en este último caso.

Primeras pruebas: Para las pruebas escogen un Core i7-860 a 2,8 GHz socket LGA 1156 y realizan comparaciones con un Core i7 LGA 1366 e incluso Core i5-750.

Las configuraciones son la siguientes:

  • Core i7-920 (UnCore 2,13 GHz) con 4GB en Dual Channel DDR-1067
  • Core i7-920 (UnCore 2,13 GHz) con 6GB en Triple Channel DDR-1067
  • Core i5-750 (UnCore 2,13 GHz) con 4GB en Dual Channel DDR-1333
  • Core i7-860 (UnCore 2,4 GHz) con 4GB en Dual Channel DDR-1333
  • Core i7-860 (UnCore 2,4 GHz) con 6GB en Dual Channel DDR-1067
  • Core i7-860 (UnCore 2,4 GHz) con 8GB en Dual Channel DDR-1333

En las pruebas de rendimiento de lectura con Everest detectan como la velocidad de los módulos afecta directamente a su rendimiento, pero incluso a la misma velocidad el Core i7-860 con 8GB es el más rápido gracias a su velocidad y a que está ocupando todos los bancos de memoria.

Seguidamente realizan pruebas de escritura en la memoria y detectan que quien marca la velocidad real de escritura es justamente la velocidad UnCore de los procesadores y no la velocidad de la propia memoria, puesto que el mismo procesador obtiene resultados idénticos independientemente de si utiliza DDR3-1066 o DDR3-1333, siendo aquí el Core i7-860 el ganador, tanto si ocupa todos los bancos de memoria como si sólo ocupa la mitad y como hemos dicho de forma independiente a se frecuencia. Concluyen que para aumentar la velocidad de la memoria habría que aumentar la velocidad del apartado UnCore, sin embargo ésta está bloqueada en la plataforma LGA 1156 y la única forma de aumentarla es incrementando la velocidad de base, FSB o BCLK.

Siguen realizando pruebas y llegan a las latencias de la caché y memoria; ahí se obtiene mejor rendimiento cuando mayor es la frecuencia de la memoria, del apartado UnCore y cuántos menos módulos utilizamos. Incluso con una plataforma LGA 1366 la latencia es mayor (peor) con triple canal de memoria que con doble canal. Después de estas pruebas concluyen que la plataforma LGA 1156 aprovecha mejor la memoria DDR3 que la LGA 1366 teniendo más sentido ir a por conseguir DDR3-1333 en vez de 1066, aunque las diferencias tampoco son muy elevadas.

Con estos datos preliminares descartan un par de modos y se ponen a realizar la batería completa de pruebas con otros procesadores.

Para el resto del artículo ya utilizan otros tests y ponen a prueba el Phenom II X4 965 en dos modalidades de 4 GB (7-7-7-20) y 6GB (8-8-8-24) todas ellas a DDR3-1333 El segundo caso ocupa 4 bancos y el primer caso 2 bancos. Quitan el Core i5-750 de las pruebas y mantienen el Core i7-920. El objetivo no es tanto comparar los distintos procesadores sino ver como se mueven bajo las distintas configuraciones de memoria, evidentemente recomendamos su lectura detenida pero ahí tenemos un intento de resumen:

3D visualization
3ds max, Maya, Lightwave, SolidWorks, Pro/ENGINEER y UGS NX -> Con programas de visualización 3D, como 3DStudio, Maya, etc... la cantidad de memoria gana y la mejor combinación es la del Core i7-860 con 8GB (todos los bancos ocupados), aunque las diferencias son muy pequeñas. Los Phenom II quedan por debajo de cualquier combinación de Core i7-800 pero por encima de los Core i7-900.

3D rendering
3ds max, Maya y Lightwave -> Las pruebas de renderizado 3D dependen poco de la latencia y de la cantidad de memoria, aquí quien sale peor es el Phenom II y quien gana vuelve a ser el Core i7-800.

Scientific and engineering analysis
MAPLE, Mathematica, MATLAB, SolidWorks, Pro/ENGINEER y UGS NX -> Igual que en el primer caso, primero Core i7-800, luego Phenom II y finalmente Core i7-900.

Bitmap processing
ACDSee, Paint.NET, PaintShop Pro, PhotoImpact y Photoshop -> Dentro de este grupo Photoshop sale de la media y fuerza buenos resultados con grandes cantidades de RAM, en concreto con 6GB. En general primero queda el Core i7-800, luego Core i7-900 y finalmente Phenom II. Parece que el ancho de banda no importa demasiado, incluso con triple canal se pierde rendimiento respecto doble canal bajo un Core i7-920.

Data compression
7-Zip y WinRAR -> Lo que importa es la velocidad del controlador, de las memorias y la latencia de las mismas, ganamos al dejar un Core i7-900 con doble canal y al dejar menos módulos de memoria para mejorar dichas latencias. Gana Core i7-800, Core i7-900 y Phenom II.

Compiling
Microsoft Visual Studio 2008 -> con resultados a favor de Core i7-800, Core i7-900 y finalmente Phenom II. La velocidad de la memoria parece afectar algo, así como la velocidad del controlador.

Java
SPECjvm2008 -> Aquí estamos ante uno de los pocos tests que mejoran de doble a triple canal de memoria, hay pocas diferencias.

Audio encoding
dBpoweramp -> Sólo importa la velocidad del procesador, no la del sistema de memoria, cantidad o latencias.

Video encoding
Canopus ProCoder, DivX, Mainconcept, x264, XviD -> El triple canal de memoria vuelve a dar un pequeño empujoncito, el Core i7-800 gana en todos los casos e incluso la velocidad de la memoria no parece importar mucho.

3D games
STALKER: Clear Sky, Devil May Cry 4, Far Cry 2, Grand Theft Auto 4, Lost Planet, Unreal Tournament 3, Crysis: Warhead, World in Conflict -> Muy pocas variaciones con los juegos, quizá el elemento más importante es la velocidad de la memoria dentro de la misma plataforma.


Cuando llegan a las conclusiones dicen que esperaban más del soporte para DDR3-1333, sin embargo se puede tomar como una buena noticia desde el punto de vista de aprovechar memoria antigua DDR3-1066 ya que no ofrecen un rendimiento notablemente inferior. Así invertir en memoria de alta velocidad cuesta de justificar, ya pasar de DDR3-1066 a 1333 tiene poco sentido, excepto algunos casos contados, así que velocidades más elevadas como DDR3-1600 aún cuestan más de justificar.

Evidentemente esto es así si no es que vamos a realizar overclock del procesador y del controlador de memoria, ya que al incrementar dichas velocidades podemos quedarnos cortos en los divisores disponibles y necesitar memorias más rápidas, ahí veremos incrementos notables de rendimiento, aunque este no es el tema de estudio de este análisis.

No hay comentarios: