El paso de las instrucciones hasta las unidades de …galeon.com/ligrosdetec/reparar6.pdf ·...

25
aritmético, son resueltos usando las cuatro operaciones, obtenidas a partir de la sim- ple instrucción de suma. Pues bien, el conjunto de instrucciones x86 utilizadas por los programas y con las que cualquier procesador destinado a equipos PC debe ser compatible, está compuesto de instrucciones simples (suma, resta, lectura, escritura, comparación, etc.) como por ins- trucciones más complejas, que deben ser separadas en varias instrucciones simples para que puedan ser ejecutadas por el procesador. Excluyendo los componentes de apoyo, como la memoria caché L1, y sólo dejando la parte "funcional" del procesador, podemos dividir el procesador en tres partes. La pri- mera parte es el decodificador de instrucciones. Este componente tiene la función de convertir las instrucciones x86 usadas por los programas en las instrucciones simples que pueden ser ejecutadas por el procesador. Las instrucciones simples van a una uni- dad de control, que organiza las instrucciones para que puedan ser ejecutadas de la forma más rápida. Entonces, las instrucciones forman una fila a fin de permitir que la unidad de control tenga tiempo de hacer este trabajo. Debemos recordar que los procesadores actuales son superescalares, ejecutan varias instrucciones por ciclo de forma simultánea, lo que hace esencial la existencia de algún circuito que las coloque en el orden en el que la ejecución de una no dependa del resultado de la ejecución de otra. Finalmente, tenemos las unidades de ejecución, donde las instrucciones preparadas y organizadas son finalmente procesadas. Veamos que todos los circuitos trabajan simultáneamente, supervisando que las unidades de ejecución tengan siempre algo para procesar. El paso de las instrucciones hasta las unidades de ejecución Podríamos entonces dividir el procesador en dos partes. La parte frontal, o front-end, está compuesta por todos los circuitos que decodifican y ordenan las instrucciones de los programas. Esto incluye el decodificador de instrucciones, la unidad de control y también los registros y la memoria caché. La parte trasera, o back-end, está compues- ta por las unidades de ejecución, donde realmente son procesadas las instrucciones. Cada una de las dos partes es igual de importante. Las unidades de ejecución deben 106 Ampliar, configurar y reparar su PC

Transcript of El paso de las instrucciones hasta las unidades de …galeon.com/ligrosdetec/reparar6.pdf ·...

aritmético, son resueltos usando las cuatro operaciones, obtenidas a partir de la sim-ple instrucción de suma.

Pues bien, el conjunto de instrucciones x86 utilizadas por los programas y con las quecualquier procesador destinado a equipos PC debe ser compatible, está compuesto deinstrucciones simples (suma, resta, lectura, escritura, comparación, etc.) como por ins-trucciones más complejas, que deben ser separadas en varias instrucciones simplespara que puedan ser ejecutadas por el procesador.

Excluyendo los componentes de apoyo, como la memoria caché L1, y sólo dejando laparte "funcional" del procesador, podemos dividir el procesador en tres partes. La pri-mera parte es el decodificador de instrucciones. Este componente tiene la función deconvertir las instrucciones x86 usadas por los programas en las instrucciones simplesque pueden ser ejecutadas por el procesador. Las instrucciones simples van a una uni-dad de control, que organiza las instrucciones para que puedan ser ejecutadas de laforma más rápida. Entonces, las instrucciones forman una fila a fin de permitir que launidad de control tenga tiempo de hacer este trabajo.

Debemos recordar que los procesadores actuales son superescalares, ejecutan variasinstrucciones por ciclo de forma simultánea, lo que hace esencial la existencia dealgún circuito que las coloque en el orden en el que la ejecución de una no dependadel resultado de la ejecución de otra.

Finalmente, tenemos las unidades de ejecución, donde las instrucciones preparadas yorganizadas son finalmente procesadas. Veamos que todos los circuitos trabajansimultáneamente, supervisando que las unidades de ejecución tengan siempre algopara procesar.

El paso de las instrucciones hasta las unidades de ejecución

Podríamos entonces dividir el procesador en dos partes. La parte frontal, o front-end,está compuesta por todos los circuitos que decodifican y ordenan las instrucciones delos programas. Esto incluye el decodificador de instrucciones, la unidad de control ytambién los registros y la memoria caché. La parte trasera, o back-end, está compues-ta por las unidades de ejecución, donde realmente son procesadas las instrucciones.Cada una de las dos partes es igual de importante. Las unidades de ejecución deben

106

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:28 PÆgina 106

ser capaces de procesar el máximo de instrucciones, mientras que el front-end que estácompuesto por los demás componentes, tiene la función de preparar las instruccioneslo más rápidamente posible, de modo que las unidades de ejecución permanezcanocupadas la mayor parte del tiempo. La lógica es que mientras más unidades de eje-cución estén trabajando al mismo tiempo, serán capaces de procesar un mayor númerode instrucciones todas juntas y mientras más circuitos de decodificación y de controltengamos, más eficiente será la decodificación de las instrucciones, resultando un pro-cesador más rápido. A continuación, vamos a ver una comparación entre un Athlon yun Pentium III para ver los distintos funcionamientos y entender mejor los distintoscomponentes del mismo.

El decodificador de instruccionesLa primera gran diferencia entre el Athlon y el Pentium III de la época residía en lamanera como eran decodificadas y procesadas las instrucciones. Básicamente existendos tipos de instrucciones simples que puede ejecutar el procesador: las operacionesaritméticas (suma o asignación) y las instrucciones de lectura o escritura. La mayoríade las veces, una instrucción aritmética viene acompañada de una operación de lecturao escritura, ya que después de ejecutar la operación es necesario guardar el resultadoen algún lugar.

La decodificación de instrucciones en el Athlon

En el Athlon, las instrucciones eran decodificadas en forma de pares. Cada par, llama-do "macro-ops" podía tener una instrucción aritmética y una instrucción de lectura oescritura. Si la opción de lectura o escritura no era necesaria, el espacio reservado paraella quedaba libre. El Athlon tenía dos decodificadores de instrucciones. El primerdecodificador es conocido por Hardware decoder y se encargaba de convertir todaslas instrucciones simples, mientras que el segundo decodificador, llamado Microcodedecoder tenía la función de convertir las instrucciones más complejas. Cada uno de losdos decodificadores podía enviar 3 pares de instrucciones, o tres macro-ops, por cadaciclo a la unidad de control, donde las instrucciones eran ordenadas y enviadas a lasunidades de ejecución. Como las unidades de ejecución del Athlon procesaban tresinstrucciones por ciclo, este modo aseguraba que en cualquier caso, aún si sólo entra-ban instrucciones simples, o sólo instrucciones complejas, el procesador tenía por lomenos tres instrucciones para procesar en cada ciclo.

107

Procesadores

03_Procesadores_OK.qxp 27/07/2006 10:28 PÆgina 107

El Pentium III procesaba cada instrucción de forma separada y no en pares como enel Athlon. Cada instrucción era llamada "uops". Disponíamos de un total de tres deco-dificadores de instrucciones: dos decodificadores simples, que se encargaban de lasinstrucciones simples y decodificaban una instrucción (cada uno) por ciclo, y un deco-dificador más complejo que se encargaba de las instrucciones x86 más complejas. Estesegundo decodificador era capaz de decodificar hasta 4 instrucciones por ciclo.

En un principio parece que existía un empate técnico, ya que sumados los tres deco-dificadores tenemos la decodificación de 6 instrucciones por ciclo, como en el Athlon.En la práctica, sin embargo, cuando el decodificador de instrucciones complejas esta-ba ocupado, los dos decodificadores simples se paraban. Esto hacía que, en muchassituaciones, los decodificadores no fuesen capaces de producir todas las instruccionesque podían ser procesadas por las unidades de ejecución, haciendo que se quedasenociosas durante buena parte del tiempo, lo que naturalmente significaba una pérdidade rendimiento.

Coprocesador aritméticoEl gran problema de los procesadores K6 era el rendimiento del coprocesador aritmé-tico, cosa que ya hemos comentado anteriormente. La gran ventaja del coprocesadoraritmético utilizado en los procesadores Intel desde el Pentium era el recurso del pipe-line, que combinaba varias unidades de ejecución en el mismo procesador, permitiendoque se procesasen varias instrucciones por ciclo.

Toda la familia de procesadores K6 compartía el mismo proyecto de coprocesadoraritmético, equipado con una única unidad de ejecución. El hecho de que sólo tuvie-sen una única unidad eliminaba la necesidad de adjuntar los circuitos que ordenabanlas instrucciones, lo que simplificaba bastante el proyecto del procesador, pero quetenía un elevado coste en términos de rendimiento.

Para intentarlo compensar, la casa AMD proyectó esta unidad de ejecución solitariacon mucho cuidado, consiguiendo que tuviera una latencia más baja. Esto se tradujoen una ganancia considerable de rendimiento, que hizo que la unidad de ejecuciónfuese más rápida que cada una de las unidades de ejecución del Pentium III. El pro-blema era que el Pentium III tenía tres unidades de ejecución de punto flotante, o sea,ganaba en cantidad. Felizmente, esto cambió en el Athlon, que pasó a adoptar uncoprocesador aritmético con tres unidades de ejecución, superior al del Pentium III envarios aspectos.

Tanto en el Pentium III como en el Athlon, el coprocesador estaba compuesto por tresunidades de ejecución, llamadas FADD, FMUL y FSTORE. ADD es la abreviación deadición, MUL es la abreviación de multiplicación y STORE significa guardar. La FADDera la encargada de ejecutar las operaciones de suma, en las que intervenían númerosde punto flotante, la FMUL ejecutaba las operaciones de multiplicación, división, lasinstrucciones MMX e instrucciones 3D-Now!, mientras que la FSTORE ejecutaba lasoperaciones de lectura/escritura y algunas operaciones más diversas.

108

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:28 PÆgina 108

La distribución de los componentes del coprocesador en el Athlon

Tanto en el Pentium III como en el Athlon, las tres unidades de ejecución de punto flo-tante poseían pipeline y en un mismo número de niveles, y por ello ejecutaban lasmismas funciones. Entonces, en principio, eran equivalentes, pero sólo en principio.En el Athlon era posible ejecutar simultáneamente operaciones de suma, operacionesde multiplicación y operaciones de lectura/escritura, pues cada unidad era completa-mente independiente de las demás. Esto significa que en circunstancias ideales, elcoprocesador aritmético del Athlon era capaz de procesar tres instrucciones por ciclo.

Para economizar transistores, los desarrolladores de la casa Intel optaron por compar-tir las mismas subunidades de ejecución entre las unidades de suma y multiplicacióndel Pentium III. Esto significa que sólo una de las dos unidades podía funcionar a lavez: o se realizaba una multiplicación y una operación de lectura/escritura, o enton-ces se realizaba una suma y una operación de lectura/escritura, nunca se ejecutabanlas tres operaciones al mismo tiempo. Al contrario que en el Athlon, el coprocesadoraritmético del Pentium III sólo era capaz de ejecutar dos instrucciones por ciclo encondiciones ideales. El motivo de esto es simple: las operaciones de multiplicación sonsecuencias de varias operaciones de suma. Como las dos unidades poseían el mismonúcleo básico (que realizaba las sumas), era posible crear un proyecto donde tanto launidad de suma como la de multiplicación utilizasen el mismo núcleo. Con eso, eraposible economizar un gran número de transistores, sacrificando también parte delrendimiento, ya que sólo una de las dos unidades podria usar el núcleo de suma.

En la práctica, el coprocesador del Athlon no llegaba a ser dos veces más rápido queel coprocesador del Pentium III, ya que sólo era posible utilizar una instrucción de lec-tura/escritura por ciclo y tampoco siempre era posible entregar una instrucción desuma y otra de multiplicación en un mismo ciclo, pues la demanda de cada tipo deinstrucción dependía de la aplicación que se estaba ejecutando. De cualquier manera,el coprocesador aritmético del Athlon siempre era capaz de trabajar de una forma máseficiente que el coprocesador del Pentium III.

Es preciso recordar que a pesar de esta superioridad técnica, los primeros modelos delAthlon no tenían soporte para las instrucciones SSE y estaban equipados con unamemoria caché L2 que trabajaba a la mitad de la frecuencia del procesador, como enel Pentium II. Sumadas estas dos desventajas anulaban la superioridad del coprocesa-dor aritmético, haciendo que los Athlon K7 y K75 continuasen siendo más lentos quelos Pentium III Coppermine en varias aplicaciones.

109

Procesadores

03_Procesadores_OK.qxp 27/07/2006 10:28 PÆgina 109

La situación cambió con la aparición del Athlon Thunderbird, equipado con unamemoria caché L2 que trabajaba a la misma frecuencia del procesador y, más recien-temente, con los Athlon basados en el core Palomino, que además de conservar unamemoria caché más rápida, trajeron un soporte parcial a las instrucciones SSE delPentium III. Actualmente, el concurrente del Athlon ya no es el Pentium III sino elPentium 4, que aún es inferior a un Athlon de la misma frecuencia en la mayoría delas aplicaciones, pero que en cambio es capaz de alcanzar unas frecuencias de trabajomucho más altas.

El bus EV6 Todos los componentes del equipo, incluyendo el bus PCI, el bus AGP, la memoriaRAM, etc. están conectados al chipset, que funciona como una especie de intermedia-rio entre el procesador y los demás componentes del equipo. Si fuera preciso accedera algún dato de la memoria RAM por ejemplo, el procesador entraría en contacto conel chipset y éste recogería el dato de la memoria y se lo entregaría al procesador.

En el Pentium III, el bus de comunicación entre el procesador y el chipset se llamabaGTL+ y operaba a la frecuencia de la placa base, 100 o 133 MHz, dependiendo delmodelo de procesador. Como el bus GLT+ era una arquitectura propiedad de la casaIntel, la casa AMD optó por utilizar el bus EV6 desarrollado por la compañía AlphaDigital. El bus EV6 también trabajaba a la misma frecuencia que la placa base (quetambién podía ser de 100 o 133 MHZ, dependiendo del modelo de Athlon utilizado)pero permitía dos transferencias de datos por ciclo, lo que en la práctica resulta en unrendimiento equivalente al de un bus que trabajaba a 200 o 266 MHz. Las dos trans-ferencias de datos por ciclo del bus EV6 permiten que los procesadores Athlon yDuron saquen provecho de las memorias DDR, que también realizan dos transferen-cias por ciclo.

Diagrama del funcionamiento de un equipo con un Athlon

110

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 110

Actualmente, el Athlon también soporta el multiprocesamiento y es, justamente, eneste ramo donde el bus EV6 demuestra todo su potencial. Imaginemos un sistemadonde tenemos dos procesadores Pentium III. Los 2 procesadores están encajados enla misma placa base y, consecuentemente, conectados al mismo chipset. El bus GTL+es un bus compartido, y esto significa que el mismo bus de 100 o 133 MHz es compar-tido por los dos procesadores. Esto significa que sólo uno de los dos procesadorespodrá usar el bus cada vez. Si uno necesitara acceder a un dato de la memoria y otronecesitara enviar datos a la tarjeta gráfica, el segundo tendrá que esperar a que el pri-mero termine su tarea antes de poder iniciar la suya. Esto causa una gran pérdida detiempo y disminuye el rendimiento del sistema conforme más procesadores se vanañadiendo, una posibilidad permitida, en cambio, por el Pentium III Xeon.

El bus EV6, por su parte, es un bus punto a punto. En él, cada procesador tiene su busexclusivo de comunicación con el chipset. Esto permite que en un sistema con variosprocesadores Athlon trabajando en paralelo, cada uno pueda acceder a los demáscomponentes del equipo en el momento deseado, sin tener que esperar su turno. Otraventaja es que usando la comunicación punto a punto entre los procesadores y el chip-set, el nivel de ruido electromagnético pasa a ser más bajo, lo que añade una ventajamás desde el punto de vista del rendimiento.

K7 vs K75 Las primeras versiones del Athlon, de 500, 550, 600, 650 y 700 MHz se fabricaron uti-lizando la vieja técnica de fabricación de 0.25 micrones, la misma utilizada en el K6-2.Esta primera generación utilizó el core K7, el proyecto original del Athlon.

Un Athlon con la tecnología de 0.25 micrones

A partir de finales del año 1999, la casa AMD empezó a producir el Athlon basándo-se en una arquitectura de 0.18 micrones. Fueron lanzadas entonces nuevas versioneshasta la barrera de 1 GHz. Esta arquitectura de 0.18 micrones obtuvo el nombre decódgio K75.

Un Athlon con la tecnología de 0.18 micrones

111

Procesadores

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 111

La memoria caché L2Tanto los Athlon K7 como los Athlon K75 tenían una limitación, que era el uso dememoria caché externa, trabajando a una fracción de la frecuencia del procesador.Además de no ser una buena opción desde el punto de vista del rendimiento, todavíaencarecía más los procesadores, pues el fabricante pasaba a tener que producir (o com-prar) los módulos externos de memoria caché.

La casa AMD no fabricaba memorias, sólo procesadores, y por eso se veía obligada acomprar los módulos de memoria caché a otros fabricantes. Haciendo esto, quedólimitada a utilizar los productos que éstos tenían para venderle. El problema era queninguna compañía tenía, en la época, la tecnología adecuada para producir módulosde memoria caché capaces de trabajar a más de 350 MHz a un precio competitivo.

Si la caché L2 utilizada en estas versiones antiguas del Athlon trabajaba, a lo sumo, a350 MHz y la casa AMD lanzó versiones del Athlon K75 de hasta 1 GHz, naturalmen-te la caché L2 trabajaba a una fracción de la frecuencia del procesador, el mismo casoque en el Pentium II. Las versiones de hasta 700 MHz del Athlon traían una memoriacaché L2 que trabajaba a la mitad de la frecuencia del procesador. Las versiones de750, 800 y 850 MHz traían la caché L2 operando a sólo 2/5 de la frecuencia del proce-sador, mientras que en las versiones de 900, 950 y 1 GHz la caché L2 operaba a sólo1/3 de la frecuencia del procesador.

3.4.8 Athlon ThunderbirdLa versión original del Athlon fue lanzada poco después del Pentium III core Katmai.Como los dos procesadores utilizaban una memoria caché L2 que trabajaba a la mitadde la frecuencia del procesador, la pugna se mantuvo bastante equilibrada, con elPentium III ganando en algunas aplicaciones y el Athlon en otras. A pesar de que enel cómputo general el Athlon ganaba por un margen estrecho, el puesto de procesadormás rápido acababa siendo conquistado por el procesador con una mayor frecuenciade trabajo.

Pero el Athlon comenzó a quedarse atrás después de que la casa Intel lanzase las nue-vas versiones del Pentium III, basadas en el core Coppermine, debido a su memoriacaché L2 más lenta. Mientras que en un Pentium III de 900 MHz la caché L2 operabaa la misma frecuencia del procesador, en un Athlon antiguo también de 900 MHz, lamemoria caché L2 operaba a sólo 300 MHz, 1/3 de la frecuencia del procesador. Peroesto cambió con el lanzamiento del Athlon Thunderbird.

Es muy difícil encontrar un Athlon antiguo hoy día, pues estos procesadores dejaronde fabricarse desde hace mucho tiempo y no se llegaron a vender en un número muygrande. El Athlon Thunderbird ya tiene su sucesor, el Athlon Palomino.

Todo lo dicho hasta ahora sobre la arquitectura del Athlon continuaba siendo válidopara el Thunderbird. No hubo cambios en el proyecto del procesador, sólo en la caché

112

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 112

L2, que pasó a ser de sólo 256 KB (contra los 512 KB) pero que pasó a operar a lamisma frecuencia del procesador, como en el Pentium III Coppermine.

Fue en la época del lanzamiento del Thunderbird en la que se produjo la migracióndel slot A al soquete A. La casa AMD optó por hacer ese cambio de forma radical.Simplemente paró la producción de los procesadores antiguos y pasó a vender sólo elAthlon Thunderbird. Este movimiento fue coordinado con los fabricantes de placasbase, que en la misma fecha retiraron del mercado las antiguas placas slot A y pasa-ron a vender sólo las placas soquete A.

AMD llegó a producir una serie del Thunderbird en el formato slot A que fue vendi-da a compañías como la casa Dell, que aún tenían placas base slot A en stock, pero fueuna serie limitada que no llegó a ser vendida directamente al consumidor. No existíaningún adaptador que permitiese instalar un Thunderbird en una placa base slot A oun Athlon antiguo en una placa base soquete A.

Un Athlon para el nuevo soquete A

En términos de rendimiento, el Thunderbird superaba a un Pentium III Copperminede la misma freeuencia en la mayoría de las aplicaciones. En algunas pruebas, elPentium III era más rápido pero, en general, el Thunderbird era superior a pesar deser más barato.

3.4.9 AMD DuronEl Duron es el actual procesador de bajo coste de la casa AMD, el sustituto de los pro-cesadores K6-2 y competidor directo del Celeron.

El Duron utiliza la misma arquitectura del Athlon Thunderbird, aunque sin embargo,viene con menos memoria caché. Mientras que el Athlon Thunderbird viene con 256KB de caché L2, el Duron viene con sólo 64 KB de caché L2, aunque también full-speed. Sin embargo, a pesar de la menor cantidad de caché L2, el Duron lleva unaenorme memoria caché L1 de 128 KB, totalizando 192 KB de caché total, una cantidad

113

Procesadores

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 113

mayor que el Celeron, que tiene 32 KB de caché L1 y 128 KB de caché L2, totalizando160 KB de caché total.

En referencia a la memoria caché, el Duron aporta una ventaja más en relación alCeleron. En el Duron, la cache L2 es exclusiva, esto significa que los datos almacena-dos en la caché L1 y en la caché L2 son diferentes. Entonces realmente tenemos 192 KBde datos depositados en ambas memorias caché. En el Celeron, la caché es inclusiva,esto significa que los 32 KB de la caché L1 son siempre copias de los datos almacena-dos en la caché L2. Esto significa que en la práctica, sólo tenemos 128 KB de datosalmacenados en ambas memorias caché. Todos los Duron utilizan el soquete A, puesla casa AMD comenzó su producción después de heber hecho la migración e incluidola memoria caché L2 en el propio núcleo del procesador.

El procesador Duron de la casa AMD

El Duron viene sorprendiendo en términos de rendimiento, ganando por un granmargen a un Celeron de la misma frecuencia, presentando un rendimiento muy simi-lar al de un Athlon con la arquitectura antigua (con la caché L2 a la mitad o 2/5 de lafrecuencia del procesador). Lo mejor de todo es que a pesar de que el rendimiento yaes más que convincente, el Duron es más barato que un Celeron de la misma frecuen-cia, y naturalmente mucho más que un Pentium III/4 o un Athlon.

Claro que comparado con un Athlon Thunderbird, el Duron pierde en todos los as-pectos (aunque por un pequeño margen), pues el Duron no es más que un AthlonThunderbird con menos memoria caché. A pesar de esto, los dos procesadores sonfabricados en fábricas separadas y existe una pequeña diferencia en la técnica de fabri-cación de cada uno.

Tradicionalmente, los procesadores utilizaban aluminio en los filamentos que interco-nectaban los transistores. El aluminio es un material fácil de tratar, que no reaccionacon el silicio. Por otro lado, el aluminio no es un conductor tan bueno como el cobre,platino u otros materiales más "nobles". El cobre es un buen sucesor, pues es un mate-rial barato y que puede ser aplicado a través de las reacciones químicas usadas paraconstruir un procesador, al contrario del oro, por ejemplo. Pero, el problema de utili-zar cobre en lugar del aluminio es que el cobre reacciona con el silicio, haciendo que

114

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 114

el procesador se vuelva inservible. Entonces, la casa IBM desarrolló una técnica quepermitió usar una finísima capa de aluminio entre el silicio y el filamento de cobre,aislando los dos materiales. El uso del cobre permite que el procesador sea capaz detrabajar a frecuencias más altas y mantenerse estable trabajando a temperaturas máselevadas.

La casa AMD usa esta técnica de producción en todos los Athlons Thunderbird. Porotro lado, los Duron se fabrican en una fábrica separada que utiliza la vieja técnica deproducción de los filamentos de aluminio. De momento, el uso del cobre era unaexclusividad de la casa AMD, ya que Intel aún no usaba la técnica ni en el Pentium IIIni en las primeras versiones del Pentium 4. Esta es una forma más de abaratar los cos-tes de producción del Duron.

El Duron que está basado en el core Thunderbird es conocido por Spitfire. Ya existenversiones del Duron basadas en el core Palomino, que son conocidas por DuronMorgan. El Duron Morgan lleva una compatibilidad parcial con las instrucciones SSE,y por eso aportó una pequeña ganancia de rendimiento en cada ciclo de reloj en com-paración con las versiones anteriores. El core Morgan es usado en los Duron de 1 GHzen adelante.

3.4.10 Pentium 4El lanzamiento del Pentium 4 se produjo a finales del año 2000 en versiones de 1.4 y1.5 GHz. Actualmente ya existen versiones muy rápidas e inclusive una nueva arqui-tectura más avanzada que el core Willamette usado en estas versiones iniciales. Pero,manteniendo la idea de explicar la evolución de los procesadores, vamos a empezarcomentando las características del procesador y de las versiones iniciales para des-pués comentar las versiones más actuales.

El procesador Pentium 4 de la casa Intel

115

Procesadores

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 115

Un punto interesante sobre las primeras versiones del Pentium 4 es que el único chip-set disponible durante casi un año, el i850 de la propia casa Intel, sólo soportabamemorias Rambus, lo que obligaba a cualquier interesado en adquirir un Pentium 4 aadquirir también módulos de memoria Rambus. Este tipo de memoria era inicialmen-te muy caro.

Con el tiempo, el precio de las memorias Rambus fue bajando, pero este tipo de me-moria aún es más caro que las memorias SDRAM o DDR. Por suerte, actualmente yaexisten placas base para Pentium 4 con soporte para las memorias DDR y para lasmemorias SDRAM comunes.

ArquitecturaEl primer punto a tener en cuenta sobre el Pentium 4 es que el aumento de la frecuen-cia de operación no significa una ganancia automática de potencia. Un Pentium 4 de1.5 GHz no era un 50% más rápido que un Pentium III de 1 GHz. Una cosa es el núme-ro de ciclos por segundo que es capaz de ejecutar el procesador y otra es lo que ésteconsigue procesar en cada ciclo.

El diagrama del funcionamiento interno de un Pentium 4

Para entender los puntos fuertes y débiles del Pentium 4 nada mejor que empezaranalizando la arquitectura interna del procesador. La casa Intel bautizó la nuevaarquitectura del Pentium 4 como NetBurst. El nombre no tiene nada que ver con elrendimiento en redes o en Internet, pero intenta ilustrar los nuevos recursos del pro-cesador, así como dar un aire de superioridad.

La arquitectura NetBurst está compuesta por 4 componentes principales: Hyper Pi-pelined Technology, Rapid Execution Engine, Execution Trace Cache y un bus de 400MHz. Vamos a ver más detalladamente cada una de estas 4 tecnologías.

116

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 116

Hyper Pipelined TechnologyEsta es la característica más destacada del Pentium 4. El Pipeline es un recurso quedivide el procesador en varios niveles que trabajan simultáneamente, dividiendo eltrabajo de proceso de las instrucciones. A partir del 486, todos los procesadores utili-zan este recurso. El Pentium III poseía 10 niveles, el Athlon poseía 11 niveles, mien-tras que el Pentium 4 salió con nada menos que 20 niveles, de ahí el nombre HyperPipelined.

El uso de Pipeline permite que el procesador sea capaz de procesar varias instruccio-nes al mismo tiempo, ya que cada nivel se encarga de una parte del procesamiento.Mientras más niveles, menor será el procesamiento ejecutado en cada uno de ellos. Enel caso del Pentium 4, cada nivel del Pipeline sólo procesa la mitad de lo procesadopor un nivel del Pentium III, haciendo que teóricamente el resultado final sea elmismo, ya que en compensación tiene el doble de niveles.

El uso de más niveles permite que el procesador trabaje a frecuencias muy altas, yaque cada nivel ejecuta menos procesamientos. El problema, en este caso, es que losprocesadores actuales ejecutan varias instrucciones simultáneamente, mientras quelos programas son una secuencia de instrucciones. El Pentium 4 procesa tres instruc-ciones en cada ciclo. Si las instrucciones siguientes no dependen del resultado de laprimera, como una secuencia de sumas de varios números por ejemplo, el procesadorno tendrá ningún problema para resolverlas de forma rápida. Sin embargo, siempreque exista una opción de toma de decisión, donde el procesador primero necesiteresolver una instrucción para saber qué camino debe escoger a continuación, entra enescena el recurso de la ejecución especulativa, donde mientras se resuelve la primerainstrucción el procesador escoge uno de los caminos posibles para ir "adelantandotiempo" mientras no sabe cual deberá seguir. Si al terminar de resolver la primera ins-trucción el procesador percibe que escogió el camino correcto, simplemente continuaa partir de allí. En caso contrario, si el procesador hubiese errado, entonces tendrá quedejar de lado todo el trabajo hecho y tomar el otro camino, perdiendo tiempo.

El Pentium 4 pierde en ese punto, pues tarda el doble de ciclos de reloj para procesarla primera instrucción, ya que es procesada en 20 niveles, en contra de los 10 delPentium III. Esto significa que en cada toma de decisión errónea se perderán por lomenos 20 ciclos de procesamiento. Esto significa que, en principio, el Pentium 4 esmás lento que un Pentium III de la misma frecuencia, pudiendo, en compensación,trabajar a frecuencias mucho más altas. Todas las demás modificaciones realizadaspor la casa Intel, explicadas a continuación, sirvieron como paliativos para intentardisminuir la pérdida de rendimiento contraída con el mayor número de niveles delrecurso de Pipeline.

Además de la pérdida de rendimiento, otro efecto colateral del uso de más niveles dePipeline es el hecho de hacer que el procesador sea mayor y más complejo y, fatalmen-te, más caro de producir. El Pentium 4 de 0.18 micrones mide 217 milímetros cuadra-dos, casi el doble que el Athlon Thunderbird que mide 120 milímetros cuadrados

117

Procesadores

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 117

Execution Trace CacheEl uso de la caché L1 en el Pentium 4 fue innovador. El Pentium III, por ejemplo, tenía32 KB de caché L1 dividida en 2 bloques de 16 KB cada uno, uno para instrucciones yel otro para datos. El Athlon tenía 128 KB de caché L1, también dividida en dos blo-ques. El Pentium 4, por su parte, sólo tiene 8 KB de caché para datos. Sin embargo,trajo dos innovaciones que compensaban esta aparente deficiencia. La primera es quegracias al reducido tamaño, la pequeña caché de datos tiene un tiempo de latenciamenor, o sea, que es más rápido que la caché L1 que encontrábamos en un PentiumIII y en un Athlon. Desde el punto de vista de los desarrolladores de Intel, esta fue lamejor relación en términos de rendimiento.

A pesar de que la caché L1 siempre trabaja a la misma frecuencia del procesador, enel Athlon la caché L1 tenía un tiempo de latencia de 3 ciclos, en el Pentium III la cachéL1 tenía un tiempo de latencia de 2 ciclos, mientras que en el Pentium 4 la caché L1, apesar de ser muy pequeña, sólo tiene un tiempo de latencia de 1 ciclo. Es casi tan rápi-da como los registros del procesador. Podemos notar que la velocidad de la memoriacaché es inversamente proporcional al tamaño. Por eso, es por lo que la enorme cachéL1 del Athlon no representaba una ganancia de rendimiento muy grande en compa-ración con la pequeña caché L1 del Pentium III. El procesador necesita visitar menosveces la memoria RAM ya que la caché es capaz de almacenar más datos pero, porotro lado, pierde más tiempo en cada acceso a la caché.

Por otro lado, la caché de instrucciones fue sustituida por el Execution Trace Cache,que en vez de almacenar instrucciones, almacena directamente las instrucciones yadecodificadas y listas para que puedan ser procesadas. Esto garantiza que la cachésólo tenga un ciclo de latencia, o sea, que el procesador no pierde tiempo alguno al uti-lizar los datos almacenados en la Trace Cache, al contrario de lo que acontecía en elPentium III, donde se perdían por lo menos dos ciclos en cada lectura, el tiempo nece-sario para decodificar la instrucción.

Bus de 400 MHzPara intentar competir con el bus EV6 del Athlon, que operaba de 100 a 133 MHz condos transferencias por ciclo, lo que en la práctica resultaba en unas frecuencias de 200y 266 MHz respectivamente, el Pentium 4 contó con un bus que trabajaba a 100 MHzpero con 4 transferencias por ciclo, lo que en la práctica equivale a 400 MHz.

El bus controla la velocidad de comunicación entre el procesador y el chipset. Un busmás rápido no significa una ganancia de rendimiento, aunque sin embargo, sí que unbus insuficiente causaría una pérdida de rendimiento, haciendo que el procesador noconsiguiese comunicarse con los demás componentes a la velocidad adecuada.

Como el Pentium 4 tenía una caché L1 muy pequeña, el procesador acababa siendomuy dependiente de la velocidad de acceso a la memoria RAM, pues los accesos eranmuy frecuentes. Esta característica sirvió de justificación para la decisión de la casa

118

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 118

Procesadores

119

Intel de utilizar memorias Rambus en las primeras versiones del Pentium 4. Este tipode memoria es capaz de operar a frecuencias muy altas. Los primeros modelos delPentium 4 utilizaban memorias Rambus PC-800 que operaban a 200 MHz y realiza-ban 4 transferencias por ciclo, a buen seguro más rápidas que las memorias PC-100 oPC-133 que equipaban a los Athlon y Pentium III de la época.

Aún hasta hace poco, las placas para Pentium 4 con soporte para memorias SDRAMcomunes presentaban un rendimiento bastante inferior a causa del acceso más lento ala memoria RAM. Sólo las placas con soporte para las memorias DDR eran capaces depresentar batalla a las placas con memorias Rambus.

Rapid Execution EngineTodo procesador actual está dividido en dos componentes básicos, las unidades deejecución de enteros y las unidades de punto flotante. La parte que procesa las instruc-ciones que envuelven a los números enteros es la responsable de la mayor parte de lasinstrucciones y del rendimiento del procesador en las aplicaciones comunes, mientrasque las unidades de punto flotante son las responsables del procesamiento de las ins-trucciones que incorporan valores complejos, usados por los juegos y las aplicacionesgráficas y de renderización.

La Rapid Execution Engine del Pentium 4 consiste en un refuerzo para las unidadesde ejecución de enteros del procesador. El Pentium 4 posee un total de 5 unidades deprocesamiento de enteros, dos ALU, que procesan las instrucciones más simples, dosGLU, encargadas de leer y escribir los datos y una tercera ALU, encargada de decodi-ficar y procesar las instrucciones complejas, que aunque en menor cantidad, son lasque toman más tiempo de procesador. Este conjunto de 5 unidades de ejecución deenteros es semejante al del Pentium III, sin embargo, como diferencia, en el Pentium4 tanto las dos ALU encargadas de las instrucciones simples como las dos GLU encar-gadas de las lecturas y escrituras son dos veces más potentes.

Según la casa Intel, las cuatro unidades operan a una frecuencia dos veces superior ala del procesador, lo que sugiere que en un Pentium 4 de 1.5 GHz, operan a 3 GHz.Sin embargo, en realidad, cada unidad pasó a ser compuesta por dos unidades quetrabajan en paralelo. Con esto, las unidades son capaces de procesar dos instruccionespor ciclo, pero la frecuencia de operación continúa siendo la misma. Este es un recur-so que debería parecer maravilloso, pero existe un pequeño detalle que elimina buenaparte de la ganancia que sería de esperar en este nuevo esquema. A pesar de que lasdos ALU de instrucciones simples sean más rápidas, intentando compensar la pérdi-da de rendimiento acarreada por los 20 niveles del Pipeline del Pentium 4, la ALU deinstrucciones complejas no tuvo la misma evolución. Esto significa que al pasar a usar20 niveles de Pipeline, esta tercera ALU se volvió más lenta que la misma en el Pen-tium III. Entonces nos encontramos con un escenario donde las instrucciones simplesson procesadas de forma rápida pero las instrucciones complejas quedan encalladasen la tercera ALU, causando una gran pérdida de rendimiento.

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 119

En el coprocesador aritmético el escenario es aún más complicado, pues a pesar deque las unidades de ejecución han perdido rendimiento debido al Pipeline de 20 nive-les no hubo ningún avance para equilibrar la balanza, como sí ocurrió en las unidadesde enteros. Por el contrario, el coprocesador aritmético encogió, pues fueron elimina-das dos de las unidades de ejecución, una de las que procesaba las instrucciones MMXy una de las que procesaba las instrucciones SSE.

En vez de evolucionar como era de esperar, el coprocesador aritmético del Pentium 4se hizo más frágil que el del Pentium III, conllevando a un escenario como mínimocurioso. Mientras que en la época del Pentium II y del K6, la casa AMD competía conun procesador que a pesar de poseer un buen rendimiento en las aplicaciones de ofi-cina era literalmente inferior en los juegos y aplicaciones gráficas, ahora tenemos unescenario semejante con el Pentium 4 y el Athlon, aunque con los polos invertidos. Lacasa Intel atacó con un procesador que es potente en las operaciones de enteros, perodébil en las operaciones en punto flotante.

SSE2Las Double Precision Streaming SIMD Extensions del Pentium 4 son 144 nuevas ins-trucciones de punto flotante de doble precisión. Tienen la misma función que la quetenían las instrucciones SSE del Pentium III y las 3D-Now! del Athlon: mejorar el ren-dimiento del procesador en las aplicaciones de punto flotante. La diferencia es que lasinstrucciones del Pentium 4 son más poderosas que las de los conjuntos anteriores ypueden ser utilizadas en más situaciones, lo que puede salvar al Pentium 4 en el casode que las aplicaciones estén bien optimizados para las nuevas instrucciones.

La casa AMD anunció que su próxima generación de procesadores de 64 bits soporta-rán el conjunto de instrucciones SSE2. En el momento de su aparición, el Pentium 4tenía su exclusividad. Es necesario recordar que el Pentium 4 mantiene la compatibi-lidad con las instrucciones SSE del Pentium III.

Acceso a la memoriaA pesar de tener la desventaja de utilizar las caras memorias Rambus, el Pentium 4estaba (o aún está, ya que el uso de memoria Rambus aún es una opción) indiscutible-mente bien posicionado desde el punto de vista del rendimiento en el acceso a la me-moria. Visitando simultáneamente dos módulos RIMM tenemos un bus de datos de3.2 GB/s usando módulos PC-800, lo que se corresponde con tres veces el acceso per-mitido por los módulos de memoria PC-133 comunes hasta la época.

Por un lado, esto ayuda bastante al procesador en las aplicaciones dependientes de lavelocidad de acceso a la memoria, como los programas de edición y compresión devídeo y algunos juegos. Por otro lado, es necesario usar los módulos en pares. Si qui-siéramos 512 MB de memoria, tendríamos que usar obligatoriamente dos módulos de256 MB de la misma marca y velocidad.

120

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 120

3.5 Los nuevos procesadoresA partir de este punto veremos los procesadores más actuales, lanzados a partir definales del año 2002.

3.5.1 Las nuevas evolucionesEn un corto espacio de tiempo todos los procesadores que acabamos de ver sacaronnuevas versiones. En algunos casos, como por ejemplo el Duron, las nuevas versionesfueron totalmente compatibles con las placas antiguas, mientras que en otros casos,como en el caso del Celeron Tualatin, era necesario cambiar la placa base en la mayo-ría de los casos.

Todo este cambio puede ser un poco confuso si no se estuvo en contacto con las noti-cias de la época del cambio, y por eso dedicaremos las siguientes páginas a explicar loque realmente cambió.

3.5.2 Intel vs AMDLa casa Intel ha adoptado una política bastante agresiva en lo referente a los preciospero la casa AMD aún continúa vendiendo sus procesadores más baratos. En realidad,las dos vienen manteniendo una guerra de precios desde hace algún tiempo. Siempreque Intel ha anunciado una disminución en los precios, AMD también ha bajado losprecios de sus procesadores pocos días después. Es casi una cuestión de superviven-cia para AMD conseguir vender sus procesadores más barato que Intel, ya que éstatiene su marca mejor establecida.

Hasta hace poco, Intel vendía los procesadores Celeron, Pentium III y Pentium 4,mientras que la AMD vendía el Duron, el Athlon (en sus versiones Thunderbird y XP)y el Athlon MP, que es el primer procesador Athlon con soporte para el multiproce-samiento. El Duron que ya hemos visto a fondo alcanzó la marca de los 1.1 GHz, unfrecuencia muy elevada por el bajo precio que tenía. Las nuevas versiones del Duron,tanto en la versión de 1.1 GHz como los de 1.0 GHz y 950 MHz de producción másreciente ya usaban el core Morgan, que compartía la misma arquitectura del Palo-mino, sólo con menos memoria caché. La principal novedad era el soporte para lasinstrucciones SSE del Pentium III, lo que garantizaba un rendimiento de un 5 a un 10%superior al de las versiones anteriores. El Athlon también continuó evolucionando.Los modelos anteriores, basados en el core Thunderbird llegaron a la respetable marcade 1.4 GHz, mientras que el Athlon XP, basado en el core Palomino, ya llegó a los 1.53GHz en las primeras versiones.

Por el lado de la casa Intel nos encontramos con una situación un poco más compleja.Tanto el Celeron como el Pentium III aún se producían con una arquitectura de 0.18micrones. Ambos debían ser apartados en breve, cuando tenían que ser sustituidospor el Tualatin, que era un Pentium III de 0.13 micrones, capaz de trabajar a frecuen-cias más altas. Aparecieron versiones del Pentium III Tualatin (Pentium III-S) de 1.13

121

Procesadores

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 121

y 1.2 GHz con 512 KB de memoria caché, pero eran muy caros. La casa Intel preten-día continuar bajando los precios de los procesadores Pentium 4, hasta el punto deque costasen más baratos que los Pentium III y mantener el Celeron como una opciónde bajo coste.

Es ahí donde entró el nuevo Celeron, basado en el core Tualatin, que tenía 256 KB dememoria caché y era producido, inicialmente, en versiones de 1.0, 1.1 y 1.2 GHz. ElCeleron Tualatin era prácticamente igual que un Pentium III, con la única diferenciaque el Celeron Tualatin utilizaba un bus de 100 MHz, en vez de los 133 MHz de lasversiones más rápidas del Pentium III.

El Pentium 4 es otro que se reencarnó en una nueva arquitectura. Los procesadoresvendidos hasta finales del año 2001 usaban la arquitectura core Willamette de 0.18 mi-crones y 256 KB de memoria caché. A partir del año 2002 se empezaron a vender losprocesadores con core Northwood, que ya utilizaban una arquitectura de 0.13 micro-nes y traían 512 KB de memoria caché L2.

Es preciso recordar, que a pesar de que llevasen más memoria caché, los nuevos Pen-tium 4 no eran necesariamente más rápidos que los anteriores, pues pasaron a utilizarplacas base basadas en el chipset i845 (u otros chipsets similares), con soporte para lasmemorias SDRAM comunes o memorias DDR. A pesar de que el cambio garantizabauna caída en los precios de las placas base y, principalmente, en el precio total de losPCs basados en el Pentium 4, ya que no era necesario usar memorias Rambus, el ren-dimiento usando memorias SDRAM comunes era inferior, a pesar de la mayor canti-dad de memoria caché.

El Pentium 4 para el soquete 478

Otra novedad es que, finalmente, se empezaron a vender las placas base y los proce-sadores Pentium 4 con el nuevo encaje soquete 478. A pesar de tener más contactos,este encaje era menor que el soquete A del Athlon y que el soquete 370 del PentiumIII. Según Intel, el soquete 478 era el soquete definitivo para el Pentium 4, que acomo-daría a todos los procesadores que serían lanzados al mercado en adelante. Esto dabaun buen margen para ampliaciones, pues la casa Intel pretendió llegar a lanzar proce-sadores Pentium 4 de hasta 4.0 GHz basados en la arquitectura de 0.13 micrones.

122

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 122

Vamos a ver ahora, más detalladamente lo que cambió en las nuevas arquitecturas, ycomo diferenciar los nuevos procesadores de los más antiguos.

3.5.3 Spitfire vs Morgan El core Spitfire fue la primera versión del Duron de la casa AMD. Con sus 128 KB decaché L1 y 64 KB de caché L2 (contra los 256 KB del Athlon), el Duron siempre fuecapaz de superar fácilmente a un Celeron de la misma frecuencia, a pesar de quedar-se siempre un poco por detrás del Athlon y del Pentium III. La ventaja era que elDuron siempre fue mucho más barato, ideal para los equipos de bajo coste. Con elcore Spitfire, el Duron fue lanzado con una frecuencias de hasta 950 MHz pero, alcomenzar a aproximarse a los límites de la arquitectura, la AMD mejoró su proyecto,llegando al core Morgan, usado en los Duron de 950 MHz y en todos los de 1.0 GHzy superiores.

La principal novedad de la nueva arquitectura era la compatibilidad con las instruc-ciones SSE del Pentium III (que la AMD llamó 3D-Now! Professional), lo que trajopequeñas ganancias de rendimiento en la mayoría de las aplicaciones. El core Morgantambién fue proyectado para consumir menos electricidad y disipar menos calor, peropara compensar, los nuevos Duron usaron una tensión más elevada (1.75 voltios con-tra los 1.6 voltios de los anteriores) y operaron a frecuencias más altas. Sumando lostres factores, los nuevos procesadores consumen más energía que los antiguos y laúnica ventaja acaba siendo el mejor rendimiento.

Gracias a las instrucciones SSE y a algunas mejoras más en el proyecto del procesadorconsiguió ser de un 5 a un 7% más rápido (comparando dos procesadores de la mismafrecuencia) que el core Spitfire usado en los modelos anteriores. Una duda frecuentesobre el Duron Morgan es sobre la compatibilidad con las placas base del momento.A pesar de que la casa AMD no alteró la señalización del procesador, era necesarioactualizar el BIOS de la placa base para que ésta fuese capaz de activar el soporte a lasinstrucciones SSE e identificar correctamente el procesador durante la inicializacióndel sistema. De lo contrario, el procesador funcionaba pero no podíamos aprovecharla ganancia de rendimiento proporcionada por las nuevas instrucciones.

Teóricamente, el Duron Morgan funcionaba en cualquier placa base soquete A, puesusaba un bus de 100 MHz y una tensión de 1.75 voltios. Pero, en la práctica, algunosusuarios se quejaron que algunas placas base antiguas no arrancaban con los nuevosprocesadores. Era una situación semejante a la que se produjo con el lanzamiento delCeleron con caché algunos años atrás, cuando algunas placas base no arrancaban conel nuevo procesador. Era necesario conseguir un Pentium II o Celeron antiguo paraconectar el equipo y actualizar el BIOS y utilizar el nuevo Celeron después. Esto sóloera aplicable a las placas base antiguas. Los modelos fabricados algunos meses des-pués ya venían con el BIOS actualizado.

El hecho de que los Duron con core Morgan fuesen compatibles con las placas baseantiguas, reforzaba la idea que el Athlon XP, basado en el core Palomino, también lo

123

Procesadores

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 123

era. Claro que en el caso del Athlon XP era necesario que la placa base soportase unbus de 133 MHz.

3.5.4 Thunderbird vs PalominoNo fue sólo el Duron el que evolucionó, el Athlon también entró en una nueva fasecon el core Palomino. En realidad, el Morgan era un subproduto del trabajo hecho enel Palomino, y por eso las arquitecturas son tan semejantes. El Athlon Palomino tam-bién consumía un poco menos de energía y tenía un rendimiento un poco superiorgracias a la compatibilidad con las instrucciones SSE. Pero, la principal novedad erael soporte al multiprocesamiento. No fue sin ton ni son que los procesadores con corePalomino fueron vendidos como Athlon MP (MP de Multi Processing).

El Athlon MP con core Palomino

Tanto el core Morgan como el core Palomino consumían cerca de un 7% de energíamenos que los proyectos anteriores. El Athlon MP usaba la misma tensión que elAthlon Thunderbird, y por eso consume menos. Por su parte, el Morgan usaba unatensión un 10% más alta. Eso anulaba la economía de usar el nuevo core e incluso con-llevaba un pequeño aumento. Usar una tensión más alta es un recurso usado por losfabricantes para que los procesadores sean capaces de alcanzar frecuencias más altas.

Otro punto destacable es que tanto el Palomino como el Morgan trajeron finalmenteuna vieja reivindicación de los interesados en los procesadores AMD, un sistema deprotección térmica. Fue incluso común oír hablar de procesadores Athlon y Duronquemados por sobrecalentamiento, ya sea que se le olvidase al dueño instalar o conec-tar el ventilador o por utilizar un ventilador inadecuado.

El nuevo sistema implantado en los procesadores Athlon y Duron con core Palominoconsiguió que el procesador se parase al alcanzar una cierta temperatura, preservan-do el resto del equipo. Sin embargo, este sistema realizaba las lecturas con intervalosde 1 segundo. A final de cuentas, la protección sólo funcionaba si instalábamos unventilador con una capacidad insuficiente para el procesador, o si el ventilador deja-ba de funcionar. Si el procesador estaba mal conectado al ventilador, o no se hubieseinstalado correctamente, el procesador aún podía quemarse. Este es un punto impor-

124

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 124

tante: jamás utilicemos un Athlon o Duron sin un ventilador aunque sólo sea paraentrar en el BIOS, ya que el procesador se quemará antes de que el diodo sea capaz dedesconectar el procesador.

Detalles sobre el core PalominoCuando el Pentium 4 fue sacado al mercado hubo casi un consenso de que a pesar deque el Pentium 4 existía en versiones que trabajaban a frecuencias muy altas, el rendi-miento del procesador dejaba un poco que desear. Sin embargo, conforme se fueronincorporando optimizaciones para el Pentium 4, los resultados obtenidos comenzarona mejorar un poco.

El Athlon Thunderbird por su parte, así como el Duron, presentaba un rendimientomuy bueno, además de tener un precio atractivo. Sin embargo, una desventaja de estaplataforma era que ambos consumían mucha más electricidad que los procesadoresPentium III y Celeron de la misma frecuencia. Esto conllevó como efecto colateral a unmayor calentamiento, lo que obligaba al usuario a usar un ventilador más poderoso.

La principal ventaja del Palomino, muy enfatizada por la casa AMD desde que el pro-yecto comenzó a divulgarse, son una serie de mejoras que redujeron el consumo eléc-trico y disipación térmica del procesador en comparación con un Thunderbird de lamisma frecuencia. El rendimiento también mejoró, nada escandaloso, sólo de un 3 aun 16% dependiendo de la aplicación, según informaciones de la propia AMD.

SSEEl SSE ya no era exclusividad del Pentium III y Pentium 4. La AMD añadió unas nue-vas 52 instrucciones que permitieron una compatibilidad parcial con las instruccionesSSE del Pentium III, que eran 70 en el total. Se sabe que varias de estas instruccioneseran diferentes a las que se encontraban en el SSE del Pentium III, y por eso podía serque a pesar de ser en menor número, las instrucciones del Athlon tuviesen una efi-ciencia muy parecida. De cualquier modo, incluso una implementación parcial yadebía mejorar un poco el rendimiento del Athlon en las aplicaciones optimizadas parael juego de instrucciones SSE, disminuyendo la ventaja del Pentium III en las pocasaplicaciones donde aún era mejor.

Faltaba aún la compatibilidad con el juego de instrucciones SSE2 del Pentium 4, lo quesólo debía ser implementado en el AMD ClawHammer (o K8), el primer procesadorde 64 bits destinado al mercado doméstico y lanzado a partir del 2004. Con este refuer-zo, el juego de instrucciones 3D-Now! pasó a llamarse 3D-Now! Professional.

Data Prefetch y aumento de las direcciones en el TLBEl Data Prefetch es un recurso que permitía cargar los datos que iba a necesitar el pro-cesador para concluir sus próximas instrucciones. Aún operando a la misma frecuen-cia del procesador siempre existía alguna pérdida de tiempo al acceder a la memoria

125

Procesadores

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 125

caché L1 y el Data Prefetch consiguió disminuir el número de accesos necesarios, con-llevando una pequeña ganancia de rendimiento.

Otro pequeño avance fue un aumento en las direcciones disponibles en el TLB (Trans-lation Lookside Buffer). El TLB es una pequeña área de memoria que almacena lasdirecciones necesarias para que el procesador pueda recoger los datos de la memoriaRAM, si los mismos no los ha encontrado en las memorias caché. El procesador notiene como almacenar directamente todas las direcciones de la memoria RAM, puesson muchas. En vez de eso, sólo se almacenan las más usadas.

El problema surge cuando el procesador necesita acceder a un dato cualquiera en lamemoria RAM, cuya dirección no está cargada en el TLB. En este caso se pierde unaverdadera eternidad, pues primero será necesario cargar la dirección, para despuésrealizar el acceso a la memoria. El aumento en el número de direcciones disponiblesen el TLB disminuye la posibilidad de estas pérdidas, permitiendo una pequeña ga-nancia más de rendimiento.

PowerNow!El PowerNow! fue originalmente implantado en los procesadores K6-2 y K6-3 desti-nados a los ordenadores portátiles. Se trata de un recurso de ahorro de energía quepermite alternar la frecuencia de operación del procesador según su nivel de utiliza-ción. Los cambios se realizan en cuestión de nanosegundos, siendo completamentetransparentes. Este es un recurso bastante útil para economizar energía, pero que sólofue usado en los Athlon Palomino destinados a portátiles, que son vendidos comoAthlon 4.

El PowerNow! ofrecería una protección térmica mucho mejor que la del diodo térmi-co que equipa los Athlon Palomino para los equipos de sobremesa, evitando que losprocesadores puedan quemarse al ser conectados sin un ventilador.

3.5.5 Athlon XPLa casa AMD tiene un problema. A pesar de que el Athlon tiene un rendimiento supe-rior al de un Pentium 4 de la misma frecuencia, la mayoría de los usuarios simplemen-te no saben nada de eso. Con eso, la AMD se ve obligada a vender, por ejemplo, losAthlon de 1.33 y 1.4 GHz a precios iguales o más bajos que el Pentium 4 de 1.4 GHz,aunque los Athlon tienen un rendimiento próximo al de un Pentium 4 de 2.0 Ghz, quepuede costar 3 o 4 veces más. A pesar de las críticas, es innegable que la casa Intel acer-tó de lleno desde el punto de vista comercial, construyendo un procesador capaz dealcanzar frecuencias muy elevadas, a pesar de perder en una comparación frecuenciapor frecuencia.

Aunque la casa AMD tradicionalmente trabaja con márgenes más pequeños que lacasa Intel, es difícil creer que serán capaces de continuar vendiendo tan baratos susprocesadores tope de línea. Ya que no es posible producir Athlon que trabajen a fre-

126

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 126

cuencias tan altas como el Pentium 4, AMD decidió poner en práctica una estrategiadiferente, intentando venderlos en relación a su rendimiento. Decidieron resucitar elviejo índice Pr, ya usado en los antiguos 5x86, K5 y Cyrix 6x86. El formato, que la casaAMD venía intentando establecer con la ayuda de otros fabricantes, fue bautizadocomo True Performance Initiative, e intentaba crear un conjunto de pruebas y bench-marks de varios fabricantes y tener en consideración el rendimiento del procesador envarias aplicaciones, y que pudiese servir de medida fiable del rendimiento total de losprocesadores.

De momento, el patrón aún no está definido, por eso la casa AMD definió los índicesde rendimiento basándose en una serie de benchmarks muy populares, manteniendoaún una cierta holgura en relación al Pentium 4. La intención era que el Athlon pudie-ra vencer con holgura las versiones equivalentes del Pentium 4. Para completar el pro-ceso, el Athlon Palomino cambió de nombre y fue lanzado como Athlon XP en vez deAthlon 4, que era el nombre ya utilizado en las versiones para ordenadores portátiles.

El Athlon XP de la casa AMD

El Athlon XP fue lanzado al mercado en versiones de 1.33, 1.4, 1.46 y 1.5 GHz, vendi-das en base a su rendimiento en relación al Pentium 4. Por ejemplo, la versión de 1.33GHz era vendida como modelo 1500+, indicando que tenía un rendimiento igual osuperior al de un Pentium 4 de 1.5 GHz. La versión de 1.4 GHz era vendida comomodelo 1600+, la de 1.46 GHz como 1700+, la de 1.5 GHz como 1800+. Inmediatamen-te después fue lanzada la versión de 1.6 GHz como el modelo 1900+.

Desde el punto de vista del rendimiento, la nueva numeración era más que correcta,pues salvo algunas excepciones, un Athlon XP de 1.4 GHz batía con holgura a unPentium 4 de 1.6 GHz. Además, en muchas de las aplicaciones de prueba llegaba abatir incluso a un Pentium 4 de 2.0 GHz.

Felizmente y para que no se creasen confusiones con esta nueva nomenclatura, lasplacas base con el BIOS actualizado eran capaces de reconocer correctamente a losnuevos procesadores y mostraban tanto el índice de rendimiento como la frecuenciareal de trabajo.

127

Procesadores

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 127

Coppermine vs TualatinDesde el punto de vista de la tecnología de producción, la casa Intel estaba un pasopor delante de la casa AMD. Tanto el Tualatin como el Northwood ya utilizaban unatecnología de 0.13 micrones, mientras que el Morgan y Palomino de la casa AMD aúnutilizaban una arquitectura de 0.18 micrones. Esto representaba una diferencia muygrande tanto en términos de consumo eléctrico, como en términos de las frecuenciasde trabajo que eran capaces de alcanzar los procesadores. La casa AMD lanzó sus pro-cesadores de 0.13 micrones entre finales de 2002 y principios de 2003.

Originalmente, el core Tualatin debía ser usado para producir los procesadores Pen-tium III de 1.13 GHz en adelante. De hecho, llegaron a ser lanzados Pentium III de 0.13micrones operando a 1.13 y 1.20 GHz. Pero, la casa Intel no estaba muy interesada enmantener estos procesadores, temiendo que pudieran entorpecer las ventas del Pen-tium 4. Al final acabaron usando el core Tualatin para desarrollar versiones más rápi-das del Celeron, con los mismos 256 KB de caché que en el Pentium III, sólo con ladiferencia de usar un bus de 100 MHz, en vez del de 133 MHz del Pentium III. Encompensación, el nuevo Celeron incluía un recurso nuevo, llamado Data Prefetch Lo-gic, capaz de mejorar un 5% el rendimiento del procesador.

El Celeron Tualatin

Gracias a las frecuencias de operación más altas y a la mayor caché, los nuevosCeleron fueron más rápidos que los antiguos. Finalmente, el nuevo Celeron disponíade las condiciones necesarias para poder competir con el Duron, a pesar de ser toda-vía más caro. Pero, en compensación, algunos de los cambios en la señalización delprocesador hicieron a los Tualatin incompatibles con las placas base antiguas. Losnuevos procesadores Tualatin utilizaban un nuevo bus (el AGTL) en contraste con elbus GTL+ utilizado por los procesadores Pentium II, Pentium III y Celeron antiguos.

Otro punto incómodo era que las placas base destinadas al Tualatin ya no eran com-patibles con los antiguos Celeron PPGA (de los 366 a los 533 MHz), que ya utilizabanel soquete 370 pero aún utilizaban una arquitectura antigua y una tensión de 2.0 vol-

128

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 128

tios, nuevamente a causa de la diferencia en las señalizaciones. Sin embargo, existíauna compatibilidad total con todos los Pentium III y Celeron con core Coppermine.

El mayor problema con el Celeron Tualatin era la falta de opciones de actualización yampliación. Al comprar una placa base soquete 370 y un Tualatin, nuestra únicaopción de ampliación es adquirir una versión más rápida del Celeron. Comprando unPentium 4 Northwood y una placa base soquete 478 tendremos, por lo menos, la posi-bilidad de usar un Pentium 4 de 3.0 GHz o más, aprovechando la misma placa base.

3.5.6 Celeron TualatinDebemos tener en cuenta que la casa Intel no guardaba el secreto de que su prioridadera popularizar la arquitectura del Pentium 4. Existieron incluso especulaciones sobreel futuro lanzamiento de una nueva versión Celeron del Pentium 4, que no sería nadamás que un Pentium 4 con un nombre distinto.

Intel sólo pretendía vender procesadores Pentium 4 de 0.13 micrones, con 512 KB dememoria caché y un bus de 133 MHz (con 4 transferencias por ciclo, 533 MHz en lapráctica). Los Pentium 4 de 0.18 micrones continuarían produciéndose ya en el nuevoformato para placas soquete 478, pero con las mismas características, incluyendo los256 KB de caché, un bus de 100 MHz, etc. Para diferenciar claramente los dos mode-los, Intel utilizó el nombre del bueno y viejo Celeron en las versiones producidas conla antigua arquitectura.

Se produjo entonces una nueva ramificación en la línea de los procesadores. El Cele-ron era lanzado en versiones de hasta 1.8 GHz. El Pentium 4, por su parte, continua-ría alcanzando frecuencias cada vez más altas, gracias a la nueva arquitectura.

Willamette vs NorthwoodEl Willamette no era más que el Pentium 4 que hemos visto hasta ahora, con unas fre-cuencias de hasta 2.0 GHz y producido en una arquitectura de 0.18 micrones. El coreNorthwood fue usado en los nuevos modelos, que utilizaban el encaje soquete 478 ytraían 512 KB de memoria caché.

3.5.7 Intel ItaniumDurante años se oyó hablar mucho acerca del Intel Merced. Incluso existieron muchasprevisiones de lanzamiento, pero siempre fueron más rumores que verdades. Despuésde cambiar hasta el nombre del proyecto, finalmente el Itanium fue lanzado al merca-do con cerca de 3 años de retraso en marzo del año 2001. Inicialmente, el Itanium nofue destinado al mercado doméstico, pero sí al mercado de servidores, donde compe-tía principalmente con los procesadores RISC disponibles.

El Itanium representó el primer procesador de 64 bits lanzado por la casa Intel, queutilizaba un nuevo conjunto de instrucciones, el IA-64, que era incompatible con elque existía, lo que permitió a la casa Intel eliminar toda la carga del legado que acom-

129

Procesadores

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 129

pañaba a sus procesadores desde el 8088. Para mantener la compatibilidad delItanium con las aplicaciones de 32 bits, que todavía son la gran mayoría, la casa Intelincluyó un sistema de emulación vía hardware, que permitía que el Itanium ejecuta-se estas aplicaciones, pero con un rendimiento bastante menor. El Itanium sólo era unamuy buena opción para servidores y otras áreas donde fuese posible ejecutar aplica-ciones de 64 bits.

El Itanium 2 de la casa Intel

Actualmente ya existen versiones de 64 bits de Linux y de Windows, pero no estándisponibles muchas aplicaciones. Esto acaba limitando el campo de trabajo del Ita-nium a los ambientes donde es posible recompilar los programas para ejecutarlos enla nueva arquitectura. Este es el caso de muchas aplicaciones científicas, pero no es elcaso de la mayoría de los programas comerciales.

La arquitectura La arquitectura del Itanium era muy distinta a la del Pentium 4. En vez de ser proyec-tado con altas frecuencias de trabajo, el Itanium siguió otra idea, la de producir unprocesador capaz de ejecutar muchas operaciones por ciclo y que fuese capaz de pre-sentar un buen rendimiento incluso trabajando a frecuencias más bajas.

Las primeras versiones del Itanium, lanzadas en marzo de 2001, operaban a sólo 733y 800 MHz. El Itanium era capaz de procesar entre 8 y 20 instrucciones por ciclo,dependiendo del tipo de instrucciones utilizadas por la aplicación. En comparación,un Pentium 4 sólo era capaz de ejecutar de 3 a 8 instrucciones por ciclo, mientras que unAthlon ejecutaba entre 6 y 9 instrucciones. Esto muestra que al comparar un Itaniumde 800 MHz, un Athlon de 1.3 GHz y un Pentium 4 de 1.8 GHz, estamos hablando deprocesadores de más o menos el mismo nivel de rendimiento.

Además del gran número de instrucciones por ciclo, el Itanium tenía una arquitectu-ra de caché bastante agresiva, con una memoria caché L1 bastante rápida, pero de sólo32 KB (dividida en dos bloques, para datos e instrucciones), una caché L2 también

130

Ampliar, configurar y reparar su PC

03_Procesadores_OK.qxp 27/07/2006 10:29 PÆgina 130