MEDICIÓN DE LA PRODUCCIÓN CIENTÍFICA EN BIG DATA · Gráfico 3. Total de publicaciones de Big...

31
MEDICIÓN DE LA PRODUCCIÓN CIENTÍFICA EN BIG DATA Ministerio de Ciencia, Tecnología e Innovación Productiva Secretaría de Planeamiento y Políticas

Transcript of MEDICIÓN DE LA PRODUCCIÓN CIENTÍFICA EN BIG DATA · Gráfico 3. Total de publicaciones de Big...

MEDICIÓN DE LA PRODUCCIÓN CIENTÍFICA

EN BIG DATA

Ministerio de Ciencia, Tecnología e Innovación ProductivaSecretaría de Planeamiento y Políticas

MEDICIÓN DE LA PRODUCCIÓN

CIENTÍFICA EN BIG DATA

Agosto 2015

2

AUTORIDADES

Presidenta de la Nación

Dra. Cristina Fernández de Kirchner

Ministro de Ciencia, Tecnología e Innovación Productiva

Dr. Lino Barañao

Secretaria de Planeamiento y Políticas en Ciencia, Tecnología

e Innovación Productiva

Dra. Ruth Ladenheim

Subsecretario de Estudios y Prospectiva

Lic. Jorge Robbio

Director Nacional de Información Científica

Lic. Gustavo Arber

3

RECONOCIMIENTOS

El presente estudio fue elaborado por la Dirección Nacional de Información Científica

(DNIC) de la Subsecretaría de Estudios y Prospectiva dependiente de la Secretaría de

Planeamiento y Políticas del Ministerio de Ciencia, Tecnología e Innovación

Productiva de la República Argentina. El proyecto fue llevado a cabo en agosto de

2015 y estuvo a cargo de la Prof. María Victoria Juárez Micó.

4

ÍNDICE

INTRODUCCIÓN ..................................................................................................................... 5

METODOLOGÍA ...................................................................................................................... 7

PRINCIPALES RESULTADOS ............................................................................................... 9

CONCLUSIONES .................................................................................................................. 26

BIBLIOGRAFÍA CONSULTADA ........................................................................................... 28

ANEXO ................................................................................................................................... 29

5

INTRODUCCIÓN

En un contexto de creciente generación de nuevos datos y la subsiguiente necesidad

de explotarlos, el concepto Big Data surge como una necesidad de entender y poder

aprovechar la información disponible. Siendo un fenómeno global, Big Data puede

llegar a tener un impacto económico, beneficiando a los sectores público y privado,

aumentando la productividad y la competitividad, y la calidad de vida (Malvicino, F. y

Yoguel, G., 2014).

Dada la novedad de la temática resulta interesante un análisis de su evolución y

relevancia en el mundo académico, a partir de la producción científica, y así poder

conocer las principales tendencias a nivel mundial y en Argentina del fenómeno Big

Data.

Si bien la medición de los resultados de las actividades científicas mediante

indicadores bibliométricos tiene una larga trayectoria y su validez se sustenta a partir

de ser las publicaciones científicas uno de sus principales resultados (Sancho, 2002),

siendo muy incipientes este tipo de trabajos en el área de Big Data1.

Por su papel decisivo en la difusión de nuevos conocimientos, los artículos científicos

son ampliamente usados como unidad de medida de la producción científica tanto de

un país como de una institución. Y si bien no representan el único producto de la

ciencia y no todas las disciplinas difunden los conocimientos de igual manera, el uso

de los indicadores bibliométricos nos permite un primer acercamiento a la disciplina

en estudio.

En este sentido, el objetivo del presente documento es el presentar un conjunto de

indicadores bibliométricos sobre el área de Big Data que muestren su evolución, su

1 Ver http://www.researchtrends.com/issue-30-september-2012/the-evolution-of-big-data-as-a-research-and-scientific-topic-overview-of-the-literature/

6

participación relativa respecto a otras disciplinas, los principales actores involucrados,

entre otros, y sea el puntapié inicial para futuros estudios de mayor profundidad.

7

METODOLOGÍA

Para la construcción de los indicadores aquí presentados se ha elegido la base de

datos bibliográfica multidisciplinar Scopus de la editorial Elsevier2. Además de ser una

de las más utilizadas internacionalmente, lo cual permite la comparación internacional

con otros estudios, es una de las más completas, comprendiendo más de 57

millones de registros, entre ellos, documentos provenientes de 21.000 revistas con

referato, 40.000 libros y 6,4 millones de artículos de congresos3. Si bien cubren un

amplio espectro en lo que refiere a literatura científica, el fuerte de estas bases de

datos reside en contener a las principales revistas referentes del maistream de la

ciencia, lo cual le otorga cierto nivel de excelencia académica.

Sin embargo, el representar principalmente a las corrientes principales de

conocimiento puede resultar una limitación si se desea estudiar temas que no se

encuentren entre los de frontera. Esto ocurre principalmente cuando se tratan de

problemáticas locales o regionales. Otro punto a considerar es que las principales

revistas internacionales publican su contenido en inglés, por lo cual existe una barrera

idiomática a la hora de difundir conocimientos, quedando relegados aquellos que no

son de habla inglesa. Asimismo, los journals más importantes pertenecen a los

países centrales, por lo cual no todas las naciones tienen la misma participación.

Mientras que más de 12.000 revistas son europeas y alrededor de 6.400 del norte de

América, sólo 715 son latinoamericanas y 54 argentinas4.

Otra de las limitaciones que tienen este tipo de bases de datos es que no están

representadas de igual manera todas las disciplinas, donde por lo general las ciencias

sociales tienen una menor participación en el volumen total de registros. Esto debe

tenerse en consideración si se desea realizar estudios de comparación entre

disciplinas, ya que como se mencionó anteriormente no solo pueden diferir en la

2 http://www.scopus.com

3 http://www.elsevier.com/__data/assets/pdf_file/0007/69451/sc_content-coverage-guide_july-2014.pdf

4 http://www.scimagojr.com/

8

forma que difunden los conocimientos sino que también pueden no estar igualmente

representadas en la base de datos.

El estudiar un área transversal como Big Data presenta la dificultad en cómo

determinar sus límites. Basados en experiencias de otras disciplinas como es el caso

de la biotecnología (ANPCYT, CONICET-CAICyT, 2008) o las TIC (MINCYT, 2012), se

decidió primero definir un conjunto de palabras clave (ver Anexo) que permitiera

delimitar el sector en la base de datos, entendiendo que el recorte resultaría limitado

al utilizar sólo el término “Big Data”. Para ello se contó con la participación de un

grupo de expertos que sugirieron términos que pudieran representar la temática,

hasta contar con un primer conjunto de palabras. Luego, se pusieron en práctica

diferentes estrategias de búsqueda que se perfeccionaron a partir de la revisión de

los documentos obtenidos. Por último, se decidió tomar de la base de datos sólo

aquellos registros que pertenecieran al área de las Ciencias de la Computación.

Si bien el término Big Data como tal aparece por primera vez en un trabajo académico

en el año 19995, en las búsquedas realizadas en Scopus se pudo observar un

importante crecimiento hacia el año 2005, lo cual podría asociarse con el surgimiento

de Apache Hadoop6, un framework de código abierto que soporta aplicaciones

distribuidas y permite trabajar con miles de nodos y petabytes de datos. Por esta

razón se decidió hacer el estudio a partir de dicho año, tomando el período 2005-

2014, entendiendo que es a partir del cual comienza a tomar un mayor protagonismo

este concepto.

5 Bryson, S. et al. (1999). Visually exploring gigabyte data sets in real time. COMMUNICATIONS OF THE

ACM August 1999/Vol. 42, No. 8.

6 Para mayor información puede consultarse https://hadoop.apache.org/

9

1.665.132

1.777.107

1.886.718

1.992.467

2.118.805

2.250.630

2.400.089

2.491.479

2.561.504

2.523.254

-

500.000

1.000.000

1.500.000

2.000.000

2.500.000

3.000.000

3.500.000

2005 2006 2007 2008 2009 2010 2011 2012 2013 2014

Pu

blic

acio

ne

s

PRINCIPALES RESULTADOS

En el siguiente apartado se presenta una selección de indicadores que reflejan el

desempeño de las publicaciones científicas indexadas en la base de datos Scopus en

materia de Big Data, dando cuenta del estado actual de este campo disciplinar en

relación a lo acontecido en el mundo, la región latinoamericana y el país.

En los 10 años de estudio (2005-2014) se puede observar que el total de registros en

la base de datos Scopus aumenta en un 50%, pasando de 1.665.132 a 2.523.254

documentos, con una tasa promedio de crecimiento anual (TPCA) del 5% (Gráfico 1)7.

Gráfico 1. Total de publicaciones mundiales de la base de datos Scopus por año

(2005-2014)

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

7 Las consultas en la base de datos se realizaron entre enero y febrero de 2015. En este sentido, los

registros del año 2014 pueden aún no estar completos por el tiempo que lleva la actualización de la base

Scopus.

10

En particular, en el campo de las Ciencias de la Computación, el crecimiento de la

producción científica es aún más significativo, superando el 150% entre extremos (de

111.873 a 281.160 registros) con una TPCA del 11% (Gráfico 2).

Cabe destacar asimismo, que la participación relativa de las Ciencias de la

Computación en el total de la base Scopus fue creciendo hasta alcanzar su pico en

2009 con un 14%, para luego estabilizarse en torno al 11-12% hacia el final del

período.

Gráfico 2. Total de publicaciones en Ciencias de la computación y porcentaje sobre el

total de la base de datos Scopus, por año (2005-2014)

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

Sin embargo, al analizar el área de Big Data la evolución en dicho período supera esta

tendencia ampliamente, aumentando casi siete veces su volumen. Esto da cuenta de

7% 8%

10%

12% 14% 13%

13% 12% 12% 11% 111.873

143.136

182.760

236.581

286.630 300.167

301.174

301.906

295.817

281.160

0%

2%

4%

6%

8%

10%

12%

14%

16%

-

50.000

100.000

150.000

200.000

250.000

300.000

350.000

2005 2006 2007 2008 2009 2010 2011 2012 2013 2014

Po

rce

nta

je

Pu

blic

acio

ne

s

% sobre total mundial Publicaciones Cs. de la Comp.

11

un sector que se encuentra en una creciente expansión, considerando que tan solo

en los últimos dos años casi se duplica la producción y que entre 2005 y 2014

mantiene una TPCA superior al 25%. Asimismo, el porcentaje de participación sobre

el total de registros de Ciencias de la Computación también aumenta de forma

constante a lo largo de los años analizados, superando el 4% en 2014, dando cuenta

del crecimiento que este sector tiene dentro de la misma disciplina (Gráfico 3).

Gráfico 3. Total de publicaciones de Big Data y porcentaje sobre el total de Ciencias

de la Computación, por año (2005-2014)

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

Al analizar el tipo de documentos que se publica en la base de datos Scopus, se

observa que en su mayoría son artículos científicos (65%), un porcentaje menor de

documentos presentados en congresos y conferencias (19%) y el resto lo compone

un conjunto de registros variados tales como revisiones, capítulos de libros, entre

otros (15%) (Gráfico 4). Este tipo de información da muestra de qué manera se

suelen difundir los conocimientos, es decir, principalmente en papers publicados en

0,22% 0,24% 0,29% 0,33% 0,46% 0,61% 0,80%

1,41%

2,66%

4,16%

606 719 866

997

1.390

1.749 1.900

2.571

3.810

4.649

0%

1%

2%

3%

4%

5%

0

500

1.000

1.500

2.000

2.500

3.000

3.500

4.000

4.500

5.000

2005 2006 2007 2008 2009 2010 2011 2012 2013 2014

Po

rce

nta

je

Pu

blic

acio

ne

s

% sobre Cs. de la Comp. Documentos

12

revistas científicas. Es el caso de nuestro país donde más del 80% de la producción

científica en Scopus se corresponde a artículos científicos8. Sin embargo, como se ha

mencionado anteriormente, debe considerarse que la base de datos tiene sus

limitaciones y no resulta igualmente representativa para todas las disciplinas, por lo

cual no permite analizar en su conjunto la divulgación del conocimiento ni a nivel local

ni a nivel mundial.

Gráfico 4. Distribución por tipo de publicación para el total mundial de la base de

datos Scopus (2005-2014)

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

Sin embargo, dado que cada área de conocimiento tiene su propia manera de

divulgar, resulta importante observar cómo es la distribución por tipo de registro para

las Ciencias de la Computación y Big Data. En este caso no es la misma que para el

global, siendo la mayor parte de los registros artículos presentados en conferencias y

congresos (65% para Ciencias de la Computación y 68% en Big Data), dando cuenta

entonces de la importancia de este tipo de actividades en el campo de las TIC y, en

particular, en Big Data (Gráfico 5).

8 http://indicadorescti.mincyt.gob.ar/

19%

65%

15%

Artículos de conferencias

Artículos científicos

Otros

13

Gráfico 5. Distribución por tipo de publicación de Ciencias de la computación y Big

Data (2005-2014)

La cooperación9 en la producción científica entre instituciones de distintos países es

una tendencia mundial en aumento, la cual se evidencia al comparar la colaboración

entre pares de distintas nacionalidades para los años 2005 y 2014 sobre el total de la

base de datos Scopus. Tanto en Norteamérica como en Europa la participación de

pares extranjeros en la producción científica aumenta ocho puntos porcentuales

entre los años 2005 y 2014, mientras que para el caso de Asia el crecimiento es

menor, alcanzando los dos puntos. A diferencia del resto, en Latinoamérica se

observa una pequeña retracción de dos puntos porcentuales en 2014, aunque esto

puede ser explicado por cambios en la composición de la base de datos10 (Gráfico 6).

9 Las publicaciones escritas en cooperación son aquellas en las que participa más de una institución,

siendo las de colaboración internacional aquellas en las que los pares pertenecen a instituciones de

distintos países.

10 Para el año 2005 la participación de revistas regionales en la base Scopus era menor, por lo cual

pueden resultar más significativas las publicaciones de autores latinoamericanos en colaboración

internacional.

68%

25%

7%

Big Data

65%

31%

4%

Ciencias de la computación

Artículos deconferencias

Artículoscientíficos

Otros

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

14

Gráfico 6. Porcentaje de publicaciones con y sin colaboración internacional para la

base de datos Scopus en los años 2005 y 2014

Fuente: elaboración propia en base a datos de SCImago Journal & Country Rank.

Para el caso de la producción científica en Big Data, la participación de pares

extranjeros, tanto en 2005 como en 2014, es menor que la tendencia mundial, sin

embargo se observa que el aumento es proporcional, siendo de siete puntos

porcentuales entre extremos (Gráfico 7).

38%

25% 32%

18%

36% 33% 40%

20%

62%

75% 68%

82%

64% 67% 60%

80%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Lati

no

amé

rica

No

rtea

mér

ica

Euro

pa

Asi

a

Lati

no

amé

rica

No

rtea

mér

ica

Euro

pa

Asi

a

2005 2014

Po

rce

nta

je

Con colaboración internacional Sin colaboración internacional

15

Gráfico 7. Porcentaje de publicaciones en Big Data según con y sin colaboración

internacional en los años 2005 y 2014

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

En cuanto a los principales países11 que publican en esta temática, Estados Unidos y

China ocupan el primero y segundo lugar con 5.393 y 3.627 publicaciones

respectivamente entre 2005 y 2014. Le siguen Alemania, Reino Unido e India, con

volúmenes muy inferiores (1.247, 903 y 886 registros cada uno) (Gráfico 8). Esto se

pone en evidencia al comparar la participación relativa de cada uno de estos países

en el volumen global de publicaciones en Big Data. Mientras que Estados Unidos se

encuentra cerca del 30% de aporte y China del 20%, Alemania, Reino Unido e India

no superan el 6% de participación individual.

11 Se utiliza la metodología de contabilización por enteros, es decir, se computa un documento completo

para cada una de las naciones participantes. Debido a esto y a las repeticiones generadas por las

coautorías en colaboración internacional, la suma de la producción de los países es superior al total

mundial.

16% 23%

84% 77%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

2005 2014

Po

rce

nta

je

Sin colaboracióninternacional

Con colaboracióninternacional

16

Asimismo, con excepción de la India, el resto de los países mencionados también

son los principales productores de publicaciones a nivel global y específicamente en

Ciencias de la Computación. Sin embargo, mientras los primeros poseen una TPCA

de entre el 20 y 30% entre 2005 y 2014, la República de la India alcanza casi un 50%,

mostrando un crecimiento relativamente mayor que el del resto de las naciones

mencionadas en el total producido en Big Data.

Gráfico 8. Total de publicaciones en Big Data según los principales países del mundo,

por año (2005-2014)

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

Observando la red12 de países que publican sobre la temática Big Data en el año 2014

se evidencia la participación de Estados Unidos como nodo central, conectando a 51

de las 92 naciones involucradas. Contando con 504 documentos en colaboración, de

un total de 1.209 registros, el país del norte posee un 42% de su producción en

cooperación, porcentaje superior a la tendencia general de colaboración internacional

12 Los nodos representan a los países que publican y los enlaces la colaboración entre ellos.

196 224

389

539

1107

99 146

336

478

971

48 44 88

130

218

35 55 86 88

226

7 28 57 110

179

0

200

400

600

800

1.000

1.200

1.400

2005 2006 2007 2008 2009 2010 2011 2012 2013 2014

Pu

blic

aico

ne

s

EEUU China Alemania Reino Unido India

17

en materia de Big Data (23% para el año 2014). El país con el que presenta una mayor

colaboración es China, alcanzando los 132 documentos conjuntos (Gráfico 9). Como

se ha mencionado precedentemente ambos son, a su vez, los principales

productores en esta temática y sumando sus participaciones individuales y colectivas

alcanzan los 2.048 registros, lo cual equivale al 44% del total producido en el año

analizado.

En el caso de nuestro país, para el 2014 se detecta colaboración con Uruguay y

Bélgica, obteniendo apenas dos registros para este año.

18

Gráfico 9. Red de colaboración mundial de publicaciones en Big Data (2014)

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

En cuanto a las instituciones productoras de publicaciones en Big Data en el período

2005-2014, entre las 10 primeras se encuentran tres universidades chinas, y tres

universidades y cuatro empresas con su filial principal en Estados Unidos (Tabla 1).

En este sentido, llama la atención la participación del sector privado ya que

usualmente no se encuentran entre los principales productores de publicaciones

científicas. Las cuatro empresas pertenecen al área de las TIC y como se ha

mencionado, todas son de Estados Unidos. Por lo general no poseen muchas

19

presentaciones en cooperación con otras instituciones, en su mayoría universidades,

siendo China el principal país colaborador, seguido de los principales países

productores de Big Data como Alemania y Reino Unido. Asimismo, en el caso de

Hewlett Packard Laboratories se advierte que entre los colaboradores se encuentra

Brasil, aunque sigue siendo una baja participación (seis publicaciones conjuntas).

Tabla 1. Principales instituciones que publicaron en Big Data (2005-2014)

Instituciones Cantidad

Chinese Academy of Sciences 187

Tsinghua University 181

Carnegie Mellon University 149

IBM Thomas J. Watson Research Center 145

Beijing University of Posts and Telecommunications 138

Hewlett Packard Laboratories 132

Microsoft Research 129

UC Berkeley 122

University of Illinois at Urbana-Champaign 113

Google Inc. 111

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

Si nos centramos en el ámbito regional se observa que entre los años 2005 y 2014 la

producción científica en la base de datos Scopus se duplica, pasando de 52.464

registros en 2005 a 110.832 en 2014. Este crecimiento implica una TPCA del 9%,

superando en 4 puntos porcentuales la tendencia global13. Analizando las Ciencias de

la Computación, el aumento es aún más significativo, tendencia que ya se ha visto a

nivel global, triplicando su volumen en el período de estudio (aumento de 2.709 a

10.122 registros), con una TPCA del 16%, representando un 9% del total de

13 La TPCA mundial en Scopus entre 2005 y 2014 es del 5%.

20

publicaciones para el año 2014. Si bien la presencia latinoamericana aumenta en los

últimos 10 años, no supera el 4% del total de la base para el año 2014 (Gráfico 10).

Gráfico 10. Total de registros latinoamericanos en Scopus, Ciencias de la

Computación y Big Data, por año (2005-2014)

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

En cuanto al sector Big Data, aún se encuentra en una fase muy incipiente, con 110

publicaciones para el 2014, apenas un 2% del total mundial. En el acumulado 2005-

2014 alcanza los 520 registros, representando un 3% del global de Big Data (19.257

publicaciones). A pesar de los altibajos a lo largo del período, alcanza una TPCA de

23%, similar a la mundial.

5% 6% 6% 8% 8% 9% 8% 9% 9% 9%

52.464 63.872 68.226

78.180

85.680

91.459

98.868

107.568

111.515

110.832

17

24 24

46 43

53

43

63

97

110

0

20

40

60

80

100

120

-

20.000

40.000

60.000

80.000

100.000

120.000

2005 2006 2007 2008 2009 2010 2011 2012 2013 2014

Pu

blic

acio

ne

s

Pu

blic

acio

ne

s

Cs. de la Comp. (% sobre el total)

Total Scopus

Big Data

21

Al observar los principales países de Latinoamérica, Brasil se ubica en la primera

posición contando con 304 publicaciones en el total del período analizado,

participando en más de la mitad del total de la región (520 registros latinoamericanos

entre 2005-2014). Participación que casi llega al 70% en el año 2014. Le siguen

México y Chile con 74 y 46 registros para el total de años en estudio, y luego

Argentina (23) y Colombia (23) (Gráfico 11).

Gráfico 11. Publicaciones en Big Data según los principales países de Latinoamérica

(2005-2014)

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

Por último, si se estudia la producción local, se observa que aún es muy incipiente en

nuestro país, con apenas 23 publicaciones encontradas entre 2005 y 2014. En total

son diez las instituciones argentinas que se han detectado con documentos en la

temática, siendo la Universidad de Buenos Aires (UBA) y el Instituto Tecnológico de

Buenos Aires (ITBA), las que cuentan con mayor producción, con doce y ocho

artículos respectivamente, cuatro de los cuales han sido escritos entre ambas casas

de estudio (Tabla 2).

304

74

46 23 23

0

50

100

150

200

250

300

350

Brasil Mexico Chile Argentina Colombia

Pu

blic

acio

ne

s

22

Tabla 2. Instituciones argentinas que publicaron en Big Data (2005-2014)

Instituciones Cantidad

Universidad de Buenos Aires 12

Instituto Tecnológico de Buenos Aires 8

Universidad Abierta Interamericana 1

Universidad Católica Argentina 1

Universidad Nacional Del Nordeste 1

Universidad Nacional de la Patagonia Austral 1

Universidad Nacional de La Plata 1

Universidad Nacional de Rosario 1

Universidad Nacional del Sur 1

Universidad Tecnológica Nacional 1

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

Se detectan 18 dependencias extranjeras colaboradoras (Tabla 3) en materia de Big

Data con las 10 instituciones locales mencionadas, lo cual pone en evidencia una alta

tasa de colaboración internacional14 en los artículos (70% de los documentos escritos

en cooperación), teniendo en cuenta que el porcentaje promedio, entre 2005 y 2014,

de documentos escritos con un par internacional para Argentina es de 43%15. Siendo

los dos países que más cooperan Bélgica y Estados Unidos, con ocho y seis artículos

respectivamente. Asimismo, tres cuartas partes de la producción son realizadas en

colaboración entre instituciones (locales y extranjeras) y en más del 50% de los casos

participan tres o más dependencias. Finalmente, en más del 80% de los casos se

trató de artículos escritos por tres o más investigadores.

14 Como se ha mencionado anteriormente, las publicaciones con colaboración internacional son aquellas

en las cuales los autores firmantes pertenecen a instituciones de distintos países. 15

www.scimagojr.com

23

Tabla 3. Instituciones extranjeras que colaboran con dependencias argentinas en Big

Data (2005-2014)

Nombre País Sector

Vienna University of Technology Austria Educación superior

Luciad NV Bélgica Empresa

Transnational University of Limburg Bélgica Educación superior

Université Libre de Bruxelles Bélgica Educación superior

University of Hasselt Bélgica Educación superior

Universidade de São Paulo Brasil Educación superior

Univ. De Chile Chile Educación superior

Universidad de Magallanes Chile Educación superior

The American University in Cairo Egipto Educación superior

Univ. A Coruña España Educación superior

Duke University Estados

Unidos

Educación superior

Iowa State University Estados

Unidos

Educación superior

National Center for Atmospheric

Research

Estados

Unidos

Entidad sin fines de

lucro

Pittsburgh Supercomputing Center Estados

Unidos

Entidad sin fines de

lucro

University of California Estados

Unidos

Educación superior

University of Florida Estados

Unidos

Educación superior

Telecom. ParisTech Francia Educación superior

Universidad de la República Uruguay Educación superior

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

24

Este complejo de relaciones de colaboración puede observarse en la red de

instituciones (Gráfico 12) donde los nodos representan a las dependencias que

producen el conocimiento y los enlaces la frecuencia del trabajo conjunto. El tamaño

del nodo lo determina la cantidad de publicaciones que posee la institución y el color

utilizado demarca si son de carácter nacional o internacional (lila y celeste,

respectivamente).

Gráfico 12. Red de colaboración de publicaciones de Big Data entre instituciones

nacionales y extranjeras (2005-2014)

Fuente: elaboración propia en base a datos de Scopus-Elsevier.

25

Puede observarse que, como se ha mencionado, existe una colaboración frecuente

entre la UBA y el ITBA, las cuales a su vez, conforman el principal entramado de la

red. Además, se muestran algunos nodos aislados (Universidad Abierta

Interamericana, Universidad Nacional del Sur y Universidad Nacional Del Nordeste) y

pequeños clusters en los que participa una institución local y una o dos extranjeras.

26

CONCLUSIONES

Del conjunto de indicadores aquí presentados, elaborados a partir de la producción

científica en Big Data en la base de datos Scopus, se pueden destacar los siguientes

resultados:

La evolución de los documentos publicados en el área de Big Data en el período

2005-2014 supera ampliamente la tendencia mundial de la base de datos Scopus

(que ronda el 50%), aumentando casi siete veces su volumen. Dando cuenta de un

sector que se encuentra en una creciente expansión, que tan solo en los últimos dos

años casi duplica la producción y que entre 2005 y 2014 tiene una TPCA superior al

25%.

La mayor parte de los registros son artículos presentados en conferencias y

congresos (68% de las publicaciones en Big Data), a diferencia del patrón general de

publicaciones en esta base de datos que contiene principalmente artículos científicos

(65%), y un porcentaje menor de documentos presentados en congresos y

conferencias (19%).

Estados Unidos y China son los principales productores en esta temática, ocupando

el primero y segundo lugar con 5.393 y 3.627 publicaciones respectivamente entre

2005 y 2014. Le siguen Alemania, Reino Unido e India, con volúmenes muy inferiores

(1.247, 903 y 886 registros cada uno). Para el 2014, sumando sus participaciones

individuales y colectivas, Estados Unidos y China alcanzan los 2.048 registros, lo cual

equivale al 44% del total producido en el año analizado.

En el caso latinoamericano, el sector de Big Data aún se encuentra en una fase muy

incipiente, con 110 publicaciones para el 2014, apenas un 2% del total mundial. En el

acumulado 2005-2014 alcanza los 520 registros, representando un 3% del global de

Big Data (19.257 publicaciones). A pesar de los altibajos a lo largo del período,

alcanza una TPCA de 23%, similar a la tendencia mundial.

27

Al observar los principales países de Latinoamérica, Brasil se ubica en la primera

posición contando con 304 publicaciones en el total del período analizado,

participando en más de la mitad del total de la región (520 registros). Participación

que casi llega al 70% en el año 2014. Le siguen México y Chile con 74 y 46 registros

para el total de años en estudio, y luego Argentina (23) y Colombia (23).

Por último, al analizar las publicaciones locales, se observa que las dos instituciones

que cuentan con mayor producción son la Universidad de Buenos Aires (UBA) y el

Instituto Tecnológico de Buenos Aires (ITBA), con 12 y 8 artículos respectivamente, 4

de los cuales han sido escritos entre ambas casas de estudio.

28

BIBLIOGRAFÍA CONSULTADA

ANPCYT, CONICET-CAICyT (2008), Biotecnología: Tendencias recientes en

investigación científica y desarrollo tecnológico (I+D).

Bryson, S. et al. (1999). Visually exploring gigabyte data sets in real time.

COMMUNICATIONS OF THE ACM, August 1999, Vol. 42, No. 8

Halevi, G. y Moed, H. (2012). The Evolution of Big Data as a Research and Scientific

Topic: Overview of the Literature. Research Trends, Elsevier, September 2012.

Malvicino, F. y Yoguel, G. (2014), Big Data. Avances Recientes a Nivel Internacional y

Perspectivas para el Desarrollo Local.

Sancho R. (2002), Indicadores de los Sistemas de Ciencia, Tecnología e Innovación,

Economía Industrial N° 343, p. 97-109.

Vila Seoane, M. y Juárez Micó, M. (2012), Medición de áreas prioritarias, Producción

científica y tecnológica en TIC, Ministerio de Ciencia, Tecnología e Innovación

Productiva. Agosto 2012.

29

ANEXO

Palabras clave utilizadas en la categoría “Ciencias de la Computación”, base de datos

Scopus:

Big Data

Big datum

Big transaction data

Hadoop

Hbase

Mapreduce

Data warehouse

Large data set

Large dataset

Large-scale data sets

Big Table AND google

Cassandra AND (apache OR nosql OR java)

Massively parallel software

Massively parallel processing

3Vs

Parallel DBMS

Godoy Cruz 2320 (C1425FQD)Ciudad Autónoma de Buenos Aires - República Argentina

[email protected] · www.mincyt.gob.ar