G.6. Google Scholar: no es oro todo lo que reluce · producto multifuente tan heterogéneo formal y...

5
Anuario ThinkEPI 2011 211 G.6. Google Scholar: no es oro todo lo que reluce Por Isidro F. Aguillo 11 enero 2011 Aguillo, Isidro F.“Google Scholar: no es oro todo lo que reluce”. Anuario ThinkEPI, 2011, v. 5, pp. 211-215. Resumen: Luego de una corta perspectiva histórica de las bases de datos biblio- gráficas con citas, que permiten realizar estudios bibliométricos, se comentan las características de Google Scholar como posible base de datos para la misma utiliza- ción. Si bien Scholar es gratuito y más exhaustivo que WoS y Scopus, no se aconseja su uso para realizar análisis bibliométricos con fines de evaluación de personas e instituciones. Palabras clave: Google Scholar, Google Académico, WoS, Web of science, Scopus, Bases de datos bibliográficas, Citas, Bibliometría. Title: Google Scholar: all that glitters is not gold Abstract: After a short historical perspective of bibliographic databases with cita- tions, which allow bibliometric studies, the features of Google Scholar as a possible database for the same purpose are discussed. While Scholar is free and more comprehensive than WoS and Scopus, its use is not recommended for bibliometric analysis, especially for the evaluation of individuals and institutions. Keywords: Google Scholar, WoS, Web of science, Scopus, Bibliographic databases, Appointments, Biblio- metrics. Introducción EL FACTOR LIMITANTE en los estudios de la actividad científica, especialmente los que utilizan técnicas cuantitativas, ha sido la disponibilidad de bases de datos. La bibliometría de las últimas décadas no hubiera sido posible sin las bases de ISI/Thomson (citation indexes) 1 . La explosión de la patento- metría coincide con el acceso en abierto de los servicios web de las organizaciones de patentes europeas, estadounidenses y japonesas y, en fin, la cibermetría existe en buena medida por las bondades de los motores de búsqueda comer- ciales. En muchos casos dichas bases de datos no habían sido diseñadas específicamente para la actividad bibliométrica y fue necesario (y toda- vía lo es) realizar un importante esfuerzo de selección, limpieza, organización y normalización de los resultados, antes de comenzar cualquier análisis. Los costes eran enormes (acceso vía Dialog 2 , adquisición de versiones en cd-rom) y lo siguen siendo (licencias nacionales WoK 3 y Scopus), y, además de ciertas limitaciones legales, estaban las de carácter técnico. Éstas son relevantes para entender la tipología y profundidad de los traba- jos bibliométricos realizados en los 80 y los 90. Era difícil exportar grandes cantidades de registros, ciertos campos tenían múltiples valores difíciles de segregar (autores, direcciones, citas), había que repasar errores y normalizar entradas, era complejo hacer correspondencias entre autores y sus direcciones cuando varios tenían la misma afiliación institucional. La imposibilidad práctica de corresponder referencias con artículos generalizó el uso de las citas “esperadas” (el infame factor de impacto, por el que se supone a cada artículo particular el valor de la revista), en vez de utilizar las “obser- vadas” o reales de cada uno. Otras consecuencias fueron el desprecio hacia los recuentos fraccio- nados de los cada día más frecuentes trabajos multiautorados o el insólito filtrado temático por categorías disciplinares de revistas o por selección de palabras clave (¡en bases de datos sin auténtica indización!). Todo ello motivado por las limita- ciones de contenido y estructura de las bases de datos, pero también por un sistema de gestión intencionadamente capado que impedía una ade- cuada automatización de ciertos procesos. La consecuencia directa es que el usuario final del trabajo del bibliómetra (otros colegas, fun- damentalmente aquéllos objeto de análisis, y los gestores de instituciones y de políticas científicas) Google Scholar: no es oro todo lo que reluce – Isidro F. Aguillo

Transcript of G.6. Google Scholar: no es oro todo lo que reluce · producto multifuente tan heterogéneo formal y...

Page 1: G.6. Google Scholar: no es oro todo lo que reluce · producto multifuente tan heterogéneo formal y sustantivamente. A pesar de los distintos problemas documen-tales de Google Scholar,

AnuarioThinkEPI2011

211

G.6.Google Scholar:noesorotodoloquerelucePorIsidroF.Aguillo

11enero2011

Aguillo,IsidroF.“GoogleScholar:noesorotodoloquereluce”.AnuarioThinkEPI,2011,v.5,pp.211-215.

Resumen:Luegodeunacortaperspectivahistóricade lasbasesdedatosbiblio-gráficas concitas,quepermiten realizarestudiosbibliométricos, se comentan lascaracterísticasdeGoogleScholarcomoposiblebasededatosparalamismautiliza-ción.SibienScholaresgratuitoymásexhaustivoqueWoSyScopus,noseaconsejasuusopararealizaranálisisbibliométricosconfinesdeevaluacióndepersonaseinstituciones.

Palabrasclave:GoogleScholar,GoogleAcadémico,WoS,Webofscience,Scopus,Basesdedatosbibliográficas,Citas,Bibliometría.

Title:GoogleScholar: all that glitters is not gold

Abstract:Afterashorthistoricalperspectiveofbibliographicdatabaseswithcita-tions,whichallowbibliometricstudies,thefeaturesofGoogleScholarasapossible

databaseforthesamepurposearediscussed.WhileScholarisfreeandmorecomprehensivethanWoSandScopus,itsuseisnotrecommendedforbibliometricanalysis,especiallyfortheevaluationofindividualsandinstitutions.

Keywords:GoogleScholar,WoS,Webofscience,Scopus,Bibliographicdatabases,Appointments,Biblio-metrics.

Introducción

ELFACTORLIMITANTEenlosestudiosdelaactividad científica, especialmente los queutilizan técnicas cuantitativas, ha sido ladisponibilidaddebasesdedatos.

La bibliometría de las últimas décadas nohubierasidoposiblesinlasbasesdeISI/Thomson(citation indexes)1. La explosión de la patento-metría coincide con el acceso en abierto de losservicios web de las organizaciones de patenteseuropeas,estadounidensesyjaponesasy,enfin,la cibermetría existe en buena medida por lasbondades de los motores de búsqueda comer-ciales.

En muchos casos dichas bases de datos nohabían sido diseñadas específicamente para laactividad bibliométrica y fue necesario (y toda-vía lo es) realizar un importante esfuerzo deselección,limpieza,organizaciónynormalizaciónde los resultados, antes de comenzar cualquieranálisis.

Los costes eran enormes (acceso vía Dialog2,adquisición de versiones en cd-rom) y lo siguensiendo (licencias nacionales WoK3 y Scopus), y,además de ciertas limitaciones legales, estabanlasdecaráctertécnico.Éstassonrelevantesparaentenderlatipologíayprofundidaddelostraba-

josbibliométricosrealizadosenlos80ylos90.Eradifícil exportar grandes cantidades de registros,ciertos campos tenían múltiples valores difícilesde segregar (autores, direcciones, citas), habíaque repasar errores y normalizar entradas, eracomplejo hacer correspondencias entre autoresy susdirecciones cuandovarios tenían lamismaafiliacióninstitucional.

La imposibilidad práctica de corresponderreferenciasconartículosgeneralizóelusodelascitas “esperadas” (el infame factor de impacto,porelquesesuponeacadaartículoparticularelvalordelarevista),envezdeutilizarlas“obser-vadas”orealesdecadauno.Otrasconsecuenciasfueron el desprecio hacia los recuentos fraccio-nados de los cada día más frecuentes trabajosmultiautoradosoelinsólitofiltradotemáticoporcategoríasdisciplinaresderevistasoporseleccióndepalabrasclave(¡enbasesdedatossinauténticaindización!). Todo ello motivado por las limita-cionesdecontenidoyestructuradelasbasesdedatos, pero también por un sistema de gestiónintencionadamentecapadoqueimpedíaunaade-cuadaautomatizacióndeciertosprocesos.

Laconsecuenciadirectaesqueelusuariofinaldel trabajo del bibliómetra (otros colegas, fun-damentalmenteaquéllosobjetodeanálisis,ylosgestoresdeinstitucionesydepolíticascientíficas)

GoogleScholar:noesorotodoloquereluce–IsidroF.Aguillo

Page 2: G.6. Google Scholar: no es oro todo lo que reluce · producto multifuente tan heterogéneo formal y sustantivamente. A pesar de los distintos problemas documen-tales de Google Scholar,

AnuarioThinkEPI2011

212

apenassereconoceenlosresultados,quepuedenpecartantodeexcesivasencillez(plenosdeerro-res) como de inaguantable profundidad (tablasdensísimas,sinningunautilidadpráctica).

“Ladificultaddeindizarlallamadainternetinvisiblemotivólaelaboración

deunproductoquenodependieradelosrobotsautomáticos”

Huboysiguehabiendo(cadavezmenos,esosí) trabajos mediocres, pero quizá la principalcarencia es la ausencia de escenarios generales,con históricos de datos correctamente organi-zados y que evitara la continua reinvención dela rueda a la que nos tiene acostumbrada estadisciplinaennuestropaís(aunqueenestecasolaculpaescompartidapor la inauditaausenciadeunmanualdecalidad,actualizadoencastellano,delconjuntodelasdisciplinascuantitativas).

Obviamente esta nota no es la primera quellama laatenciónsobreelcuidadoextremoquesehadetenertantoalahoradeseleccionarlasfuentes bibliográficas como en el diseño de laextracción y utilización de los datos correspon-dientes. Y es posible que vuelva a caer en sacoroto.

Google Scholar

Para los afortunadosque trabajan en insti-tucionesquesepuedenpermitir el indecentedispendiodetenercon-tratadaslasdosgrandesbases de datos de citas(Web of science y Sco-pus), la labor bibliomé-tricasehizounpocomáscompleja con la apari-cióndeéstesegundo,elnuevoproductodeElse-vier. No sólo las basesdedatoserandiferentes(Scopus es ligeramentemayoryconmenorses-goanglosajón),sinoquelasherramientasdecon-sulta y extracción y losindicadores(externosenel caso de Scopus) erantambiéndistintos.

Sinembargolasventajasseimpusieron,yaquelacompetenciamejoró lasprestacionesdelWoS(ventanas de citación más amplias, nuevos indi-cadores)ysucoberturageográfica(conunciertonúmeroderevistasnoanglosajonas, sobretodode ciencias sociales y humanas –que al parecertienenunsignificativomenorimpacto–).Amedioplazo,trabajosdefusióndeambasbasesdedatosproporcionaránunamejorideadelasbondadesylimitacionesdecadaunadeellas,peromientrastanto,cabeesperarlamultiplicacióndeestudiosdisciplinaresy/o temporalesque remeden losyarealizadospreviamenteconayudadeWoS.

En ese contexto apareció un nuevo e inte-resante actor, Google Scholar, la base de datosacadémicadelfamosobuscador4.

Dentro de la estrategia global de Google derecolectartodalainformaciónposible5,ladificul-taddeindizarlallamadainternetinvisiblemotivólaelaboracióndeunproductoquenodependieradelosrobotsautomáticos.

“LaopacidaddeGooglerespectoalasfuentesqueutilizahadificultado

elanálisisglobaldelbuscadoracadémico”

Scholarsenutredeunaseriedeacuerdosconproductores y distribuidores de bases de datos

GoogleScholar:noesorotodoloquereluce–IsidroF.Aguillo

Page 3: G.6. Google Scholar: no es oro todo lo que reluce · producto multifuente tan heterogéneo formal y sustantivamente. A pesar de los distintos problemas documen-tales de Google Scholar,

AnuarioThinkEPI2011

213

académicas y científicas de todo el mundo queceden sus registros bajo distintas condiciones(tantolalistadesuministradorescomolosdeta-llesde loscontratossonsecretoscomercialesdeGoogle).

Google proporciona ciertos valores añadidos(citas, enlaces, etiquetas) además de añadir lagigantesca sección académica de la web visiblequeapareceenelbuscadorgeneral.

Elresultadoesunagranbasededatosbiblio-gráfica multidisciplinar que incluye citas a losdiferentes artículos (fundamentalmente comoayuda a la recuperación). Es decir, es el tercergran sistema de citas junto con WoS y Scopus,con la ventaja de su mayor tamaño y el hechofundamentalde serdeaccesogratuito.Se tratadeunproductotodavíaenversiónbeta (¡desde2004!), cuyo futuro no está garantizado y queal parecer es mantenido por un equipo muyreducido. Todo ello podría explicar la falta denormalizacióndocumental,muynecesariaenunproductomultifuentetanheterogéneoformalysustantivamente.

Apesarde losdistintosproblemasdocumen-talesdeGoogleScholar,larecienteaparicióndelsoftwaregratuitoPublishorperish6,quepermitelacapturadirectadelosregistrosycalculaauto-máticamente diversos indicadores (incluyendodistintas variantes del índice h), ha renovado ygeneralizadoelinterésporScholarenlacomuni-dadbibliométrica.

Enlabibliografíadeestanotafiguraunaselec-ción de artículos que tratan fundamentalmentedos áreas: la comparación directa de GoogleScholar con lasotrasgrandesbasesdedatosdecitas(WoSyScopus),ylautilizaciónderegistrosdeScholarparalarealizacióndeestudiosbiblio-métricos.

Losárbolesnodejanverelbosque

LaopacidaddeGooglerespectoalasfuentesque utiliza (y la evolución temporal de dichacobertura, que parece se incrementó significa-tivamenteen losúltimosaños)hadificultadoelanálisisglobaldelbuscadoracadémico.Dehecho,eldiseñodemuchosestudioscomparativosimpli-cabautilizarbásicamenteinstitucionesyautoresdereconocidoprestigio,paralosqueseobteníauna cierta equivalencia con los resultados obte-nidosenlosproductosde“calidadcontrastada”(basadosmásomenosennúcleosdeBradford).Las diferencias en los estudios disciplinares seatribuían a diferencias de cobertura y, en fin,otras discrepancias se atribuían a problemas ylimitacionestécnicasquesetratabandedescribiryevaluarosimplementesecitabansinmás,comopretexto.

Enel cursodeunestudio cibermétrico sobrela distribución institucional de los contenidosrecogidosenGoogleScholar,descubrimosquelasdiscrepanciassonmayoresdeloqueseestimabay que de hecho esta base no es comparable aWoSoScopus,ysuusobibliométricopuedeestardesaconsejadocomonormageneral.

Se recogieron los registros totales (al menoscon resumen) que aparecen en Scholar parados grupos de dominios: 225 top level domains(incluyendo dominios nacionales como .es, .fr o.it,ylosgenéricostalescomo.com,.orgo.net)y10.442dominiosuniversitarios(porejemplo:ucm.es,harvard.eduuox.ac.uk).

“Google ScholareseltercergransistemadecitasjuntoconWoSy

Scopus,conlaventajadesumayortamañoysergratuito”

Delaprimerapoblaciónseobtuvountotalde86millonesde registros,de losque55millones(el64%)correspondíanadominiosgenéricos, loquecabríaesperardeproductoresydistribuido-rescomerciales(.com)uorganizacionessinánimode lucrofuertementepresenteseneste“merca-do”(.org).HayquetenerencuentaqueGoogleScholar muestra registros únicos, que “unifica”duplicados, es decir registros que pueden apa-recer en repositorios institucionales o páginaspersonalesperoqueestántambiénrecogidosendistribuidorescomerciales.

Elsegundogrupo(universidades)proporcionó9 millones de registros, que supone un 10,6%deltotalobtenidoenlaestimaciónglobalde86millones, lo que implica que hay alrededor deun cuarto de los contenidos que bajo banderanacional (dominio propio) son provistos desdeinstitucionesnouniversitarias (productores loca-les,centrosdeinvestigación,portales,bibliotecasyrepositoriosdigitales).

GoogleScholar:noesorotodoloquereluce–IsidroF.Aguillo

Genéricos64%

Universitarios11%

Nouniversitarios

25%

Page 4: G.6. Google Scholar: no es oro todo lo que reluce · producto multifuente tan heterogéneo formal y sustantivamente. A pesar de los distintos problemas documen-tales de Google Scholar,

AnuarioThinkEPI2011

214

Lamuestrauniversitariapuedeutilizarseparaunanálisisenmásprofundidad,aunquehayqueadvertir que en muchos casos se trata de pro-ducciónhospedada,esdecir,ademásdetrabajospublicadosporpersonaldelainstituciónsepue-den encontrar contribuciones de terceros, talescomopresentacionesencongresoscelebradosenlauniversidadhospedadoraomaterialdidácticoproducido por otros autores pero puesto a dis-posición(posiblementesincoberturacontractual)porelprofesoradopropio.

Endichoanálisisaparecenlassorpresas,yaquetrasEUA,lossiguientespaísesmejorrepresenta-dossonrespectivamenteEspaña,BrasilyTaiwán(pordelantedeJapón,Alemania,CanadáyReinoUnido).Entre losveinteprimerosaparecentam-biénCostaRica,MéxicoeIndonesia.

Descendiendo a nivel institucional, tras Har-vard(basededatosdeastronomía)seencuentranPennsylvaniaStateUniversity(CiteSeerX),laUni-versidaddeLaRioja(Dialnet),JohnsHopkinsUni-versity(MUSE),Catie(CostaRica,basededatosdeagronomía),UniversidadComplutensedeMadrid(CompluDoc) o la Universidad Autónoma delEstadodeMéxico(Redalyc).

Esdecir,deacuerdoconlasactualespolíticasinstitucionales, sus páginas web buscan reflejarnosólolaproducciónde“excelencia”delauni-versidad,sinotodoslosresultadosindependiente-mentedesucalidadytipo,einclusohospedandoproducción de terceros, ya sea puntualmenteo exhaustivamente como parte de consorciosamplios.GoogleScholarestárecogiendoyrefle-jando todo ello (y cada vez más, a medida quelasiniciativasopenaccessvantriunfando,aunquesealentamente).

Enresumen,GoogleScholaresunainteresanteherramienta de recuperación de información,conlimitacionesderivadasdesufaltadecontroldocumental, que se pueden soslayar dado su

tamaño y el hecho desergratuita.Laofertadecitas bibliográficas clar-amente incrementa suvalor,pero laevoluciónreciente la aleja cadadíamásdeaquellasquefiltran contenidos deacuerdoconcriteriosdecalidad (¿o impacto?).Esteruidoextradesacon-sejasuusoliberalenlosestudios bibliométricos,especialmente aquellosquetenganfinesevalu-ativos.

“Scholaresunainteresanteherramientaderecuperaciónde

información,perosedesaconsejasuusoliberalenlosestudios

bibliométricos”

Notas

1. ISI(InstituteforScientificInformation)eslaempresaqueen1960fundóEugeneGarfield,creadordelas3bases de datos Science Citation Index. Fue compradaporThomsonReutersen1992.

2. Dialog,fundadaporRogerK.Summiten1980,fuecomprada por Thomson en 2000, y revendida a Pro-Questen2008.

3. WoK(Webofknowledge)eselnombrecomercialdeunpaquetedebasesdedatosdeThomsonReutersqueincluye WoS (los 3 citation indexes), Journal CitationReports(JCR),Biosis,Derwent,yotras.

4. http://scholar.google.com

5. http://www.google.com/corporate

6. http://www.harzing.com/pop.htm

Referenciasbibliográficas

Bar-Ilan,Judit.“Acloserlookatthesourcesofinfor-metricresearch”.Cybermetrics,2009,v.13,paper4.http://www.cindoc.csic.es/cybermetrics/articles/v13i1p4.pdf

Bar-Ilan, Judit.“Citations to the ‘Introductionto in-formetrics’indexedbyWoS,ScopusandGoogleSchol-ar”.Scientometrics,2010,v.82,n.3,pp.495-506.DOI:10.1007/s11192-010-0185-9.

Bar-Ilan,Judit.“Whichh-index?AcomparisonofWoS,

GoogleScholar:noesorotodoloquereluce–IsidroF.Aguillo

Resultado parcial del análisis de la producción del autor Lluís Codina mediante elprogramaPublishorPerish,http://www.harzing.com

Page 5: G.6. Google Scholar: no es oro todo lo que reluce · producto multifuente tan heterogéneo formal y sustantivamente. A pesar de los distintos problemas documen-tales de Google Scholar,

AnuarioThinkEPI2011

215

Scopus and Google Scholar”. Scientometrics, 2008, v.74,n.2,pp.257–271.DOI:10.1007/s11192-008-0216-y.http://sci2s.ugr.es/hindex/pdf/Bar-Ilan2008.pdf

Beel, Joeran; Gipp, Bela. “Academic search enginespamandGoogleScholar’sresilienceagainstit”.Jour-nalofelectronicpublishing,2010,v.13,n.3.DOI:10.3998/3336451.0013.305.http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0013.305

García-Pérez,MiguelA.“AccuracyandcompletenessofpublicationandcitationrecordsintheWebofSci-ence,PsycInfo,andGooglescholar:acasestudyforthecomputationofhindicesinpsychology”.JournaloftheAmericanSocietyforInformationScienceandTechnol-ogy, 2010, v. 61, n. 10, pp. 2070-2085. DOI: 10.1002/asi.21372.

Harzing, Anne-Wil; Van-der-Wal, Ron. “A GoogleScholar h-index for journals: an alternative metric tomeasure journal impact in economics and business”.Journal of the American Society for Information Sci-enceandTechnology,2008,v.60,n.1,pp.41-46.

Harzing, Anne-Wil; Van-der-Wal, Ron. “GoogleScholarasanewsourceforcitationanalysis”.Ethicsinscienceandenvironmentalpolitics,2008,v.8,n.1,pp.61-73.DOI:10.3354/esep00076.http://www.int-res.com/articles/esep2008/8/e008p061.pdf

Jacsó,Peter.“GoogleScholarrevisited”.Onlineinfor-mationreview,2008,v.32,n.1,pp.102-114.http://www.cs.unibo.it/~cianca/wwwpages/dd/08Jacso.pdf

Jacsó,Peter.“Savvysearching.Pragmaticissuesincal-culatingandcomparingthequantityandqualityofre-searchthroughratingandrankingofresearchersbasedonpeerreviewsandbibliometricindicatorsfromWebofScience,ScopusandGoogleScholar”.Onlineinfor-mationreview,2010,v.34,n.6,pp.972-982.

Kousha,Kayvan;Thelwall,Mike.“SourcesofGoog-leScholarcitationsoutsidetheScienceCitationIndex:acomparisonbetweenfoursciencedisciplines”.Scien-tometrics,2008,v.74,n.2,pp.273-294.DOI:10.1007/s11192-008-0217-x.

Li, Jie; Burnham, Judy F.; Lemley, Trey; Britton,Robert M. “Citation analysis: comparison of Web ofScience,Scopus,SciFinder,andGoogleScholar”.Jour-nalofelectronicresourcesinmedicallibraries,2010,v.7,n.3,pp.196-217.DOI:10.1080/15424065.2010.505518.

Mayr, Phillip; Walter, Anne-Kathrin. “An explora-torystudyofGoogleScholar”.Onlineinformationre-view,2007,v.31,n.6,pp.814-830.http://www.ib.hu-berlin.de/~mayr/arbeiten/OIR-Mayr-Walter-2007.pdf

Meho, Lokman I.; Yang, Kiduk. “Impact of datasourcesoncitationcountsandrankingsofLISfaculty:WebofSciencevs.ScopusandGoogleScholar”.Jour-nal of the American Society for Information ScienceandTechnology,2007,v.58,n.13,pp.2105-25.DOI:10.1002/asi.v58:13.

Mikki,Susanne.“ComparingGoogleScholarand ISIWeb of Science for earth sciences”. Scientometrics,2010,v.82,n.2,pp.321-331.DOI:10.1007/s11192-009-0038-6.

Torres-Salinas, Daniel; Ruiz-Pérez, Rafael; Delga-do-López-Cózar,Emilio.“GoogleScholarcomoher-ramientaparalaevaluacióncientífica”.Elprofesionalde la información, 2008, v.18,n.5,pp.501-510.DOI:10.3145/epi.2009.sep.03.

White,Bruce.“ExaminingtheclaimsofGoogleScholarasaseriousinformationsource”.NewZealandlibrary&informationmanagementjournal,2006,v.50,n.1,pp.11-24.http://muir.massey.ac.nz/bitstream/10179/571/5/GoogleScholar.pdf

GoogleScholar:noesorotodoloquereluce–IsidroF.Aguillo