Analizar un fichero html plano como nodos

Preguntado hace 1 año

Beatriz Rojo
Votos
PositivosNegativosTotal
3 0 3
43 Visualizaciones
Compártelo: Compártelo en twitterCompártelo en Facebook

Trato de analizar unos ficheros html de texto pero tratarlos como cadena es una locura, estaría bien poder analizarlos como nodos o algo así. ¿Conoceís alguna librería para esto?

Actualizando datos
lo he intentado... pero no es xhtml válido :S gracias igualmente, Rafa. Beatriz Rojo hace 1 año
Si fuese xhtml valdría cualquier librería para XML, como JDOM, SAX... Rafa hace 1 año

2 Respuestas

Hace 1 año

Mcallus

Mcallus

346Distinciones de plata1Distinciones de bronce5
Votos
PositivosNegativosTotal
101

Yo uso jericho para parsear páginas html que exploro con un crawler que estoy haciendo.

Está muy bien porque puedes navegar por tipos de tipos de etiqueta, clases css o ids de elementos del árbol del html.

La web es esta (tiene ejemplos de uso bastante útiles): http://jericho.htmlparser.net/docs/index.html

La api esta: http://jericho.htmlparser.net/docs/javadoc/index.html

Un saludo

Cerrar

Hace 1 año

Rafa

Rafa

1mDistinciones de plata2Distinciones de bronce8
Editada hace 1 año
Votos
PositivosNegativosTotal
202

Haberlas haylas.

Te pongo un par de cosas que he visto aunque no las conozco personalmente.

HTMLParser Varios HTML Parser

Espero que aquí encuentres lo que buscas.

Cerrar

Tu respuesta

Confirmación

Cerrar

Si sales ahora, perderás los cambios. ¿Estás seguro de querer salir?

Para participar en Babelias, debes estar convenientemente validado. Si ya eres usuario inicia sesión, si no lo eres, te puedes registrar.

Dar una respuesta

Trata de ser descriptivo, usa al menos 25 caracteres