16 de marzo
htmlcleaner

A veces se puede llegar tan desordenado HTML programador (por ejemplo, en Word) y luego a separar el trigo de la paja, es decir, para convertirlo en un documento XML compatible para su posterior procesamiento.

Cualquiera que haya visto el código HTML generado por Word, sé lo que estoy hablando. Así que no limpian cada documento a mano, utilizando herramientas tales como HTML Tidy debe llegar rápidamente al deseo de una biblioteca que usted puede incorporar en sus propios programas en Java con el fin de limpiar su deber.

Tengo buena experiencia con limpiador de HTML hecho. Aquí hay un pequeño fragmento de código:

  "<html><body><unsaubererInhalt /></body></html>" ; Cadena html = "<unsaubererInhalt <body> /> </ body> </ html>";

 / / Leer la configuración y el código HTML limpio
 HtmlCleaner ( ) ; Html = new Cleaner Limpiador de Html ();
 ( ) ; Apoyos CleanerProperties = getProperties limpia ().;
 ( html ) ; TagNode nodo = limpio limpio (html).;

 / / Extraer el cuerpo y prepararlo como XML
 PrettyXmlSerializer ( props ) ; XmlSerializer PrettyXmlSerializer = PrettyXmlSerializer nueva (utilería);
 xmlSerializer. getXmlAsString ( node. findElementByName ( "body" , true ) ) ; Cadena xml = getXmlAsString XMLSerializer (node. findElementByName ("cuerpo", true)).; 

Todo el camino funciona muy bien con XML sucia.

gklinkmann escrito por \ \ tags: , , ,

10 Comentarios para "limpiar HTML con Java"

  1. Recomendaciones del martes 17 M | Blog de ​​Biggle dice:

    [...] HTML con Java limpieza [...]

  2. Hama dice:

    Hola, he estado tratando de limpiar una página HTML usando el limpiador de HTML, pero no funciona! ¿me pueden ayudar, tal vez? ¿Cómo puedo limpiar con java una URL de la página!
    Lo que he escrito, lo he probado y como ya he dicho, pero no lo es!
    Le doy las gracias por adelantado.
    MFG

  3. Hama dice:

    Hola de nuevo,
    Por lo tanto, mi problema es el "Win América" ​​caracteres (CP1252) es!
    después de un archivo XML creado mediante el dibujo tipo "Cp1252", no puedo dejar de analizar un analizador XSLT en el archivo XML, o leer, incluso!
    la meldeung fallo es como sigue:

    ERROR: "no válido codificación de nombres" Cp1252 ".
    ERROR: 'com.sun.org.apache.xml.internal.utils.WrappedRuntimeException: codificación no válido nombre de "Cp1252".
    ...
    etc

    Gracias por una respuesta posetive :-)

  4. gklinkmann dice:

    Para solucionar este problema, pruebe con UTF-8. Parece que hay problemas en las versiones anteriores de Xerces dar (ver bugs.sun.com ).

  5. Hama dice:

    Solución del problema
    Abra el archivo EAR en el GUI herramienta de implementación y luego guardarlo.
    La herramienta automáticamente cambiar la codificación de Cp1252
    a UTF-8.

    No lo entiendo! -> (El archivo EAR en el GUI herramienta de implementación).

  6. Hama dice:

    Hola,

    Yo no podía resolver el problema!
    He mirado en un montón de Internet para la "codificación Cp1252 a UTF8 con Java" y no encontrar ninguna solución!
    puede usted por favor que me explique la idea de una solución!
    Estoy muy agradecido.
    MFG

  7. Hama dice:

    como parece -> agregar una solución:
    Un archivo JAR adicional debe estar en geschpeichert archivo EAR!

    Entre mis Eclipse Bibliotecas> EAR son (las reglas de acceso) y (ubicación de la biblioteca nativa)

    No sé cuál es el archivo y dónde geschpeichert?

  8. Hama dice:

    hola,

    He tratado de leer el archivo como un archivo de prueba y la primera línea "codificación Cp1252" con "codificación UTF-8" para el intercambio! y luego de nuevo en el archivo. xml convertir! Sin embargo, el archivo no puede ser tratado como xml!
    puede usted por favor ayúdame!
    gracias.

  9. Hama dice:

    Hola,

    como usted me pidió, he enviado un correo electrónico la semana pasada.
    Estaré muy agradecido si usted me puede dar una solución :-)

    MFG,
    Hama panadero

  10. Hama dice:

    Hola,

    Puedes haber encontrado la solución a este problema?
    Necesitaba desesperadamente! Si me das una solución, yo estaría muy agradecido.
    MFG,
    Hama

Añadir un comentario

Sí, me gustaría ser notificado sobre comentarios!