16 de marzo

A veces se puede llegar tan desordenado HTML programador (por ejemplo, en Word) y luego a separar el trigo de la paja, es decir, para convertirlo en un documento XML compatible para su posterior procesamiento.
Cualquiera que haya visto el código HTML generado por Word, sé lo que estoy hablando. Así que no limpian cada documento a mano, utilizando herramientas tales como HTML Tidy debe llegar rápidamente al deseo de una biblioteca que usted puede incorporar en sus propios programas en Java con el fin de limpiar su deber.Tengo buena experiencia con limpiador de HTML hecho. Aquí hay un pequeño fragmento de código:
"<html><body><unsaubererInhalt /></body></html>" ; Cadena html = "<unsaubererInhalt <body> /> </ body> </ html>"; / / Leer la configuración y el código HTML limpio HtmlCleaner ( ) ; Html = new Cleaner Limpiador de Html (); ( ) ; Apoyos CleanerProperties = getProperties limpia ().; ( html ) ; TagNode nodo = limpio limpio (html).; / / Extraer el cuerpo y prepararlo como XML PrettyXmlSerializer ( props ) ; XmlSerializer PrettyXmlSerializer = PrettyXmlSerializer nueva (utilería); xmlSerializer. getXmlAsString ( node. findElementByName ( "body" , true ) ) ; Cadena xml = getXmlAsString XMLSerializer (node. findElementByName ("cuerpo", true)).;
Todo el camino funciona muy bien con XML sucia.




17 de marzo 2009 a las 12:47 pm
[...] HTML con Java limpieza [...]
26 de septiembre 2009 a las 11:41 am
Hola, he estado tratando de limpiar una página HTML usando el limpiador de HTML, pero no funciona! ¿me pueden ayudar, tal vez? ¿Cómo puedo limpiar con java una URL de la página!
Lo que he escrito, lo he probado y como ya he dicho, pero no lo es!
Le doy las gracias por adelantado.
MFG
26 de septiembre 2009 a las 24:17
Hola de nuevo,
Por lo tanto, mi problema es el "Win América" caracteres (CP1252) es!
después de un archivo XML creado mediante el dibujo tipo "Cp1252", no puedo dejar de analizar un analizador XSLT en el archivo XML, o leer, incluso!
la meldeung fallo es como sigue:
ERROR: "no válido codificación de nombres" Cp1252 ".
ERROR: 'com.sun.org.apache.xml.internal.utils.WrappedRuntimeException: codificación no válido nombre de "Cp1252".
...
etc
Gracias por una respuesta posetive
26 de septiembre 2009 a las 6:19 pm
Para solucionar este problema, pruebe con UTF-8. Parece que hay problemas en las versiones anteriores de Xerces dar (ver bugs.sun.com ).
26 de septiembre 2009 a las 19:43
Solución del problema
Abra el archivo EAR en el GUI herramienta de implementación y luego guardarlo.
La herramienta automáticamente cambiar la codificación de Cp1252
a UTF-8.
No lo entiendo! -> (El archivo EAR en el GUI herramienta de implementación).
27 de septiembre 2009 a las 6:05 pm
Hola,
Yo no podía resolver el problema!
He mirado en un montón de Internet para la "codificación Cp1252 a UTF8 con Java" y no encontrar ninguna solución!
puede usted por favor que me explique la idea de una solución!
Estoy muy agradecido.
MFG
27 de septiembre 2009 a las 18:37
como parece -> agregar una solución:
Un archivo JAR adicional debe estar en geschpeichert archivo EAR!
Entre mis Eclipse Bibliotecas> EAR son (las reglas de acceso) y (ubicación de la biblioteca nativa)
No sé cuál es el archivo y dónde geschpeichert?
29 de septiembre 2009 a las 13:07
hola,
He tratado de leer el archivo como un archivo de prueba y la primera línea "codificación Cp1252" con "codificación UTF-8" para el intercambio! y luego de nuevo en el archivo. xml convertir! Sin embargo, el archivo no puede ser tratado como xml!
puede usted por favor ayúdame!
gracias.
06 de octubre 2009 a las 12:29 pm
Hola,
como usted me pidió, he enviado un correo electrónico la semana pasada.
Estaré muy agradecido si usted me puede dar una solución
MFG,
Hama panadero
11 de octubre de 2009 a las 7:46 pm
Hola,
Puedes haber encontrado la solución a este problema?
Necesitaba desesperadamente! Si me das una solución, yo estaría muy agradecido.
MFG,
Hama