Titre : |
De l'écrit au numérique : constituer, normaliser et exploiter les corpus électronique ; avec un CD-ROM de codes et outils en fin d'ouvrage |
Type de document : |
texte imprimé |
Auteurs : |
Benoît Habert, Auteur |
Editeur : |
Paris : Interéditions |
Année de publication : |
1998 (cop.) |
ISBN/ISSN/EAN : |
978-2-225-82953-6 |
Catégories : |
Informatique Informatique:Méthodes informatiques particulières Informatique:Méthodes informatiques particulières:Langages de balisage
|
Mots-clés : |
Internet HTML (langage de balisage) |
Index. décimale : |
006.74 Langages de balisage |
Résumé : |
Dans les années à venir la masse de documents papier existants (texte et images) deviendra inexploitable sans des traitements informatiques efficaces pour nettoyer, baliser, structurer, créer des liens entre documents. Cet ouvrage explique comment exploiter et normaliser.
Sommaire :
Des données brutes aux textes utilisables. Les textes gisement d'information. Rendre les textes comparables. Chercher, filtrer, trier. Des nettoyages nécessaires aux balisages incontournables. Constituer et documenter un corpus. Problèmes juridiques. Caractériser les données textuelles. Normaliser. Du codage physique à une représentation logique : SGML. Hypertextes et normes HTML. Combiner les traitements. Motifs, recherches, filtrages. Outils de base. Outils extensibles. Segmenter. Séquences répétées et "attirance" entre mots. Structurer. Grammaire et langage. |
De l'écrit au numérique : constituer, normaliser et exploiter les corpus électronique ; avec un CD-ROM de codes et outils en fin d'ouvrage [texte imprimé] / Benoît Habert, Auteur . - Paris : Interéditions, 1998 (cop.). ISBN : 978-2-225-82953-6
Catégories : |
Informatique Informatique:Méthodes informatiques particulières Informatique:Méthodes informatiques particulières:Langages de balisage
|
Mots-clés : |
Internet HTML (langage de balisage) |
Index. décimale : |
006.74 Langages de balisage |
Résumé : |
Dans les années à venir la masse de documents papier existants (texte et images) deviendra inexploitable sans des traitements informatiques efficaces pour nettoyer, baliser, structurer, créer des liens entre documents. Cet ouvrage explique comment exploiter et normaliser.
Sommaire :
Des données brutes aux textes utilisables. Les textes gisement d'information. Rendre les textes comparables. Chercher, filtrer, trier. Des nettoyages nécessaires aux balisages incontournables. Constituer et documenter un corpus. Problèmes juridiques. Caractériser les données textuelles. Normaliser. Du codage physique à une représentation logique : SGML. Hypertextes et normes HTML. Combiner les traitements. Motifs, recherches, filtrages. Outils de base. Outils extensibles. Segmenter. Séquences répétées et "attirance" entre mots. Structurer. Grammaire et langage. |
|  |