Next:
Contents
 
Contents
Des corpus représentatifs : de quoi, pour quoi, comment ?
B. Habert
UMR 8503 -- ENS Fontenay/Saint-Cloud -
bh@ens-fcl.fr
Contents
Les corpus ont changé, leurs << facteurs >> et leurs utilisateurs aussi
Les corpus nouveaux sont arrivés
Géométrie variable des corpus
<< Réservoirs >> à corpus
Corpus << ouverts >>
Corpus éphémères
vs
<< persistants >>
Changements de paramètres
Butinage, glannage et pillage
Homogénéisation
a priori
/
a posteriori
Gigantisme
<< Laïcisation >>
Nouveaux << facteurs >> de corpus
Des << textuaires >> multiples
Des corpus représentatifs : de quoi ?
<< Gros, c'est beau >>
vs
<< l'insécurité dans les grands ensembles >>
L'héritage des corpus de référence
La tradition des corpus << panachés >>
Une réalisation exemplaire : le British National Corpus (BNC)
Panachage et échantillonnage
Misère de la philologie...
...philologie de la misère
Emplois du français majorés
de facto
Emplois du français sous-représentés
Un corpus représentatif : pour quoi
Caractérisations
a priori
de textes
Définition de la situation de communication
Précision de la fonction visée
Rattachement à des thèmes et à des domaines
Inscription dans des << genres >> ou registres
La catégorisation << ordinaire >> des textes
Les registres : un inventaire à géométrie variable
Les contraintes liées à un registre
Prolifération ou regroupement de registres ?
Types linguistiques postulés
Malaise dans la classification ?
Typologies inductives de textes
Dégager des constellations de marques linguistiques
Constitution d'un corpus
Sélection et examen de marqueurs linguistiques
Mise en évidence de constellations de traits
Des cooccurrences de marques aux types de textes
Typologies inductives << générales >>
Les travaux de J.-P. Bronckart
Les travaux de D. Biber
Typologies inductives spécialisées
Typologies inductives et séquentialité
Évaluation
Fiabilité des typologies dégagées
.
Réification d'oppositions << fabriquées >>
Représentation de la diversité effective de registres
Généralité des typologies dégagées
Valider les types proposés
Grammaires de discours ou restrictions sur les discours
Pôles et continuum
Sur le métier, remettre les tâches
Documenter un corpus, ses composants et leur histoire
Mieux de mémoire et savoirs de mémoire : la vie éternelle pour les corpus ?
Normaliser les corpus et leur documentation
Séparer représentation physique et représentation logique des documents : SGML et XML
S'entendre sur les types de textes majeurs : la TEI
Lier la documentation au corpus
Documenter les analyses faites sur un corpus
Mesurer/maîtriser l'hétérogénéité langagière : << profilage >> de corpus
De l'hétérogénéité subie à l'hétérogénéité visée
Choix de marques linguistiques
Démarches
Trait et fonction
Examen de deux palettes de traits
Paramètres
Architectures : étiquetage et sur-étiquetage
De l'étiquetage manuel à l'étiquetage automatique
Organisation d'ensemble
Articuler autrement intuition et attestation
Bibliography
About this document ...
Benoît Habert 2001-05-20