T.Ling.: Zellig Harris et le distributionnalisme

Le travail de Zellig S. Harris (1909-1992) se développe en trois grandes étapes : tout d’abord la mise en place de la méthodologie distributionnelle marquée par la publication de Methods in Structural Linguistics en 1947 ; ensuite le passage à la grammaire transformationnelle avec l’introduction de la notion de transformation formulée en 1968 dans Mathematical Structure of Language (traduit en français en 1971) ; enfin l’évolution vers une autre conception des transformations exposée dans A Grammar of

English on Mathematical Principles en 1982.

Les cadres du distributionnalisme

Les buts de la linguistique distributionnelle

Pour Harris, le but de la linguistique distributionnelle est de montrer, à partir de l’observation d’un corpus fini d’énoncés naturels, que le système de la langue fonctionne selon des régularités démontrables. Son but est donc la généralisation d’une méthode pouvant rendre compte du fonctionnement du langage. Son travail inclut le problème des exceptions, phénomènes qui pourraient ne pas entrer dans les règles générales déduites du traitement des énoncés. Pour résoudre ce problème, il maintient le principe des règles générales, et propose de faire des exceptions « des combinaisons particulières de règles générales de la grammaire » (1971 : 193), ou des extensions des règles générales.

Les méthodes de la description linguistique

La description linguistique se fait en deux temps : tout d’abord l’inventaire des unités structurales de la langue, et ensuite la détermination des règles concernant leur mise en relation (i.e. leur distribution, concept que Harris formalise et qui donnera son nom au courant qu’il initie). Harris systématise en effet la mise à l’écart, à l’intérieur de l’analyse linguistique, des notions de fonction et de signification : la seule relation reconnue comme pertinente est la distribution, présentée comme la « recherche la plus importante de la linguistique descriptive ».

Il existe deux plans dans la langue pour Harris, ceux des éléments phonologiques et morphologiques. Ils rendent compte respectivement de toute l’extension d’un énoncé puisque tout énoncé peut être décrit d’une part comme combinaison d’éléments phonématiques et d’autre part comme combinaison d’éléments morphématiques.

Les unités de la langue

· Les éléments phonématiques

Pour isoler les éléments phonologiques, il faut segmenter la chaîne sonore. Cette opération se fait à partir de la comparaison entre de nombreux énoncés, mettant en évidence leurs ressemblances. Par exemple, les deux énoncés Can’t do it et Cameras cost too much possèdent le même segment initial Ca-. Même chose pour le segment final de He’s in et That’s my pin. Il n’est pas question de parler de ressemblance sémantique, mais de ressemblance formelle, pouvant permettre une substitution. Dans nos deux exemples, ca- et -in sont phonétiquement substituables sans changement. Le principe de la segmentation est donc uniquement formel et la signification n’entre pas en ligne de compte.

· Les éléments morphématiques

Harris propose une définition des morphèmes qui voudrait également ne pas recourir au sens. Or, le sens américain du terme morphème est différent de celui qui a cours en Europe : il s’agit ici d’un équivalent approximatif de signe. « Une séquence de phonèmes contient plus d’un élément morphémique si et seulement si une partie de la séquence apparaît indépendamment d’une autre partie, dans le même environnement général. » Par exemple : dans la série strawberries, blackberries, boysenberries, -berries peut être isolé comme un morphème, mais alors il faut que straw-, black- et boysen- apparaissent aussi dans d’autres environnements. C'est le cas des deux premiers, mais pas de boysen-, qui n’existe que dans boysenberries.

cette conception de l’unité est différente de la conception saussurienne. En effet, pour Saussure, l’unité n’existe pas en soi, elle n’est pas donnée d’avance, elle n’existe qu’à l’intérieur du système de la langue, définie négativement par rapport aux autres. Dans l’optique distributionnaliste, les unités semblent au contraire posées a priori, puisque la première étape de la linguistique consiste en leur inventaire.

La distribution

La notion de distribution repose sur celle d’environnement. Soit un élément A : dans un énoncé (I tried), il est environné d’éléments à sa droite et à sa gauche, appelés des co-occurrents. Ceux-ci constituent la sélection de A dans l’énoncé en question. Sur le plan morphémique, l’environnement du morphème try est I–ed. La somme de tous les co-occurrents de A observés dans les énoncés recueillis dans un corpus constituent la distribution de A.

Mais on peut également définir la distribution au moyen d’une autre opération, la substitution : si un élément A peut se substituer à B dans les mêmes environnements, on dit que A et B ont la même distribution. Substitution et distribution sont donc étroitement liées.

Distribution et signification

On a pu dire que Harris excluait le sens de sa méthode mais qu’il le faisait cependant intervenir dans ses analyses. Il explique sa position sur la question en signalant que distribution et signification entretiennent évidemment des rapports, mais qu’il n’existe pas de parallélisme exact entre une structure morphologique et quelque chose d’extérieur qui serait de l’ordre du sens. L'ordre de la forme et celui

du sens sont deux ordres différents, mais, dans les faits, ils se rencontrent souvent. Harris explique cette rencontre par le fait que les différences sémantiques correspondent en général aux différences d’environnement. Il n’en reste pas moins que l’analyse distributionnelle est assez démunie pour traiter les cas d’ambiguïté : en effet, une même distribution peut avoir deux segmentations et deux sens, comme le montre l’exemple célèbre : Flying planes can be dangerous.

« Les avions qui volent peuvent être dangereux » ou « Voler à bord d’avions peut être dangereux », selon que flying est interprété comme forme verbale ou forme adjective. Cette difficulté se pose tout particulièrement si l’on envisage des procédures de traduction automatique des langues.

Du distributionnalisme au transformationnalisme

Des unités aux phrases

Dans une deuxième période de son travail de chercheur, dans les années 60, Harris s’intéresse aux plans de la phrase et du discours, naturellement amenés par sa conception des unités de la langue qui repose sur la hiérarchisation. Son projet distributionnel est renouvelé par la notion de transformation et l’on parle alors de transformationnalisme. Conformément à la méthode descriptive qu’il avait appliquée aux unités de la langue et à leur relation distributionnelle, il part de l’observation des phrases pour proposer ensuite une formalisation possible. Son but n’est pas tant de pouvoir rendre compte de la totalité des phrases productibles, que de distinguer les combinaisons de segments qui forment des phrases acceptables de celles qui n’en forment pas.

La notion de transformation

La notion de transformation répond à une interrogation sur les relations entretenues entre les phrases et non sur leur construction. Les relations entre les phrases sont fondées sur la transformation : les phrases d’une langue peuvent être analysées et classées à partir de quelques opérations formelles appliquées aux structures de phrases dites de base (en anglais kernels, « phrases-noyaux »). Par exemple, la phrase Cette

robe a été faite par une couturière peut être analysée comme la transformation passive de la phrase originelle : Une couturière a fait cette robe. Harris propose une typologie de douze transformations possibles (transformation passive, subordination, substitution pronominale, réduction par ellipse, etc.).

Ce travail ne peut se faire sur toutes les phrases de la langue et il n’est pas question pour Harris de proposer une description exhaustive des phrases d’une langue, et encore moins un modèle abstrait de génération des phrases (projet qui sera ultérieurement celui de Chomsky) ; il s’agit de ramener la diversité et la complexité apparentes des phrases à des combinaisons de phrases simples qui elles, sont en nombre fini. Pour Harris, la transformation est un outil d’ordonnancement de la langue. Le transformationnalisme sera d’une part, exporté en France par Gross et d’autre part retravaillé et réinterprété par Chomsky et le courant générativiste.

L'analyse du discours (discourse analysis)

C'est Harris qui invente l’expression analyse du discours dès 1952 dans un article de la revue Language intitulé « Discourse analysis » (traduit en français en 1969). Il met dans cette formulation l’analyse de « l’énoncé suivi (écrit ou oral) que nous appelons discours » (1969 : 8), i.e. d’une structure linguistique qui va au-delà de la phrase. Il propose d’appliquer à cette dimension (par exemple le texte) la méthode distributionnelle de manière à en montrer le fonctionnement.

Son programme de « discourse analysis » est riche de deux projets : d’une part l’analyse formelle des textes (qui sera développée par d’autres sous le nom de linguistique textuelle) et, d’autre part, l’analyse sociale des productions verbales, i.e. la prise en compte du domaine extralinguistique.

La méthode qu’il propose est celle des classes d’équivalence. Soit les énoncés suivants :

Ici, les feuilles tombent vers le milieu de l’automne

Ici, les feuilles tombent vers la fin du mois

Les premiers froids arrivent après le milieu de l’automne

Nous commençons à chauffer après la fin du mois d’octobre

On dit que le milieu de l’automne et la fin du mois d’octobre sont équivalents car ils apparaissent dans le même environnement. De même pour Les premiers froids arrivent et Nous commençons à chauffer. Ces éléments sont dits appartenir à la même classe d’équivalence.

L'analyse de discours harrissienne a pour but de montrer que les phrases ne s’enchaînent pas arbitrairement, qu’il existe une grammaire de cet enchaînement, différente de la grammaire de la langue, mais dont l’analyse distributionnelle peut rendre compte. Ce que ses successeurs, appartenant à d’autres courants ou d’autres continents, ont très largement montré dans les cinquante dernières années.

Modifié le: jeudi 28 décembre 2023, 07:37