[Seite 10↓]

2  STAND DER FORSCHUNG

2.1 Funktionale Modelle der visuellen Suche

Die drei Typen funktionaler Suchmodelle (s. Wolfe, 1998 für einen Überblick) sollen jeweils am Beispiel ihrer einflussreichsten Vertreter genauer betrachtet werden. In diesen Modellen sind die während der Suche ablaufenden Prozesse abstrakt durch ihre Funktion im kognitiven System charakterisiert.

2.1.1 Serielle Modelle: Besonderheit der Merkmalsverknüpfung

Allgemeine Architektur

In klassisch-seriellen Modellen (z.B. Treisman & Gelade, 1980) werden in einer ersten, „präattentiven“ Stufe die elementaren Merkmale parallel aus dem Netzhautbild extrahiert. Das Ergebnis sind getrennte Repräsentationen dieser Merkmale in Matrizen von Merkmalsdetektoren. Dabei kodiert die Position des Detektors innerhalb jeder Matrix für die Position des entsprechenden Merkmals im Gesichtsfeld. Es handelt sich also um eine diskrete Funktion zweier Ortsvariablen, die jedem Ort einen Wert für die Aktivierung des Detektors zuordnet. Eine solche Merkmalsrepräsentation bezeichnet man als topographische „Merkmalskarte“. In der Merkmalskarte für „vertikal“ ist zum Beispiel an allen Gesichtsfeldpositionen, an denen Konturen mit vertikaler Orientierung vorliegen, eine hohe Aktivierung1 . Derartige Merkmalskarten scheinen tatsächlich in den Arealen auf den unteren Stufen des visuellen Systems implementiert zu sein, wie im Abschnitt 2.3 genauer dargestellt wird.

In einer zweiten Stufe werden die Merkmale wieder verknüpft, um die integrierten Objekte der Außenwelt darzustellen. Dazu muss der Aufmerksamkeitsfokus in einer weiteren topographischen Karte auf die Objektposition gerichtet werden. Diese übergeordnete Karte enthält keine explizite Beschreibung der Merkmale , sondern eine abstrakte Repräsentation von Positionen der Unregelmäßigkeiten im visuellen Raum, die vor allem an Objektkonturen liegen. Diese „Positionskarte“ besitzt topographisch geordnete Verbindungen zu den einzelnen Merkmalskarten. Darüber werden die [Seite 11↓] Merkmale an der selektierten Position verknüpft und so eine befristete Repräsentation des dort lokalisierten Objektes erzeugt. Diese hat Zugang zum Bewusstsein und kann für die Wiedererkennung mit gespeicherten Objektrepräsentationen verglichen werden. Insbesondere in dem ersten Vertreter dieser Modellklasse, der F eature I ntegration T heory 2 (FIT, Abbildung 2.1) (Treisman & Gelade, 1980) dient die räumliche Selektion der Merkmalsverknüpfung. Dies gab der FIT den Namen.

Abbildung 2.1

Allgemeine Architektur der klassischen FIT. Erläuterungen im Text. Nach Treisman (1988).

Vorhersagen für die visuelle Suche

Die unterschiedliche Effizienz der Suche in der Merkmals- und Verknüpfungsbedingung wird hier also mit einem die beiden Suchtypen qualitativ [Seite 12↓] unterscheidenden Selektionsprozess erklärt, welcher der Merkmalsverknüpfung zugrunde liegt. Nach der FIT kann ein besonderes Merkmal „ohne Aufmerksamkeit“ detektiert werden, weil es ausreicht, Aktivität in der Karte vorzufinden, in der das entsprechende Merkmal repräsentiert wird. Die Anzahl der Objekte in der Anordnung sollte folglich keinen Einfluss auf die RT haben. Ist das Ziel nur durch die Merkmalsverknüpfung zu unterscheiden, reicht es nicht aus, die Aktivität der einzelnen Merkmalskarten auszuwerten: In dem Beispiel aus Abbildung 2.1 würden Detektoren in den Karten für „rot“, „grün“, „vertikal“ und „horizontal“ unabhängig davon aktiviert, ob das Ziel oder nur die Distraktoren in der Anordnung präsentiert werden. Dieses Verknüpfungsproblem könnte als eine Ursache der Kapazitätslimitierung der Objekterkennung aufgefasst werden (Allport, 1993). Die Merkmalsverknüpfung muss folglich durch räumliche Selektion hergestellt werden, bevor die Entscheidung über An- oder Abwesenheit des Ziels getroffen werden kann. Der Aufmerksamkeitsfokus tastet dazu auf der Positionskarte eine Position nach der anderen ab, bis die das Ziel spezifizierende Merkmalsverknüpfung entdeckt ist. Dieser Modelltyp heißt deswegen seriell . Wegen der seriellen Objektabtastung sollte die Suchzeit mit jedem zusätzlichen Objekt ansteigen. Diese Vorhersagen entsprechen den Ergebnissen früherer Studien der Merkmals- und Verknüpfungssuche (Treisman & Gelade, 1980 ).

Die in späteren Untersuchungen festgestellte hohe Schwierigkeit der Suche nach Elementarmerkmalen mit geringem Unterschied zu den Distraktoren sowie die hohe Effizienz einiger Verknüpfungssuchen können durch klassisch-serielle Modelle nicht erklärt werden (Duncan & Humphreys, 1989; Wolfe, 1998 ).

2.1.2 Parallele Modelle: Einheitlicher Suchmechanismus

Allgemeine Architektur

In parallelen Modellen (z.B. Duncan & Humphreys, 1989 ) wird die visuelle Aufmerksamkeit als eine Ressource mit begrenzter Kapazität aufgefasst, welche simultan auf die Repräsentationen aller Objekte im Gesichtsfeld verteilt werden kann. Dies impliziert, dass die Elementarmerkmale bereits vor Einsatz der Aufmerksamkeit zu Objekten verknüpft werden. Durch die Verteilung der Aufmerksamkeit werden die Objektrepräsentationen gewichtet. Die Limitierung der Aufmerksamkeitsressource entspricht damit einer Begrenzung der Summe der zu vergebenden Gewichte. Die Gewichtung einer Objektrepräsentation entspricht typischerweise ihrer zeitlichen [Seite 13↓] Aktivitätszunahme und hängt von der Ähnlichkeit des Objektes und der gespeicherten Zielrepräsentation ab. Nur das über einen Schwellenwert aktivierte Objekt erhält Zugang zur Verhaltenskontrolle (und dem Bewusstsein). In diesen Modellen wird also nur die Gedächtnisrepräsentation des Zielobjektes, nicht die Position, für die Selektion genutzt. Letztere operiert deswegen parallel im Raum.

Vorhersagen für die visuelle Suche

Während der Suche werden die Objekte der Anordnung entsprechend ihrer Ähnlichkeit zu höherstufigen Objekten gruppiert3 . Erst diese höherstufigen Objekte werden parallel mit einer im Kurzzeitgedächtnis gespeicherten Zielbeschreibung verglichen. Wegen der Limitierung der Aufmerksamkeitsressource hängen die Gewichte der einzelnen Objekte und damit die Dauer bis zum Erreichen der Schwelle von der Anzahl der Objekte ab, auf die die Ressource verteilt wird. Mit zunehmender Ähnlichkeit von Ziel und Distraktoren schrumpft der Unterschied ihrer Gewichte und steigt die Dauer bis zum Erreichen der Schwelle an. Folglich steigt auch die RT mit der Anzahl der Objekte an.

Psychophysische und neurophysiologische Studien sprechen tatsächlich für eine Steuerung der visuellen Selektion durch Gedächtnisrepräsentationen (Chelazzi et al., 1993; Downing, 2000; Ploner et al., 2000). Wenn seriell Positionen selektiert würden, ohne dass die Identität der Objekte an diesen Positionen darauf einen Einfluss hätte, sollte die Sucheffizienz von der Ähnlichkeit zwischen Zielen und Distraktoren außerdem unabhängig sein. Der Effekt dieser Ähnlichkeit ist ein starkes Indiz für die Beeinflussung der Suche durch parallele Prozesse. Daraus folgt aber nicht, dass die ablaufenden Selektionsprozesse ausschließlich parallel operieren.

2.1.3 Hybridmodelle: Lenkung der seriellen durch die parallele Selektion

Allgemeine Architektur

Parallel-serielle Hybridmodelle stellen insofern eine Synthese der beiden dargestellten Modelltypen dar, als hier die Resultate gedächtnisgesteuerter, paralleler Selektionsmechanismen die räumlich serielle Selektion lenken. Diese Lenkung gab dem einflussreichsten Vertreter den Namen: Guided Search (Wolfe, 1994). In diesen Modellen wurde das Konzept der topographischen Merkmalskarten und deren [Seite 14↓] Kombination zu einer übergeordneten Karte übernommen (Abbildung 2.2).

Abbildung 2.2

Allgemeine Architektur von Guided Search 2.0. Erläuterungen im Text. Nach Wolfe (1994).

In einer ersten Stufe werden durch parallele Prozesse für jede Position in jeder Merkmalskarte zwei „Aktivierungswerte“ bestimmt:

  1. Ein reizabhängiger „Bottom-Up-Wert“ für den lokalen Aktivitätsgradienten in der Merkmalskarte (kurz: „Merkmalsgradient“).
  2. Ein „Top-Down-Wert“, der einer Voraktivierung jener Detektoren entspricht, die auf Merkmale des im Kurzzeitgedächtnis gespeichertren Zieles antworten.

Pro Position werden innerhalb jeder Merkmalskarte beide Werte zu einem Gesamtwert und diese Gesamtwerte wiederum zwischen den Merkmalskarten aufsummiert. Das Ergebnis ist die „Salienzkarte“4 : eine topographische Karte merkmalsunabhängiger Aktivierungswerte.

Vorhersagen für die visuelle Suche

Die Funktion der Salienz5 ist die effiziente Lenkung der Aufmerksamkeit zur Position des Zielobjektes: In der darauffolgenden seriellen Stufe wandert der Aufmerksamkeitsfokus in der Rangfolge absteigender Salienz über die Anordnung. Der Aufmerksamkeitsfokus „öffnet gleichsam das Tor“ zur Stufe der Objekterkennung, die anschließend durch den Vergleich des selektierten Objektes mit der Zielbeschreibung erfolgen kann. Das Problem der Merkmalsverknüpfung wird hier vielmehr als [Seite 15↓] „Begleitprodukt“ der für die Identifikation erforderlichen räumlichen Selektion gelöst; die Ursache der Kapazitätslimitierung der Identifikationsstufe wird hier nicht genauer spezifiziert. Wesentlich ist, dass der Einsatz der Aufmerksamkeit in diesem Modell anders als in der FIT für die Zielidentifikation in jeder visuellen Suche notwendig ist, unabhängig davon, ob diese eine Merkmalsverknüpfung voraussetzt oder nicht.

2.1.4 Fazit

Sowohl parallele als auch parallel-serielle Hybridmodelle postulieren also im Gegensatz zu klassischen seriellen Modellen (insbesondere der FIT) keinen qualitativen Unterschied zwischen Merkmalssuche und Verknüpfungssuche, sondern einen kontinuierlichen Übergang zwischen beiden. Sie sind dabei mit neueren psychophysischen Befunden im Einklang. Beide Typen postulieren räumlich parallele, gedächtnisgesteuerte Selektionsmechanismen, die in Hybridmodellen der Lenkung einer zusätzlichen räumlich seriellen Stufe der Selektion dienen. Bevor ein Rational entwickelt wird, mit dem neurobiologische Randbedingungen für die Entscheidung zwischen diesen Modellen gewonnen werden können, soll die funktionelle Organisation des visuellen Systems beschrieben werden.

2.2 Das visuelle System: Die Hardware für visuelle Merkmalsextraktion, Organisation und Selektion

2.2.1 Allgemeine Organisation

Der wichtigste Pfad des visuellen Systems reicht von der Netzhaut über das Corpus Geniculatum Laterale (l ateral g eniculate n ucleus, LGN) in den primären visuellen Cortex (V1) und von dort direkt oder indirekt wiederum in ungefähr 30 weitere corticale Areale. Diese sind in Abbildung 2.3 dargestellt. Die Nomenklatur dieser Areale ist uneinheitlich: Sie richtet sich entweder mit fortlaufender Nummer nach der Position im Sehsystem (Vn), nach der zytoarchitektonischen Bezeichnung (Brodmann Areal, BA x) oder nach der anatomischen Lokalisation. Diese Module bilden ein „verteiltes und hierarchisches System“ (Fellemann & Van Essen, 1991 ). Sie sind also einerseits hierarchisch auf aufeinanderfolgenden Stufen angeordnet (in Abbildung 2.3 von links nach rechts; zum Beispiel V1-V2-V4-TEO-TE), andererseits liegen auf den meisten Hierarchiestufen mehrere Areale nebeneinander, auf die visuelle Information verteilt [Seite 16↓] wird (auf der Senkrechten, zum Beispiel PO, V3A, MT, V4).

Abbildung 2.3

Das corticale visuelle System des Makaken. Das visuelles System dieser Rhesusaffenart dient als Modell für das des Menschen. Mit bildgebenden Verfahren wurden in den letzten Jahren im menschlichen Gehirn potentielle Analoga eines Teils dieser Areale identifiziert. Aus Ungerleider (1995).

2.2.2 Merkmalsextraktion und –repräsentation

Diese anatomische Ordnung legt nahe, dass mehrere parallele Kanäle Reizinformation jeweils in serieller Weise verarbeiten (Livingstone & Hubel, 1988; Fellemann & Van Essen, 1991).

Serielle Verarbeitung

Bereits die Netzhaut enthält ein komplexes neuronales Netzwerk, in dem eine [Seite 17↓] Umwandlung des Grautonbildes der Photorezeptoren in ein Kontrastbild erfolgt (Tessier-Lavigne, 199 1). Diese Repräsentation wird von den Ausgabeelementen der Netzhaut über das LGN nach V1 gesendet. Auf jeder weiteren Stufe des Systems antworten Neuronen auf abstraktere Merkmale als ihre Vorgänger auf der jeweils davor liegenden Stufe (Fellemann & Van Essen, 1991 ). Mit zunehmender Abstraktion der abgebildeten Reizeigenschaften verlieren die Antworten an räumlicher Selektivität. Die rezeptiven Felder (RFs) der Neuronen im Areal V1 besitzen zum Beispiel einen Durchmesser von ungefähr 1° Sehwinkel und sind zu einer topographischen („retinotopen“) Karte angeordnet: benachbarte Punkte im Gesichtsfeld werden auf benachbarte Neuronen im Cortex projiziert. Eine Vielzahl der V1-Neuronen ist selektiv für Linien bestimmter Orientierung. Die Neuronen des i nferioren t emporalen C ortex (ITC, Areale: TEO und TE) antworten dagegen selektiv auf Merkmalsverknüpfungen . Diese Antworten sind weitgehend unabhängig von deren Position (Tanaka, 1997 ).

Parallele Verarbeitung

Bereits in der Retina und dem LGN verarbeiten getrennte Neuronenpopulationen unterschiedliche Reizeigenschaften wie Farbe und Bewegung. Diese parallelen Kanäle setzen sich in getrennten Kompartimenten von V1 und V2 fort (Livingstone & Hubel, 1988 ). Höhere visuelle Areale weisen dagegen als Ganze eine Merkmalsspezialisierung auf: Das Areal MT extrahiert weitere Aspekte der Bewegung sowie der räumlichen Tiefe, Areal V4 verarbeitet Form und Farbe ( Livingstone & Hubel, 1988 ; Courtney & Ungerleider, 1997 ; Tootell et al., 1998a; Wandell, 1999). Jenseits des occipitalen Cortex setzen sich die Kanäle für Farb- und Formverarbeitung in einem temporalen Strom für die Ermittlung der Identität von Objekten fort, der deswegen als „Was-Strom“ (rote Markierungen in Abbildung 2.3) bezeichnet wurde und in das Areal TE projiziert; der Kanal für die Bewegungs- und Tiefenanalyse setzt sich in einem parietalen Strom fort, der Bewegung analysiert, Positionen von Objekten ermittelt und deswegen als „Wo-Strom“ (grüne Markierungen) bezeichnet wurde (Ungerleider & Mishkin, 1982; Ungerleider & Haxby, 1994; Tootell et al., 1998a ). Die Antworteigenschaften der Neuronen dieses Pfades sind nicht rein visuell. Vielmehr ist der posteriore parietale Cortex (PPC) ein multimodales Assoziationszentrum, das multiple Repräsentationen des Raumes erzeugt und der Transformation visueller Reize in motorische Handlungen dient; die parietalen Areale LIP und 7a sind insbesondere an der Kontrolle sakkadischer Augenbewegung beteiligt (Andersen & Gnadt, 1989 ; Andersen, 1995; Colby, 1998; [Seite 18↓] Colby & Goldberg, 1999).

Konvergenz im präfrontalen Cortex

Beide Pfade konvergieren im pf rontalen C ortex (PFC), insbesondere im frontalen Augenfeld (FEF, BA 45 und 8) (Schall et al., 1995), das ebenfalls der Kontrolle sakkadischer Augenbewegungen dient (Goldberg & Segraves, 1989)6 . Das besondere Kennzeichen vieler PFC-Neuronen ist, dass sie auch nach dem Verschwinden eines (für sie geeigneten) Reizes anhaltend aktiv sind, wenn dieser Reiz für eine verzögerte Reaktion erinnert wird. Dieses Verhalten scheint eine Grundlage des visuellen Kurzzeitgedächtnisses zu sein (Goldman-Rakic, 1994; Ungerleider et al., 1998 ) und könnte der Kontrolle visueller Selektionsvorgänge dienen (Desimone & Duncan, 1995; Miller & Cohen, 2001).

2.2.3 Das Bindungsproblem

Weil elementare Objektmerkmale in getrennten Arealen repräsentiert werden und innerhalb der retinotopen Areale jeweils zusammen mit der räumlichen Position, ist das abstrakte Konzept topographischer Merkmalskarten im visuellen System gerechtfertigt. Diese Architektur impliziert, dass ein Objekt nicht in einem einzigen Areal repräsentiert wird, sondern von einem Neuronenverband, der über mehrere Areale verteilt ist und dessen Elemente jeweils für nur einzelne Merkmale des Objektes kodieren (Hinton et al., 1986). Daraus resultiert das sogenannte „Bindungsproblem“ der Objektrepräsentation (von der Malsburg, 1980; Hinton et al., 1986; Crick & Koch, 1990 ; Singer & Gray, 1995 ; Treisman, 1996; Engel et al., 1999): Wie werden die über das System verteilten merkmalsselektiven Antworten als zu einem Objekt gehörig ausgezeichnet? Dies wird insbesondere bei Anwesenheit mehrerer Objekte in einer visuellen Szene zu einem schwierigen Problem: Wie verhindert das Gehirn, dass die Merkmale des einen fälschlich mit denen eines anderen Objektes verknüpft werden? Zwei Typen der Merkmalsintegration werden dabei häufig unterschieden (Treisman, 1996; Shadlen & Movshon, 1999):

  1. Die Integration von Merkmalen über den Raum. Diese Integration innerhalb von Merkmalsdimensionen, die nach den von den Gestaltpsychologen beschriebenen Gruppierungsregeln abläuft (Rock & Palmer, 1990). [Seite 19↓]
  2. Die Integration der an einer Position im Raum vorliegenden Merkmale über die unterschiedlichen Merkmalsdimensionen. Diese Integration entspricht dem Prozess der Merkmalsverknüpfung, der nach der FIT durch räumliche Selektion gelöst wird (Treisman & Gelade, 1980).

2.2.4 Rückwärtsverbindungen und visuelle Selektion

Ein wesentliches Charakteristikum des visuellen Systems ist seine Rekurrenz: Der Großteil der Vorwärtsverbindungen vom occipitalen Cortex in die höheren Areale des PPC und PFC findet sein Gegenstück in (überwiegend topographisch geordneten) Rückwärtsverbindungen7 (Fellemann & Van Essen, 1991 ), die für die zielgesteuerte visuelle Selektion von Bedeutung sind: In neurobiologischen Aufmerksamkeitsmodellen wird davon ausgegangen, dass außerhalb des der Objekterkennung dienenden occipito-temporalen Stroms gelegene Areale festlegen, welches Objekt in diesem Strom verarbeitet und repräsentiert wird; diese Kontrolle üben sie durch Rückkopplung über ihre Verbindungen zu den Strukturen des occipito-temporalen Stroms aus (Desimone & Duncan, 1995; LaBerge, 1995; Lamme & Roelfsema, 1999; Itti & Koch, 2001). Das Ergebnis ist die Expression der Aufmerksamkeit im temporalen Cortex, die der Objekterkennung zugrunde liegt (LaBerge, 1995). Wie die im vorigen Abschnitt beschriebenen funktionalen Modelle unterscheiden sich auch diese neurobiologischen Aufmerksamkeitsmodelle durch den postulierten Selektionsmodus während der Suche: Nach der einen Sichtweise erfolgt die Selektion unter der Kontrolle von im PPC (und dem FEF) implementierten Salienzkarten räumlich seriell; sie leistet wie in der FIT auch die Verknüpfung der in den retinotopen Arealen repräsentierten Merkmale (LaBerge, 1995; Itti & Koch, 2001). Das „Biased Competition Model“ postuliert dagegen eine rein parallele Selektion unter der Kontrolle von Gedächtnisrepräsentationen des Zielobjektes im PFC (Desimone & Duncan, 1995). Nach diesem Modell streiten Objekte um ihre Verarbeitung durch das visuelle System. Tatsächlich existiert physiologische Evidenz für eine hemmende Wechselwirkung zwischen Objektrepräsentationen im occipito-temporalen Strom (Desimone, 199 8). Die von Neuronen im (ventrolateralen) PFC gespeicherte Zielrepräsentation löst diesen Wettstreit durch Top-Down-Signale an jene Neuronen im [Seite 20↓] occipito-temporalen Strom auf, die Merkmale dieses Objektes repräsentieren. Diese Signale entsprechen also den abstrakten „Gewichten“ der parallelen Suchmodelle. Die Interaktion zwischen PFC und occipito-temporalen Arealen ist nach diesem Modell hinreichend, um das Ziel zu finden (Desimone & Duncan, 1995; Desimone, 1998), die Einbeziehung des PPC (und FEF) ist deswegen nicht notwendig (Chelazzi, 1999).

Wäre die Beteiligung des PPC und FEF an der Kontrolle räumlicher Selektion gesichert, könnte die Hypothese der räumlich-seriellen Suche auf der neuronalen Ebene durch die Untersuchung ihrer Aktivierung während der Suche getestet werden. Deswegen soll im nächsten Abschnitt die entsprechende Evidenz genauer betrachtet werden. Dies wird der Präzisierung der Fragestellung dieser Arbeit dienen.

2.3 Frontoparietale Kontrolle der visuell-räumlichen Selektion

Die Evidenz für die Beteiligung des PPC und FEF an der Kontrolle visuell-räumlicher Selektion stammt vor allem aus drei Bereichen: Verhaltensuntersuchungen hirngeschädigter Patienten, Mikroelektrodenableitungen bei wachen Affen und nicht-invasive Neurophysiologie, insbesondere fMRT, bei gesunden menschlichen Probanden. Untersuchungen in den drei methodischen Bereichen gewähren aufgrund ihrer spezifischen Vor- und Nachteile komplementäre Einsichten in die neuronalen Korrelate kognitiver Prozesse. Die Möglichkeiten und Grenzen jeder dieser Techniken soll zunächst betrachtet werden, bevor auf die experimentellen Befunde eingegangen wird.

2.3.1 Läsionsstudien

Methodische Betrachtungen

In Läsionsstudien können wesentliche Erkenntnisse über die funktionale Rolle einzelner Areale gewonnen werden: Anders als die Mikroelektrodenableitungen und die funktionelle Bildgebung erlaubt die Ermittlung der aus fokalen Hirnläsionen resultierenden Verhaltensdefizite, jene Areale festzulegen, die für den Ablauf eines Prozesses notwendig sind. Beim Menschen ist man auf die Untersuchung von Patienten mit umschriebenen Läsionen angewiesen. Die Grenzen dieses Ansatzes bestehen darin, dass natürliche Läsionen in der Regel nicht auf einzelne funktionelle Areale begrenzt sind, Funktionen eines zerstörten Areals häufig von anderen übernommen werden und die abstrakte Prozessarchitektur im Vergleich zum Gesunden umorganisiert sein kann [Seite 21↓] (Feinberg & Farah, 1997). In jüngeren Studien wurde versucht, mit der t ranskraniellen M agnets timulation (TMS) selektiv einzelne Areale des Gehirns gesunder Probanden kurzzeitig zu inaktivieren (Pascual-Leone et al., 2000). An dieser Vorgehensweise gibt es allerdings empirisch begründete Zweifel (Brandt et al., 2001).

Experimentelle Befunde

Die Ergebnisse von Läsionsstudien suggerieren, dass visuell-räumliche Aufmerksamkeit durch ein „Netzwerk“ aus PFC, PPC und subcorticalen Regionen des menschlichen Gehirns kontrolliert wird (Mesulam, 1981; Posner & Petersen, 1990). Patienten mit umschriebenen Schädigungen dieser Regionen leiden häufig am Neglekt-Syndrom: Sie reagieren (bei Intaktheit elementarer sensorischer oder motorischer Prozesse) nicht oder stark verzögert auf kontralateral zur Läsion dargebotene Reize (Heilman et al., 1997). Der Neglekt ist generell durch eine Störung der visuellen Exploration gekennzeichnet (Rafal, 1997a). Es wurden Subtypen des Neglekt unterschieden, denen eine dominierende Störung der bewussten Wahrnehmung der Reize (sensorischer Neglekt) oder der Handlungsintention (motorischer Neglekt) zugrunde liegen könnte (Heilman et al., 1997). Tritt beim sensorischen Neglekt das Bewusstseinsdefizit für kontralaterale Reize nur in Anwesenheit konkurrierender ipsilateraler Reize auf, spricht man von „Extinktion“. Sowohl Extinktion als auch gestörte Exploration könnten durch eine Störung der Abkopplung der Aufmerksamkeit von Reizen in der ipsilateralen Raumhälfte bedingt sein (Posner & Petersen, 1990; Rafal, 1997a). Sensorischer Neglekt ist am häufigsten mit Läsionen des PPC, insbesondere der Verbindung des inferioren parietalen Lobulus mit dem Temporallappen assoziiert (Rafal & Robertson, 1995; Heilman et al., 1997). Ferner tritt das Neglekt-Syndrom generell häufiger bei rechts- als bei linkshemisphärischen Läsionen auf (Mesulam, 1981; Posner & Petersen, 1990).

Noch aussagekräftiger, wenn auch deutlich seltener, ist ein von Balint (1909) beschriebenes Syndrom, das aus bilateraler PPC-Läsion resultiert. Holmes und Horax (1919; s. auch Rafal, 1997b) spezifizierten die Komponenten des Balint-Syndroms: die Unfähigkeit, mehr als ein Objekt zu einem Zeitpunkt wahrzunehmen („Simultanagnosie“) und nach Objekten zu greifen („optische Ataxie“), sowie eine Störung der Okulomotorik und der Tiefenwahrnehmung. Letztere beiden Symptome lassen sich durch die Annahme einer gestörten Raumrepräsentation erklären, die zusammen mit der Simultanagnosie die Hauptkomponente des Syndroms darstellen könnte (Rafal, 1997b). Die genauere Untersuchung eines Patienten mit dem Balint-[Seite 22↓] Syndrom zeigte, dass seine Fähigkeit eingeschränkt ist, bei (selbst langdauernder) Darbietung verschiedener Objekte deren Merkmale richtig zu verknüpfen (Friedman-Hill et al., 199 5) und nach Merkmalsverknüpfungen zu suchen (Robertson et al., 1997). Robertson (1998) folgerte daraus, dass die Raumrepräsentation im PPC Grundlage der räumlichen Selektion ist, welche ihrerseits der Merkmalsverknüpfung im occipito-temporalen Strom dient. Die dem Balint-Syndrom zugrunde liegenden Läsionen erstrecken sich meist vom superioren parietalen Lobulus und intraparietalen Sulkus bis zum occipito-parietalen Übergang. Sie unterscheiden sich somit vom mehr ventral gelegenen anatomischen Substrat des Neglekts (Rafal, 1997b).

2.3.2 Mikroelektrodenableitungen

Methodische Betrachtungen

Die Ableitung der elektrischen Aktivität einzelner Neuronen gestattet, corticale Mechanismen mit der höchsten räumlichen und zeitlichen Auflösung zu verfolgen. Allerdings gewähren diese Messungen immer nur einen Einblick in einen relativ eng begrenzten Ausschnitt der während der Bearbeitung einer kognitiven Aufgabe ablaufenden neuronalen Prozesse. Ferner müssen Annahmen darüber gemacht werden, in welchen Parametern der elektrischen Aktivität Information verschlüsselt ist, um mit den Resultaten von Mikroelektrodenableitungen Aussagen über die Mechanismen der Informationsverarbeitung zu treffen. Diese fundamentale Frage nach dem neuronalen Code ist noch nicht endgültig beantwortet (Koch, 1999 ). Nach einer traditionellen Sichtweise wird Information durch die mittlere Feuerrate eines Neurons übermittelt. Diese Annahme wurde durch die Beobachtung hoher Korrelationen der Feuerrate sensorischer Neuronen mit der psychophysischen Leistung wacher Affen gestützt (Parker & Newsome, 1998 ). Sie liegt den in der Folge diskutierten Studien zugrunde. Nach einer neueren Sichtweise ist auch in den Phasenbeziehungen neuronaler Antworten Information verschlüsselt; es ist denkbar, dass der Cortex von verschiedenen Kodierungsstrategien Gebrauch macht (Singer, 1999).

Experimentelle Befunde

Im FEF sowie in parietalen Arealen, insbesondere LIP und BA 7a, lassen sich drei Neuronenpopulationen gemäß ihrer funktionellen Eigenschaften unterscheiden (Andersen & Gnadt, 1989; Goldberg & Segraves, 1989):

Einzelzellableitungen in diesen Arealen zeigten, dass dort neuronale Antworten auf Reize in der Gesichtsfeldperipherie im Vergleich zur passiven Rezeption der Reize ansteigen, wenn die Reize die Ziele späterer Handlungen sind. Da diese verhaltensbedingte Modulation nicht an die Ausführung der Handlung gekoppelt ist, scheint sie den Prozess der visuellen Selektion zu reflektieren (Andersen & Gnadt, 1989; Goldberg & Segraves, 1989; Colby & Goldberg, 1999). Diese Interpretation wird für LIP und das FEF insbesondere dadurch gestützt, dass eine solche Antwortmodulation während einer visuellen Suche bei jenen Neuronen auftritt, in deren RF der gesuchte Zielreiz liegt (Gottlieb et al., 1998; Bichot & Schall, 1999b). Im FEF steigt die Amplitude der Modulation außerdem mit der Ähnlichkeit eines Objektes im RF und dem gesuchten Ziel. Dies ist auch dann der Fall, wenn die folgende Sakkade an eine andere Stelle gelenkt wird (Bichot & Schall, 1999b). Das FEF ist also nicht nur an der Exekution von Sakkaden (Goldberg & Segraves, 1989), sondern auch an der visuellen Selektion beteiligt.

2.3.3 Nicht-invasive Neurophysiologie

Methodische Betrachtungen

Weil mit der fMRT eine Technik der nicht-invasiven Neurophysiologie für die Beantwortung der Fragestellung dieser Arbeit eingesetzt wurde, sollen die Möglichkeiten und Grenzen der verschiedenen Techniken dieses Forschungsbereiches besonders eingehend besprochen werden.

Funktionelle Bildgebung - Auflösungslimitierung

Im Gegensatz zu Mikroelektrodenableitungen erlauben die Verfahren der funktionellen Bildgebung, über den Cortex verteilte Aktivierungsmuster zu erfassen. Dieser Überblick wird allerdings mit einer mäßigen räumlichen und, gemessen an der Zeitskala neuronaler Prozesse, sehr geringen zeitlichen Auflösung erkauft. Dies gilt insbesondere für die P ositronen-E missions-T omographie (PET). Deren Nachteile bestehen außerdem in der Notwendigkeit der Applikation radioaktiver Substanzen und der deswegen begrenzten Möglichkeit der wiederholten Messung einzelner Probanden. Die meisten fMRT-Techniken nutzen dagegen das Hämoglobin als endogenes Kontrastmittel; dessen [Seite 24↓] mit MRT messbarer Oxygenierungsgrad hängt von der Aktivität des die Blutgefäße umgebenden neuronalen Parenchyms ab, weswegen diese Technik als „blood oxygenation level dependent“ (BOLD) fMRT bezeichnet wurde (Kwong et al. 1992, Ogawa et al. 1992). Die BOLD-fMRT gestattet eine prinzipiell unbegrenzte Zahl von Messwiederholungen in einzelnen Probanden, was sowohl die Durchführung statistischer Tests auf individueller Ebene als auch individuelle Verlaufsbeobachtungen über längere Zeiträume ermöglicht (Cohen, 1996). Mit klinischen Standardgeräten kann Hirnaktivität mit einer höheren räumlichen (wenige Millimeter) und zeitlichen (wenige Sekunden) Auflösung als mit der PET gemessen werden (Cohen, 1996). Mit der fMRT lassen sich die neuronalen Substrate kognitiver Prozesse im Gehirn individueller Probanden präzise lokalisieren (Posner & Raichle, 1994) und ihre funktionellen Eigenschaften in parametrischen Studien genauer charakterisieren (Wandell, 1999).

Nicht-invasive Elektrophysiologie

Die zeitliche Auflösung der fMRT reicht jedoch ebenfalls nicht aus, um die Dynamik der neuronalen Prozesse zu erfassen, die sich im Millisekundenbereich abspielt. Dazu können elektrophysiologische Techniken, insbesondere die E lektro e nzephalo g raphie (EEG) und die M agn eto e nzephalo g raphie (MEG) eingesetzt werden, die allerdings eine weitaus geringere räumliche Auflösung aufweisen. Die Kombination dieser Techniken mit der fMRT könnte in der Zukunft das Verständnis der neuronalen Grundlagen kognitiver Prozesse im menschlichen Gehirn wesentlich verbessern ( Posner & Raichle, 1994; Posner & Abdullaev, 1996 ).

FMRT - Schwierigkeiten bei der neurophysiologischen Interpretation

Wäre die quantitative Beziehung zwischen BOLD-Signal und neuronaler Aktivität bekannt, könnte aus fMRT-Resultaten prinzipiell auf die neuronale Populationsaktivität geschlossen werden. Die am häufigsten verwendeten Verfahren der Datenanalyse setzen implizit die Gültigkeit der einfachsten Beziehung voraus, nämlich der linearen Transformation eines neuronalen Signals in das BOLD-Signal (Heeger & Ress, 2002). Verschiedene (indirekte) Tests des linearen Transformationsmodells lieferten positive Resultate (s. Heeger & Ress, 2002, für einen Überblick ). Insbesondere war das BOLD-Signal in zwei Untersuchungen am Menschen proportional zur mittleren neuronalen Feuerrate in visuellen Arealen; allerdings wurden die Feuerraten nicht direkt gemessen sondern unter Annahmen berechnet, die zuvor in invasiven Untersuchungen an Affen gewonnen worden waren (Heeger et al., 2000; Rees et al., 2000). Simultane [Seite 25↓] Mikroelektrodenableitungen und fMRT-Messungen ergaben jedoch eine höhere Korrelation des BOLD-Signals mit dem l okalen F eldp otential (LFP) als mit der mittleren Feuerrate (Logothetis et al., 2001). Das LFP scheint eine gewichtete Summe dendritischer Input-Signale zu sein, während die mittlere Feuerrate ein Maß für den neuronalen Output ist. Deswegen wurde gefolgert, dass das BOLD-Signal eines Areals eher seinen Input als seinen Output reflektiert (Logothetis et al., 2001). Weil präsynaptische Elemente überwiegend zu einem Zellkörper im lokalen kortikalen Netzwerk zurückverfolgt werden können, sollten Input und Output in der Regel korreliert sein; sie können aber prinzipiell (etwa durch modulatorische Signale aus anderen Arealen) entkoppelt werden (Heeger & Ress, 2002). In diesem Fall würde sich die neurophysiologische Interpretation des BOLD-Signals grundlegend ändern. Außerdem wäre der potentielle lineare Zusammenhang zwischen neuronaler Aktivität und BOLD-Signal nicht mehr gewährleistet: Für die untersuchten Aktivierungsstärken ergab sich in der erwähnten Studie zwar auch eine Proportionalität von LFP und BOLD (Logothetis et al., 2001); allerdings deuteten die Resultate auf eine Abweichung von diesem linearen Zusammenhang bei niedrigeren als den tatsächlich untersuchten Aktivierungsniveaus hin (Heeger & Ress, 2002). Diese Zusammenhänge müssen bei der Interpretation von fMRT-Ergebnissen beachtet werden. Wegen der derzeit bestehenden Unklarheiten wurde in den fMRT-Experimenten der vorliegenden Arbeit auf einen Versuch der Quantifizierung neuronaler Aktivität verzichtet.

Experimentelle Befunde

Zahlreiche PET- und fMRT-Untersuchungen zeigten, dass während verdeckter Aufmerksamkeitsverschiebungen Areale des PFC (insbesondere das FEF) und PPC koaktiviert werden; dieses frontoparietale Aufmerksamkeitsnetzwerk überlappt einer Meta-Analyse (Corbetta, 1998) zufolge mit den während Sakkaden koaktivierten Arealen.

Die genauere Eingrenzung der Rolle des PPC und FEF in der visuellen Selektion verlangt unter anderem Experimente, die eine Beantwortung der Frage zulassen, ob die gemessenen Antwortmodulationen durch Verhaltensaufgaben tatsächlich die Kontrolle der visuell-räumlichen Selektion (und nicht ihre Expression ) reflektieren. Auf nahezu allen Ebenen des occipito-temporalen Stroms wurden Modulationen neuronaler Aktivität durch räumliche Aufmerksamkeit gefunden, die sich qualitativ nicht von den Modulationen im PPC und FEF zu unterscheiden scheinen (Maunsell, 1995; Reynolds [Seite 26↓] & Desimone, 1999). Ist die Annahme der Kontrolle visuell-räumlicher Selektion durch PPC und FEF demnach haltbar?

Eine fMRT-Studie (Kastner et al., 1999) lieferte dafür kürzlich eine empirische Grundlage. Die fMRT-Antworten auf visuelle Objekte in einem Gesichtsfeldquadranten verschiedener visueller Areale wurden in Abhängigkeit davon bestimmt, ob die Probanden ihre Aufmerksamkeit darauf richteten. Die fMRT-Antwort vieler visueller Areale (insbesondere von V1-V4, vom occiptio-temporaler Übergang, vom PPC und FEF) wurde durch Aufmerksamkeit moduliert. In einer weiteren kritischen Bedingung wurde nach der Ausrichtung der Aufmerksamkeit (die durch einen Hinweisreiz instruiert wurde) für ein kurzes Intervall kein Reiz gezeigt, bevor die peripheren Objekte erschienen. Die Aktivität war während dieses Intervalls sowohl im PPC und FEF als auch in den rein visuellen Arealen (V1-V4 und occiptio-temporaler Übergang) erhöht. Im PPC und FEF stieg sie allerdings im Gegensatz zu den rein visuellen Arealen mit dem Erscheinen der Objekte nicht weiter an. Dieser Unterschied ist mit der Hypothese konsistent, dass der PPC und das FEF den Aufmerksamkeitsfokus kontrollieren: Weil sie ihn sowohl vor als auch während des Erscheinens der Objekte in der Peripherie halten, ohne wesentlich an deren Verarbeitung beteiligt zu sein, unterscheidet sich ihre Aktivität während beider Bedingungen nicht.

In den hier besprochenen Studien wurden Aufmerksamkeitsverschiebungen der Probanden durch die Präsentation räumlicher Hinweisreize induziert. Der Vorteil dieses Paradigmas besteht in der guten Kontrollierbarkeit der ablaufenden Selektionsprozesse durch den Experimentator. Andererseits ist das Hinweisreiz-Paradigma insofern relativ weit von den natürlichen Wahrnehmungsbedingungen entfernt, als uns in der Regel nicht mitgeteilt wird, wo im visuellen Feld bald ein interessanter Gegenstand erscheinen könnte. Stattdessen suchen wir im Alltag ständig in komplexen Szenen nach bestimmten Objekten, deren Identität wir kennen, aber deren Position wir nicht vorhersagen können. Die corticalen Areale, welche die visuelle Selektion unter diesen Bedingungen der Suche kontrollieren, wurden bisher nur in wenigen Studien untersucht. Diese Studien sollen im nächsten Kapitel genauer betrachtet werden.


Fußnoten und Endnoten

1  Im einfachsten Fall werden die Detektoren nur bei Vorliegen des Merkmals, auf das sie spezialisiert sind, aktiviert. In einem realistischeren Modell haben die Detektoren eine gewisse Bandbreite; d.h. sie werden auch bei Merkmalswerten, die dem Vorzugsmerkmal benachbart sind, mit geringerer Stärke aktiviert (Treisman, 1993; Wolfe, 1994).

2  Dies Theorie wurde mehrmals aktualisiert und ist in ihrer derzeitigen Form (Treisman, 1993 ) den Hybrid-Modellen zuzuordnen. Wenn in der Folge von „FIT“ die Rede ist, sei dies gleichbedeutend mit „FIT im klassischen Sinn“.

3  Die Regeln dieses Organisationsprozesses wurden von den Gestaltpsychologen beschrieben und besitzen auch heute noch Gültigkeit (Rock & Palmer, 1990). Neben der Merkmalsähnlichkeit sind räumliche Nähe, Kontinuität und Symmetrie weitere Kriterien, nach denen das visuelle System räumlich separate Bildelemente zu perzeptuellen Gruppen zusammenfasst.

4  Die Idee der Salienzkarte wurde von Koch & Ullman (198 5) eingeführt. In diesem klassisch-seriellen Modell enthielt die Salienzkarte jedoch ausschließlich Bottom-up-Werte; sie wurde in GS durch den Top-Down-Einfluß erweitert. Diese Erweiterung wird durch neuere Befunde zur neurophysiologischen Grundlage visueller Salienz gestützt (s. 3.4.2).

5  Die Salienz kann auch als ein Maß für die Wahrscheinlichkeit verstanden werden, daß ein Zielobjekt an einer gegebenen Position zu finden ist.

6 Anterior des FEFs scheint die Information in getrennte PFC-Areale zu gelangen– die räumliche Information in die dorsolateralen Anteile (BA 46) und die Identitätsinformation in die ventrolateralen Anteile (Goldman-Rakic, 1994; Ungerleider et al., 1998 ). Dieses Konzept der Domänenspezifität wurde jedoch in Frage gestellt (Miller & Cohen, 2001; Rao et al., 1997 ).

7 Außerdem existieren laterale Verbindungen sowohl innerhalb der als auch zwischen den Arealen einer Hierarchieebene (Fellemann & Van Essen, 1991 ). Diese Verbindungen liegen vermutlich den Gruppierungsregeln der visuellen Wahrnehmung zugrunde (Lamme & Roelfsema, 1999; Singer & Gray, 1995).



© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 3.0Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML-Version erstellt am:
19.01.2004