Trimborn's Erfinder-Homepage: SEHHILFE FÜR BLINDE: HÖRBARMACHUNG VON BILDINFORMATIONEN

Sehhilfe für Blinde: Hörbarmachung von Bildinformationen

....und was das mit "logischen Fossilien" zu tun hat....

Noch immer müssen heute die Menschen, die ihr Augenlicht verloren haben oder nie hatten, zu oft ein hilfloses Dasein führen und sind von großen Teilen des öffentlichen Lebens ausgeschlossen. Die Sehhilfe für Blinde ist bis heute fast nur technische Utopie geblieben. Es hat sicher schon viele Versuche bis hin zum Neurochip gegeben, jedoch hat bis heute noch niemand dabei das "Gelbe vom Ei" herausgefunden. Vielleicht trägt folgender Aufsatz in seinen Gedankengängen dazu bei, den "Video-Walkman" für Blinde Wirklichkeit werden zu lassen.

Grundlegend betrachtet, geht es beim "Sehen" um die Übertragung scheinbar großer Datenmengen:
Der Bildschirmspeicher eines Computers gibt über die Größenordnungen der Informationsmengen schon Auskunft: In VGA- Auflösung (640x480) ist ab etwa 256 KB bis 512 KB ein Schwarzweißbild als 16 Bit oder 256Bit Graustufe schon erstaunlich gut sichtbar. Aber: Der aufmerksame Bildschirmbetrachter eines solchen VGA-Bildes wird feststellen, daß sein Auge lediglich Bildgebiete von etwa Buchstabengröße anfixiert, alle anderen Bildgebiete daneben werden sinnlich ungenau, wozu vielleicht verwischt oder verschwommen gesagt werden kann, wahrgenommen. Folglich muß die Videobild-Informations-Transferleistung des Auges inklusive Bildauswertung im Gehirn weit unter der technisch per Bildschirm bereitgestellten Informationsmenge liegen,- vielleicht ein Prozent. So betrachtet würden von technischen 500KB größenordnungsmäßig 5KB übrigbleiben, also erstaunlich wenig. Sicher: Der Gesamtsichtwinkel des menschlichen Auges kann bestimmt über 90 Grad des Sehfeldes liegen, jedoch werden Objekte insbesondere am Rande des Sehfeldes nicht mehr identifiziert, sondern nur noch als "Schatten" o.ä. erkannt. Die Wahrnehmung von Objekten außerhalb des Fixpunktes könnte nicht mehr als "Sehen" bezeichnet werden, sondern eher als "Erahnen". Erst die Drehbewegungen des Augapfels mit der Verlegung des Fixpunkte ermöglicht detailliertes visuelles Erfassen von Objekten. Das ist eine Art "chaotisches" Scannen, wobei das Gehirn vielschichtige "Steuerprioritäten" bereithalten dürfte (z.B."Räumliche Orientierung, Mustern, usw.").

Fernsehfrequenzen liegen nur deshalb im Megaherzbereich, weil jede 1/25 Sekunde ein kompletter Bildaufbau erfolgt. Ein statisches Bild, dessen Übertragung 1 sec dauert, hätte eine Videofrequenz, die im Ultraschallbereich liegt. Dabei ist noch nicht berücksichtigt, daß in gigantischem Maße redundante Information unsinnig übertragen wird, geschweige denn, daß der Betrachter die übertragenen Information im obigen Sinne überhaupt nutzen kann, oder will...

Wenn die Wahrnehmung über das Auge ausgefallen ist, dann ist zu überlegen, ob einem blinden Menschen nicht die optische Welt durch Nutzung anderer menschlicher "Periferiekanäle" geöffnet und geholfen werden kann. Grundsätzlich kommt jedes menschliche Sinnesorgan einschließlich gut mit Nervenzellen bestückter Hautpartien in Frage. Aber das menschliche Gehör scheint in seinen Eigenschaften prädestiniert: Das gleichzeitige Hören von z.B. nur drei Tönen in jeweils einer Lautstärkeabstufung von 1 zu 100 entspricht bereits einem Datenfluß, besser : Informationsfluß von 1M Bit pro sec und das in Echtzeit! Übrigens soll -wie Ärzte berichten- der menschliche Hörnerv deutlich dicker sein als der Sehnerv!

Nach Abtasttheorem würde der verbildete Nachrichtentechniker vielleicht einwenden, daß sehr hohe Frequenzen (mindestens das doppelte der abzubildenden Wellenzüge) erforderlich sind, um ein Videobild egal wie und wofür wiederzugeben. Das ist falsch, weil irreführend. Denn ein sehr niederfrequentes NF-Audiosignal enthält als Information weit mehr als die bloße Herzzahl. Theoretisch nach Grundsätzen der Fourier-Analyse bzw. Synthese bietet eine einzige Oberwelle bereits ein erstaunliches Informationspotential aufgrund kombinatorischen Variantenmöglichkeiten von nur zwei Sinusschwingungen in ihren Amplitudenverhältnissen. Solche Oberwellen sind nichts anderes als scheinbar minimale Abweichungen in der Flankensteilheit harmonischer Schwingungen. Beulen, Höcker, Zinkensprünge u. dgl. im Oszillogramm bedeuten informationstechnisch nichts anderes wie das "codierte Aufsatteln" von Informationsinhalten auf eine Grundwelle. Ganz sicher kann das Nebeneinander von Schwingungen in ihren Amplitudenverhältnissen ,- also zwei Quantitäten- als ein sozusagen naturimmanentes analoges Multiplex/ Kompressions -/Packverfahren interpretiert werden. Eine einzige verbogene Signalflanke bietet in ihren Fourier - Koeffizienten einen differenziellen Informationsgehalt, der mindestens im Kilobitbereich, wenn nicht sogar in dem Megabitbereich angesiedelt ist und das als winziger Ausschnitt des Hörspektrums.

Nun ja, so einfach, daß nur ein Kopfhörer an eine Videokamera angeschlossen wird, dürfte ein Video/Audiokonverter nicht sein (wenngleich es nicht verwunderlich sein dürfte, daß aus der "Soundstruktur" eines herkömmlichen Videosignals es gelingen könnte, einfache optische Strukturen "heraus zuhören").

Die Grundfrage der Machbarkeit der Hörbarkeit eines Kamerabildes liegt ganz sicher in der Zweckmäßigkeit der Konzeption der Signalgewinnung und Aufarbeitung , speziell in der Adaption vorhandener technischer Videosignale an die Erfordernisse biologischer Informationsverarbeitung des Hörvermögens.

Dazu als Exkurs folgende grundsätzliche Vorüberlegung:

Die Sache mit den Dimensionen .....

Klare Sache: Das Bild einer Kamera ist ein zweidimensionales flächiges Konstrukt. Es existiert sozusagen als Oberfläche für unser Auge in der Wirklichkeit(lassen wir den Raum erst einmal weg), auf einem Photopapier, auf einem Bildschirm o.ä. . Technisch jedoch existiert faktisch jedoch meist eine eindimensionale Darstellung dieses zweidimensionalen Kontinuums, das wir Bild nennen. Z.B. eine Videokamera schickt ein eindimensionales Signal als Bild über die Leitung, in einem Rechner steht vereinfacht gesehen ein Bild als Kolonne von Bytes hintereinander in einem linearen Adressstrahl ( in diesem Fall besserer Ausdruck als Adress"-Raum") usw..

Durch Rasterung und Zeilenscan kommen heute übliche Verfahren via einer Zerschneidung des Bildes zu einem eindimensionalen Kontinuum, das sich übertragen läßt (Die Zeitachse sei bei dieser Betrachtung weggelassen). Die Verfahren und Standards sind über ein halbes Jahrhundert alt und stammen aus einer Zeit, als man womöglich aus Einmachgläsern Bildröhren bastelte,- man hatte ja nichts anderes. Die Bildpunktabtastung entsprach dem Vorbild einer mechanischen Schreibmaschine. Klar , daß bei dieser Signalkonzeption damals mögliche technische Machbarkeit und nicht etwa zweckmäßige Adaption an "biologische" Systeme geschweige denn streng logischer Konzeptionen im Vordergrund stand.

Die grundsätzlichen Anforderungen an eine "biologische" Dimensionaltransformation hier Umsetzung eines Bildsignals in ein Audiosignal müssen sein:

Das Prinzip muß Fixpunkteigenschaften aufweisen, also einen Kernbereich
Randbereiche müssen mit verminderter Auflösung wiedergegeben werden
Das bereitgestellte eindimensionale Kontinuum (Signal) darf keinen Anfang und kein Ende aufweisen sowie keine Rasterbrüche
Keine starren Synchronimpulse,- Orientierung durch "Softsynchronisation"
Periodizität im Audiospektrum als Voraussetzung für Resonanzentstehung

Diese Zielsetzungen werden durch ein Verfahren, daß im Folgenden als "Doppelspiralscan (Abtastung)" bezeichnet wird, gelöst. Zum besseren Verständnis dient zunächst eine eher bildliche illustrative Darstellung: Man stelle sich einen Computerbildschirm vor, dessen Bildschirmspeicherzellen wie Kästchen aneinander liegen. Zu Zeiten der Homecomputer waren die Adressen des Bildschirmspeichers von den Herstellern immer angegeben und konnten wie ein normaler RAM-Speicher beschrieben oder gelesen werden. (Die Feinheiten wie das Einblenden des Charaktersets usw. lassen wir beiseite). Wird ein solcher Bildschirm mit der Bahn einer Doppelspirale bei konstanter Winkelgeschwindigkeit abgescannt, dann werden die formulierten konzeptionellen Kriterien erfüllt. Scanphase 1 "schraubt" sich von den Randbereichen ins Zentrum (Fig.1), bei Beibehaltung des Drehsinns "schraubt" sich Phase 2 vom Zentrum in die Bildaußenbereiche (Fig.2). Gescannt werden die einzelnen Pixel oder Pixelpakete, die als Helligkeitswerte Amplituden für ein NF-Signal bereitstellen.

Am Beispiel eines Bildschirms mit einer von links nach rechts verlaufenden Abdunkelung (Fig 3) werden die Unterschiede zwischen herkömmlicher technischer linearer Zeilenrasterung (Fig.4) und Doppelspiralscanverfahren (kurz DSS) (Fig 5) deutlich. Die Illustration zeigt die Helligkeitswerte, wie sie als RAM-Speicherinhalte linear hintereinander stehen könnten. Die technische Variante reißt das Kontinuum durch Zeilensprünge abrupt in Stücke. Solche Pegelsprünge würden in einem Audiospektrum sehr stören und die Erkennung von Wellenmustern stark irritieren. Die DSS- Variante dagegen kennt keine Rasterungspegelsprünge und dürfte daher eher "biologiefreundlich" sein zumal sie eine Signalfolge liefert, die in einem fortlaufen kann.

Erstaunlicherweise fällt beim Menschen die untere Hörgrenze etwa mit der Frequenz des Auges zusammen, ab der ein Bild als stehend und flackerfrei empfunden wird, also etwas über 20 Hz. Möglicherweise ist dieser Wert eine gute Frequenz für die DSS - Phasenoszillation, die aber nicht unbedingt direkt hörbar sein müßte. Jeder Spiralumlauf dagegen müßte ein Teil dieser Grundoszillation ("Pulsation") sein. Zehn Ringe wären das Zehnfache also zB. 200 Hz. Daraus ergibt sich, daß nur einige - zig Scanumläufe möglich zu sein scheinen, weil der einzelne Ring so niederfrequent sein muß, daß noch üppig Platz für Oberwellen auf diesem Grundwellensegment ist. Denn ab ein paar Kiloherz dürfte die menschliche Wahrnehmungsfähigkeit physiologisch bedingt für Oberwellen stark abnehmen, zumal ein ständiges 1KHz-Piepsen nicht unbedingt angenehm ist. Alternativ könnte auch eine Abtastung als ineinandergeschaltelte Folge konzentrischer Ringe in Betracht kommen, aber dies könnte insbesondere im Audiospektrum störende Sprünge hervorrufen. Welcher Weg letztlich der bessere ist, wird durch die Eigenschaft der determinierten Generierung von Periodizität im Audiospektrum entschieden.

Bei der Umwandlung eines Bildes in einen Klang besser Geräusch würde ein Bildelement, wie eine Kannte auf den einzelnen Ringsegmentenschwingungen einen Zacken verursachen. Wenn mehrere Ringe davon betroffen sind, dann würde dieser Zacken periodisch auftauchen und insbesondere das entspricht mindestens einer signifikanten Oberwelle im Audiospecktrum. Weil jedoch ein Bild komplexe jedoch strukturierte Elemente enthält, würden sich auch im Audiospektrum identifizierbare Oberwellen- Strukturen wiederfinden.

Irgendwie drängt es sich auf, daß aus diesem Grunde dieser Spiralscan streng kreisförmig regelmäßig sein müßte, weil ansonsten, keine Regelmäßigkeit bzw. Periodizität in den "Bildzacken" gewährleistet wäre. Möglicherweise ist das der Grund dafür, daß in der Natur der ganze Bau der Augen bzw. , die wirksame Iris, die Linse und letztlich die Netzhaut in ihrer projizierten Fläche aller höheren Lebewesen streng kreisförmig ist. Der Kreis ist nämlich erstaunlicherweise in der Natur sonst nie zu finden. Und wenn das so ist, dann spielt ein tieferer naturgesetzlicher Zusammenhang eine Rolle. Das könnte der oben beschriebene sein. Ansonsten gäbe es in der Natur nämlich etwa kissenförmige oder ovale Linsen.

Würde der einzelne Kreisscan mit z.B. 200 Hz für alle Scanbahnen ablaufen, dann würde eine obere Hörgrenze von 20 kHz eine Winkelauflösung von 360 Grad/100 = 3,6 Grad bedeuten. Im Scanzentrum könnte so eine Auflösung besser als ein einzelnes Pixel erzielt werden,- also weit besser als die Charactermatritze eines Buchstabens auf einem Bildschirm, aber in den äußeren Bereichen müßten sicher zig bis hunderte Pixel zusammengefaßt werden. Ob dazu bereits der arithmetische Mittelwert der Helligkeitswerte der Pixelreihen quer zur Scanrichtung ausreichen würde, oder ob ein Pixelgebiet ähnlich den Verfahren der Bildaufbereitung und Mustererkennung unter Berücksichtigung von Nachbarn etwa im Interesse einer Kontrasterhöhung ausgewertet werden sollten, steht dahin. In soweit würde die Breite der Scanbahnen nach innen abnehmen. Möglicherweise ist es bereits ausreichend, wenn ein einzelnes Pixel schlicht und einfach als Stichprobe des Pixelbereiches gezogen wird.

Ein Bildelement wie eine Kante wird im inneren Scanring bei gleichem Scanwinkel niederfrequent abgebildet. In den Bildaußenbereichen bleibt die Struktur erhalten, verlagert sich aber ins obere Spektrum der Harmonischen. Sichtschwenks

schieben Objekte bei detaillierter "akustischer Betrachtung" ins Niederfrequente mit besserem Oberwellenauflösungspotential

Das resultierende Audiosignal hätte eine im Rahmen der Zahlenbeispiele die Frequenz von 20 Hz für die Grundoszillation und 200 Hz für die einzelnen Ringscans. Flächige Bildinhalte würden die Ringfrequenzen kaum mit Oberwellen ausstatten, kontrastreiche Übergänge würden Bündel von signifikanten höherfrequenten Oberwellen auf die Ringfrequenz aufsatteln.

Nun wird der Skeptiker nachfragen, wie das denn ohne Synchronisation im technischen Sinne überhaupt funktionieren soll. Ein Blick in die Natur hilft, diesen Einwand zu relativieren. Das Bild eines Besenstieles z.B. erscheint im menschlichen Auge in einen Augenblick vielleicht genau in der "Mitte" der Netzhaut, eine halbe Sekunde aber verdreht und delokalisiert auf einer völlig anderen Stelle der Netzhaut.... und wird trotzdem vom Gehirn " verstanden", weil das Raumbild erst im Gehirn "rekonstruiert" wird. Ganz sicher kann das Gehirn durch den Zusammenhang des ganzen Bildes (etwa den Boden, einen Schrank und eine Zimmerdecke) optische Elemente in Ihren Bezügen untereinander absolut treffsicher einordnen. Ein DSS- Audiosignal hätte aus der optischen Vorlage periodische signifikante Kurvenabschnitte, deren Oberwellencharakteristik stets die relative Lage der Wellenzüge markiert und somit wie ein "Softsynchronsignal" wirkt. Die relative Lage von Oberwellenbündeln auf dem Audiokontinuum würde die relative Lage von "Oben und Unten, Links und Rechts" des zweidimensionalen (Video-) Kontinuums determiniert beschreiben. Übrigens zeigt das menschliche Sehen auch "lineare Sehpolarisationen": Das Lesen einer Schrift ist nur möglich, wenn der Text etwa waagerecht gehalten wird. Die Buchstabendecodierung ist oft schon am Ende, wenn dieser querstehend oder kopfstehend rezipiert wird. Faszienierd: Nach Kombinatorik ist die Zahl der möglichen Buchstabenanordnungen gigantisch groß. Aber in der menschlichen Sprachen gibt es jeweils nur einige –zig tausend Wörter! Das ist ein differentieller Informationsgehalt von nicht einmal zwei Bytes! Folglich reichen zur Wortunterscheidung informationell lediglich etwa 16 Bits! Das wären bei reiner Synthese lediglich z.B. vier Sinustöne in vier Amplitudenstufen!

Zudem hätte das DSS-Verfahren holografische Charakteristik: Eine abgebildete homogene Flächenstruktur würde in jedem Ringsegment mit abnehmender Auflösung abgebildet. Genauso wie das menschliche Auge den Blick auf Details richtet,- also interessierende Stellen "anfixiert" (abtastet), genauso könnte ein bewegtes Kamerasystem nach DSS- Prinzip Bildsegmente in den Bereich hoher Auflösung bringen (fast ähnlich einer Lupe).... und eine Zuordnung von Audiomustern zu Bildmustern (etwa des Bodens) ermöglichen, weil die Schwingungsmuster aufgrund vorbeschriebenen Eigenschaften aus dem Wellenzug sozusagen "herauswachsen" würden und der Grundbedingung neurologischer Merkmalskorrelation als Steuerungs- und Regelvorgang Rechnung getragen wäre. Dieses "Herauswachsen" würde sich als Musterverlagerung vom oberen Audiospektrum ins niederfrequente darstellen.

Apropos Grundoszillation: Aus Unfallberichten ist das Phänomen bekannt, daß eine Folge von Schlagschatten ,- das sind niedrigfrequente Helligkeitsschwankungen -, die ein Autofahrer etwa auf einer Straße erlebt, die Sehfähigkeit völlig außer Kraft setzen kann (Stroboskopeffekt). Ob das ein Indiz dafür ist, daß auch das Auge wie beschrieben arbeitet und Interferenzen zu diesem Phänomen führen, ist wohl ununtersucht. Auch existieren Effekte wie, daß ein bewegtes Metallgitter, Drahtzaungebildes o.ä. dem Auge momentan als flimmernd erscheinen und aufgrund von dann falscher räumlicher Einordnung körperliche Fehlkoordinationen auslösen können.

Räumliches Sehen bzw. Hören kann natürlich durch Parallelanordnung zweier Kamerasysteme mit DSS erzielt werden. Interessanter Weise würde die Mischung der monoskopischen Tonfrequenzen für nahe Bildelemente ein als in der Musikelektronik als Phasing oder Schwebung zweier oder mehrerer identischer Wellenzüge bezeichneten Klangeindruck ergeben, insoweit hätte dieses System 3D Eigenschaften. Gephasingte Klänge und Geräusche werden als "wärmer" wahrgenommen. Im Spektrum entstehen zusätzliche kammartige Strukturen. Komischerweise werden solche Klänge in der Musik als "sphärisch" also räumlich bezeichnet. In der Musik werden Instrumente mit Phasingeigenschaften problemlos in ihrer Klangcharakteristik heraus gehört. In so weit müßten phonetisierte nahe Bildelemente im Audiospektrum von fernen unterschieden werden können. Ferne Objekte hätten einen "kalten Klang". Ob das ein uraltes "Logisches Fossil" aus der Evolutionsgeschichte ist, scheint sich anzubieten, weil seit jeher nahe Gegenstände akustisch Laufzeitdifferenzen und damit Schwebungen nach sich ziehen und eine Klangassoziation wie "Warm" die Konnotation von Körperwärme der eigenen reflektierten oder der von anderen Lebewesen war und ist. Übrigens: Selbst nüchterne Techniker messen primitiven Frequenzstrukturen sogar Farben zu: etwa das sog. weiße und rosa Rauschen ! Jeder Musiker kennt den bezeichnenden Ausdruck "Klangfarben". Videoseitig können die RGB-Signale in ihren Amplitudenverhältnissen leicht bereit gestellt werden. "Klangfarben" bedeutet in der NF-Synthese, daß Frequenzgemische meist vorrangig in ganzzahligen Teilverhältnissen bzw. Vielfachen dargestellt werden. "Dimensionaltechnisch" bedeutet die Darstellung von Farben die zusätzliche Einführung von drei weiteren Dimensionen, wobei ein Helligkeitswert eines Pixels in einem 3D Kontinuum schon ein vierdimensionales Konstrukt ist. Farbendarstellung ist also ein sechsdimensionales Kontinuum. Im Vektormodell jedoch wären die 3 Farbdimensionen in die 3 Raumdimensionen eingeschachtelt (Auch wenn die Dreidimensionalität eines Raumbildes de facto nur die Räumlichkeit einer sichtbaren Oberfläche meinen kann). Eine Dimensionaltransformation ins Eindimensionale müßte diese Einschachtelung der Farbinformationen in die relative Raumortlage vermutlich beibehalten. Die NF-seitige Lösung könnte vermutlich die Darstellung der RGB-Anteile als Harmonische bzw. Subharmonische nach Oktavmustern in den spezifischen Amplitudenverhältnissen sein. Ob starre Chopperfrequenzen dazu geeignet sind oder via PLL oder MP abgeleitete Rippelfrequenzen die bessere Lösung bieten, müßte bei Praxistests geklärt werden.

Angenommenes zweidimensionales Bild

Durch Mehrachsenspiegelung entstandenes redundantes Bild
ohne Kontinuumsbrüche

Die notwendige Basishardware für Schwarzweiß läßt sich etwa so skizzieren: Interfacekarten, die ein Videosignal eines Kameramodules an einem RAM-Speicher bereitstellt, gibt’s in der Industriekonfektion. Der Speicher müßte DMA-Modus zulassen oder es müßten zwei Bänke zyklisch vertauscht werden, damit ausgangsseitig durch Verarbeitung per Mikroprozessor das NF-Signal gewonnen werden kann. Weil eine spiralzyklische Berechnung der Zugriffsadressen beim Prozessor zu zeitintensiv , weil aufgrund zu komplexer Algorithmen zu viele Taktzyklen erfordernd, wäre ein Echtzeitbetrieb vorraussichtlich über eine vorweg berechnete und angelegte Adresstabelle möglich, die die Bildbytes nach DSS-System zieht. Bei zwei Byte Adressierung und 20kHz NF- Maximalfrequenz = 40 kHz NF-Scanstreifenbreite ergibt sich als Tabellengröße 2* 40 MB, die sich als DSS- Auszug vom Video-RAM mit 500kB ... 1MB als Helligkeitswert darstellt. NF-seitig ist als Ausgabe ein Byte Datenbreite sicherlich zu wenig. Zu Erzielung der erforderlichen Dynamik müssen es schon zwei Bytes sein. Videoseitig dürfte eine ein Byte Datenbreite (Schwarzweiß) völlig ausreichen. Hochinteressant wäre eine Software, die örtliche Pixelkonzentrationen Nf - seitig in entsprechende Dynamik transponiert. Das geht zur Ermöglichung von Echtzeitbetrieb mit vorberechneten Subtabellen. Möglicherweise ist es unerläßlich, die Audiopegel für die Bildaußenbereiche durch Verwendung der Grundoszillation als Hüllkurve abzusenken, weil deren Musterstruktur sonst die Zentralbereiche "ersticken" würden. Natürlich muß die Anordnung zur Ermöglichung "stereoskopischen Hörens" doppelt vorhanden sein. Möglicherweise ist eine entferntere Kamerapositionierung mit weiterem "Augen-" Abstand als beim Mensch vorteilhaft. Die NF-Kanäle beider Kamerasysteme müßten natürlich vor den Audioendstufen gemischt werden. Blindengeeignete Kopfhörer dürften wahrscheinlich die Ohren nicht abkapseln, weil gerade Blinde auf zusätzliche normale Hörmöglichkeit angewiesen sind. Denkbar wären deshalb zusätzliche akustische Detektionsschaltungen ähnlich einer Aussteuerungsautomatik, die das "Videohörsignal" wegsteuern oder den Pegel heruntersetzen, wenn normalakkustische Ereignisse stattfinden.

Möglicherweise ist es vorteilhaft, wenn bereits das Videobild im RAM-Speicher aufgearbeitet wird. Symmetrien bedeuten typische Resonanzen. So kann ein Bild durch Mehrfachspiegelung in eine kontinual symmetrische Struktur überführt werden, die an den Bildkannten sozusagen in sich selbst ohne Brüche übergehen kann. Das sind beste Voraussetzungen für "Harmonische Schwingungsmuster". Eine scheinbar so entstehende Informationsredundanz kann aber letztlich wie eine Heraushebung von Bildmusterinformationen wirken. Für eine DSS Prozedur dürfte sich weniger eine Vierfachabtastung über Bildraumkrümmungen in den jeweiligen Zentren anbieten, sondern einfach das Durchlaufen der Scannvorgänge mit in diesem Sinne vierfach modifizierter Adresstabelle, also einer sequentiellen Vierquadrantenspiegelung.

Eine doppelte stereoskopische Kameraanordnung müßte NF- seitig bezogen auf weit entfernte Objekte eine jeweils identische Impulsfolge pro Kanal liefern: Entsprechend starr müßten die Kameras positioniert sein, evtl. hilfreich wäre eine Software, die ähnlich der Technik "wackelfreier Bilder" die RAM-Speicher so verschiebt, daß deckungsgleiche Signalmuster als "Hintergrund" entstehen können, in denen nahe Objekte als Phasingstruktur sowohl optisch wie auch "akustisch verschwommen" in Erscheinung treten.

Natürlich muß das "Sehen durch Hören" mit Sicherheit erst trainiert werden. Das ist nicht anderes wie das Zuordnen der Dynamik von Klang- oder Geräuschmustern zu im Grunde genommen gegenständlichen Gegebenheiten und nicht Bildern! Das ist nicht weiter wie eine neurologische Merkmalskorrelation ähnlich dem Pavloffschen Hund. Blinde hätten dazu gute Voraussetzungen, weil deren Gehörsinn viel differenzierter ausgebildet ist. Blinde kennen die eigene Umgebung speziell die eigene Wohnung viel besser als Sehende und können das "Abtasten in der Ferne" sicher so schnell erschließen. Optische Gegebenheiten hätten kennzeichnende Klänge oder Geräusche, sodaß bereits die Richtwirkung einer Kamera mit der beschriebenen Zentrumsbetonung räumliche Orientierung zulassen würde. Eine "neuronale Umverdrahtung" des Sehens ist teilweise erforscht. So hat man schon vor vielen Jahren damit experimentiert, etwa auf dem Kopf stehende Bilder normal zu erkennen. Nach ein paar Wochen war das für die Trainingsprobanden schon möglich.

Das normale menschliche Gehör, bzw. die durch die Physik bedingten Höreigenschaften stellen sich so dar: Niederfrequenzen breiten sich kugelförmig bis keulenartig aus und werden erst im Ultraschallbereich strahlförmig. Somit gilt für die NF das Ausbreitungsgesetz von Kugelstrahlern: Doppelter Abstand bedeutet eine Halbierung der Energie. Bei der Ultraschallortung der Fledermaus werden nur deshalb beachtliche Leistungen erzielt, weil die Abstrahlung definiert stark gerichtet sein dürfte und von Objekten reflektierte Wellen auch mit hoher Intensität wie ein Spiegel zurückgeworfen werden und die Laufzeiten einer neurologischen Verarbeitung zugänglich sind. Die Ultraschallortung der Fledermaus nutzt das Potential des Möglichen nur zu kleinstem Teil, weil eine neurologische Echoauswertung über Signallaufzeiten das Hörspektrum nur zum Zeitpunkt des Eintreffens des Echos nutzt...und die übrigen Zeit "brach liegt". Zudem dürfte die Informationsmenge von rücklaufenden Echos strukturell sehr niedrig sein.

Im Niederfrequenzbereich (menschliches Hörspektrum) fließt eine Schallwelle um zB. einen Stuhl einfach herum, weil die Wellenlängen größer als die Objekte sind. Zudem gibt es Effekte, wie daß Schall einfach geschluckt (absorbiert) wird, Schall mehrfachreflektiert wird bis hin zu stehenden Wellen und Mehrfachresonanzen. All dies verwehrt dem Gehirn weitgehend aber nicht total, daß aus Echos räumliche Strukturen geschlossen werden können, weil ihm so sozusagen "Datenmatsch" angeboten wird. In der Evolutionsgeschichte hat das Gehirn seit jeher die Selektion von Nutzinformationen aus einer großen Zahl einlaufender "zweitrangiger" Informationen auch beim Gehör geleistet. Eine Neandertaler Mami oder Vati hat mit Sicherheit die kleinen Signalpegel eines weit entfernten Neandertalerbabys aus einer Geräuschkulisse von Vogelgezwitscher, Blätterrascheln (kann ultralaut sein!), Windsäuseln etc. herausfiltern können. Ob ein Verfahren der Mustererkennung solches heute schafft, ist fraglich. Das hier beschriebene Spiral- Doppelscanverfahren macht letztlich nicht anderes, als dem Gehör 100% Nutzinformationen zur Verfügung zu stellen. Es ist nicht "laufzeitzentriert", sondern ein Verfahren der Mustergenerierung.

Natürlich ist das, was Blinden zum "Sehen" verhilft, auch anderweitig einsetzbar. Würden Infrarotkameras eingesetzt, so könnte mit diesem Verfahren der normale Sehbereich ins zB. Infrarot erweitert werden. Insbesondere dann, wenn die Kameramechaniken mit der Bewegung des Augapfels synchronisiert werden. Durch mehr als akustische Signale würden dann Sehbereiche "markiert" , in denen ein interessierendes Infrarot-Ereignis stattfindet. Die Militärs werden danach gieren, ihre Hightech- Landsknechte entsprechend auszurüsten und das nicht nur für den Dschungelkrieg. Meine Empfehlung: Seht euch die Beinhäuser in VERDUN/Frankreich an und fragt euch, wofür auch DIE denn gestorben sind...

Erstaunliche Zahlenfakten: 20 kHz entspricht 0,025 msec Zeitintervall der Nulldurchgänge und damit auch der Untergrenze der neuronalen Verarbeitungsgeschwindigkeit!

Eine Schallgeschwindigkeit von 340 m/sec ergibt ein akustisches Strecken-Auflösungsvermögen bei 20 kHz von 1,7 cm.

Apropos Dimensionaltransformation: Hier wurde die Umsetzung eines zweidimensionalen Kontinuums auf ein eindimensionales Kontinuum beschrieben. Die Natur kennt z.B. als DNS von Lebewesen mindestens dreidimensionale Transformationen auf Eindimensionalität. Immer spielen bei solchen Umsetzungen Kammstrukturen in den materiellen Berührungspunkten eine Rolle. Bis heute werden diese Gesetzmäßigkeiten etwa als Bioinformatik nicht explizit gewürdigt.

Internet-Veröffentlichung 29.3.2001 Reiner Trimborn

Resonanz:
Ein Wissenschaftler merkt zu dem hier geschilderten Ansatz an, daß gerade Blinde nur schwer auf Ihren "Hörkanal verzichten" können. Das ist aber ein trügerischer Einwand, weil das hier geschilderte Verfahren auf die Bereitstellung von Audiosignalen als "komprimierte" Form der codierten Rauminformationen abzielt. So gut das Gehör eines Blinden auch entwickelt ist, die Physik selbst in ihrer Eigenheit verhindert zu viel: So laufen niederfrequente akustische Wellen um Gegenstände einfach herum, weil die Wellenlängen naturgegeben zu lang sind. Ganz zu schweigen, daß manchen Gegenstände, bzw. deren Oberflächen Wellen einfach absorbieren ("wegschlucken") oder irritierende Resonanzen und Mehrfach - Reflexionen auftreten können, was die prinzipiellen Möglichkeiten der Erschließung von Räumen per Schallwellen von Natur aus stark einschränkt. Informationstechnisch ist aber das menschliche Gehör sehr wohl zur "Übertragung" großer Datenmengen geeignet. Das hier beschriebene Verfahren ist im Grunde nicht anderes als eine zweckmäßige straffe Methode, dem menschlichen Ohr akustisch "Rauminformationen" anzubieten. Im Gewissen Sinne kann hier durchaus von einer 1:1 Direktumsetzung gesprochen werden.

Fortsetzung: Die erweiterte Hardwarekonzeption
--- Von Bienenteppichen und Heuschrecken-Clustern.....---

Kontakt /Email: reiner-trimborn.de@freenet.de
Zurück zur Übersicht
http://www.reinertrimborn.de