Noch immer müssen heute die Menschen, die ihr Augenlicht verloren haben
oder nie hatten, zu oft ein hilfloses Dasein führen und sind von großen
Teilen des öffentlichen Lebens ausgeschlossen. Die Sehhilfe für Blinde
ist bis heute fast nur technische Utopie geblieben. Es hat sicher schon viele
Versuche bis hin zum Neurochip gegeben, jedoch hat bis heute noch niemand dabei
das "Gelbe vom Ei" herausgefunden. Vielleicht trägt folgender
Aufsatz in seinen Gedankengängen dazu bei, den "Video-Walkman"
für Blinde Wirklichkeit werden zu lassen.
Grundlegend betrachtet, geht es beim "Sehen" um die Übertragung
scheinbar großer Datenmengen:
Der Bildschirmspeicher eines Computers gibt über die Größenordnungen
der Informationsmengen schon Auskunft: In VGA- Auflösung (640x480) ist
ab etwa 256 KB bis 512 KB ein Schwarzweißbild als 16 Bit oder 256Bit Graustufe
schon erstaunlich gut sichtbar. Aber: Der aufmerksame Bildschirmbetrachter eines
solchen VGA-Bildes wird feststellen, daß sein Auge lediglich Bildgebiete
von etwa Buchstabengröße anfixiert, alle anderen
Bildgebiete daneben werden sinnlich ungenau, wozu vielleicht verwischt oder
verschwommen gesagt werden kann, wahrgenommen. Folglich muß die Videobild-Informations-Transferleistung
des Auges inklusive Bildauswertung im Gehirn weit unter der technisch per Bildschirm
bereitgestellten Informationsmenge liegen,- vielleicht ein Prozent. So betrachtet
würden von technischen 500KB größenordnungsmäßig
5KB übrigbleiben, also erstaunlich wenig. Sicher: Der Gesamtsichtwinkel
des menschlichen Auges kann bestimmt über 90 Grad des Sehfeldes liegen,
jedoch werden Objekte insbesondere am Rande des Sehfeldes nicht mehr identifiziert,
sondern nur noch als "Schatten" o.ä. erkannt. Die Wahrnehmung
von Objekten außerhalb des Fixpunktes könnte nicht mehr als "Sehen"
bezeichnet werden, sondern eher als "Erahnen". Erst die Drehbewegungen
des Augapfels mit der Verlegung des Fixpunkte ermöglicht detailliertes
visuelles Erfassen von Objekten. Das ist eine Art "chaotisches" Scannen,
wobei das Gehirn vielschichtige "Steuerprioritäten" bereithalten
dürfte (z.B."Räumliche Orientierung, Mustern, usw.").
Fernsehfrequenzen liegen nur deshalb im Megaherzbereich, weil jede 1/25 Sekunde ein kompletter Bildaufbau erfolgt. Ein statisches Bild, dessen Übertragung 1 sec dauert, hätte eine Videofrequenz, die im Ultraschallbereich liegt. Dabei ist noch nicht berücksichtigt, daß in gigantischem Maße redundante Information unsinnig übertragen wird, geschweige denn, daß der Betrachter die übertragenen Information im obigen Sinne überhaupt nutzen kann, oder will...
Wenn die Wahrnehmung über das Auge ausgefallen ist, dann ist zu überlegen, ob einem blinden Menschen nicht die optische Welt durch Nutzung anderer menschlicher "Periferiekanäle" geöffnet und geholfen werden kann. Grundsätzlich kommt jedes menschliche Sinnesorgan einschließlich gut mit Nervenzellen bestückter Hautpartien in Frage. Aber das menschliche Gehör scheint in seinen Eigenschaften prädestiniert: Das gleichzeitige Hören von z.B. nur drei Tönen in jeweils einer Lautstärkeabstufung von 1 zu 100 entspricht bereits einem Datenfluß, besser : Informationsfluß von 1M Bit pro sec und das in Echtzeit! Übrigens soll -wie Ärzte berichten- der menschliche Hörnerv deutlich dicker sein als der Sehnerv!
Nach Abtasttheorem würde der verbildete Nachrichtentechniker vielleicht einwenden, daß sehr hohe Frequenzen (mindestens das doppelte der abzubildenden Wellenzüge) erforderlich sind, um ein Videobild egal wie und wofür wiederzugeben. Das ist falsch, weil irreführend. Denn ein sehr niederfrequentes NF-Audiosignal enthält als Information weit mehr als die bloße Herzzahl. Theoretisch nach Grundsätzen der Fourier-Analyse bzw. Synthese bietet eine einzige Oberwelle bereits ein erstaunliches Informationspotential aufgrund kombinatorischen Variantenmöglichkeiten von nur zwei Sinusschwingungen in ihren Amplitudenverhältnissen. Solche Oberwellen sind nichts anderes als scheinbar minimale Abweichungen in der Flankensteilheit harmonischer Schwingungen. Beulen, Höcker, Zinkensprünge u. dgl. im Oszillogramm bedeuten informationstechnisch nichts anderes wie das "codierte Aufsatteln" von Informationsinhalten auf eine Grundwelle. Ganz sicher kann das Nebeneinander von Schwingungen in ihren Amplitudenverhältnissen ,- also zwei Quantitäten- als ein sozusagen naturimmanentes analoges Multiplex/ Kompressions -/Packverfahren interpretiert werden. Eine einzige verbogene Signalflanke bietet in ihren Fourier - Koeffizienten einen differenziellen Informationsgehalt, der mindestens im Kilobitbereich, wenn nicht sogar in dem Megabitbereich angesiedelt ist und das als winziger Ausschnitt des Hörspektrums.
Nun ja, so einfach, daß nur ein Kopfhörer an eine Videokamera angeschlossen wird, dürfte ein Video/Audiokonverter nicht sein (wenngleich es nicht verwunderlich sein dürfte, daß aus der "Soundstruktur" eines herkömmlichen Videosignals es gelingen könnte, einfache optische Strukturen "heraus zuhören").
Die Grundfrage der Machbarkeit der Hörbarkeit eines Kamerabildes liegt ganz sicher in der Zweckmäßigkeit der Konzeption der Signalgewinnung und Aufarbeitung , speziell in der Adaption vorhandener technischer Videosignale an die Erfordernisse biologischer Informationsverarbeitung des Hörvermögens.
Die Sache mit den Dimensionen .....
Klare Sache: Das Bild einer Kamera ist ein zweidimensionales flächiges Konstrukt. Es existiert sozusagen als Oberfläche für unser Auge in der Wirklichkeit(lassen wir den Raum erst einmal weg), auf einem Photopapier, auf einem Bildschirm o.ä. . Technisch jedoch existiert faktisch jedoch meist eine eindimensionale Darstellung dieses zweidimensionalen Kontinuums, das wir Bild nennen. Z.B. eine Videokamera schickt ein eindimensionales Signal als Bild über die Leitung, in einem Rechner steht vereinfacht gesehen ein Bild als Kolonne von Bytes hintereinander in einem linearen Adressstrahl ( in diesem Fall besserer Ausdruck als Adress"-Raum") usw..
Durch Rasterung und Zeilenscan kommen heute übliche Verfahren via
einer Zerschneidung des Bildes zu einem eindimensionalen Kontinuum, das sich
übertragen läßt (Die Zeitachse sei bei dieser Betrachtung weggelassen).
Die Verfahren und Standards sind über ein halbes Jahrhundert alt und stammen
aus einer Zeit, als man womöglich aus Einmachgläsern Bildröhren
bastelte,- man hatte ja nichts anderes. Die Bildpunktabtastung entsprach dem
Vorbild einer mechanischen Schreibmaschine. Klar , daß bei dieser Signalkonzeption
damals mögliche technische Machbarkeit und nicht etwa zweckmäßige
Adaption an "biologische" Systeme geschweige denn streng logischer
Konzeptionen im Vordergrund stand.
Die grundsätzlichen Anforderungen an eine "biologische" Dimensionaltransformation hier Umsetzung eines Bildsignals in ein Audiosignal müssen sein:
Diese Zielsetzungen werden durch ein Verfahren, daß im Folgenden als "Doppelspiralscan (Abtastung)" bezeichnet wird, gelöst. Zum besseren Verständnis dient zunächst eine eher bildliche illustrative Darstellung: Man stelle sich einen Computerbildschirm vor, dessen Bildschirmspeicherzellen wie Kästchen aneinander liegen. Zu Zeiten der Homecomputer waren die Adressen des Bildschirmspeichers von den Herstellern immer angegeben und konnten wie ein normaler RAM-Speicher beschrieben oder gelesen werden. (Die Feinheiten wie das Einblenden des Charaktersets usw. lassen wir beiseite). Wird ein solcher Bildschirm mit der Bahn einer Doppelspirale bei konstanter Winkelgeschwindigkeit abgescannt, dann werden die formulierten konzeptionellen Kriterien erfüllt. Scanphase 1 "schraubt" sich von den Randbereichen ins Zentrum (Fig.1), bei Beibehaltung des Drehsinns "schraubt" sich Phase 2 vom Zentrum in die Bildaußenbereiche (Fig.2). Gescannt werden die einzelnen Pixel oder Pixelpakete, die als Helligkeitswerte Amplituden für ein NF-Signal bereitstellen. Am Beispiel eines Bildschirms mit einer von links nach rechts verlaufenden Abdunkelung (Fig 3) werden die Unterschiede zwischen herkömmlicher technischer linearer Zeilenrasterung (Fig.4) und Doppelspiralscanverfahren (kurz DSS) (Fig 5) deutlich. Die Illustration zeigt die Helligkeitswerte, wie sie als RAM-Speicherinhalte linear hintereinander stehen könnten. Die technische Variante reißt das Kontinuum durch Zeilensprünge abrupt in Stücke. Solche Pegelsprünge würden in einem Audiospektrum sehr stören und die Erkennung von Wellenmustern stark irritieren. Die DSS- Variante dagegen kennt keine Rasterungspegelsprünge und dürfte daher eher "biologiefreundlich" sein zumal sie eine Signalfolge liefert, die in einem fortlaufen kann. |
Erstaunlicherweise fällt beim Menschen die untere Hörgrenze
etwa mit der Frequenz des Auges zusammen, ab der ein Bild als stehend und flackerfrei
empfunden wird, also etwas über 20 Hz. Möglicherweise ist dieser Wert
eine gute Frequenz für die DSS - Phasenoszillation, die aber nicht unbedingt
direkt hörbar sein müßte. Jeder Spiralumlauf dagegen müßte
ein Teil dieser Grundoszillation ("Pulsation") sein. Zehn Ringe wären
das Zehnfache also zB. 200 Hz. Daraus ergibt sich, daß nur einige - zig
Scanumläufe möglich zu sein scheinen, weil der einzelne Ring so niederfrequent
sein muß, daß noch üppig Platz für Oberwellen auf diesem
Grundwellensegment ist. Denn ab ein paar Kiloherz dürfte die menschliche
Wahrnehmungsfähigkeit physiologisch bedingt für Oberwellen stark abnehmen,
zumal ein ständiges 1KHz-Piepsen nicht unbedingt angenehm ist. Alternativ
könnte auch eine Abtastung als ineinandergeschaltelte Folge konzentrischer
Ringe in Betracht kommen, aber dies könnte insbesondere im Audiospektrum
störende Sprünge hervorrufen. Welcher Weg letztlich der bessere ist,
wird durch die Eigenschaft der determinierten Generierung von Periodizität
im Audiospektrum entschieden.
Bei der Umwandlung eines Bildes in einen Klang besser Geräusch würde
ein Bildelement, wie eine Kannte auf den einzelnen Ringsegmentenschwingungen
einen Zacken verursachen. Wenn mehrere Ringe davon betroffen
sind, dann würde dieser Zacken periodisch auftauchen
und insbesondere das entspricht mindestens einer signifikanten Oberwelle
im Audiospecktrum. Weil jedoch ein Bild komplexe jedoch strukturierte
Elemente enthält, würden sich auch im Audiospektrum identifizierbare
Oberwellen- Strukturen wiederfinden.
Irgendwie drängt es sich auf, daß aus diesem Grunde dieser Spiralscan streng kreisförmig regelmäßig sein müßte, weil ansonsten, keine Regelmäßigkeit bzw. Periodizität in den "Bildzacken" gewährleistet wäre. Möglicherweise ist das der Grund dafür, daß in der Natur der ganze Bau der Augen bzw. , die wirksame Iris, die Linse und letztlich die Netzhaut in ihrer projizierten Fläche aller höheren Lebewesen streng kreisförmig ist. Der Kreis ist nämlich erstaunlicherweise in der Natur sonst nie zu finden. Und wenn das so ist, dann spielt ein tieferer naturgesetzlicher Zusammenhang eine Rolle. Das könnte der oben beschriebene sein. Ansonsten gäbe es in der Natur nämlich etwa kissenförmige oder ovale Linsen.
Würde der einzelne Kreisscan mit z.B. 200 Hz für alle Scanbahnen
ablaufen, dann würde eine obere Hörgrenze von 20 kHz eine Winkelauflösung
von 360 Grad/100 = 3,6 Grad bedeuten. Im Scanzentrum könnte so eine Auflösung
besser als ein einzelnes Pixel erzielt werden,- also weit besser als die Charactermatritze
eines Buchstabens auf einem Bildschirm, aber in den äußeren Bereichen
müßten sicher zig bis hunderte Pixel zusammengefaßt werden.
Ob dazu bereits der arithmetische Mittelwert der Helligkeitswerte der Pixelreihen
quer zur Scanrichtung ausreichen würde, oder ob ein Pixelgebiet ähnlich
den Verfahren der Bildaufbereitung und Mustererkennung unter Berücksichtigung
von Nachbarn etwa im Interesse einer Kontrasterhöhung ausgewertet werden
sollten, steht dahin. In soweit würde die Breite der Scanbahnen nach innen
abnehmen. Möglicherweise ist es bereits ausreichend, wenn ein einzelnes
Pixel schlicht und einfach als Stichprobe des
Pixelbereiches gezogen wird.
Ein Bildelement wie eine Kante wird im inneren Scanring bei gleichem Scanwinkel niederfrequent abgebildet. In den Bildaußenbereichen bleibt die Struktur erhalten, verlagert sich aber ins obere Spektrum der Harmonischen. Sichtschwenks
schieben Objekte bei detaillierter "akustischer Betrachtung" ins Niederfrequente mit besserem Oberwellenauflösungspotential
Das resultierende Audiosignal hätte eine im Rahmen der Zahlenbeispiele
die Frequenz von 20 Hz für die Grundoszillation und 200 Hz für die
einzelnen Ringscans. Flächige Bildinhalte würden die Ringfrequenzen
kaum mit Oberwellen ausstatten, kontrastreiche Übergänge würden
Bündel von signifikanten höherfrequenten Oberwellen auf die Ringfrequenz
aufsatteln.
Nun wird der Skeptiker nachfragen, wie das denn ohne Synchronisation im technischen Sinne überhaupt funktionieren soll. Ein Blick in die Natur hilft, diesen Einwand zu relativieren. Das Bild eines Besenstieles z.B. erscheint im menschlichen Auge in einen Augenblick vielleicht genau in der "Mitte" der Netzhaut, eine halbe Sekunde aber verdreht und delokalisiert auf einer völlig anderen Stelle der Netzhaut.... und wird trotzdem vom Gehirn " verstanden", weil das Raumbild erst im Gehirn "rekonstruiert" wird. Ganz sicher kann das Gehirn durch den Zusammenhang des ganzen Bildes (etwa den Boden, einen Schrank und eine Zimmerdecke) optische Elemente in Ihren Bezügen untereinander absolut treffsicher einordnen. Ein DSS- Audiosignal hätte aus der optischen Vorlage periodische signifikante Kurvenabschnitte, deren Oberwellencharakteristik stets die relative Lage der Wellenzüge markiert und somit wie ein "Softsynchronsignal" wirkt. Die relative Lage von Oberwellenbündeln auf dem Audiokontinuum würde die relative Lage von "Oben und Unten, Links und Rechts" des zweidimensionalen (Video-) Kontinuums determiniert beschreiben. Übrigens zeigt das menschliche Sehen auch "lineare Sehpolarisationen": Das Lesen einer Schrift ist nur möglich, wenn der Text etwa waagerecht gehalten wird. Die Buchstabendecodierung ist oft schon am Ende, wenn dieser querstehend oder kopfstehend rezipiert wird. Faszienierd: Nach Kombinatorik ist die Zahl der möglichen Buchstabenanordnungen gigantisch groß. Aber in der menschlichen Sprachen gibt es jeweils nur einige –zig tausend Wörter! Das ist ein differentieller Informationsgehalt von nicht einmal zwei Bytes! Folglich reichen zur Wortunterscheidung informationell lediglich etwa 16 Bits! Das wären bei reiner Synthese lediglich z.B. vier Sinustöne in vier Amplitudenstufen!
Zudem hätte das DSS-Verfahren holografische Charakteristik: Eine abgebildete homogene Flächenstruktur würde in jedem Ringsegment mit abnehmender Auflösung abgebildet. Genauso wie das menschliche Auge den Blick auf Details richtet,- also interessierende Stellen "anfixiert" (abtastet), genauso könnte ein bewegtes Kamerasystem nach DSS- Prinzip Bildsegmente in den Bereich hoher Auflösung bringen (fast ähnlich einer Lupe).... und eine Zuordnung von Audiomustern zu Bildmustern (etwa des Bodens) ermöglichen, weil die Schwingungsmuster aufgrund vorbeschriebenen Eigenschaften aus dem Wellenzug sozusagen "herauswachsen" würden und der Grundbedingung neurologischer Merkmalskorrelation als Steuerungs- und Regelvorgang Rechnung getragen wäre. Dieses "Herauswachsen" würde sich als Musterverlagerung vom oberen Audiospektrum ins niederfrequente darstellen.
Apropos Grundoszillation: Aus Unfallberichten ist das Phänomen bekannt, daß eine Folge von Schlagschatten ,- das sind niedrigfrequente Helligkeitsschwankungen -, die ein Autofahrer etwa auf einer Straße erlebt, die Sehfähigkeit völlig außer Kraft setzen kann (Stroboskopeffekt). Ob das ein Indiz dafür ist, daß auch das Auge wie beschrieben arbeitet und Interferenzen zu diesem Phänomen führen, ist wohl ununtersucht. Auch existieren Effekte wie, daß ein bewegtes Metallgitter, Drahtzaungebildes o.ä. dem Auge momentan als flimmernd erscheinen und aufgrund von dann falscher räumlicher Einordnung körperliche Fehlkoordinationen auslösen können.
Räumliches Sehen bzw. Hören kann natürlich durch Parallelanordnung
zweier Kamerasysteme mit DSS erzielt werden. Interessanter Weise würde
die Mischung der monoskopischen Tonfrequenzen für
nahe Bildelemente ein als in der Musikelektronik als Phasing oder
Schwebung zweier oder mehrerer identischer Wellenzüge bezeichneten
Klangeindruck ergeben, insoweit hätte dieses System 3D Eigenschaften. Gephasingte
Klänge und Geräusche werden als "wärmer" wahrgenommen.
Im Spektrum entstehen zusätzliche kammartige Strukturen. Komischerweise
werden solche Klänge in der Musik als "sphärisch" also räumlich
bezeichnet. In der Musik werden Instrumente mit Phasingeigenschaften problemlos
in ihrer Klangcharakteristik heraus gehört. In so weit müßten
phonetisierte nahe Bildelemente im Audiospektrum von fernen unterschieden werden
können. Ferne Objekte hätten einen "kalten Klang". Ob das
ein uraltes "Logisches Fossil" aus der Evolutionsgeschichte ist, scheint
sich anzubieten, weil seit jeher nahe Gegenstände akustisch Laufzeitdifferenzen
und damit Schwebungen nach sich ziehen und eine Klangassoziation wie "Warm"
die Konnotation von Körperwärme der eigenen reflektierten oder der
von anderen Lebewesen war und ist. Übrigens: Selbst nüchterne Techniker
messen primitiven Frequenzstrukturen sogar Farben zu: etwa
das sog. weiße und rosa Rauschen ! Jeder Musiker kennt den bezeichnenden
Ausdruck "Klangfarben". Videoseitig können die RGB-Signale in
ihren Amplitudenverhältnissen leicht bereit gestellt werden. "Klangfarben"
bedeutet in der NF-Synthese, daß Frequenzgemische meist vorrangig in ganzzahligen
Teilverhältnissen bzw. Vielfachen dargestellt werden. "Dimensionaltechnisch"
bedeutet die Darstellung von Farben die zusätzliche Einführung von
drei weiteren Dimensionen, wobei ein Helligkeitswert eines Pixels in einem 3D
Kontinuum schon ein vierdimensionales Konstrukt ist. Farbendarstellung ist also
ein sechsdimensionales Kontinuum. Im Vektormodell jedoch wären die 3 Farbdimensionen
in die 3 Raumdimensionen eingeschachtelt (Auch wenn die Dreidimensionalität
eines Raumbildes de facto nur die Räumlichkeit einer sichtbaren Oberfläche
meinen kann). Eine Dimensionaltransformation ins Eindimensionale müßte
diese Einschachtelung der Farbinformationen in die relative Raumortlage vermutlich
beibehalten. Die NF-seitige Lösung könnte vermutlich die Darstellung
der RGB-Anteile als Harmonische bzw. Subharmonische nach Oktavmustern in den
spezifischen Amplitudenverhältnissen sein. Ob starre Chopperfrequenzen
dazu geeignet sind oder via PLL oder MP abgeleitete Rippelfrequenzen die bessere
Lösung bieten, müßte bei Praxistests geklärt werden.
Angenommenes zweidimensionales Bild
Durch Mehrachsenspiegelung entstandenes redundantes Bild
ohne Kontinuumsbrüche
Die notwendige Basishardware für Schwarzweiß läßt sich
etwa so skizzieren: Interfacekarten, die ein Videosignal eines Kameramodules
an einem RAM-Speicher bereitstellt, gibt’s in der Industriekonfektion. Der Speicher
müßte DMA-Modus zulassen oder es müßten zwei Bänke
zyklisch vertauscht werden, damit ausgangsseitig durch Verarbeitung per Mikroprozessor
das NF-Signal gewonnen werden kann. Weil eine spiralzyklische Berechnung der
Zugriffsadressen beim Prozessor zu zeitintensiv , weil aufgrund zu komplexer
Algorithmen zu viele Taktzyklen erfordernd, wäre ein Echtzeitbetrieb vorraussichtlich
über eine vorweg berechnete und angelegte Adresstabelle
möglich, die die Bildbytes nach DSS-System zieht. Bei zwei Byte
Adressierung und 20kHz NF- Maximalfrequenz = 40 kHz NF-Scanstreifenbreite ergibt
sich als Tabellengröße 2* 40 MB, die sich als DSS- Auszug vom Video-RAM
mit 500kB ... 1MB als Helligkeitswert darstellt. NF-seitig ist als Ausgabe ein
Byte Datenbreite sicherlich zu wenig. Zu Erzielung der erforderlichen Dynamik
müssen es schon zwei Bytes sein. Videoseitig dürfte eine ein Byte
Datenbreite (Schwarzweiß) völlig ausreichen. Hochinteressant wäre
eine Software, die örtliche Pixelkonzentrationen Nf - seitig in entsprechende
Dynamik transponiert. Das geht zur Ermöglichung von Echtzeitbetrieb mit
vorberechneten Subtabellen. Möglicherweise ist es unerläßlich,
die Audiopegel für die Bildaußenbereiche durch Verwendung der Grundoszillation
als Hüllkurve abzusenken, weil deren Musterstruktur sonst die
Zentralbereiche "ersticken" würden. Natürlich muß
die Anordnung zur Ermöglichung "stereoskopischen Hörens"
doppelt vorhanden sein. Möglicherweise ist eine entferntere Kamerapositionierung
mit weiterem "Augen-" Abstand als beim Mensch vorteilhaft. Die NF-Kanäle
beider Kamerasysteme müßten natürlich vor den Audioendstufen
gemischt werden. Blindengeeignete Kopfhörer dürften wahrscheinlich
die Ohren nicht abkapseln, weil gerade Blinde auf zusätzliche normale Hörmöglichkeit
angewiesen sind. Denkbar wären deshalb zusätzliche akustische Detektionsschaltungen
ähnlich einer Aussteuerungsautomatik, die das "Videohörsignal"
wegsteuern oder den Pegel heruntersetzen, wenn normalakkustische Ereignisse
stattfinden.
Möglicherweise ist es vorteilhaft, wenn bereits das Videobild im RAM-Speicher aufgearbeitet wird. Symmetrien bedeuten typische Resonanzen. So kann ein Bild durch Mehrfachspiegelung in eine kontinual symmetrische Struktur überführt werden, die an den Bildkannten sozusagen in sich selbst ohne Brüche übergehen kann. Das sind beste Voraussetzungen für "Harmonische Schwingungsmuster". Eine scheinbar so entstehende Informationsredundanz kann aber letztlich wie eine Heraushebung von Bildmusterinformationen wirken. Für eine DSS Prozedur dürfte sich weniger eine Vierfachabtastung über Bildraumkrümmungen in den jeweiligen Zentren anbieten, sondern einfach das Durchlaufen der Scannvorgänge mit in diesem Sinne vierfach modifizierter Adresstabelle, also einer sequentiellen Vierquadrantenspiegelung.
Eine doppelte stereoskopische Kameraanordnung müßte NF- seitig bezogen auf weit entfernte Objekte eine jeweils identische Impulsfolge pro Kanal liefern: Entsprechend starr müßten die Kameras positioniert sein, evtl. hilfreich wäre eine Software, die ähnlich der Technik "wackelfreier Bilder" die RAM-Speicher so verschiebt, daß deckungsgleiche Signalmuster als "Hintergrund" entstehen können, in denen nahe Objekte als Phasingstruktur sowohl optisch wie auch "akustisch verschwommen" in Erscheinung treten.
Natürlich muß das "Sehen durch Hören" mit Sicherheit erst trainiert werden. Das ist nicht anderes wie das Zuordnen der Dynamik von Klang- oder Geräuschmustern zu im Grunde genommen gegenständlichen Gegebenheiten und nicht Bildern! Das ist nicht weiter wie eine neurologische Merkmalskorrelation ähnlich dem Pavloffschen Hund. Blinde hätten dazu gute Voraussetzungen, weil deren Gehörsinn viel differenzierter ausgebildet ist. Blinde kennen die eigene Umgebung speziell die eigene Wohnung viel besser als Sehende und können das "Abtasten in der Ferne" sicher so schnell erschließen. Optische Gegebenheiten hätten kennzeichnende Klänge oder Geräusche, sodaß bereits die Richtwirkung einer Kamera mit der beschriebenen Zentrumsbetonung räumliche Orientierung zulassen würde. Eine "neuronale Umverdrahtung" des Sehens ist teilweise erforscht. So hat man schon vor vielen Jahren damit experimentiert, etwa auf dem Kopf stehende Bilder normal zu erkennen. Nach ein paar Wochen war das für die Trainingsprobanden schon möglich.
Das normale menschliche Gehör, bzw. die durch die Physik bedingten Höreigenschaften stellen sich so dar: Niederfrequenzen breiten sich kugelförmig bis keulenartig aus und werden erst im Ultraschallbereich strahlförmig. Somit gilt für die NF das Ausbreitungsgesetz von Kugelstrahlern: Doppelter Abstand bedeutet eine Halbierung der Energie. Bei der Ultraschallortung der Fledermaus werden nur deshalb beachtliche Leistungen erzielt, weil die Abstrahlung definiert stark gerichtet sein dürfte und von Objekten reflektierte Wellen auch mit hoher Intensität wie ein Spiegel zurückgeworfen werden und die Laufzeiten einer neurologischen Verarbeitung zugänglich sind. Die Ultraschallortung der Fledermaus nutzt das Potential des Möglichen nur zu kleinstem Teil, weil eine neurologische Echoauswertung über Signallaufzeiten das Hörspektrum nur zum Zeitpunkt des Eintreffens des Echos nutzt...und die übrigen Zeit "brach liegt". Zudem dürfte die Informationsmenge von rücklaufenden Echos strukturell sehr niedrig sein.
Im Niederfrequenzbereich (menschliches Hörspektrum) fließt eine Schallwelle um zB. einen Stuhl einfach herum, weil die Wellenlängen größer als die Objekte sind. Zudem gibt es Effekte, wie daß Schall einfach geschluckt (absorbiert) wird, Schall mehrfachreflektiert wird bis hin zu stehenden Wellen und Mehrfachresonanzen. All dies verwehrt dem Gehirn weitgehend aber nicht total, daß aus Echos räumliche Strukturen geschlossen werden können, weil ihm so sozusagen "Datenmatsch" angeboten wird. In der Evolutionsgeschichte hat das Gehirn seit jeher die Selektion von Nutzinformationen aus einer großen Zahl einlaufender "zweitrangiger" Informationen auch beim Gehör geleistet. Eine Neandertaler Mami oder Vati hat mit Sicherheit die kleinen Signalpegel eines weit entfernten Neandertalerbabys aus einer Geräuschkulisse von Vogelgezwitscher, Blätterrascheln (kann ultralaut sein!), Windsäuseln etc. herausfiltern können. Ob ein Verfahren der Mustererkennung solches heute schafft, ist fraglich. Das hier beschriebene Spiral- Doppelscanverfahren macht letztlich nicht anderes, als dem Gehör 100% Nutzinformationen zur Verfügung zu stellen. Es ist nicht "laufzeitzentriert", sondern ein Verfahren der Mustergenerierung.
Natürlich ist das, was Blinden zum "Sehen" verhilft, auch anderweitig einsetzbar. Würden Infrarotkameras eingesetzt, so könnte mit diesem Verfahren der normale Sehbereich ins zB. Infrarot erweitert werden. Insbesondere dann, wenn die Kameramechaniken mit der Bewegung des Augapfels synchronisiert werden. Durch mehr als akustische Signale würden dann Sehbereiche "markiert" , in denen ein interessierendes Infrarot-Ereignis stattfindet. Die Militärs werden danach gieren, ihre Hightech- Landsknechte entsprechend auszurüsten und das nicht nur für den Dschungelkrieg. Meine Empfehlung: Seht euch die Beinhäuser in VERDUN/Frankreich an und fragt euch, wofür auch DIE denn gestorben sind...
Erstaunliche Zahlenfakten: 20 kHz entspricht 0,025 msec Zeitintervall der Nulldurchgänge und damit auch der Untergrenze der neuronalen Verarbeitungsgeschwindigkeit!
Eine Schallgeschwindigkeit von 340 m/sec ergibt ein akustisches Strecken-Auflösungsvermögen bei 20 kHz von 1,7 cm.
Apropos Dimensionaltransformation: Hier wurde die Umsetzung eines zweidimensionalen Kontinuums auf ein eindimensionales Kontinuum beschrieben. Die Natur kennt z.B. als DNS von Lebewesen mindestens dreidimensionale Transformationen auf Eindimensionalität. Immer spielen bei solchen Umsetzungen Kammstrukturen in den materiellen Berührungspunkten eine Rolle. Bis heute werden diese Gesetzmäßigkeiten etwa als Bioinformatik nicht explizit gewürdigt.
Internet-Veröffentlichung 29.3.2001 Reiner Trimborn
Resonanz:
Ein Wissenschaftler merkt zu dem hier geschilderten Ansatz an, daß
gerade Blinde nur schwer auf Ihren "Hörkanal verzichten" können.
Das ist aber ein trügerischer Einwand, weil das hier geschilderte Verfahren
auf die Bereitstellung von Audiosignalen als "komprimierte"
Form der codierten Rauminformationen abzielt. So gut das Gehör
eines Blinden auch entwickelt ist, die Physik selbst in ihrer Eigenheit verhindert
zu viel: So laufen niederfrequente akustische Wellen um Gegenstände einfach
herum, weil die Wellenlängen naturgegeben zu lang sind. Ganz zu schweigen,
daß manchen Gegenstände, bzw. deren Oberflächen Wellen einfach
absorbieren ("wegschlucken") oder irritierende Resonanzen und Mehrfach
- Reflexionen auftreten können, was die prinzipiellen Möglichkeiten
der Erschließung von Räumen per Schallwellen von Natur aus stark
einschränkt. Informationstechnisch ist aber das menschliche Gehör
sehr wohl zur "Übertragung" großer Datenmengen geeignet.
Das hier beschriebene Verfahren ist im Grunde nicht anderes als eine zweckmäßige
straffe Methode, dem menschlichen Ohr akustisch "Rauminformationen"
anzubieten. Im Gewissen Sinne kann hier durchaus von einer 1:1 Direktumsetzung
gesprochen werden.