Hilfstechnologie am Ende der Sicht

Nachricht

HeimHeim / Nachricht / Hilfstechnologie am Ende der Sicht

Sep 16, 2023

Hilfstechnologie am Ende der Sicht

Seine Worte auf der gedruckten Seite zu sehen, ist für Andrew Leland – wie für alle Schriftsteller – eine große Sache. Aber der Anblick seiner Gedanken in schriftlicher Form ist für ihn viel wertvoller als für die meisten Schriftgelehrten. Leland ist

Seine Worte auf der gedruckten Seite zu sehen, ist für Andrew Leland – wie für alle Schriftsteller – eine große Sache. Aber der Anblick seiner Gedanken in schriftlicher Form ist für ihn viel wertvoller als für die meisten Schriftgelehrten. Leland verliert allmählich seine Vision aufgrund einer angeborenen Erkrankung namens Retinitis pigmentosa, die langsam die Stäbchen und Zapfen abtötet, die die Lichtrezeptoren der Augen sind. Irgendwann wird der Punkt kommen, an dem der größte Typ, die Gesichter seiner Lieben und sogar die Sonne am Himmel für ihn nicht mehr sichtbar sein werden. Wer hätte also besser das neu erschienene Buch „The Country of the Blind: A Memoir at the End of Sight“ schreiben können, das eine Geschichte der Blindheit darstellt, die Ereignisse und Fortschritte im sozialen, politischen, künstlerischen und technologischen Bereich berührt? Leland hat die Erkenntnisse aus drei Jahren mit sich verschlechternder Sehkraft wunderbar verarbeitet. Und man muss ihm zugute halten, dass er dies getan hat, ohne auch nur im Geringsten traurig und selbstmitleidig zu sein.

Leland sagt, er habe das Buchprojekt als Gedankenexperiment begonnen, um herauszufinden, wie er den Übergang von der Welt der Sehenden in die Gemeinschaft der Blinden und Sehbehinderten am besten bewältigen könne. IEEE Spectrum sprach mit ihm über die Rolle, die Technologie dabei gespielt hat, Sehbehinderten dabei zu helfen, sich in der Welt um sie herum zurechtzufinden und das geschriebene Wort so gut wie möglich zu genießen.

IEEE Spectrum: Auf welche grundlegenden Technologien verlassen sich die meisten sehbehinderten Menschen bei der Bewältigung ihrer Alltagsaktivitäten?

Andrew Leland: Es sind nicht die Elektronen, nach denen Sie suchen, sondern die grundlegende Technologie der Blindheit ist der weiße Stock. Das ist der erste Schritt zur Mobilität und Orientierung für blinde Menschen.

Es ist lustig…. Ich habe von blinden Technikern gehört, denen neue Technologien oft so präsentiert werden: „Oh, wir haben uns diesen Laserstock ausgedacht, und er hat Lidar-Sensoren.“ Es gibt solche Tools, die für Blinde wirklich nützlich sind. Aber ich habe supertechnisch versierte Blinde sagen hören: „Weißt du was?“ Wir brauchen keinen Laserstock. Mit der alten Technologie eines wirklich langen Stocks sind wir genauso gut.“

Das ist alles was Sie brauchen. Also, ich würde sagen, das ist Nr. 1. Nr. 2 handelt von der Alphabetisierung. Braille ist eine weitere Technologie der alten Schule, aber es gibt natürlich eine moderne Version davon in Form einer aktualisierbaren Braillezeile.

Wie funktioniert die Braillezeile?

Leland: Stellen Sie sich also einen Kindle vor, bei dem Sie die Seite umblättern und sich die gesamte elektrische Tinte in eine neue Textseite umwandelt. Ähnlich verhält es sich mit der Braillezeile. Es hat irgendwo zwischen 14 und 80 Zellen. Ich muss also wohl erklären, was eine Zelle ist. Die Funktionsweise einer Braille-Zelle besteht darin, dass bis zu sechs Punkte in einem Zwei-mal-Drei-Raster angeordnet sind. Abhängig von der Permutation dieser Punkte ist das der Buchstabe. Wenn es also nur ein einzelner Punkt im oberen linken Bereich ist, ist das der Buchstabe a. Wenn es die Punkte eins und zwei sind, die in den oberen beiden Feldern der linken Spalte erscheinen, ist das der Buchstabe b. Und so sind in einer Braillezelle auf der aktualisierbaren Braillezeile kleine Löcher eingebohrt, und jede Zelle hat die Größe einer Fingerbeere. Wenn eine Textzeile auf dem Display erscheint, erscheinen durch die gebohrten Löcher verschiedene Konfigurationen kleiner weicher Punkte. Und wenn Sie dann bereit sind, zur nächsten Zeile zu scrollen, drücken Sie einfach eine Schwenktaste und alle werden nach unten verschoben und dann in einer neuen Konfiguration wieder angezeigt.

Sie nennen es eine Braillezeile, weil Sie sie an einen Computer anschließen können, sodass Sie jeden Text, der auf dem Computerbildschirm und damit im Screenreader erscheint, in Brailleschrift lesen können. Das ist zum Beispiel eine wirklich wichtige Funktion für taubblinde Menschen, die keinen Screenreader mit Audio nutzen können. Sie können alle ihre Computerarbeiten in Brailleschrift erledigen.

Und damit kommt die dritte wirklich wichtige Technologie für Blinde zur Sprache: der Bildschirmleser. Dabei handelt es sich um eine Software, die auf Ihrem Telefon oder Computer installiert ist und den gesamten Text auf dem Bildschirm in synthetische Sprache umwandelt – oder in dem Beispiel, das ich gerade erwähnt habe, in Brailleschrift. Heutzutage ist die Sprache eine gute synthetische Stimme. Stellen Sie sich die Siri-Stimme oder die Alexa-Stimme vor; Es ist so, aber anstatt eine KI zu sein, mit der man ein Gespräch führt, übernimmt es die gesamte Funktionalität des Computers von der Maus. Wenn Sie an die blinde Person denken, wissen Sie, dass eine Maus nicht sehr nützlich ist, weil sie nicht sehen kann, wo sich der Zeiger befindet. Der Screenreader zieht die Seitennavigation in die Tastatur. Sie verfügen über eine Reihe von Hotkeys, mit denen Sie auf dem Bildschirm navigieren können. Und wo auch immer der Fokus des Screenreaders liegt, liest er den Text mit einer synthetischen Stimme vor.

Wenn ich also meine E-Mail eintrage, könnte dort „112 Nachrichten“ stehen. Und dann bewege ich den Fokus mit der Tastatur oder mit dem Touchscreen meines Telefons durch Wischen, und es erscheint „Nachricht 1 von Willie Jones, gesendet um 14 Uhr“. Alles, was eine sehende Person visuell sehen kann, kann man akustisch hören mit einem Screenreader.

Sie verlassen sich in hohem Maße auf Ihren Screenreader. Wie hoch wäre der Aufwand, Ihr Buch zu schreiben, bei Ihrem derzeitigen Sehvermögen gewesen, wenn Sie es beispielsweise in der technologischen Welt der 1990er Jahre versucht hätten?

Leland: Das ist eine gute Frage. Aber ich würde vielleicht vorschlagen, noch weiter zurückzugehen und etwa in die 1960er Jahre zu gehen. In den 1990er Jahren gab es Screenreader. Sie waren nicht so mächtig wie jetzt. Sie waren teurer und schwerer zu finden. Und ich hätte viel mehr arbeiten müssen, um Spezialisten zu finden, die es für mich auf meinem Computer installieren würden. Und ich würde wahrscheinlich eine externe Soundkarte benötigen, mit der es läuft, anstatt einen Computer zu haben, der bereits über eine Soundkarte verfügt, die die gesamte Sprachsynthese übernehmen kann.

Es gab eine Bildschirmvergrößerungssoftware, auf die ich mich auch oft verlassen habe. Außerdem reagiere ich sehr empfindlich auf Blendeffekte und schwarzer Text auf einem weißen Bildschirm funktioniert bei mir nicht mehr wirklich.

Das ganze Zeug gab es schon in den 1990er-Jahren. Aber wenn Sie mir diese Frage in den 1960er oder 1970er Jahren gestellt hätten, wäre meine Antwort völlig anders ausgefallen, denn damals hätte ich das Buch möglicherweise handschriftlich mit einem wirklich großen Zaubermarker schreiben und Hunderte von Notizbüchern mit Großdruck füllen müssen – im Grunde genommen hätte ich mein eigenes Buch schreiben müssen Ich kann meine eigene DIY-30-Punkt-Schriftart erstellen, anstatt sie auf meinem Computer zu haben.

Oder ich hätte eine Braille-Schreibmaschine benutzen müssen. Ich bin so langsam in der Blindenschrift, dass ich nicht weiß, ob ich das Buch tatsächlich auf diese Weise hätte schreiben können. Vielleicht hätte ich es diktieren können. Vielleicht hätte ich mir einen wirklich teuren Spulenrekorder kaufen können – oder, wenn wir von den 1980er Jahren sprechen, einen Kassettenrekorder – und einen mündlichen Entwurf aufnehmen können. Dann müsste ich das transkribieren lassen und jemanden beauftragen, mir das Manuskript vorzulesen, während ich Überarbeitungen vornehme. Das unterscheidet sich nicht allzu sehr von dem, was John Milton [der englische Dichter des 17. Jahrhunderts, der das verlorene Paradies schrieb] tun musste. Er schrieb in einer Zeit, noch bevor die Blindenschrift erfunden wurde, und er verfasste über Nacht, als er ganz allein war, Zeilen in seinem Kopf. Am Morgen kamen seine Töchter (oder seine Cousine oder Freunde) und sie „molken“ ihn, wie er es ausdrückte, und nahmen das Diktat auf.

Wir brauchen keinen Laserstock. Mit der alten Technologie eines wirklich langen Stocks sind wir genauso gut.

Was waren die wichtigen Durchbrüche, die den Bildschirmleser, den Sie jetzt verwenden, möglich gemacht haben?

Leland: Ein wirklich wichtiges Thema betrifft das Phänomen des Mooreschen Gesetzes: die Arbeit an der optischen Zeichenerkennung (OCR). Es gibt Versionen davon, die erschreckend weit zurückreichen – sogar bis ins frühe 20. Jahrhundert, etwa in die 1910er und 20er Jahre. In den zwanziger Jahren verwendeten sie ein lichtempfindliches Material – Selen –, um ein Gerät namens Optophon zu entwickeln. Die Technik wurde als Musikdruck bezeichnet. Im Wesentlichen handelte es sich um die erste Scannertechnologie, bei der man ein Stück Text mit diesem wirklich empfindlichen Material unter das Auge einer Maschine legen konnte und die auf Tinte basierenden Buchstabenformen in Ton umwandelte.

Ich kann mir vorstellen, dass aus dieser Maschine, die Sie beschreiben, keine Siri- oder Alexa-Stimme kam.

Leland: Nicht annähernd. Stellen Sie sich den Großbuchstaben V vor. Wenn Sie ihn unter dem Auge der Maschine vorbeiführen würden, würde er musikalisch klingen. Sie würden hören, wie die Töne absteigen und dann ansteigen. Der Leser könnte sagen: „Oh, okay. Das war ein V.“ und sie lauschten auf die Tonkombination, die den nächsten Buchstaben signalisierte. Manche Blinde lesen ganze Bücher auf diese Weise. Aber das ist äußerst mühsam und eine seltsame und schwierige Art zu lesen.

Forscher, Ingenieure und Wissenschaftler haben diese Art von Proto-Scanning-Technologie vorangetrieben, und meiner Meinung nach kam es zu einem wirklichen Durchbruch mit Ray Kurzweil in den 1970er Jahren, als er den Flachbettscanner erfand und diese damals junge OCR-Technologie perfektionierte . Zum ersten Mal in der Geschichte konnte ein Blinder ein Buch aus dem Regal nehmen – nicht nur das, was in einer speziellen Schriftart gedruckt wurde, die in einem Informatiklabor entworfen wurde, sondern jedes alte Buch in der Bibliothek. Die von ihm entwickelte Kurzweil-Lesemaschine funktionierte nicht sofort, sondern wandelte Text innerhalb weniger Minuten in synthetische Sprache um. Dies war ein echter Wendepunkt für Blinde, die bis zu diesem Zeitpunkt auf die manuelle Transkription in Blindenschrift angewiesen waren. Blinde College-Studenten müssten jemanden engagieren, der für sie Bücher aufnimmt – zunächst auf Band, später auf Kassetten –, wenn es kein spezielles, voraufgezeichnetes Hörbuch gäbe.

Audrey Marquez, 12, hört sich Anfang der 1980er Jahre eine Tonbandstimme der Kurzweil-Lesemaschine an. Dave Buresh/The Denver Post/Getty Images

Mit der Kurzweil-Lesemaschine eröffnet sich plötzlich die ganze Welt des Druckens. Zugegeben, damals kostete die Maschine etwa eine Viertelmillion Dollar und war nicht überall erhältlich, aber Stevie Wonder kaufte eine, und sie tauchte in den Bibliotheken von Blindenschulen auf. Mit vielen anderen technologischen Fortschritten, für die Kurzweil selbst ein beliebter Prophet war, wurden diese Maschinen dann effizienter und kleiner. So weit, dass ich jetzt mit meinem iPhone ein Foto von einer Speisekarte eines Restaurants machen kann und die Speisekarte automatisch per OCR für mich erstellt wird.

Was ist also der nächste logische Schritt in dieser Entwicklung?

Leland: Jetzt haben Sie ChatGPT Machine Vision, wo ich die Kamera meines Telefons hochhalten und mir sagen lassen kann, was es sieht. Es gibt eine visuelle Dolmetscher-App namens Be My Eyes. Das gleichnamige Unternehmen, das die App entwickelt hat, ist eine Partnerschaft mit Open AI eingegangen, sodass nun ein blinder Mensch sein Telefon an seinen Kühlschrank halten und sagen kann: „Was ist in diesem Kühlschrank?“ und es wird heißen: „Sie haben drei Viertel eines 250-Milliliter-Krugs Orangensaft, der in zwei Tagen abläuft; Du hast sechs Bananen und zwei davon sehen faul aus.“

Das ist also eine Art Kapselversion des Fortschritts des maschinellen Sehens und der Macht des maschinellen Sehens für Blinde.

Was glauben oder hoffen Sie, was Fortschritte in der KI als nächstes bewirken werden, um die Welt für Menschen, die sich nicht auf ihre Augen verlassen können, besser zu navigieren?

Virtual Volunteer nutzt die GPT-4-Technologie von Open AI.Be My Eyes

Leland: [Der nächste große Durchbruch wird von] KI-Maschinensehen kommen, wie wir es beim Be My Eyes Virtual Volunteer sehen, der die GPT-4-Technologie von Open AI nutzt. Derzeit befindet es sich nur in der Betaphase und ist nur für einige wenige Blinde verfügbar, die als Tester gedient haben. Aber ich habe mir ein paar Demos angehört, die sie im Podcast gepostet haben, und eine Person. Sie bezeichnen es als einen absoluten Wendepunkt in der Geschichte der Technologie für blinde Menschen.

Ist dieses virtuelle Dolmetscherschema eine völlig neue Idee?

Leland: Ja und nein. Visuelle Dolmetscher gibt es schon seit einiger Zeit. Aber traditionell funktioniert Be My Eyes so: Nehmen wir an, Sie sind ein völlig blinder Mensch ohne Lichtwahrnehmung und möchten wissen, ob Ihr Hemd zu Ihrer Hose passt. Sie würden die App verwenden und sie würde Sie mit einem sehenden Freiwilligen verbinden, der dann sehen könnte, was auf der Kamera Ihres Telefons zu sehen ist.

Du hältst also die Kamera hoch, stellst dich vor einen Spiegel und sie sagen: „Oh, das sind zwei verschiedene Arten von Plaids.“ Vielleicht solltest du dir eine andere Hose aussuchen.“ Für blinde Menschen war das erstaunlich. Ich kenne viele Leute, die diese App lieben, weil sie super praktisch ist. Wenn Sie sich beispielsweise auf einer barrierefreien Website befinden, der Screenreader jedoch nicht [wie beabsichtigt] funktioniert, weil die Schaltfläche „Zur Kasse gehen“ nicht beschriftet ist. Sie hören also nur „Button button“. Sie wissen nicht, wie Sie auschecken werden. Sie können „Be My Eyes“ aufrufen, Ihr Telefon an Ihren Bildschirm halten und der menschliche Freiwillige wird sagen: „Okay, gehen Sie zu dieser dritten Schaltfläche.“ Los geht's. Das ist es, was du willst.“

Und der Durchbruch, der jetzt erzielt wurde, besteht darin, dass Open AI und Be My Eyes diese Technologie namens Virtual Volunteer eingeführt haben. Anstatt mit einem Menschen in Kontakt zu treten, der sagt, dass Ihr Hemd nicht zu Ihrer Hose passt, verfügen Sie jetzt über GPT-4-Bildverarbeitungs-KI, und das ist unglaublich. Und Sie können Dinge wie das tun, was in einer Demo passiert ist, die ich kürzlich gehört habe. Ein blinder Mann hatte mit seiner Familie Disneyland besucht. Offensichtlich konnte er die Bilder nicht sehen, aber dank der Bilderkennungsfunktionen des iPhones bat er das Telefon, eines der Bilder zu beschreiben. Darin hieß es: „Das Bild zeigt möglicherweise Erwachsene, die vor einem Gebäude stehen.“ Dann tat es GPT: „Drei erwachsene Männer stehen vor Disneys Prinzessinnenschloss in Anaheim, Kalifornien. Alle drei Männer tragen T-Shirts mit der Aufschrift bla bla.“ Und Sie können Folgefragen stellen, wie zum Beispiel: „Hatte einer der Männer einen Schnurrbart?“ oder „Gibt es sonst noch etwas im Hintergrund?“ Wenn man einen Eindruck von den Bilderkennungsfunktionen von GPT-4 bekommt, ist es leicht zu verstehen, warum blinde Menschen so begeistert davon sind.

IEEE Spectrum: Auf welche grundlegenden Technologien verlassen sich die meisten sehbehinderten Menschen bei der Bewältigung ihrer Alltagsaktivitäten?Andrew Leland:Wie funktioniert die Braillezeile?Leland: Sie verlassen sich in hohem Maße auf Ihren Screenreader. Wie hoch wäre der Aufwand, Ihr Buch zu schreiben, bei Ihrem derzeitigen Sehvermögen gewesen, wenn Sie es beispielsweise in der technologischen Welt der 1990er Jahre versucht hätten?Leland:Was waren die wichtigen Durchbrüche, die den Bildschirmleser, den Sie jetzt verwenden, möglich gemacht haben?Leland:Ich kann mir vorstellen, dass aus dieser Maschine, die Sie beschreiben, keine Siri- oder Alexa-Stimme kam.Leland:Was ist also der nächste logische Schritt in dieser Entwicklung?Leland:Was glauben oder hoffen Sie, was Fortschritte in der KI als nächstes bewirken werden, um die Welt für Menschen, die sich nicht auf ihre Augen verlassen können, besser zu navigieren?Leland:Ist dieses virtuelle Dolmetscherschema eine völlig neue Idee?Leland: